Notes

原文: The Mechanistic Basis of Data Dependence and Abrupt Learning in an In-context Classification Task

ICLR24 OpenReview审稿意见: (10, 10, 8, 8) OpenReview

特别地:本论文是单人作者.

背景知识 / 已有结果

In-context Learning 是广为人知的,不作讨论,详见:A Survey on In-context Learning.

Induction Head Transformer多头自注意力模块中部分注意力头模拟如下的功能:对于当前token,检索上文中相同的token,并将这个token的上文信息合并入当前token. 这种头被称为Induction head,已经知晓:Induction head在预训练过程中集中涌现[阅读材料2, 5] (2). Induction head和类似的计算过程在ICL中起到关键作用[阅读材料3].

In-context vs. In-weight / 可以诱导In-context Learning的预训练数据分布 Data Distributional Properties Drive Emergent In-Context Learning in Transformers (NIPS23') 实证地指出:

因此作者推论:上述的数据分布促进了Induction head的形成,并且希望调查其内在机制.

实验方法

与上述NIPS23'论文一致,本论文实验在人造数据集和toy-model上训练.

输入格式 每一个数据样本是一个 $(x,y)$ 对. 作为人造的输入,$x$ 是在高斯混合模型中基于标签 $y$ 采样 (下述) 的 D 维向量. 进入模型的输入使用ICL的标准格式,形如 $(x_1,y_1,x_2,y_2,…,x_N,y_N,x_q)$ ,并连接一个 P 维one-hot position embedding (直观地,这种输入格式支持的最大长度是 $P=2N+1$ ). 注意:(训练时) 作者可能构建两种输入:

  1. ICL输入: 保证在输入上下文中至少出现过一次与 $x_q$ 具有相同标签的样本,以保证ICL的学习.
  2. IWL输入: 证在输入上下文中没有与 $x_q$ 具有相同标签的样本,以保证ICL的学习.

这两种输入的占比由参数$p_B$控制(后述).

数据采样方法 / 实验自变量