[ICLR24' oral 论文阅读] Transformer In-context Classification在预训练时的涌现动力学

Notes

原文: The Mechanistic Basis of Data Dependence and Abrupt Learning in an In-context Classification Task

ICLR24 OpenReview审稿意见: (10, 10, 8, 8) OpenReview

特别地：本论文是单人作者.

背景知识 / 已有结果

In-context Learning 是广为人知的，不作讨论，详见：A Survey on In-context Learning.

Induction Head Transformer多头自注意力模块中部分注意力头模拟如下的功能：对于当前token，检索上文中相同的token，并将这个token的上文信息合并入当前token. 这种头被称为Induction head，已经知晓：Induction head在预训练过程中集中涌现[阅读材料2, 5] (2). Induction head和类似的计算过程在ICL中起到关键作用[阅读材料3].

In-context vs. In-weight / 可以诱导In-context Learning的预训练数据分布 Data Distributional Properties Drive Emergent In-Context Learning in Transformers (NIPS23') 实证地指出：

In-context Learning(模型"使用"上下文中给出的few-shot样本内的信息进行分类) / In-weight Learning(模型"使用"参数内压缩的预训练信息进行分类) 是一组trade-off，模型很难同时实现二者
大标签空间 (标签种类多)、长尾分布、多突发标签、类别内方差大的数据抑制IWL，促进ICL

因此作者推论：上述的数据分布促进了Induction head的形成，并且希望调查其内在机制.

实验方法

与上述NIPS23'论文一致，本论文实验在人造数据集和toy-model上训练.

输入格式 每一个数据样本是一个 $(x,y)$ 对. 作为人造的输入，$x$ 是在高斯混合模型中基于标签 $y$ 采样 (下述) 的 D 维向量. 进入模型的输入使用ICL的标准格式，形如 $(x_1,y_1,x_2,y_2,…,x_N,y_N,x_q)$ ，并连接一个 P 维one-hot position embedding (直观地，这种输入格式支持的最大长度是 $P=2N+1$ ). 注意：(训练时) 作者可能构建两种输入：

ICL输入: 保证在输入上下文中至少出现过一次与 $x_q$ 具有相同标签的样本，以保证ICL的学习.
IWL输入: 证在输入上下文中没有与 $x_q$ 具有相同标签的样本，以保证ICL的学习.

这两种输入的占比由参数$p_B$控制(后述).

数据采样方法 / 实验自变量

Step 1 标签采样("长尾分布控制") 非突发性序列 (下述) 中，所有样本的标签通过长尾分布 $f(k)∼k^{−α}$ 采样. ( k 是标签的索引号)