单位置干预失效?研究发现上下文学习的任务表征是分布式模板
背景:上下文学习的机制谜题
大型语言模型(LLM)能够通过少量示例(few-shot demonstrations)快速学习新任务,这一能力被称为上下文学习(In-Context Learning, ICL)。然而,模型究竟如何从示例中提取任务身份(task identity)?过去的研究多采用线性探针(linear probing)方法,发现模型在特定层能高精度解码任务信息,暗示任务表征可能集中于少数位置。
核心发现:探针精度 ≠ 因果重要性
来自 arXiv 的新研究(论文 ID:2605.04061)对此提出了挑战。作者在 Llama-3.2-3B 模型上进行实验,发现一个惊人的解离现象:
- 线性探针在单一位置(如最后一个示例的输出 token)能达到 100% 的分类准确率。
- 但若在该位置进行激活干预(替换激活值),任务迁移成功率却为 0%——干预完全不起作用。
这意味着:探针能读取出任务信息,但该位置并非任务表征的因果来源。任务编码本质上是分布式的。
关键突破:多位置干预与分布式模板假说
当研究者同时替换所有演示输出 token 的激活值时,任务迁移率在第 8 层(约 30% 网络深度) 飙升至 96%(N=50, 95% CI: [87%, 99%])。这是首次精确定位 ICL 任务身份的因果位点。
进一步因果追踪揭示了一个不对称架构:
- 查询位置(query position)是严格必要的(干预后任务破坏率 53-100%)。
- 没有任何单个演示位置是必要的(破坏率 0%)。
这解决了此前文献中的关键歧义。更重要的是,任务迁移取决于内部表征的兼容性(r=0.31),而非表面相似性(r=-0.05),排除了简单模式匹配的解释。
基于这些证据,作者提出分布式模板假说:ICL 任务身份并非存储于单一位置,而是作为输出格式模板分布在所有演示 token 的激活中。模型通过整合这些分布式信号来“理解”任务。
跨模型验证与通用性
该发现在 LLaMA、Qwen、Gemma 三个架构家族的四个模型中得到验证,均存在一个约 30% 网络深度的通用干预窗口。这表明分布式模板机制可能是 LLM 中 ICL 的通用原理。
意义与影响
这项研究对可解释性领域有重要启示:
- 方法论警示:线性探针的高准确率可能具有误导性,因果干预才是验证表征必要性的金标准。
- 理论更新:从“局部表征”转向“分布式模板”,重新定义了 ICL 的运作方式。
- 未来方向:如何利用分布式模板设计更高效的 ICL 方法?如何防止对抗性操纵?
该论文已被 ICLR 2026 相关研讨会接收,标志着我们对 ICL 机制的理解迈出了关键一步。