思维链推理的“捷径”:小语言模型算术任务中的位置复制机制
思维链(Chain-of-Thought,CoT)提示被广泛认为能提升小语言模型的算术推理能力,但最新研究揭示了一个令人意外的现象:模型在读取答案时,主要依赖的是“位置复制”捷径,而非真正的逻辑推理。来自 arXiv 的论文《The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models》通过精细实验,揭开了这一机制的面纱。
关键发现:位置胜过逻辑
研究者对三个 1B-3B 参数规模的指令微调模型(在 GSM8K 数据集上)进行了测试。他们采用前缀补全任务,将答案读取阶段与中间推理步骤分离。结果发现:模型在回答算术问题时,倾向于直接复制位于答案分隔符之前的最后一个数字,无论这个数字是否来自正确的推理过程。
具体数据令人震惊:
- 正确数字的存在 贡献了 54-92 个百分点的准确率(占模型教师强制上限的 89-92%)。
- 即使在错误推理步骤中,最终答案与 CoT 最后数字匹配的概率高达 95-96%。
复制机制压倒上下文理解
进一步实验表明,这一复制通道的优先级远高于基于上下文的推理补全。当研究者将 CoT 中的最后一个数字替换为错误值时,模型准确率骤降至接近零——即使中间推理步骤完全正确。相反,如果移除该数字,准确率反而能回升 5-32 个百分点。更值得注意的是,即使是模型本身能够完成的单步算术,在存在可复制数字时也会被抑制。
模型间的差异与共性
不同模型表现出细微差异:
- Qwen 和 Llama 几乎无条件复制干扰数字(87-95% 的情况)。
- Gemma 则表现出一定的选择性门控机制。
通过头部消融实验,研究者发现这一捷径与特定架构的注意力头集合相关,并且该效应在 GSM-Symbolic 数据集上得到复现。
对非算术任务及更大模型的影响
有趣的是,在非算术的 Big-Bench Hard(BBH)任务上,CoT 步骤打乱后的性能下降明显——说明位置复制主要针对算术场景。而在 7B-8B 参数规模的模型中,内容选择性门控机制开始出现,表明模型规模增大后可能逐步摆脱这种捷径。
对 CoT 监督的警示
这一发现对基于 CoT 的模型监督和安全性评估提出了严峻挑战:步骤级别的忠实度评估可能将位置驱动的答案传输误认为真正的计算过程。这意味着,当前许多依赖 CoT 可解释性的方法可能高估了模型的内在推理能力。
总结与展望
该研究揭示了小语言模型在算术推理中的一种“偷懒”策略:与其进行复杂的逻辑推导,不如直接复制位置合适的数字。这不仅解释了为什么打乱 CoT 步骤对性能影响较小,也提醒研究者需要重新审视 CoT 提示的真正作用机制。未来,如何设计训练方法和评估指标来抑制这种捷径,将是提升模型推理真实性的关键方向。