SheepNav
新上线今天0 投票

通用Transformer为何需要记忆:自适应递归推理中的深度-状态权衡

通用Transformer(UT)在复杂推理任务中能否摆脱显式记忆? 一项最新研究给出了否定答案:对于数独变体Sudoku-Extreme,没有记忆token的UT模型几乎无法取得任何有效性能。该论文由Grigory Sapunov撰写,深入探讨了记忆token作为计算“草稿纸”的必要性,并揭示了训练中的关键陷阱。

记忆token:从“可有可无”到“必不可少”

研究团队测试了单块UT搭配自适应计算时间(ACT)机制在Sudoku-Extreme上的表现。Sudoku-Extreme是一个组合推理基准,要求模型在81格棋盘上完成逻辑填充。实验覆盖了3种随机种子、多种记忆token数量、两种初始化方案以及ACT与固定深度处理对比。结果一致表明:没有记忆token的配置均未达到非平凡性能——即准确率几乎为零。

记忆token数量的影响呈现明显规律:

  • T=0:完全失败
  • T=4:仅达到临界水平
  • T=8:对81格谜题可稳定求解
  • T=8至32:性能进入平台期,精确匹配准确率稳定在57.4%±0.7%
  • T=64:因注意力稀释导致性能崩溃

这揭示了记忆token并非越多越好,存在一个“甜点区间”。

训练陷阱:路由器初始化“暗坑”

研究过程中发现了一个导致超过70%训练运行失败的初始化陷阱。当采用默认零偏置初始化(p≈0.5)或Graves推荐的正偏置(p≈0.73)时,模型的路由器(决定何时停止推理)会在初始几步后过早进入“暂停”状态,陷入浅层均衡(约5-7步),且无法逃脱。

解决方案出乎意料地简单:将偏置设为-3(深度启动,p≈0.05)。此“反直觉”操作完全消除了该失败模式。消融实验确认,该陷阱是ACT初始化的固有问题,而非架构选择所致。

ACT vs 固定深度:效率与稳定性

在解决初始化问题后,研究对比了ACT与固定深度处理的优劣:

  • 一致性:ACT在3个种子下表现更稳定(56.9%±0.7% vs 53.4%±9.3%)
  • 效率:采用lambda预热(warmup)的ACT在减少34%推理步数的同时,达到了匹配的准确率(57.0%±1.1%)

这表明ACT不仅能提升稳定性,还能在资源受限场景下提供更优的权衡。

注意力头分工:记忆读取、约束传播与整合

通过分析模型内部,研究者发现注意力头在递归深度中出现了功能分化:部分头专门读取记忆token,部分负责传播数独约束,还有部分充当整合器。这种专业化分工解释了为何记忆token能显著提升推理能力——它们为模型提供了额外的“工作空间”,使不同计算阶段可以并行且独立地进行。

启示与展望

该研究为Transformer在需要多步推理的任务中的应用提供了重要指导:

  1. 记忆token并非锦上添花,而是必备组件,尤其对于组合推理类问题。
  2. 初始化细节决定成败,ACT机制中的路由器初始化需要谨慎设计,否则模型可能从一开始就陷入“懒惰”状态。
  3. 自适应深度具有实际价值,在减少计算开销的同时保持甚至提升性能。

论文代码已公开,为后续研究提供了复现和扩展的基础。未来工作可探索记忆token的跨任务迁移能力,以及如何在更大规模模型中有效管理注意力稀释问题。

延伸阅读

  1. Kernel Contracts:为异构芯片上的ML内核正确性提供规范语言
  2. Mochi:用元学习对齐预训练与推理,打造高效的图基础模型
  3. 当报价崩塌:限价订单簿中瞬时机械流动性侵蚀的检测
查看原文