通用Transformer为何需要记忆？深度-状态权衡新研究

通用Transformer（UT）在复杂推理任务中能否摆脱显式记忆？ 一项最新研究给出了否定答案：对于数独变体Sudoku-Extreme，没有记忆token的UT模型几乎无法取得任何有效性能。该论文由Grigory Sapunov撰写，深入探讨了记忆token作为计算“草稿纸”的必要性，并揭示了训练中的关键陷阱。

记忆token：从“可有可无”到“必不可少”

研究团队测试了单块UT搭配自适应计算时间（ACT）机制在Sudoku-Extreme上的表现。Sudoku-Extreme是一个组合推理基准，要求模型在81格棋盘上完成逻辑填充。实验覆盖了3种随机种子、多种记忆token数量、两种初始化方案以及ACT与固定深度处理对比。结果一致表明：没有记忆token的配置均未达到非平凡性能——即准确率几乎为零。

记忆token数量的影响呈现明显规律：

T=0：完全失败
T=4：仅达到临界水平
T=8：对81格谜题可稳定求解
T=8至32：性能进入平台期，精确匹配准确率稳定在57.4%±0.7%
T=64：因注意力稀释导致性能崩溃

这揭示了记忆token并非越多越好，存在一个“甜点区间”。

训练陷阱：路由器初始化“暗坑”

研究过程中发现了一个导致超过70%训练运行失败的初始化陷阱。当采用默认零偏置初始化（p≈0.5）或Graves推荐的正偏置（p≈0.73）时，模型的路由器（决定何时停止推理）会在初始几步后过早进入“暂停”状态，陷入浅层均衡（约5-7步），且无法逃脱。

解决方案出乎意料地简单：将偏置设为-3（深度启动，p≈0.05）。此“反直觉”操作完全消除了该失败模式。消融实验确认，该陷阱是ACT初始化的固有问题，而非架构选择所致。

ACT vs 固定深度：效率与稳定性

在解决初始化问题后，研究对比了ACT与固定深度处理的优劣：

一致性：ACT在3个种子下表现更稳定（56.9%±0.7% vs 53.4%±9.3%）
效率：采用lambda预热（warmup）的ACT在减少34%推理步数的同时，达到了匹配的准确率（57.0%±1.1%）

这表明ACT不仅能提升稳定性，还能在资源受限场景下提供更优的权衡。

注意力头分工：记忆读取、约束传播与整合

通过分析模型内部，研究者发现注意力头在递归深度中出现了功能分化：部分头专门读取记忆token，部分负责传播数独约束，还有部分充当整合器。这种专业化分工解释了为何记忆token能显著提升推理能力——它们为模型提供了额外的“工作空间”，使不同计算阶段可以并行且独立地进行。

启示与展望

该研究为Transformer在需要多步推理的任务中的应用提供了重要指导：

记忆token并非锦上添花，而是必备组件，尤其对于组合推理类问题。
初始化细节决定成败，ACT机制中的路由器初始化需要谨慎设计，否则模型可能从一开始就陷入“懒惰”状态。
自适应深度具有实际价值，在减少计算开销的同时保持甚至提升性能。

论文代码已公开，为后续研究提供了复现和扩展的基础。未来工作可探索记忆token的跨任务迁移能力，以及如何在更大规模模型中有效管理注意力稀释问题。

通用Transformer为何需要记忆：自适应递归推理中的深度-状态权衡

记忆token：从“可有可无”到“必不可少”

训练陷阱：路由器初始化“暗坑”

ACT vs 固定深度：效率与稳定性

注意力头分工：记忆读取、约束传播与整合

启示与展望

延伸阅读

相关资讯