SheepNav
新上线昨天0 投票

全循环Transformer:稳定训练至12次迭代,性能提升13.2%

突破循环Transformer训练瓶颈

近年来,Looped Transformer(循环Transformer)作为一种无需增加模型参数或上下文长度即可提升性能的技术路线,受到广泛关注。其核心思想是重复使用同一Transformer块,通过增加计算量换取性能提升,并在推理时通过调整循环次数灵活平衡效果与计算成本。然而,该方案在循环次数增加时面临严重的训练不稳定问题,限制了其潜力。

问题根源:梯度振荡与残差爆炸

最新研究(arXiv:2605.18797)对训练不稳定的原因进行了深入分析,指出两大根源:

  • 梯度振荡:循环结构导致梯度在多次迭代中反复传播,产生振荡,阻碍收敛。
  • 残差爆炸:深层残差连接在循环中累积,使得激活值或梯度爆炸。

解决方案:全循环Transformer

针对上述问题,研究者提出Fully Looped Transformer(全循环Transformer),引入两项无需额外参数的改进:

  1. 全循环架构:将循环间信号分布到所有层,避免残差集中在特定层,从而缓解残差爆炸。
  2. 注意力注入:复用现有注意力模块,通过特殊设计抑制梯度振荡。

核心成果

实验表明,全循环Transformer在以下方面表现突出:

  • 稳定性:可稳定训练至12次循环迭代,而基线模型在此条件下崩溃。
  • 性能提升:在较温和的设置下(循环次数较少),平均下游任务性能提升高达13.2%
  • 推理灵活性:通过调整循环次数,可在不同计算预算下实现性能与效率的权衡。

行业意义

这项研究为测试时计算(test-time compute)的利用提供了新思路。在模型规模增长放缓的背景下,通过循环复用现有模块提升性能,有望成为大模型落地的经济高效方案。全循环Transformer的稳定训练方法,或将推动循环架构在语言模型、视觉模型等领域的实际应用。

延伸阅读

  1. 掩码离散序列模型中成对互信息的神经估计:让AI学会“读懂”变量关系
  2. GraphDiffMed:融合药理图先验与差分注意力机制,实现更可靠的药物推荐
  3. TabPFN-MT:专为表格数据设计的原生多任务上下文学习器
查看原文