全循环Transformer：稳定训练12次迭代，性能提升13.2%

突破循环Transformer训练瓶颈

近年来，Looped Transformer（循环Transformer）作为一种无需增加模型参数或上下文长度即可提升性能的技术路线，受到广泛关注。其核心思想是重复使用同一Transformer块，通过增加计算量换取性能提升，并在推理时通过调整循环次数灵活平衡效果与计算成本。然而，该方案在循环次数增加时面临严重的训练不稳定问题，限制了其潜力。

问题根源：梯度振荡与残差爆炸

最新研究（arXiv:2605.18797）对训练不稳定的原因进行了深入分析，指出两大根源：

梯度振荡：循环结构导致梯度在多次迭代中反复传播，产生振荡，阻碍收敛。
残差爆炸：深层残差连接在循环中累积，使得激活值或梯度爆炸。

解决方案：全循环Transformer

针对上述问题，研究者提出Fully Looped Transformer（全循环Transformer），引入两项无需额外参数的改进：

全循环架构：将循环间信号分布到所有层，避免残差集中在特定层，从而缓解残差爆炸。
注意力注入：复用现有注意力模块，通过特殊设计抑制梯度振荡。

核心成果

实验表明，全循环Transformer在以下方面表现突出：

稳定性：可稳定训练至12次循环迭代，而基线模型在此条件下崩溃。
性能提升：在较温和的设置下（循环次数较少），平均下游任务性能提升高达13.2%。
推理灵活性：通过调整循环次数，可在不同计算预算下实现性能与效率的权衡。

行业意义

这项研究为测试时计算（test-time compute）的利用提供了新思路。在模型规模增长放缓的背景下，通过循环复用现有模块提升性能，有望成为大模型落地的经济高效方案。全循环Transformer的稳定训练方法，或将推动循环架构在语言模型、视觉模型等领域的实际应用。

全循环Transformer：稳定训练至12次迭代，性能提升13.2%

突破循环Transformer训练瓶颈

问题根源：梯度振荡与残差爆炸

解决方案：全循环Transformer

核心成果

行业意义

延伸阅读

相关资讯