序列级奖励组内学习的设计条件:令牌梯度抵消机制
在强化学习(RL)领域,尤其是在处理推理模型(如大型语言模型)的微调时,稀疏终止奖励(仅在序列结束时给予奖励)场景下的组内比较已成为主流范式。然而,长期训练常常引发一系列棘手问题:无效更新累积(学习税)、解概率漂移以及熵崩塌。这些问题不仅影响训练稳定性,也制约了模型的最终性能。
一篇来自arXiv的最新研究论文《Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation》从令牌级信用分配的视角,为算法设计提出了一个关键的必要条件,旨在解决上述核心挑战。
核心问题:为何训练会失稳?
在基于组内比较的强化学习中,模型通过比较同一组内不同输出序列(例如,对同一提示的不同回答)的奖励来学习。理想情况下,梯度更新应精准地奖励那些对最终高回报有贡献的令牌(token)。但在实践中,信用分配变得异常困难:
- 学习税:大量微小的、方向不一致的梯度更新相互抵消或累积成噪声,导致有效学习信号被稀释。
- 解概率漂移:模型可能逐渐偏向某些与高奖励无关的令牌模式,仅仅因为它们在训练样本中高频出现。
- 熵崩塌:模型的输出多样性急剧下降,陷入局部最优的“安全”模式。
论文指出,这些问题的根源在于梯度交换性的破坏。
关键洞察:梯度交换性与抵消结构
作者提出了一个核心观点:为了阻止与奖励无关的漂移,组内学习目标必须在令牌更新间保持梯度交换性。这意味着,对于在组内比较中被识别为“弱信用”(对高奖励贡献小)但“高频出现”的令牌,其梯度应能相互抵消,从而防止它们主导更新方向。
研究进一步表明,两种常见的机制会破坏这种交换性,使得“非抵消”成为结构性常态:
- 非对称的基线或归一化方法,导致不同序列的梯度权重不一致。
- 依赖于序列特定状态的奖励塑造,使得同一令牌在不同上下文中的信用评估不可交换。
解决方案:最小化组内变换
基于这一理论条件,论文提出通过最小化的组内变换,在共享的令牌空间中恢复或近似这种梯度抵消结构。具体而言,作者设计了对学习目标函数的调整,确保在计算梯度时,那些被判定为与高奖励无关的令牌更新能够有效地相互抵消,而不是累积成有害的漂移动力。
实验验证与意义
实验结果表明,应用这些旨在恢复梯度抵消结构的变换后,训练过程显著稳定,样本效率得到提升,并且模型的最终性能也获得增强。这验证了将“令牌梯度抵消”作为算法设计必要条件的实用价值。
这项研究的启示在于:它不仅仅提出了一个具体的算法修补方案,更重要的是为理解和管理强化学习微调中的稳定性问题提供了一个新的理论透镜——从令牌级的信用流动与抵消角度来设计更鲁棒的学习目标。这对于持续推动大模型在复杂推理、对齐与优化方面的发展具有重要的方法论意义。
