TraFL：轨迹平衡后训练突破扩散语言模型轨迹锁定

扩散语言模型（Diffusion Language Models）作为自回归模型的一种有前景的替代方案，近年来受到越来越多关注。然而，针对这类模型的后训练方法大多沿用传统的奖励最大化目标。来自一项最新研究（arXiv:2605.13935）的学者指出，这种做法存在一个关键缺陷——他们称之为 “轨迹锁定” 。

什么是轨迹锁定？

简单来说，当模型在采样过程中被奖励信号驱动更新时，概率质量会过度集中到少数几条“成功”的去噪路径上，导致模型在重复采样时无法覆盖其他同样正确的解决方案。这种模式寻求行为虽然能在单次采样中提高奖励，却牺牲了输出的多样性，尤其对需要探索多种解法的数学推理和代码生成任务而言，危害显著。

TraFL 的解决方案

为了解决这一问题，研究团队提出了 TraFL（Trajectory Flow baLancing，轨迹流平衡） 方法。其核心思想是：不再单纯追求最大化奖励，而是训练策略去逼近一个奖励倾斜的目标分布，同时通过一个冻结的参考模型来保持稳定性。

为了实现这一目标，TraFL 引入了两个关键组件：

扩散兼容的序列级替代目标：使得轨迹平衡目标能够适用于扩散语言模型的离散序列生成过程。
学习的提示相关归一化项：让模型能够根据不同的输入提示动态调整，提升灵活性。

实验表现：全面超越基线

研究者在数学推理和代码生成多个基准上进行了评估。结果显示，TraFL 是唯一一种在所有基准-长度设置下均能提升基础模型性能的后训练方法，并且随着采样预算增加，其优势持续扩大。

更值得注意的是，这些改进具有良好的泛化能力：

在 Minerva Math 数据集上，TraFL 始终保持在基础模型之上。
在 LiveCodeBench 的每一个难度层级上，TraFL 均取得了最优结果。

行业意义与未来方向

这项研究揭示了一个重要问题：直接套用强化学习中的奖励最大化目标，对于扩散语言模型可能并非最优。TraFL 的轨迹平衡思路为后训练开辟了新方向，兼顾了奖励优化与输出多样性。

当然，该方法在实际部署中是否计算开销过大、能否扩展到更大规模的模型，仍有待进一步验证。不过，对于追求高质量生成同时希望保持探索能力的应用场景——比如自动代码修复、多步推理问答——TraFL 无疑提供了一条值得尝试的路径。

超越模式寻找强化学习：TraFL 轨迹平衡后训练方法为扩散语言模型注入新活力

什么是轨迹锁定？

TraFL 的解决方案

实验表现：全面超越基线

行业意义与未来方向

延伸阅读

相关资讯