SheepNav
新上线今天0 投票

超越模式寻找强化学习:TraFL 轨迹平衡后训练方法为扩散语言模型注入新活力

扩散语言模型(Diffusion Language Models)作为自回归模型的一种有前景的替代方案,近年来受到越来越多关注。然而,针对这类模型的后训练方法大多沿用传统的奖励最大化目标。来自一项最新研究(arXiv:2605.13935)的学者指出,这种做法存在一个关键缺陷——他们称之为 “轨迹锁定”

什么是轨迹锁定?

简单来说,当模型在采样过程中被奖励信号驱动更新时,概率质量会过度集中到少数几条“成功”的去噪路径上,导致模型在重复采样时无法覆盖其他同样正确的解决方案。这种模式寻求行为虽然能在单次采样中提高奖励,却牺牲了输出的多样性,尤其对需要探索多种解法的数学推理和代码生成任务而言,危害显著。

TraFL 的解决方案

为了解决这一问题,研究团队提出了 TraFL(Trajectory Flow baLancing,轨迹流平衡) 方法。其核心思想是:不再单纯追求最大化奖励,而是训练策略去逼近一个奖励倾斜的目标分布,同时通过一个冻结的参考模型来保持稳定性。

为了实现这一目标,TraFL 引入了两个关键组件:

  • 扩散兼容的序列级替代目标:使得轨迹平衡目标能够适用于扩散语言模型的离散序列生成过程。
  • 学习的提示相关归一化项:让模型能够根据不同的输入提示动态调整,提升灵活性。

实验表现:全面超越基线

研究者在数学推理和代码生成多个基准上进行了评估。结果显示,TraFL 是唯一一种在所有基准-长度设置下均能提升基础模型性能的后训练方法,并且随着采样预算增加,其优势持续扩大。

更值得注意的是,这些改进具有良好的泛化能力:

  • Minerva Math 数据集上,TraFL 始终保持在基础模型之上。
  • LiveCodeBench 的每一个难度层级上,TraFL 均取得了最优结果。

行业意义与未来方向

这项研究揭示了一个重要问题:直接套用强化学习中的奖励最大化目标,对于扩散语言模型可能并非最优。TraFL 的轨迹平衡思路为后训练开辟了新方向,兼顾了奖励优化与输出多样性。

当然,该方法在实际部署中是否计算开销过大、能否扩展到更大规模的模型,仍有待进一步验证。不过,对于追求高质量生成同时希望保持探索能力的应用场景——比如自动代码修复、多步推理问答——TraFL 无疑提供了一条值得尝试的路径。

延伸阅读

  1. EMA:面向学习型系统的高效模型自适应方法
  2. EvolveMem:让LLM智能体记忆系统自主进化,检索机制不再一成不变
  3. 大语言模型的下一个前沿:私有数据训练——跨域联邦微调基准
查看原文