SheepNav
新上线今天0 投票

多轨迹同策略蒸馏:利用同侪成功与失败案例提升大模型训练

研究背景:稀疏奖励下的训练困境

当前,大型语言模型(LLM)在预训练后通常使用稀疏验证器奖励进行后训练。这种奖励机制仅能判断采样轨迹是否成功,却无法提供推理过程在何处成功或失败的细粒度指导。例如,在数学推理中,模型可能因中间步骤出错而最终失败,但稀疏奖励仅给出“失败”的二元信号,难以定位具体错误位置。

现有方法局限:孤立轨迹的局限性

同策略蒸馏(On-Policy Distillation, OPD) 通过训练学生模型生成的轨迹来提供更密集的令牌级监督,从而缓解上述问题。然而,现有OPD方法通常独立处理每个采样轨迹,忽略了同一提示下其他尝试所蕴含的丰富信息。这种“孤立蒸馏”方式浪费了多轨迹间的对比信息,限制了训练效率。

MOPD框架:同侪条件蒸馏的创新

针对上述局限,研究团队提出多轨迹同策略蒸馏(Multi-Rollout On-Policy Distillation, MOPD)——一种基于同侪条件的蒸馏框架。其核心思想是:利用学生模型自身的局部采样组(即同一提示下的多次尝试)构建信息更丰富的教师信号。

MOPD将教师信号条件化于同侪的成功与失败轨迹

  • 成功轨迹提供有效推理模式的正向证据;
  • 失败轨迹则提供结构化的负向证据,指出应避免的常见错误。

研究探索了两种同侪上下文构建方式:

  1. 正向同侪模仿:仅基于成功轨迹进行模仿学习;
  2. 对比性成功-失败条件化:同时利用成功与失败轨迹进行对比学习。

实验验证:多领域性能提升

竞赛编程、数学推理、科学问答和工具使用等基准测试上,MOPD一致优于标准同策略基线方法。进一步的教师信号分析表明,混合成功-失败上下文能使教师分数与验证器奖励更好地对齐,表明性能提升源于更忠实、实例自适应的监督信号。

结论与启示

MOPD揭示了一个关键洞察:有效的同策略蒸馏应利用学生模型的多轨迹试错行为,而非将轨迹视为孤立样本。这一发现为LLM后训练提供了新思路——通过挖掘同组轨迹间的对比信息,可以在不增加额外外部数据的情况下显著提升训练效果。未来,该框架有望扩展到更多复杂推理任务,并与强化学习等范式结合。

延伸阅读

  1. 嵌入时序逻辑:让自动驾驶系统在感知空间中进行运行时监控
  2. KAN网络差分隐私训练新突破:相关噪声机制首次获得理论保证
  3. AI辅助决策:人机对齐如何降低学习复杂性
查看原文