新上线今天0 投票
多轨迹同策略蒸馏:利用同侪成功与失败案例提升大模型训练
研究背景:稀疏奖励下的训练困境
当前,大型语言模型(LLM)在预训练后通常使用稀疏验证器奖励进行后训练。这种奖励机制仅能判断采样轨迹是否成功,却无法提供推理过程在何处成功或失败的细粒度指导。例如,在数学推理中,模型可能因中间步骤出错而最终失败,但稀疏奖励仅给出“失败”的二元信号,难以定位具体错误位置。
现有方法局限:孤立轨迹的局限性
同策略蒸馏(On-Policy Distillation, OPD) 通过训练学生模型生成的轨迹来提供更密集的令牌级监督,从而缓解上述问题。然而,现有OPD方法通常独立处理每个采样轨迹,忽略了同一提示下其他尝试所蕴含的丰富信息。这种“孤立蒸馏”方式浪费了多轨迹间的对比信息,限制了训练效率。
MOPD框架:同侪条件蒸馏的创新
针对上述局限,研究团队提出多轨迹同策略蒸馏(Multi-Rollout On-Policy Distillation, MOPD)——一种基于同侪条件的蒸馏框架。其核心思想是:利用学生模型自身的局部采样组(即同一提示下的多次尝试)构建信息更丰富的教师信号。
MOPD将教师信号条件化于同侪的成功与失败轨迹:
- 成功轨迹提供有效推理模式的正向证据;
- 失败轨迹则提供结构化的负向证据,指出应避免的常见错误。
研究探索了两种同侪上下文构建方式:
- 正向同侪模仿:仅基于成功轨迹进行模仿学习;
- 对比性成功-失败条件化:同时利用成功与失败轨迹进行对比学习。
实验验证:多领域性能提升
在竞赛编程、数学推理、科学问答和工具使用等基准测试上,MOPD一致优于标准同策略基线方法。进一步的教师信号分析表明,混合成功-失败上下文能使教师分数与验证器奖励更好地对齐,表明性能提升源于更忠实、实例自适应的监督信号。
结论与启示
MOPD揭示了一个关键洞察:有效的同策略蒸馏应利用学生模型的多轨迹试错行为,而非将轨迹视为孤立样本。这一发现为LLM后训练提供了新思路——通过挖掘同组轨迹间的对比信息,可以在不增加额外外部数据的情况下显著提升训练效果。未来,该框架有望扩展到更多复杂推理任务,并与强化学习等范式结合。