新上线今天0 投票

多轨迹同策略蒸馏：利用同侪成功与失败案例提升大模型训练

研究背景：稀疏奖励下的训练困境

当前，大型语言模型（LLM）在预训练后通常使用稀疏验证器奖励进行后训练。这种奖励机制仅能判断采样轨迹是否成功，却无法提供推理过程在何处成功或失败的细粒度指导。例如，在数学推理中，模型可能因中间步骤出错而最终失败，但稀疏奖励仅给出“失败”的二元信号，难以定位具体错误位置。

现有方法局限：孤立轨迹的局限性

同策略蒸馏（On-Policy Distillation, OPD） 通过训练学生模型生成的轨迹来提供更密集的令牌级监督，从而缓解上述问题。然而，现有OPD方法通常独立处理每个采样轨迹，忽略了同一提示下其他尝试所蕴含的丰富信息。这种“孤立蒸馏”方式浪费了多轨迹间的对比信息，限制了训练效率。

MOPD框架：同侪条件蒸馏的创新

针对上述局限，研究团队提出多轨迹同策略蒸馏（Multi-Rollout On-Policy Distillation, MOPD）——一种基于同侪条件的蒸馏框架。其核心思想是：利用学生模型自身的局部采样组（即同一提示下的多次尝试）构建信息更丰富的教师信号。

MOPD将教师信号条件化于同侪的成功与失败轨迹：

成功轨迹提供有效推理模式的正向证据；
失败轨迹则提供结构化的负向证据，指出应避免的常见错误。

研究探索了两种同侪上下文构建方式：

正向同侪模仿：仅基于成功轨迹进行模仿学习；
对比性成功-失败条件化：同时利用成功与失败轨迹进行对比学习。

实验验证：多领域性能提升

在竞赛编程、数学推理、科学问答和工具使用等基准测试上，MOPD一致优于标准同策略基线方法。进一步的教师信号分析表明，混合成功-失败上下文能使教师分数与验证器奖励更好地对齐，表明性能提升源于更忠实、实例自适应的监督信号。

结论与启示

MOPD揭示了一个关键洞察：有效的同策略蒸馏应利用学生模型的多轨迹试错行为，而非将轨迹视为孤立样本。这一发现为LLM后训练提供了新思路——通过挖掘同组轨迹间的对比信息，可以在不增加额外外部数据的情况下显著提升训练效果。未来，该框架有望扩展到更多复杂推理任务，并与强化学习等范式结合。

延伸阅读

相关资讯

嵌入时序逻辑：让自动驾驶系统在感知空间中进行运行时监控

KAN网络差分隐私训练新突破：相关噪声机制首次获得理论保证

AI辅助决策：人机对齐如何降低学习复杂性

OceanCBM：为海洋预报带来可解释的“概念瓶颈”模型