自我蒸馏策略梯度SDPG：强化学习密集监督新框架

强化学习（RL）在语言模型微调中常面临奖励稀疏的难题——模型生成大量文本后，往往只能得到一个最终的胜负或好坏判断，中间步骤缺乏细粒度反馈。近日，一篇发表于 arXiv 的论文提出了 SDPG（Self-Distilled Policy Gradient） 框架，通过“自我蒸馏”的方式为模型提供密集的监督信号，显著提升了训练的稳定性和最终性能。

核心思路：让模型既当学生又当老师

传统的策略梯度方法（如 PPO）依赖于一个独立的奖励模型或人工设计的奖励函数，而 SDPG 另辟蹊径：它利用语言模型自身在“特权上下文”（privileged context）下的输出作为监督。所谓特权上下文，可以理解为模型在生成时额外获得的“完美信息”——比如在数学推理任务中，正确答案的解题步骤。模型通过对比自己当前生成与“理想生成”之间的差异，就能获得每一步的梯度信号，无需等待最终奖励。

论文将这一过程形式化为一个辅助的全词汇学生-教师反向 KL 散度损失。简单来说，教师（模型在特权条件下的分布）告诉学生（模型在正常条件下的分布）：“你应该更像我这样生成。” 这种蒸馏损失与主任务的目标（如最大化奖励）联合优化，从而提供密集的监督。

SDPG 的三项关键设计

SDPG 框架融合了三个组件：

组相对验证器优势（Group-Relative Verifier Advantages）：借鉴 GRPO 的思想，SDPG 在多个生成样本之间计算相对优势，而不是依赖绝对奖励值。这有助于消除奖励噪声，让梯度更新更稳定。
精确全词汇在线自我蒸馏：与常见的仅对采样 token 进行蒸馏不同，SDPG 计算整个词汇表上的 KL 散度，从而捕捉更丰富的分布信息。这让监督信号更加精细。
参考策略 KL 正则化：为防止模型过度偏离原始策略，SDPG 引入了一个参考策略（通常是初始 SFT 模型）的 KL 惩罚项，确保更新幅度可控。

实验结果：更稳定，更高效

在多个数学推理和代码生成任务上，SDPG 相比于 RLVR（基于验证器奖励的强化学习）和纯自我蒸馏基线，均表现出更好的收敛稳定性和最终准确率。论文还指出，SDPG 在训练过程中奖励方差更低，说明其密集监督机制有效抑制了训练波动。

行业视角：自我蒸馏的潜力与挑战

SDPG 并非首个将蒸馏用于强化学习的工作，但其创新在于在线、全词汇、结合组相对优势的统一框架。这为语言模型在稀疏奖励场景下的微调提供了一条低成本、高回报的路径——无需额外训练奖励模型，也无需人工标注中间步骤。

不过，该方法对特权上下文的质量依赖较高。在无法获取理想生成步骤的任务中（如开放式对话），如何设计有效的特权条件仍是一个开放问题。此外，全词汇 KL 计算的计算开销不可忽视，未来可能需要更高效的近似方法。

总体而言，SDPG 为语言模型强化学习领域注入了一股新思路，尤其适合数学、编程等具有明确正确步骤的领域。随着代码的开源，我们期待更多研究者能在此基础上探索更广泛的落地场景。

自我蒸馏策略梯度：让语言模型自己教自己，强化学习的新突破

核心思路：让模型既当学生又当老师

SDPG 的三项关键设计

实验结果：更稳定，更高效

行业视角：自我蒸馏的潜力与挑战

延伸阅读

相关资讯