灾难性遗忘机制：RL为何比SFT更保护神经网络回路？

大型语言模型（LLM）在微调时经常遭遇灾难性遗忘，即学习新任务的同时丢失先前掌握的能力。近期研究表明，强化学习（RL）比监督微调（SFT）能更有效地保留原有能力，原因在于策略梯度更新更贴近基础策略。来自多所机构的研究人员将这一行为层面的解释深入到机制层面，探究RL的优势是否源于对内部计算回路的更强保护。

关键发现：回路保留与任务适应的权衡

研究团队引入 差异回路脆弱性（differential circuit vulnerability）这一指标，以注意力头为粒度，衡量微调对计算回路的破坏程度。他们在 Qwen2.5-3B-Instruct 模型上，针对科学问答任务分别应用RL和SFT进行适配，发现了清晰的机制权衡：

SFT 能更快适应目标任务，但代价是显著的回路破坏和先前能力的遗忘。
RL 则保留了更大比例的基础回路，尽管任务适应速度较慢。

为何RL更鲁棒？

这一发现暗示，回路的保留程度可能是RL对灾难性遗忘更具鲁棒性的关键解释。与SFT直接拟合目标分布不同，RL通过奖励信号引导探索，在优化过程中更接近原始策略，从而减少了内部计算结构的剧烈重组。

行业意义与未来方向

该工作为理解微调策略的底层机制提供了新视角，也为开发更高效的持续学习方法指明了方向。未来，研究者或可设计同时兼顾任务适应速度与回路保留的混合训练方案，或利用回路脆弱性指标作为微调过程中的监测信号，在性能与稳定性之间取得更好平衡。

论文代码已开源，感兴趣的读者可访问 arXiv 获取更多细节。

灾难性遗忘的机制根源：为何强化学习比监督微调更擅长保留神经网络回路？

关键发现：回路保留与任务适应的权衡

为何RL更鲁棒？

行业意义与未来方向

延伸阅读

相关资讯