过程侧车：可撤销学习状态的新方法

摘要

语言模型通常分阶段进行适配：先学习公共技能，再注入私有记忆，最后进行安全微调以学会拒绝输出与记忆实体相关的内容。然而，在安全阶段之后撤销记忆并非简单的减法问题——后续的安全优化器会改变记忆方向。为此，研究者提出了一种名为**过程侧车（Process Sidecars）**的方法，通过一个双系数编辑族实现记忆撤销。

核心思想

过程侧车方法定义了一个编辑族：
$$
\hat{\theta}(\lambda,\gamma)=\theta_{\mathrm{AMS}}-\lambda\Delta_{\mathrm{M}}-\gamma\hat{R}{\mathrm{S}\leftarrow\mathrm{M}}
$$
其中 $\hat{R}{\mathrm{S}\leftarrow\mathrm{M}}=\hat{J}{\mathrm{S},\varepsilon}(\Delta{\mathrm{M}})-\Delta_{\mathrm{M}}$，而 $\hat{J}_{\mathrm{S},\varepsilon}$ 是通过 AdamW 安全训练过程的中心割线近似得到的。该方法只需计算一个额外的安全轨迹，即可实现更高精度的记忆撤销。

理论证明

论文证明了两个关键结论：

精确侧车：若使用真实的传输方向 $R_{\mathrm{S}\leftarrow\mathrm{M}}$ 而非割线估计，当 $(\lambda,\gamma)=(1,1)$ 时，可以恢复反事实的安全-only 模型 $\theta_{\mathrm{AS}}$，且误差达到二阶精度。证明将 AdamW 视为参数、一阶矩、二阶矩的增广状态映射。
必要性：当未来安全训练会弯曲记忆方向时，任何标量任务算术编辑都会留下一阶反事实误差，而过程侧车编辑具有二阶精度。

实验结果

在三个模型上，验证集选择的二维编辑在所有试验中均优于朴素任务算术；在与 $\gamma=\lambda$ 过程-JVP 子族的比较中，二维编辑在成对试验中也全面胜出。

行业背景

随着大语言模型在商业和开源领域的广泛应用，模型安全与隐私成为焦点。许多模型需要先注入特定知识（如用户数据），再通过安全微调防止泄露。但传统任务算术（如模型合并）在撤销记忆时效果不佳，因为安全微调改变了参数空间。过程侧车提供了一种可撤销学习状态的精确方法，有望用于模型遗忘、版权移除等场景。

总结

过程侧车是一种新颖的模型编辑技术，通过双系数编辑族和过程信息（安全训练轨迹）实现了比任务算术更优的撤销效果。该工作为模型安全与记忆管理提供了理论支撑和实用工具。

过程侧车：一种可撤销学习状态的新方法

摘要

核心思想

理论证明

实验结果

行业背景

总结

延伸阅读

相关资讯