过程侧车:一种可撤销学习状态的新方法
摘要
语言模型通常分阶段进行适配:先学习公共技能,再注入私有记忆,最后进行安全微调以学会拒绝输出与记忆实体相关的内容。然而,在安全阶段之后撤销记忆并非简单的减法问题——后续的安全优化器会改变记忆方向。为此,研究者提出了一种名为**过程侧车(Process Sidecars)**的方法,通过一个双系数编辑族实现记忆撤销。
核心思想
过程侧车方法定义了一个编辑族:
$$
\hat{\theta}(\lambda,\gamma)=\theta_{\mathrm{AMS}}-\lambda\Delta_{\mathrm{M}}-\gamma\hat{R}{\mathrm{S}\leftarrow\mathrm{M}}
$$
其中 $\hat{R}{\mathrm{S}\leftarrow\mathrm{M}}=\hat{J}{\mathrm{S},\varepsilon}(\Delta{\mathrm{M}})-\Delta_{\mathrm{M}}$,而 $\hat{J}_{\mathrm{S},\varepsilon}$ 是通过 AdamW 安全训练过程的中心割线近似得到的。该方法只需计算一个额外的安全轨迹,即可实现更高精度的记忆撤销。
理论证明
论文证明了两个关键结论:
精确侧车:若使用真实的传输方向 $R_{\mathrm{S}\leftarrow\mathrm{M}}$ 而非割线估计,当 $(\lambda,\gamma)=(1,1)$ 时,可以恢复反事实的安全-only 模型 $\theta_{\mathrm{AS}}$,且误差达到二阶精度。证明将 AdamW 视为参数、一阶矩、二阶矩的增广状态映射。
必要性:当未来安全训练会弯曲记忆方向时,任何标量任务算术编辑都会留下一阶反事实误差,而过程侧车编辑具有二阶精度。
实验结果
在三个模型上,验证集选择的二维编辑在所有试验中均优于朴素任务算术;在与 $\gamma=\lambda$ 过程-JVP 子族的比较中,二维编辑在成对试验中也全面胜出。
行业背景
随着大语言模型在商业和开源领域的广泛应用,模型安全与隐私成为焦点。许多模型需要先注入特定知识(如用户数据),再通过安全微调防止泄露。但传统任务算术(如模型合并)在撤销记忆时效果不佳,因为安全微调改变了参数空间。过程侧车提供了一种可撤销学习状态的精确方法,有望用于模型遗忘、版权移除等场景。
总结
过程侧车是一种新颖的模型编辑技术,通过双系数编辑族和过程信息(安全训练轨迹)实现了比任务算术更优的撤销效果。该工作为模型安全与记忆管理提供了理论支撑和实用工具。