SheepNav
精选今天0 投票

SafeGene:可复用安全适配器,为LLM微调提供可迁移的安全对齐

随着开源大语言模型(LLM)被广泛微调为定制化助手,一个隐藏风险逐渐浮出水面:下游微调可能削弱模型原有的安全对齐能力,使其更容易被恶意提示利用——即便训练数据本身并无恶意。这一“安全退化”问题随着目标模型的持续更新而反复出现。针对这一痛点,来自中国的研究团队提出了 SafeGene,一种可复用的安全适配器模块,旨在实现跨任务的安全能力迁移。

核心思路:将安全能力从模型中解耦

传统安全恢复方法通常将安全对齐视为针对每个模型版本的独立修复步骤,成本高且难以复用。SafeGene 则另辟蹊径,将安全能力视为一种独立、可复用的适配器表示,与特定任务的更新解耦。具体来说,SafeGene 通过比较“已对齐”与“安全退化”模型的差异,提取安全表征;再通过数据感知的层选择方法,精炼出可跨任务迁移的安全向量;最终在每一下游任务适配模型中,通过少样本的逐层系数重校准来注入安全能力。

实验表现:安全性与实用性兼得

研究团队在多个模型家族、下游任务和安全评测基准上进行了验证。结果表明,经过 SafeGene 增强的模型在显著降低有害响应率的同时,几乎不损失下游任务性能。与现有的安全适配方法相比,SafeGene 在安全-效用权衡上表现更优,证明了其作为一种轻量级、可插拔安全方案的有效性。

行业意义:为开源生态提供可扩展的安全方案

SafeGene 的设计尤其契合当前开源 LLM 生态的需求。随着模型被不断微调用于聊天、代码生成、数据分析等场景,传统的一次性安全对齐难以覆盖所有后续变化。SafeGene 的跨任务复用能力意味着开发者只需一次性训练安全适配器,即可在多个下游版本中重复使用,大幅降低了安全维护成本。此外,其“适配器”架构天然支持热插拔,无需修改原有模型权重,便于集成到现有部署流程中。

局限与展望

论文也指出了 SafeGene 的局限性:目前仅适用于架构兼容的模型家族,且依赖少量安全示例进行系数重校准。未来工作可探索更通用的跨架构迁移,以及自动化安全示例选取。总体而言,SafeGene 为 LLM 安全对齐提供了一种实用的新范式,有望成为开源社区安全工具链的重要组件。

延伸阅读

  1. 别只想着“后期修复”:AI科学必须研究训练动态
  2. CARVE-Q:量子提议、经典认证的交互式驾驶修复框架
  3. AI 控制评估忽视“攻击选择”能力,安全评估或过于乐观
查看原文