新上线1个月前0 投票
通过基于表征擦除的偏好优化为LLM“解毒”:实现更鲁棒的安全部署
大语言模型的安全困境:表面“解毒”与深层隐患
随着大语言模型(LLMs)在互联网规模数据上的训练日益普及,其生成有毒内容的风险也引发了广泛的安全担忧。传统的防御方法,如基于DPO(直接偏好优化)、NPO(噪声对比偏好优化) 等算法的应用,虽然能在一定程度上降低有害续写的可能性,但其鲁棒性不足:它们容易受到对抗性提示的攻击,并且可能通过基于微调的再学习攻击被轻易绕过。研究表明,这些对模型的编辑往往是表面的——通过线性探测可以发现,有害方向仍然存在于模型的表征中。
REPO:从表征层面根除毒性
为了从根本上解决这一问题,来自学术界的研究团队提出了一种名为基于表征擦除的偏好优化(REPO) 的新方法。该方法将“解毒”任务重新定义为一个令牌级别的偏好问题。通过使用带有偏好数据的新颖目标函数,REPO强制使有毒续写的表征向其良性对应物收敛。
核心机制:深度、局部的神经元编辑
与基线方法不同,REPO的关键在于其细粒度的处理方式:
- 深度编辑:REPO不仅仅调整模型的输出概率,而是深入到模型的内部表征层进行干预。
- 局部化:它针对编码毒性的特定神经元进行修改,同时最大限度地保留模型的通用能力。
这种机制分析表明,REPO能够实现更深层次的模型净化,而不仅仅是表面的行为调整。
评估结果:在复杂威胁面前展现卓越鲁棒性
广泛的评估显示,REPO在鲁棒性方面达到了最先进的水平。它能够有效阻止包括:
- 再学习攻击:即攻击者试图通过微调让模型重新“学会”生成有毒内容。
- 增强型GCG越狱攻击:这是当前一种更复杂的对抗性提示技术。
在这些复杂的威胁面前,现有的基于表征或基于输出的方法往往失效,而REPO则表现出了更强的防御能力。
对AI安全领域的启示
REPO的提出标志着大语言模型安全研究从“行为矫正”向“内在净化”的范式转变。它提醒我们:
- 安全不能只停留在输出层:真正的安全需要深入到模型的表征和计算层面。
- 鲁棒性是关键指标:在对抗性环境日益复杂的今天,模型的防御能力必须能够应对不断进化的攻击手段。
这项研究为未来开发更安全、更可靠的大语言模型提供了新的技术路径和理论洞见。