精选今天0 投票
拒绝行为不止一个方向:Diff-in-Means 与 INLP 的初步比较
一项新研究挑战了“安全微调模型中的拒绝行为由单一线性方向介导”的观点。来自 arXiv 的预印本论文《Refusal Beyond a Single Direction》对两种主流干预方法——Diff-in-Means (DiM) 与 Iterative Nullspace Projection (INLP)——进行了系统比较,发现 INLP 在拒绝抑制方面可与 DiM 匹敌,且能提供更精细的可调能力。
背景:从单一方向到多维空间
Arditi 等人(2024)曾提出,安全微调聊天模型的拒绝行为由残差流中的一个线性方向控制,可通过有害与无害激活的均值差(DiM)恢复。基于此,研究人员开发了激活添加和方向消融等干预手段。然而,新研究认为这一图景可能过于简化。
核心发现:INLP 的竞争优势
研究者在五个开源聊天模型上对比了 DiM 干预(激活添加、方向消融)与 INLP 干预(零空间投影、反事实翻转)。结果显示:
- INLP 反事实翻转在拒绝抑制上可与 DiM 方向消融 竞争;
- 零空间投影效果始终较弱;
- 将 INLP 限制在提取子空间的主要方向上,能在保持近基线困惑度的同时保留大部分抑制效果,从而提供可调节的能力。
几何差异:缺失与对立的不同编码
更引人注目的是几何层面的发现:两种 INLP 干预将激活向量投射到截然不同的区域。零空间投影使变换后的激活坍缩到有害与无害聚类之间,而反事实翻转则将它们移入相反的聚类。这表明模型对“概念缺失”和“概念对立”采用了不同的编码方式——这一区分值得未来深入研究。
意义与展望
该研究不仅挑战了“单一方向”假设,还为模型可解释性和安全对齐提供了新工具。INLP 的丰富参数化使得干预更具可调性,有助于在安全性和模型能力之间取得更精细的平衡。论文作者指出,未来工作可进一步探索不同概念编码的几何本质。