拒绝行为不止一个方向：DiM与INLP比较研究

一项新研究挑战了“安全微调模型中的拒绝行为由单一线性方向介导”的观点。来自 arXiv 的预印本论文《Refusal Beyond a Single Direction》对两种主流干预方法——Diff-in-Means (DiM) 与 Iterative Nullspace Projection (INLP)——进行了系统比较，发现 INLP 在拒绝抑制方面可与 DiM 匹敌，且能提供更精细的可调能力。

背景：从单一方向到多维空间

Arditi 等人（2024）曾提出，安全微调聊天模型的拒绝行为由残差流中的一个线性方向控制，可通过有害与无害激活的均值差（DiM）恢复。基于此，研究人员开发了激活添加和方向消融等干预手段。然而，新研究认为这一图景可能过于简化。

核心发现：INLP 的竞争优势

研究者在五个开源聊天模型上对比了 DiM 干预（激活添加、方向消融）与 INLP 干预（零空间投影、反事实翻转）。结果显示：

INLP 反事实翻转在拒绝抑制上可与 DiM 方向消融 竞争；
零空间投影效果始终较弱；
将 INLP 限制在提取子空间的主要方向上，能在保持近基线困惑度的同时保留大部分抑制效果，从而提供可调节的能力。

几何差异：缺失与对立的不同编码

更引人注目的是几何层面的发现：两种 INLP 干预将激活向量投射到截然不同的区域。零空间投影使变换后的激活坍缩到有害与无害聚类之间，而反事实翻转则将它们移入相反的聚类。这表明模型对“概念缺失”和“概念对立”采用了不同的编码方式——这一区分值得未来深入研究。

意义与展望

该研究不仅挑战了“单一方向”假设，还为模型可解释性和安全对齐提供了新工具。INLP 的丰富参数化使得干预更具可调性，有助于在安全性和模型能力之间取得更精细的平衡。论文作者指出，未来工作可进一步探索不同概念编码的几何本质。

拒绝行为不止一个方向：Diff-in-Means 与 INLP 的初步比较

背景：从单一方向到多维空间

核心发现：INLP 的竞争优势

几何差异：缺失与对立的不同编码

意义与展望

延伸阅读

相关资讯