SheepNav
精选今天0 投票

拒绝行为不止一个方向:Diff-in-Means 与 INLP 的初步比较

一项新研究挑战了“安全微调模型中的拒绝行为由单一线性方向介导”的观点。来自 arXiv 的预印本论文《Refusal Beyond a Single Direction》对两种主流干预方法——Diff-in-Means (DiM)Iterative Nullspace Projection (INLP)——进行了系统比较,发现 INLP 在拒绝抑制方面可与 DiM 匹敌,且能提供更精细的可调能力。

背景:从单一方向到多维空间

Arditi 等人(2024)曾提出,安全微调聊天模型的拒绝行为由残差流中的一个线性方向控制,可通过有害与无害激活的均值差(DiM)恢复。基于此,研究人员开发了激活添加和方向消融等干预手段。然而,新研究认为这一图景可能过于简化。

核心发现:INLP 的竞争优势

研究者在五个开源聊天模型上对比了 DiM 干预(激活添加、方向消融)与 INLP 干预(零空间投影、反事实翻转)。结果显示:

  • INLP 反事实翻转在拒绝抑制上可与 DiM 方向消融 竞争;
  • 零空间投影效果始终较弱;
  • 将 INLP 限制在提取子空间的主要方向上,能在保持近基线困惑度的同时保留大部分抑制效果,从而提供可调节的能力

几何差异:缺失与对立的不同编码

更引人注目的是几何层面的发现:两种 INLP 干预将激活向量投射到截然不同的区域。零空间投影使变换后的激活坍缩到有害与无害聚类之间,而反事实翻转则将它们移入相反的聚类。这表明模型对“概念缺失”和“概念对立”采用了不同的编码方式——这一区分值得未来深入研究。

意义与展望

该研究不仅挑战了“单一方向”假设,还为模型可解释性和安全对齐提供了新工具。INLP 的丰富参数化使得干预更具可调性,有助于在安全性和模型能力之间取得更精细的平衡。论文作者指出,未来工作可进一步探索不同概念编码的几何本质。

延伸阅读

  1. YeasierAgent: Agentic Social Sandbox as a Canvas for Intent-Driven Creation of Platform-Agnostic Symbiotic Agent-Native Applications
  2. WorkBench 再访:两年后,职场 AI 智能体能力与安全性双飞跃
  3. 混合开放式三元进化框架HOTE:让AI研究者从静态推理迈向自主进化
查看原文