新上线今天0 投票
「一统遮罩」:知识编辑后隐藏的事实与发现方法
研究背景:模型编辑的“黑箱”问题
大型语言模型的知识编辑方法,如 ROME 和 MEMIT,通过修改 Transformer 中的 MLP 权重来更新事实关联。然而,现有评估主要关注输出行为,对内部机制的理解仍显不足。
核心发现:编辑依赖共同的权重子集
来自慕尼黑大学和代尔夫特理工大学的研究团队发现,尽管每次编辑会改变不同的权重,但 ROME 和 MEMIT 实际上都作用于一个关键权重子集。为了隔离这个子集,他们训练了一个紧凑的二进制掩码,能够逆转编辑效果。实验显示,该掩码在训练集上可逆转 80% 的编辑,在测试集上超过 70%,证实了不同编辑共享共同的功能结构。
机制分析:抑制而非覆盖
进一步分析表明,掩码通过消除后层中的过度注意力来逆转编辑。更关键的是,在编辑过程中注入该掩码,会使编辑成功率从 98% 骤降至 38%,证明该机制对编辑成功不可或缺。这一发现揭示了 ROME 和 MEMIT 的编辑本质是抑制原有知识而非覆盖,解释了为何这类方法无法将更改传播到相关事实。
意义与应用
该研究识别的共同功能子空间为检测和防御不当编辑提供了新途径。论文已被 ACL 2026 Findings 接收,为模型可解释性和安全性研究打开了新视角。
小结
这项研究首次系统性地揭示了知识编辑的隐藏机制,不仅深化了我们对模型内部运作的理解,也为开发更可靠的编辑方法奠定了基础。
