激活修补隐藏的交互效应：NIE并非纯粹因果

激活修补的盲点：自然间接效应并非“纯粹”

在机械可解释性领域，激活修补（Activation Patching） 是归因模型行为至具体组件的核心工具。其通过估计自然间接效应（NIE） 来衡量单个组件对模型输出的因果贡献。然而，一篇来自 arXiv 的新论文指出：NIE 并非仅仅捕捉通过该组件的因果效应——它同时包含了交互效应（INT），即该组件的因果效应本身如何依赖于模型中其他组件的状态。

交互效应从何而来？

论文重新从因果中介分析推导了激活修补的估计量，发现 NIE 实质上混合了“纯间接效应”和“交互效应”。INT 衡量的是：当其他组件处于“干净”或“修补”状态时，同一组件的因果影响可能截然不同。这种依赖关系意味着，单个组件的“重要性”并非固有属性，而是随上下文动态变化。

为何无法简单消除？

面对 INT，直觉上的补救措施——如调整估计器或改变分析单元——均存在可预见的失效模式。作者在 GPT-2 的 IOI（间接对象识别）电路 上进行了实证：

某些组件的因果重要性在状态依赖下要么完全不可见（被低估），要么被人为放大（虚假归因）。
INT 的方差 解释了此前文献中报告的忠实度分数不稳定性——当交互效应显著时，同一组件在不同 prompt 下的归因结果可能剧烈波动。

理论根源与可预测性

论文从数学上证明：

INT 的大小与干净激活和修补激活之间的距离成正比。即，当修补引入的扰动越大，交互效应越强。
当模型在局部满足仿射（affine）性质（如线性层）时，INT 可忽略；但在非线性激活函数（如 ReLU、LayerNorm）作用下，INT 必然存在。
INT 可组合分解为两两交互、三阶交互乃至更高阶的组交互。这意味着，即使每个组件的单独效应看似稳定，组合后仍可能涌现出显著的非线性因果依赖。

是噪声，还是信号？

论文的核心观点是：INT 不应被视为需要消除的“噪声”，而应作为可解释性研究中的诊断工具。

个体及组级别的 INT 符号与大小 可提示因果结论是否依赖于特定 prompt。如果 INT 显著，则说明该组件的作用仅在特定上下文中成立。
当研究采用贪心的 NIE 排序来寻找重要组件时，INT 的存在意味着仅靠单次修补会遗漏那些只有通过组合搜索才能发现的机制。例如，两个组件各自 NIE 很小，但它们的交互效应却共同驱动了模型行为。

对可解释性研究的启示

这项研究揭示了当前机械可解释性方法的一个根本性局限：线性归因假设在非线性模型中可能失效。未来的研究可能需要：

将交互效应显式纳入因果归因框架，例如报告 NIE 与 INT 的分解结果。
开发能够捕捉高阶交互的搜索算法，而非仅依赖逐组件修补。
对 prompt 的选择更加谨慎——在单一 prompt 上得出的因果结论可能无法泛化。

总之，论文提醒社区：组件间的依赖关系不是需要规避的麻烦，而是理解模型内部协同机制的关键线索。

多重中介者之咒：激活修补中隐藏的交互效应