SheepNav
新上线今天0 投票

配对时正确,拆分后错误:多模态大模型中的模态特定神经元解耦与编辑

多模态大语言模型(MLLMs)的知识编辑技术虽能高效更新模型知识,但最新研究揭示了一个关键漏洞:当输入为图文配对时,实体知识可被成功更新;然而一旦将配对输入拆分为单模态(仅文本或仅图像),模型往往会“遗忘”更新内容,回退至编辑前的旧知识。这一现象被称为编辑解耦失败(editing decoupling failure),其根源在于MLLMs中的实体知识并非以统一表征存储,而是分散在解耦的模态特定通路中。

来自多所机构的研究团队(Tingchao Fu等)在论文《Correct When Paired, Wrong When Split: Decoupling and Editing Modality-Specific Neurons in MLLMs》中,通过深入实证分析揭示了这一机制:多模态查询(图文对)引发的更新偏向于多模态通路,但无法有效传播至单模态回路,导致模型在单模态输入下“失忆”。

为解决该问题,团队提出DECODE方法,核心思路是显式解耦并定位不同模态对应的神经元群组,然后针对性地实施知识编辑。具体而言,DECODE首先通过激活模式分析识别出与文本、图像及多模态关联紧密的神经元子集,随后在编辑过程中对这些模态特定神经元分别施加约束,确保更新能同时作用于多模态和单模态推理路径。

实验在多个基准数据集上验证了DECODE的有效性:

  • 在多模态触发(图文对)下,DECODE的知识更新准确率与现有方法持平或更优;
  • 在单模态触发(仅文本或仅图像)下,DECODE显著优于基线,编辑后模型能保持更新知识,而基线方法则出现大幅衰退;
  • 消融实验进一步证实,模态解耦与局部编辑是缓解解耦失败的关键组件。

这项工作的启示在于:MLLMs的知识编辑不能仅关注多模态表现,必须兼顾单模态泛化能力。DECODE通过模态特定神经元定位提供了一种轻量级解决方案,不依赖额外训练数据或模型结构修改。未来,该方向可延伸至更多模态(如视频、音频)以及动态知识更新场景。

论文已发布于arXiv(2606.17057),并提供了实验代码与可视化分析工具。对于从事模型编辑、多模态对齐及AI安全的研究者而言,该工作揭示了当前编辑范式的盲区,并为构建更鲁棒的知识更新机制奠定了基础。

延伸阅读

  1. 噪声驱动亚稳态逃逸:深度学习“顿悟”现象背后的物理机制
  2. 远程单次条纹投影轮廓测量中的形状先验捷径:诊断与修复
  3. MODE:面向MoE多模态大模型的模态分解专家级混合精度量化方法
查看原文