多模态大模型知识编辑漏洞：配对正确拆分错误，DECODE方法解耦模态神经元

多模态大语言模型（MLLMs）的知识编辑技术虽能高效更新模型知识，但最新研究揭示了一个关键漏洞：当输入为图文配对时，实体知识可被成功更新；然而一旦将配对输入拆分为单模态（仅文本或仅图像），模型往往会“遗忘”更新内容，回退至编辑前的旧知识。这一现象被称为编辑解耦失败（editing decoupling failure），其根源在于MLLMs中的实体知识并非以统一表征存储，而是分散在解耦的模态特定通路中。

来自多所机构的研究团队（Tingchao Fu等）在论文《Correct When Paired, Wrong When Split: Decoupling and Editing Modality-Specific Neurons in MLLMs》中，通过深入实证分析揭示了这一机制：多模态查询（图文对）引发的更新偏向于多模态通路，但无法有效传播至单模态回路，导致模型在单模态输入下“失忆”。

为解决该问题，团队提出DECODE方法，核心思路是显式解耦并定位不同模态对应的神经元群组，然后针对性地实施知识编辑。具体而言，DECODE首先通过激活模式分析识别出与文本、图像及多模态关联紧密的神经元子集，随后在编辑过程中对这些模态特定神经元分别施加约束，确保更新能同时作用于多模态和单模态推理路径。

实验在多个基准数据集上验证了DECODE的有效性：

在多模态触发（图文对）下，DECODE的知识更新准确率与现有方法持平或更优；
在单模态触发（仅文本或仅图像）下，DECODE显著优于基线，编辑后模型能保持更新知识，而基线方法则出现大幅衰退；
消融实验进一步证实，模态解耦与局部编辑是缓解解耦失败的关键组件。

这项工作的启示在于：MLLMs的知识编辑不能仅关注多模态表现，必须兼顾单模态泛化能力。DECODE通过模态特定神经元定位提供了一种轻量级解决方案，不依赖额外训练数据或模型结构修改。未来，该方向可延伸至更多模态（如视频、音频）以及动态知识更新场景。

论文已发布于arXiv（2606.17057），并提供了实验代码与可视化分析工具。对于从事模型编辑、多模态对齐及AI安全的研究者而言，该工作揭示了当前编辑范式的盲区，并为构建更鲁棒的知识更新机制奠定了基础。

配对时正确，拆分后错误：多模态大模型中的模态特定神经元解耦与编辑

延伸阅读

相关资讯