MGAP：几何感知解码缓解多模态大模型幻觉

多模态大语言模型（MLLM）在生成文本时经常出现“幻觉”，即输出与视觉输入不一致的物体描述。传统观点认为，这源于模型过度依赖语言先验知识，导致视觉上下文被覆盖。为此，近期一些无需训练的解码策略通过直接惩罚语言先验来缓解幻觉。然而，语言先验具有双重性：当它与视觉证据一致时，反而能提升生成质量；盲目抑制会破坏模型内部的语义流形，导致性能下降。研究者将这一现象命名为 “流形偏离”（Manifold Departure）。

来自浙江大学等机构的研究团队在 ICML 2026 发表的论文中，提出了一种名为 MGAP（Manifold-Guided Adaptive Projection） 的几何感知解码方法。该方法无需额外训练，即可在抑制幻觉的同时保留模型的表征结构。

核心思路：子空间选择性修正

MGAP 的关键在于区分语言先验的“有用”与“有害”部分。研究团队首先利用 SVD（奇异值分解） 从模型的盲隐藏状态（即仅依赖语言信息的隐藏层输出）中构造出语言先验子空间。在解码过程中，每个多模态隐藏状态被投影到这个子空间上，并通过一个一致性感知门控动态调节：仅衰减与当前视觉上下文不一致的投影分量，而保留正交方向上的语义成分。这种子空间选择性更新既抑制了有害的语言偏差，又避免了整体语义结构的扭曲。

实验验证：更强幻觉抑制，不牺牲连贯性

在 POPE（目标存在性幻觉基准）和 CHAIR（描述级幻觉基准）两个标准测试集上，MGAP 均显著优于此前的最佳解码基线方法。实验表明，MGAP 不仅大幅降低了幻觉率，同时保持了生成文本的流畅性和语义连贯性。相比之下，传统方法在抑制幻觉时往往导致文本质量下降，而 MGAP 在两者之间取得了更好的平衡。

行业意义：向可信 MLLM 迈进

当前，MLLM 在视觉问答、图像描述等任务中展现出强大能力，但幻觉问题严重制约其在医疗、自动驾驶等高风险场景的落地。MGAP 提供了一种轻量级、即插即用的解决方案，无需修改模型参数即可提升可靠性。这一思路也为理解语言先验的双重作用提供了新的视角——不是简单压制，而是有选择地引导。

未来，该团队计划将 MGAP 扩展到更多模态组合（如视频+文本）以及更大的模型规模，并探索其在开放域生成中的表现。

缓解多模态大模型幻觉：MGAP 方法以几何感知解码实现可信推理

核心思路：子空间选择性修正

实验验证：更强幻觉抑制，不牺牲连贯性

行业意义：向可信 MLLM 迈进

延伸阅读

相关资讯