SheepNav
新上线今天0 投票

缓解多模态大模型幻觉:MGAP 方法以几何感知解码实现可信推理

多模态大语言模型(MLLM)在生成文本时经常出现“幻觉”,即输出与视觉输入不一致的物体描述。传统观点认为,这源于模型过度依赖语言先验知识,导致视觉上下文被覆盖。为此,近期一些无需训练的解码策略通过直接惩罚语言先验来缓解幻觉。然而,语言先验具有双重性:当它与视觉证据一致时,反而能提升生成质量;盲目抑制会破坏模型内部的语义流形,导致性能下降。研究者将这一现象命名为 “流形偏离”(Manifold Departure)

来自浙江大学等机构的研究团队在 ICML 2026 发表的论文中,提出了一种名为 MGAP(Manifold-Guided Adaptive Projection) 的几何感知解码方法。该方法无需额外训练,即可在抑制幻觉的同时保留模型的表征结构。

核心思路:子空间选择性修正

MGAP 的关键在于区分语言先验的“有用”与“有害”部分。研究团队首先利用 SVD(奇异值分解) 从模型的盲隐藏状态(即仅依赖语言信息的隐藏层输出)中构造出语言先验子空间。在解码过程中,每个多模态隐藏状态被投影到这个子空间上,并通过一个一致性感知门控动态调节:仅衰减与当前视觉上下文不一致的投影分量,而保留正交方向上的语义成分。这种子空间选择性更新既抑制了有害的语言偏差,又避免了整体语义结构的扭曲。

实验验证:更强幻觉抑制,不牺牲连贯性

POPE(目标存在性幻觉基准)和 CHAIR(描述级幻觉基准)两个标准测试集上,MGAP 均显著优于此前的最佳解码基线方法。实验表明,MGAP 不仅大幅降低了幻觉率,同时保持了生成文本的流畅性和语义连贯性。相比之下,传统方法在抑制幻觉时往往导致文本质量下降,而 MGAP 在两者之间取得了更好的平衡。

行业意义:向可信 MLLM 迈进

当前,MLLM 在视觉问答、图像描述等任务中展现出强大能力,但幻觉问题严重制约其在医疗、自动驾驶等高风险场景的落地。MGAP 提供了一种轻量级、即插即用的解决方案,无需修改模型参数即可提升可靠性。这一思路也为理解语言先验的双重作用提供了新的视角——不是简单压制,而是有选择地引导

未来,该团队计划将 MGAP 扩展到更多模态组合(如视频+文本)以及更大的模型规模,并探索其在开放域生成中的表现。

延伸阅读

  1. Meta 在印度签署首个 AI 数据中心协议,与信实集团合作
  2. 大模型对齐算法的“黑箱”被打开:六种偏好优化方法的内部机制解析
  3. 梯度提升结合共形预测:为非酒精性脂肪肝病提供无分布假设的风险评估
查看原文