SheepNav
新上线今天0 投票

打破幻觉:多模态解码中正负对比如何让AI更“眼见为实”

多模态大模型(VLM)常因过度依赖语言先验而产生“物体幻觉”,生成与视觉事实不符的内容。来自北京航空航天大学等机构的研究团队在 CVPR 2026 上提出了一种无需重新训练的解码框架 Positive-and-Negative Decoding(PND),通过双路径对比直接干预解码过程,显著提升了视觉忠实度。

问题根源:注意力失衡

研究团队首先发现 VLM 中存在一个关键缺陷:视觉特征的注意力权重被低估。模型在生成文本时,语言先验(如常见物体共现模式)占据主导,导致即使图像中不存在某物体,模型也可能“脑补”出来。这种注意力失衡是物体幻觉的主要成因。

PND 的核心机制

PND 框架引入了一条正路径和一条负路径

  • 正路径:放大视觉证据,鼓励模型关注图像中的真实物体。
  • 负路径:构建反事实场景,惩罚那些依赖语言先验但不匹配视觉内容的生成。

在解码过程中,模型对比两条路径的输出,从而将生成结果“拉回”视觉事实。由于 PND 是训练无关的,它可以直接应用于现有 VLM,无需额外的微调或数据标注。

实验结果:全面领先

在三个主流评测基准上,PND 均取得了最先进(SOTA) 的结果:

  • POPE:评估物体存在性幻觉,PND 在准确率和 F1 分数上均超越此前方法。
  • MME:多模态理解综合评测,PND 在感知和认知任务上表现优异。
  • CHAIR:细粒度物体描述幻觉评估,PND 显著降低了幻觉率。

行业意义

当前,VLM 在图像描述、视觉问答、多模态对话等场景中广泛应用,但幻觉问题严重制约了其在医疗、自动驾驶等高风险领域的落地。PND 提供了一种轻量级、即插即用的解决方案,无需改变模型结构或重新训练,大大降低了部署门槛。

研究团队已将代码开源,感兴趣的开发者可访问 GitHub 仓库复现实验。

随着多模态 AI 的快速发展,如何确保模型“看到什么就说什么”成为关键挑战。PND 从解码层面切入,为提升视觉忠实度开辟了新思路,也为后续研究提供了重要参考。

延伸阅读

  1. 从树冠到碰撞:混合预测框架识别树木相关交通事故风险因素
  2. Toeplitz MLP Mixer:低复杂度、高信息保留的序列模型新架构
  3. ESA卫星遥测异常检测:层级集成管道新方法
查看原文