PND解码框架：多模态大模型物体幻觉的轻量级解决方案

多模态大模型（VLM）常因过度依赖语言先验而产生“物体幻觉”，生成与视觉事实不符的内容。来自北京航空航天大学等机构的研究团队在 CVPR 2026 上提出了一种无需重新训练的解码框架 Positive-and-Negative Decoding（PND），通过双路径对比直接干预解码过程，显著提升了视觉忠实度。

问题根源：注意力失衡

研究团队首先发现 VLM 中存在一个关键缺陷：视觉特征的注意力权重被低估。模型在生成文本时，语言先验（如常见物体共现模式）占据主导，导致即使图像中不存在某物体，模型也可能“脑补”出来。这种注意力失衡是物体幻觉的主要成因。

PND 的核心机制

PND 框架引入了一条正路径和一条负路径：

正路径：放大视觉证据，鼓励模型关注图像中的真实物体。
负路径：构建反事实场景，惩罚那些依赖语言先验但不匹配视觉内容的生成。

在解码过程中，模型对比两条路径的输出，从而将生成结果“拉回”视觉事实。由于 PND 是训练无关的，它可以直接应用于现有 VLM，无需额外的微调或数据标注。

实验结果：全面领先

在三个主流评测基准上，PND 均取得了最先进（SOTA） 的结果：

POPE：评估物体存在性幻觉，PND 在准确率和 F1 分数上均超越此前方法。
MME：多模态理解综合评测，PND 在感知和认知任务上表现优异。
CHAIR：细粒度物体描述幻觉评估，PND 显著降低了幻觉率。

行业意义

当前，VLM 在图像描述、视觉问答、多模态对话等场景中广泛应用，但幻觉问题严重制约了其在医疗、自动驾驶等高风险领域的落地。PND 提供了一种轻量级、即插即用的解决方案，无需改变模型结构或重新训练，大大降低了部署门槛。

研究团队已将代码开源，感兴趣的开发者可访问 GitHub 仓库复现实验。

随着多模态 AI 的快速发展，如何确保模型“看到什么就说什么”成为关键挑战。PND 从解码层面切入，为提升视觉忠实度开辟了新思路，也为后续研究提供了重要参考。

打破幻觉：多模态解码中正负对比如何让AI更“眼见为实”

问题根源：注意力失衡

PND 的核心机制

实验结果：全面领先

行业意义

延伸阅读

相关资讯