新上线今天0 投票
打破幻觉:多模态解码中正负对比如何让AI更“眼见为实”
多模态大模型(VLM)常因过度依赖语言先验而产生“物体幻觉”,生成与视觉事实不符的内容。来自北京航空航天大学等机构的研究团队在 CVPR 2026 上提出了一种无需重新训练的解码框架 Positive-and-Negative Decoding(PND),通过双路径对比直接干预解码过程,显著提升了视觉忠实度。
问题根源:注意力失衡
研究团队首先发现 VLM 中存在一个关键缺陷:视觉特征的注意力权重被低估。模型在生成文本时,语言先验(如常见物体共现模式)占据主导,导致即使图像中不存在某物体,模型也可能“脑补”出来。这种注意力失衡是物体幻觉的主要成因。
PND 的核心机制
PND 框架引入了一条正路径和一条负路径:
- 正路径:放大视觉证据,鼓励模型关注图像中的真实物体。
- 负路径:构建反事实场景,惩罚那些依赖语言先验但不匹配视觉内容的生成。
在解码过程中,模型对比两条路径的输出,从而将生成结果“拉回”视觉事实。由于 PND 是训练无关的,它可以直接应用于现有 VLM,无需额外的微调或数据标注。
实验结果:全面领先
在三个主流评测基准上,PND 均取得了最先进(SOTA) 的结果:
- POPE:评估物体存在性幻觉,PND 在准确率和 F1 分数上均超越此前方法。
- MME:多模态理解综合评测,PND 在感知和认知任务上表现优异。
- CHAIR:细粒度物体描述幻觉评估,PND 显著降低了幻觉率。
行业意义
当前,VLM 在图像描述、视觉问答、多模态对话等场景中广泛应用,但幻觉问题严重制约了其在医疗、自动驾驶等高风险领域的落地。PND 提供了一种轻量级、即插即用的解决方案,无需改变模型结构或重新训练,大大降低了部署门槛。
研究团队已将代码开源,感兴趣的开发者可访问 GitHub 仓库复现实验。
随着多模态 AI 的快速发展,如何确保模型“看到什么就说什么”成为关键挑战。PND 从解码层面切入,为提升视觉忠实度开辟了新思路,也为后续研究提供了重要参考。