CaVe-VLM-CoT：可解释VLM框架，减少幻觉

概述

视觉语言模型（VLM）虽然能力强大，但常常会产生“幻觉”——输出流畅但视觉上不忠实的内容。现有的思维链（Chain-of-Thought）和检索增强生成（RAG）方法只能部分缓解此问题，因为它们既没有强制步骤级别的引用归因，也没有将验证失败路由回检索进行修正。针对这一挑战，研究人员提出了 CaVe-VLM-CoT，一种基于反射（reflection）的模块化智能RAG框架，通过五阶段闭环流程实现证据驱动的推理。

五阶段闭环流水线

CaVe-VLM-CoT 的核心是一个五阶段闭环流水线：

Extractor（提取器）：从输入图像中提取视觉特征和潜在的相关信息片段。
Retriever（检索器）：根据提取器的输出，从外部知识库或图像自身检索相关证据。
Solver（求解器）：结合检索到的证据和视觉特征，进行逐步推理并生成回答。
Citation Injector（引用注入器）：将推理过程中的每一步与对应的证据来源进行引用关联，确保每一步都有可追溯的支撑。
Verifier（验证器）：检查每个推理步骤的引用是否真正支撑其主张。如果发现未得到充分支持的声明，则触发结构化反馈，送回 Extractor 进行针对性的重新检索。

这种闭环机制使得模型能够在推理过程中自我纠正，显著提升输出的可信度。

评估指标

为了全面衡量框架性能，作者提出了一套包含 23 个组件级指标 的评估体系，覆盖所有阶段。其中核心指标是 CaVeScore，一个复合指标，综合了准确率、引用精确率与召回率、归因质量以及证据支撑程度。

实验结果

在 ScienceQA 数据集上，CaVe-VLM-CoT 取得了 87.1% 的准确率 和 56.6% 的 CaVeScore；在更复杂的 MMMU（30个科目）数据集上，准确率达到 55.2%，CaVeScore 为 35.7%。值得注意的是，这些提升是在 未对模型架构或提示词做任何修改 的情况下实现的，仅通过框架层面的推理与验证闭环即可带来性能增益。

意义与展望

CaVe-VLM-CoT 为提升 VLM 的可解释性和可靠性提供了一条新路径。其模块化设计使得它可以轻松集成到现有 VLM 系统中，而无需重新训练模型。未来，该框架有望在医疗影像分析、自动驾驶、视觉问答等对可信度要求极高的场景中发挥重要作用。

CaVe-VLM-CoT：可解释的视觉语言模型框架，通过反射式RAG减少幻觉

概述

五阶段闭环流水线

评估指标

实验结果

意义与展望

延伸阅读

相关资讯