精选今天0 投票
CaVe-VLM-CoT:可解释的视觉语言模型框架,通过反射式RAG减少幻觉
概述
视觉语言模型(VLM)虽然能力强大,但常常会产生“幻觉”——输出流畅但视觉上不忠实的内容。现有的思维链(Chain-of-Thought)和检索增强生成(RAG)方法只能部分缓解此问题,因为它们既没有强制步骤级别的引用归因,也没有将验证失败路由回检索进行修正。针对这一挑战,研究人员提出了 CaVe-VLM-CoT,一种基于反射(reflection)的模块化智能RAG框架,通过五阶段闭环流程实现证据驱动的推理。
五阶段闭环流水线
CaVe-VLM-CoT 的核心是一个五阶段闭环流水线:
- Extractor(提取器):从输入图像中提取视觉特征和潜在的相关信息片段。
- Retriever(检索器):根据提取器的输出,从外部知识库或图像自身检索相关证据。
- Solver(求解器):结合检索到的证据和视觉特征,进行逐步推理并生成回答。
- Citation Injector(引用注入器):将推理过程中的每一步与对应的证据来源进行引用关联,确保每一步都有可追溯的支撑。
- Verifier(验证器):检查每个推理步骤的引用是否真正支撑其主张。如果发现未得到充分支持的声明,则触发结构化反馈,送回 Extractor 进行针对性的重新检索。
这种闭环机制使得模型能够在推理过程中自我纠正,显著提升输出的可信度。
评估指标
为了全面衡量框架性能,作者提出了一套包含 23 个组件级指标 的评估体系,覆盖所有阶段。其中核心指标是 CaVeScore,一个复合指标,综合了准确率、引用精确率与召回率、归因质量以及证据支撑程度。
实验结果
在 ScienceQA 数据集上,CaVe-VLM-CoT 取得了 87.1% 的准确率 和 56.6% 的 CaVeScore;在更复杂的 MMMU(30个科目)数据集上,准确率达到 55.2%,CaVeScore 为 35.7%。值得注意的是,这些提升是在 未对模型架构或提示词做任何修改 的情况下实现的,仅通过框架层面的推理与验证闭环即可带来性能增益。
意义与展望
CaVe-VLM-CoT 为提升 VLM 的可解释性和可靠性提供了一条新路径。其模块化设计使得它可以轻松集成到现有 VLM 系统中,而无需重新训练模型。未来,该框架有望在医疗影像分析、自动驾驶、视觉问答等对可信度要求极高的场景中发挥重要作用。