SheepNav
精选今天0 投票

CaVe-VLM-CoT:可解释的视觉语言模型框架,通过反射式RAG减少幻觉

概述

视觉语言模型(VLM)虽然能力强大,但常常会产生“幻觉”——输出流畅但视觉上不忠实的内容。现有的思维链(Chain-of-Thought)和检索增强生成(RAG)方法只能部分缓解此问题,因为它们既没有强制步骤级别的引用归因,也没有将验证失败路由回检索进行修正。针对这一挑战,研究人员提出了 CaVe-VLM-CoT,一种基于反射(reflection)的模块化智能RAG框架,通过五阶段闭环流程实现证据驱动的推理。

五阶段闭环流水线

CaVe-VLM-CoT 的核心是一个五阶段闭环流水线:

  1. Extractor(提取器):从输入图像中提取视觉特征和潜在的相关信息片段。
  2. Retriever(检索器):根据提取器的输出,从外部知识库或图像自身检索相关证据。
  3. Solver(求解器):结合检索到的证据和视觉特征,进行逐步推理并生成回答。
  4. Citation Injector(引用注入器):将推理过程中的每一步与对应的证据来源进行引用关联,确保每一步都有可追溯的支撑。
  5. Verifier(验证器):检查每个推理步骤的引用是否真正支撑其主张。如果发现未得到充分支持的声明,则触发结构化反馈,送回 Extractor 进行针对性的重新检索。

这种闭环机制使得模型能够在推理过程中自我纠正,显著提升输出的可信度。

评估指标

为了全面衡量框架性能,作者提出了一套包含 23 个组件级指标 的评估体系,覆盖所有阶段。其中核心指标是 CaVeScore,一个复合指标,综合了准确率、引用精确率与召回率、归因质量以及证据支撑程度。

实验结果

ScienceQA 数据集上,CaVe-VLM-CoT 取得了 87.1% 的准确率56.6% 的 CaVeScore;在更复杂的 MMMU(30个科目)数据集上,准确率达到 55.2%,CaVeScore 为 35.7%。值得注意的是,这些提升是在 未对模型架构或提示词做任何修改 的情况下实现的,仅通过框架层面的推理与验证闭环即可带来性能增益。

意义与展望

CaVe-VLM-CoT 为提升 VLM 的可解释性和可靠性提供了一条新路径。其模块化设计使得它可以轻松集成到现有 VLM 系统中,而无需重新训练模型。未来,该框架有望在医疗影像分析、自动驾驶、视觉问答等对可信度要求极高的场景中发挥重要作用。

延伸阅读

  1. 通用型智能体必须记住什么?新研究给出形式化答案
  2. ForecastBench-Sim:基于模拟世界的AI预测能力评测基准
  3. POMDP框架优化锂矿生产决策:应对地质、需求与定价多重不确定性
查看原文