SheepNav
精选今天0 投票

VAMPS 基准测试:多模态大模型在“看图解题”上竟不如直接算?

多模态大语言模型(MLLM)在复杂推理任务中表现日益强大,但当它们需要借助外部工具(如绘图)来辅助推理时,性能却常常下降。为了系统性地研究这一差距,来自不列颠哥伦比亚大学等机构的研究人员推出了 VAMPS(Visual-Assisted Mathematical Problem Solving) 基准测试,专门评估模型在“图表辅助数学问题求解”上的能力。

测试设计:为何聚焦“画图解题”?

VAMPS 包含 1,168 道多模态、双语(波斯语/英语)选择题,题目源自伊朗大学入学考试的代数和微积分问题,并经过人工审核的 LLM 生成变体扩充。这些问题的共同特点是:通过绘制函数图像(揭示交点、极值、渐近线等)是一种自然且高效的解题策略

与以往主要评估模型“理解固定图像”的基准不同,VAMPS 要求模型主动构造有用的图形,并基于生成的图表进行推理。这更贴近真实工程和科学工作流——工程师和科学家常借助可视化工具进行分析、验证和决策。

惊人发现:直接计算反而更强

研究团队测试了多种主流模型(如 GPT-4o、Claude、Gemini 等),结果出乎意料:

直接进行符号/数值计算(无视觉辅助)的表现,普遍优于借助绘图工具的视觉求解方式。

即使在那些“绘图是自然策略”的题目上,模型使用绘图工具后,准确率反而下降。这表明当前 MLLM 在“工具外化-推理”链条上存在明显短板:

  • 模型可能无法准确调用绘图工具(如生成错误的函数表达式或坐标范围);
  • 模型可能无法从生成的图像中正确提取关键信息(如误判交点位置);
  • 多步推理中,工具输出与后续推理之间的衔接存在语义鸿沟。

行业启示:工具使用能力仍是瓶颈

VAMPS 的结果为 AI 社区敲响警钟:尽管 MLLM 在端到端视觉问答上进步神速,但真正的智能不仅需要“看懂图”,更需要“知道何时画图、如何画图、以及如何利用画出的图”

这一发现对以下领域尤为重要:

  • 科学计算与工程分析:依赖可视化工具进行数据探索和验证;
  • 教育科技:自动解题系统需要模拟人类“画图辅助思考”的策略;
  • 通用 AI 代理:未来 AI 需自主决定何时使用外部工具,并整合工具输出。

小结

VAMPS 提供了一个极具挑战性的诊断工具,揭示了当前多模态模型在“工具辅助推理”上的系统性缺陷。研究团队已公开数据集和评估代码,期待后续工作能开发出更擅长“边画边想”的模型。

对于 AI 从业者而言,这一结果也提示:在追求模型规模扩展的同时,不应忽视工具使用与多步推理的协同优化。毕竟,真正的智能从来不只是“看一眼就懂”,而是懂得如何借助外部工具来拓展认知边界。

延伸阅读

  1. 通用AI智能体能自动完成数据筛选吗?新基准Curation-Bench揭示潜力与局限
  2. StepPRM-RTL:用过程奖励模型指导大模型微调,提升RTL代码生成能力
  3. Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal
查看原文