VAMPS 基准测试:多模态大模型在“看图解题”上竟不如直接算?
多模态大语言模型(MLLM)在复杂推理任务中表现日益强大,但当它们需要借助外部工具(如绘图)来辅助推理时,性能却常常下降。为了系统性地研究这一差距,来自不列颠哥伦比亚大学等机构的研究人员推出了 VAMPS(Visual-Assisted Mathematical Problem Solving) 基准测试,专门评估模型在“图表辅助数学问题求解”上的能力。
测试设计:为何聚焦“画图解题”?
VAMPS 包含 1,168 道多模态、双语(波斯语/英语)选择题,题目源自伊朗大学入学考试的代数和微积分问题,并经过人工审核的 LLM 生成变体扩充。这些问题的共同特点是:通过绘制函数图像(揭示交点、极值、渐近线等)是一种自然且高效的解题策略。
与以往主要评估模型“理解固定图像”的基准不同,VAMPS 要求模型主动构造有用的图形,并基于生成的图表进行推理。这更贴近真实工程和科学工作流——工程师和科学家常借助可视化工具进行分析、验证和决策。
惊人发现:直接计算反而更强
研究团队测试了多种主流模型(如 GPT-4o、Claude、Gemini 等),结果出乎意料:
直接进行符号/数值计算(无视觉辅助)的表现,普遍优于借助绘图工具的视觉求解方式。
即使在那些“绘图是自然策略”的题目上,模型使用绘图工具后,准确率反而下降。这表明当前 MLLM 在“工具外化-推理”链条上存在明显短板:
- 模型可能无法准确调用绘图工具(如生成错误的函数表达式或坐标范围);
- 模型可能无法从生成的图像中正确提取关键信息(如误判交点位置);
- 多步推理中,工具输出与后续推理之间的衔接存在语义鸿沟。
行业启示:工具使用能力仍是瓶颈
VAMPS 的结果为 AI 社区敲响警钟:尽管 MLLM 在端到端视觉问答上进步神速,但真正的智能不仅需要“看懂图”,更需要“知道何时画图、如何画图、以及如何利用画出的图”。
这一发现对以下领域尤为重要:
- 科学计算与工程分析:依赖可视化工具进行数据探索和验证;
- 教育科技:自动解题系统需要模拟人类“画图辅助思考”的策略;
- 通用 AI 代理:未来 AI 需自主决定何时使用外部工具,并整合工具输出。
小结
VAMPS 提供了一个极具挑战性的诊断工具,揭示了当前多模态模型在“工具辅助推理”上的系统性缺陷。研究团队已公开数据集和评估代码,期待后续工作能开发出更擅长“边画边想”的模型。
对于 AI 从业者而言,这一结果也提示:在追求模型规模扩展的同时,不应忽视工具使用与多步推理的协同优化。毕竟,真正的智能从来不只是“看一眼就懂”,而是懂得如何借助外部工具来拓展认知边界。