VAMPS基准测试：多模态大模型看图解题竟不如直接计算？

多模态大语言模型（MLLM）在复杂推理任务中表现日益强大，但当它们需要借助外部工具（如绘图）来辅助推理时，性能却常常下降。为了系统性地研究这一差距，来自不列颠哥伦比亚大学等机构的研究人员推出了 VAMPS（Visual-Assisted Mathematical Problem Solving） 基准测试，专门评估模型在“图表辅助数学问题求解”上的能力。

测试设计：为何聚焦“画图解题”？

VAMPS 包含 1,168 道多模态、双语（波斯语/英语）选择题，题目源自伊朗大学入学考试的代数和微积分问题，并经过人工审核的 LLM 生成变体扩充。这些问题的共同特点是：通过绘制函数图像（揭示交点、极值、渐近线等）是一种自然且高效的解题策略。

与以往主要评估模型“理解固定图像”的基准不同，VAMPS 要求模型主动构造有用的图形，并基于生成的图表进行推理。这更贴近真实工程和科学工作流——工程师和科学家常借助可视化工具进行分析、验证和决策。

惊人发现：直接计算反而更强

研究团队测试了多种主流模型（如 GPT-4o、Claude、Gemini 等），结果出乎意料：

直接进行符号/数值计算（无视觉辅助）的表现，普遍优于借助绘图工具的视觉求解方式。

即使在那些“绘图是自然策略”的题目上，模型使用绘图工具后，准确率反而下降。这表明当前 MLLM 在“工具外化-推理”链条上存在明显短板：

模型可能无法准确调用绘图工具（如生成错误的函数表达式或坐标范围）；
模型可能无法从生成的图像中正确提取关键信息（如误判交点位置）；
多步推理中，工具输出与后续推理之间的衔接存在语义鸿沟。

行业启示：工具使用能力仍是瓶颈

VAMPS 的结果为 AI 社区敲响警钟：尽管 MLLM 在端到端视觉问答上进步神速，但真正的智能不仅需要“看懂图”，更需要“知道何时画图、如何画图、以及如何利用画出的图”。

这一发现对以下领域尤为重要：

科学计算与工程分析：依赖可视化工具进行数据探索和验证；
教育科技：自动解题系统需要模拟人类“画图辅助思考”的策略；
通用 AI 代理：未来 AI 需自主决定何时使用外部工具，并整合工具输出。

小结

VAMPS 提供了一个极具挑战性的诊断工具，揭示了当前多模态模型在“工具辅助推理”上的系统性缺陷。研究团队已公开数据集和评估代码，期待后续工作能开发出更擅长“边画边想”的模型。

对于 AI 从业者而言，这一结果也提示：在追求模型规模扩展的同时，不应忽视工具使用与多步推理的协同优化。毕竟，真正的智能从来不只是“看一眼就懂”，而是懂得如何借助外部工具来拓展认知边界。

VAMPS 基准测试：多模态大模型在“看图解题”上竟不如直接算？

测试设计：为何聚焦“画图解题”？

惊人发现：直接计算反而更强

行业启示：工具使用能力仍是瓶颈

小结

延伸阅读

相关资讯