精选3个月前0 投票

数学要两人：测试沟通中涌现的数学推理能力

大型语言模型在数学基准测试中表现抢眼，但这是否代表真正的数学推理，抑或只是对形式语法的统计模式匹配？一篇被 ICLR 2026 HCAIR 研讨会接收的论文提出了新基准 Math Takes Two，试图通过沟通任务评估模型的涌现数学推理能力。

现有评估的局限

当前数学基准大多基于既定数学符号系统（如算术表达式、方程），模型可能仅靠记忆和模式匹配“解题”。论文指出，人类数学认知与精确沟通需求共同进化，因此真正的数学推理应体现在：两个缺乏数学先验知识的智能体，能否从零开始发展出共享符号协议，以解决视觉任务。

Math Takes Two 的设计

该基准要求两个智能体协作完成一项视觉基础任务——例如，一个智能体看到图像（如不同数量圆点），需向另一个发送消息，后者据此执行操作。任务设计使得使用数值系统能有效促进外推（如从少量样本泛化到更大数量）。关键约束：

无预定数学语言：智能体不能使用人类定义的符号（如数字“3”或“+”），必须自行发明符号。
从零开始：初始时智能体无任何数学概念，需通过沟通和反馈发现潜在结构。
沟通协议涌现：成功需要双方形成一致、可组合的符号系统，类似于人类发明数字的过程。

意义与应用

Math Takes Two 为评估模型符号涌现能力提供了新视角。当前前沿模型（如 GPT-4、Claude）在传统数学题上表现优异，但在此类开放式任务中可能暴露弱点。该基准或能区分“真正推理”与“模式匹配”，并推动多智能体系统与沟通协议学习的研究。

小结

Math Takes Two 挑战了当前评估范式，将数学推理测试从“解题”转向“发明数学”。未来，这一基准或可应用于：

比较不同模型在无监督沟通中的符号形成能力
研究语言与推理的协同进化
开发更接近人类认知的 AI 系统

论文已开放，代码预计随正式发表公布。对于关注 AI 推理本质的研究者，这是一项值得跟踪的工作。

延伸阅读

相关资讯

蒙大拿州推进“实验性医疗中心”计划：未获批药物可合法销售

Gemini Robotics 2 为机器人赋予全身智能

今日下载：欺骗LLM的漏洞与地热发电厂的复兴

基础缺陷使大语言模型极易遭受攻击，研究称无法彻底修复