SheepNav
精选今天0 投票

数学要两人:测试沟通中涌现的数学推理能力

大型语言模型在数学基准测试中表现抢眼,但这是否代表真正的数学推理,抑或只是对形式语法的统计模式匹配?一篇被 ICLR 2026 HCAIR 研讨会接收的论文提出了新基准 Math Takes Two,试图通过沟通任务评估模型的涌现数学推理能力。

现有评估的局限

当前数学基准大多基于既定数学符号系统(如算术表达式、方程),模型可能仅靠记忆和模式匹配“解题”。论文指出,人类数学认知与精确沟通需求共同进化,因此真正的数学推理应体现在:两个缺乏数学先验知识的智能体,能否从零开始发展出共享符号协议,以解决视觉任务。

Math Takes Two 的设计

该基准要求两个智能体协作完成一项视觉基础任务——例如,一个智能体看到图像(如不同数量圆点),需向另一个发送消息,后者据此执行操作。任务设计使得使用数值系统能有效促进外推(如从少量样本泛化到更大数量)。关键约束:

  • 无预定数学语言:智能体不能使用人类定义的符号(如数字“3”或“+”),必须自行发明符号。
  • 从零开始:初始时智能体无任何数学概念,需通过沟通和反馈发现潜在结构
  • 沟通协议涌现:成功需要双方形成一致、可组合的符号系统,类似于人类发明数字的过程。

意义与应用

Math Takes Two 为评估模型符号涌现能力提供了新视角。当前前沿模型(如 GPT-4、Claude)在传统数学题上表现优异,但在此类开放式任务中可能暴露弱点。该基准或能区分“真正推理”与“模式匹配”,并推动多智能体系统沟通协议学习的研究。

小结

Math Takes Two 挑战了当前评估范式,将数学推理测试从“解题”转向“发明数学”。未来,这一基准或可应用于:

  • 比较不同模型在无监督沟通中的符号形成能力
  • 研究语言与推理的协同进化
  • 开发更接近人类认知的 AI 系统

论文已开放,代码预计随正式发表公布。对于关注 AI 推理本质的研究者,这是一项值得跟踪的工作。

延伸阅读

  1. AI 涌现出战略推理风险:新分类框架揭示模型“作弊”能力
  2. Memanto:面向长期自主智能体的类型化语义记忆系统,信息论检索实现毫秒级响应
  3. 健全的智能体科学需要对抗性实验
查看原文