SheepNav
精选今天0 投票

CrowdMath:众包数学研究讨论数据集,揭示大模型协作推理短板

大语言模型在数学推理方面取得了显著进展,但现有基准测试主要评估有明确答案或完整证明的封闭问题。它们无法捕捉协作式开放问题求解——参与者提出部分论证、识别错误、修复推理漏洞并逐步综合贡献的过程。为此,MIT PRIMES与AoPS联合发布了CrowdMath数据集,包含2016-2025年间164条专家标注的进展链,每条链追踪从开放问题到完整证明的多参与者论坛讨论。帖子按功能角色标注,包括部分进展、证明完成、错误推理和错误识别。

基准测试结果:局部理解尚可,全局角色识别困难

研究团队定义了下一帖子预测帖子角色分类两项任务,并测试了六款前沿模型。在下一帖子预测任务中,模型准确率达到83-88%,表明它们能较好地跟随讨论的局部流程。然而,在帖子角色分类任务中,最佳模型的宏F1分数仅为0.42,远低于实用水平。这说明模型难以理解单个贡献在协作求解过程中的功能意义。

暴露的差距:从解题到协作推理

CrowdMath揭示了一个关键差距:模型擅长解决结构良好的数学问题,却难以把握协作式数学进展的演变。这种能力缺失限制了它们在研究辅助、科学辩论等场景中的应用。该数据集为开发能够理解、参与甚至引导协作推理的AI系统提供了新基准。

数据构建与意义

每条进展链由专家标注,确保角色分类的准确性。讨论来自CrowdMath项目,其成果已发表在同行评审期刊上,保证了数据质量。CrowdMath不仅是一个基准,更是一个训练资源,有望推动AI在开放式、迭代式推理任务上的进步。

延伸阅读

  1. 别只想着“后期修复”:AI科学必须研究训练动态
  2. CARVE-Q:量子提议、经典认证的交互式驾驶修复框架
  3. AI 控制评估忽视“攻击选择”能力,安全评估或过于乐观
查看原文