CrowdMath数据集：大模型协作推理短板与AI数学推理新基准

大语言模型在数学推理方面取得了显著进展，但现有基准测试主要评估有明确答案或完整证明的封闭问题。它们无法捕捉协作式开放问题求解——参与者提出部分论证、识别错误、修复推理漏洞并逐步综合贡献的过程。为此，MIT PRIMES与AoPS联合发布了CrowdMath数据集，包含2016-2025年间164条专家标注的进展链，每条链追踪从开放问题到完整证明的多参与者论坛讨论。帖子按功能角色标注，包括部分进展、证明完成、错误推理和错误识别。

基准测试结果：局部理解尚可，全局角色识别困难

研究团队定义了下一帖子预测和帖子角色分类两项任务，并测试了六款前沿模型。在下一帖子预测任务中，模型准确率达到83-88%，表明它们能较好地跟随讨论的局部流程。然而，在帖子角色分类任务中，最佳模型的宏F1分数仅为0.42，远低于实用水平。这说明模型难以理解单个贡献在协作求解过程中的功能意义。

暴露的差距：从解题到协作推理

CrowdMath揭示了一个关键差距：模型擅长解决结构良好的数学问题，却难以把握协作式数学进展的演变。这种能力缺失限制了它们在研究辅助、科学辩论等场景中的应用。该数据集为开发能够理解、参与甚至引导协作推理的AI系统提供了新基准。

数据构建与意义

每条进展链由专家标注，确保角色分类的准确性。讨论来自CrowdMath项目，其成果已发表在同行评审期刊上，保证了数据质量。CrowdMath不仅是一个基准，更是一个训练资源，有望推动AI在开放式、迭代式推理任务上的进步。

CrowdMath：众包数学研究讨论数据集，揭示大模型协作推理短板

基准测试结果：局部理解尚可，全局角色识别困难

暴露的差距：从解题到协作推理

数据构建与意义

延伸阅读

相关资讯