RMA智能体系统攻克研究级数学难题，超越GPT-5.2R

研究级数学难题的新解法：RMA 智能体框架

近日，一篇发表在 arXiv 上的论文提出了 Research Math Agents (RMA)，一个专为研究级数学问题设计的自动化推理智能体框架。与以往聚焦于竞赛数学或形式化定理证明的研究不同，RMA 瞄准的是需要长程推理、文献支撑和迭代证明优化的真正研究级难题。

从竞赛到研究：AI 数学能力的跃迁

过去几年，AI 在数学领域的进展主要集中在两类任务：一是 IMO 级别的竞赛题，二是用 Lean、Coq 等工具进行形式化定理证明。然而，这些任务与数学家的日常研究仍有显著差距——研究级问题往往没有清晰边界，需要查阅大量文献、形成猜想、反复试错，最终写出可被同行理解的证明。RMA 正是为了弥合这一鸿沟而设计。

RMA 的架构：多角色协作的智能体系统

RMA 将研究级证明求解分解为多个专门模块：

问题分析：理解问题陈述，识别关键概念和难点。
文献检索与理解：自动搜索相关论文，提取有用引理和方法。
公平比较：确保不同思路的候选方案得到客观评估。
知识库构建：将中间结论和已知结果组织成结构化知识。
证明验证：检查逻辑正确性和完整性。

这些模块由三类智能体协调：初始化者（Initializer）、提出者（Proposer） 和 验证者（Verifier）。它们通过共享的结构化记忆进行多轮交互，共同生成、优化和验证候选证明。

性能表现：在 First Proof 基准上超越 GPT-5.2R

研究团队在 First Proof 基准上评估了 RMA，该基准包含由专家数学家贡献的十个跨领域研究级问题。经过全面的专家评估，RMA 成功解决了其中八个问题，表现优于 GPT-5.2R 和 Aletheia 等强基线。而且，RMA 生成的证明在逻辑严密性和可读性上均获得更高评价。

为什么 RMA 能成功？

消融实验表明，RMA 的性能提升并非来自单一组件，而是结构化推理模块、迭代优化和验证者反馈三者协同作用的结果。例如，移除文献搜索模块后，模型在处理需要引用经典定理的问题时明显退化；而关闭验证者反馈循环，则会导致证明中出现更多逻辑漏洞。

意义与展望

RMA 的意义不仅在于它解出了几道难题，更在于它展示了一条 AI 辅助数学研究的可行路径。未来，这样的系统或许能帮助数学家快速验证猜想、寻找反例，甚至发现全新定理。当然，RMA 目前仍依赖人类专家的基准评估，且计算成本较高，但其模块化设计为后续改进留下了空间。

论文作者表示，代码和解决方案将在论文接收后开源。对于关注 AI for Science 的读者来说，这无疑是一个值得跟踪的进展。

RMA：攻克研究级数学难题的智能体系统