精选今天0 投票
ImProver 2:神经符号证明优化的自迭代改进语言模型
核心结论:小模型也能“重构”数学证明,ImProver 2 开辟自动化证明优化新路径
随着 Lean 4 等交互式定理证明器的普及,形式化数学库正在快速膨胀。维护这些经过验证的证明、提升其可读性与可重用性,成为大型数学库发展的关键痛点。然而,传统的证明优化高度依赖人工专家,且面临目标多样、数据稀疏、成本高昂等挑战。
近日,来自卡内基梅隆大学等机构的研究团队提出了 ImProver 2,一个面向 Lean 4 的神经符号化(neurosymbolic)自动证明优化框架。其核心创新在于:将数据高效的专家迭代训练管线与一个能同时暴露形式化结构及轻量级非正式抽象的“脚手架”结合,使语言模型能够学会结构性地优化证明,而不仅仅是修补局部错误。
ImProver 2 的关键技术亮点包括:
- 专家迭代自改进:模型通过“生成候选优化 → 验证正确性 → 筛选优质样本 → 重新训练”的闭环循环,持续从自身输出中学习,无需大量人工标注数据。
- 神经符号脚手架:框架不仅提供代码层面的形式化结构,还引入非正式但高层次的抽象描述(如“这个引理的作用是简化目标”),帮助模型理解证明的全局意图。
- 多维度评估指标:团队设计了一套捕捉证明结构属性的度量标准(如长度、嵌套深度、可读性等),用于指导优化方向。
实验结果令人瞩目:
- 小模型逆袭:使用 ImProver 2 训练的 7B 参数模型,在多项证明优化指标上超越了同系列中规模大数个数量级的模型,并与中等水平的顶尖模型(如 GPT-4 级别)表现相当。
- 脚手架通用有效:无论是小模型还是前沿大模型,神经符号脚手架都能显著提升其优化性能,证明结构化引导是通用增益手段。
- 任务可学习:研究表明,只要提供合适的脚手架和训练流程,小模型也能有效重构研究级别的数学证明,处理复杂且多样的优化目标。
行业意义:
这一工作对 AI for Math 领域具有双重启示。一方面,它证明了证明优化可以像代码编译一样被自动化,有望大幅降低形式化数学库的维护成本,加速 Lean、Coq 等生态的成熟。另一方面,ImProver 2 采用的“小模型+神经符号脚手架”范式,为资源受限场景下的高级推理任务(如程序合成、科学论文审查)提供了可复用的方法论——不需要盲目堆参数,结构化知识注入或许才是通往高效推理的关键。
未来,随着形式化数学库的进一步扩张,像 ImProver 2 这样的工具将成为连接人类数学家与 AI 助手的桥梁,让“写证明”与“优化证明”都走向智能化。