SWE-bench Verified 已不适用于前沿编程能力评估，OpenAI 推荐 SWE-bench Pro

OpenAI 最新分析指出，曾被业界广泛采用的编程基准测试 SWE-bench Verified 因存在严重数据污染和测试用例缺陷，已不再适合衡量前沿模型的自主软件工程能力。该基准自 2024 年 8 月发布以来，一直是评估模型编程能力的重要标准，但近期进展放缓——过去 6 个月内，最佳成绩仅从 74.9% 提升至 80.9%。

OpenAI 在审查中发现两大核心问题：

测试拒绝正确解法：在对模型常失败的任务子集（占数据集 27.6%）进行审计后，发现其中至少 59.4% 的问题存在有缺陷的测试用例，这些用例会错误地拒绝功能正确的代码提交。尽管在创建 SWE-bench Verified 时已尽力改进，但问题依然严重。

训练数据泄露：SWE-bench 的问题来源于开源仓库，而许多前沿模型在训练时已接触过这些数据。分析显示，所有被测试的前沿模型都能复现原始的人工编写补丁（即“黄金补丁”），或直接输出问题描述中的特定细节，这表明模型在训练中已学习到部分答案，导致评测结果虚高。

基于以上发现，OpenAI 推荐使用新基准 SWE-bench Pro 来替代，以更准确地评估模型的自主编程能力。该分析结果已作为 OpenAI 准备框架的一部分公开，旨在推动行业采用更可靠的评估方法。

SWE-bench Verified 已无法衡量前沿编程能力，OpenAI 建议改用 SWE-bench Pro

延伸阅读

相关资讯