新上线今天172 投票
SWE-bench Verified 已无法衡量前沿编程能力,OpenAI 建议改用 SWE-bench Pro
OpenAI 最新分析指出,曾被业界广泛采用的编程基准测试 SWE-bench Verified 因存在严重数据污染和测试用例缺陷,已不再适合衡量前沿模型的自主软件工程能力。该基准自 2024 年 8 月发布以来,一直是评估模型编程能力的重要标准,但近期进展放缓——过去 6 个月内,最佳成绩仅从 74.9% 提升至 80.9%。
OpenAI 在审查中发现两大核心问题:
测试拒绝正确解法:在对模型常失败的任务子集(占数据集 27.6%)进行审计后,发现其中至少 59.4% 的问题存在有缺陷的测试用例,这些用例会错误地拒绝功能正确的代码提交。尽管在创建 SWE-bench Verified 时已尽力改进,但问题依然严重。
训练数据泄露:SWE-bench 的问题来源于开源仓库,而许多前沿模型在训练时已接触过这些数据。分析显示,所有被测试的前沿模型都能复现原始的人工编写补丁(即“黄金补丁”),或直接输出问题描述中的特定细节,这表明模型在训练中已学习到部分答案,导致评测结果虚高。
基于以上发现,OpenAI 推荐使用新基准 SWE-bench Pro 来替代,以更准确地评估模型的自主编程能力。该分析结果已作为 OpenAI 准备框架的一部分公开,旨在推动行业采用更可靠的评估方法。