SheepNav
新上线今天172 投票

SWE-bench Verified 已无法衡量前沿编程能力,OpenAI 建议改用 SWE-bench Pro

OpenAI 最新分析指出,曾被业界广泛采用的编程基准测试 SWE-bench Verified 因存在严重数据污染和测试用例缺陷,已不再适合衡量前沿模型的自主软件工程能力。该基准自 2024 年 8 月发布以来,一直是评估模型编程能力的重要标准,但近期进展放缓——过去 6 个月内,最佳成绩仅从 74.9% 提升至 80.9%。

OpenAI 在审查中发现两大核心问题:

测试拒绝正确解法:在对模型常失败的任务子集(占数据集 27.6%)进行审计后,发现其中至少 59.4% 的问题存在有缺陷的测试用例,这些用例会错误地拒绝功能正确的代码提交。尽管在创建 SWE-bench Verified 时已尽力改进,但问题依然严重。

训练数据泄露:SWE-bench 的问题来源于开源仓库,而许多前沿模型在训练时已接触过这些数据。分析显示,所有被测试的前沿模型都能复现原始的人工编写补丁(即“黄金补丁”),或直接输出问题描述中的特定细节,这表明模型在训练中已学习到部分答案,导致评测结果虚高。

基于以上发现,OpenAI 推荐使用新基准 SWE-bench Pro 来替代,以更准确地评估模型的自主编程能力。该分析结果已作为 OpenAI 准备框架的一部分公开,旨在推动行业采用更可靠的评估方法。

延伸阅读

  1. 苹果手表20分钟校准测试为何值得你花时间——尤其对数据控而言
  2. AI代理删除了我们的生产数据库,它的“忏悔”让人后背发凉
  3. 海信电视用户必看:调整这些专家设置,画质立竿见影
查看原文