SheepNav
新上线今天54 投票

DeepSWE 基准:为长周期编程智能体打造的无污染评估新标准

在 AI 编程助手日益普及的今天,如何公正、真实地评估这些智能体的能力,成为业界关注的焦点。近日,一个名为 DeepSWE 的全新基准测试横空出世,它宣称在多个关键维度上超越了现有的行业标准,为长周期软件工程任务的评估带来了颠覆性的改变。

为什么需要一个新的基准?

现有的主流基准,如 SWE-bench Pro,虽然推动了编程智能体的发展,但其局限性也日益凸显。DeepSWE 的开发者指出,这些基准存在三大核心问题:

  • 数据污染:许多任务直接或间接来源于已有的代码提交(commits)或拉取请求(PRs),这意味着一些前沿模型可能在预训练阶段就已经“见过”答案,导致评测结果虚高。
  • 任务过于简单:以 SWE-bench Pro 为例,其任务平均只需编写约 120 行代码 即可解决,这与开发者日常面对的真实复杂问题相去甚远。
  • 验证机制不可靠:审计发现,SWE-bench Pro 的验证器存在 8% 的误报率24% 的漏报率,即可能错误地将失败的任务判为成功,或将成功的任务判为失败。

DeepSWE 的四大核心优势

DeepSWE 正是为解决上述痛点而设计,其四大创新之处在于:

  1. 无污染(Contamination Free):所有任务均从零开始编写,不依赖任何已有的代码提交或 PR,确保模型在预训练阶段绝对没有接触过解决方案。
  2. 高多样性(High Diversity):任务覆盖了 91 个代码仓库,横跨 5 种编程语言,确保了评估的广泛性和代表性。
  3. 真实世界复杂度(Real-world Complexity):虽然提示词(prompt)长度仅为 SWE-bench Pro 的一半,但解决方案所需的代码量却是后者的 5.5 倍,输出 token 数也约为后者的 2 倍。这更贴近开发者实际工作中遇到的复杂任务。
  4. 可靠的验证(Reliable Verification):验证器由人工编写,专注于测试软件的实际行为而非实现细节,大幅提高了评估的准确性。

排行榜上的显著差异

DeepSWE 的评估结果揭示了不同模型之间的真实差距。在已公布的排行榜上,那些在传统基准上表现接近的模型,在 DeepSWE 上展现出了明显的层级分化。例如,GPT-5.570% 的解决率位居榜首,而 GPT-5.4Claude Opus 4.7 分别以 56%54% 紧随其后。值得注意的是,Claude Sonnet 4.6 的得分为 32%,与旗舰模型拉开了显著差距。这一排序与开发者在日常使用中的体感更为吻合。

完整的排行榜还包括 Gemini 3.5 Flash(28%)、GPT-5.4 Mini(24%)、Kimi K2.6(24%)等模型,而 DeepSeek V4 Pro(8%)和 Gemini 3 Flash(5%)则处于榜单末尾。所有模型均使用统一的 mini-swe-agent 框架运行,确保了对比的公平性。

对行业的影响与展望

DeepSWE 的出现,为 AI 编程智能体的评估树立了更高的标准。它不仅揭示了模型在长周期、复杂任务上的真实能力,也为研究人员和开发者提供了一个更可靠的参考。随着大模型在代码生成领域的竞争愈发激烈,一个无污染、高复杂度、验证可靠的基准显得尤为重要。DeepSWE 的推出,有望推动整个行业从“刷榜”转向真正的能力提升,让 AI 编程助手更好地服务于开发者。

延伸阅读

  1. 索尼全新模块化Bravia影院系统体验:《沙丘》从未如此真实
  2. AI 巨头本想“埋葬”这位政客,结果反倒让他名声大噪
  3. AI军备竞赛升级:美国政府欲斥90亿美元采购英伟达超级芯片
查看原文