DeepSWE 基准:为长周期编程智能体打造的无污染评估新标准
在 AI 编程助手日益普及的今天,如何公正、真实地评估这些智能体的能力,成为业界关注的焦点。近日,一个名为 DeepSWE 的全新基准测试横空出世,它宣称在多个关键维度上超越了现有的行业标准,为长周期软件工程任务的评估带来了颠覆性的改变。
为什么需要一个新的基准?
现有的主流基准,如 SWE-bench Pro,虽然推动了编程智能体的发展,但其局限性也日益凸显。DeepSWE 的开发者指出,这些基准存在三大核心问题:
- 数据污染:许多任务直接或间接来源于已有的代码提交(commits)或拉取请求(PRs),这意味着一些前沿模型可能在预训练阶段就已经“见过”答案,导致评测结果虚高。
- 任务过于简单:以 SWE-bench Pro 为例,其任务平均只需编写约 120 行代码 即可解决,这与开发者日常面对的真实复杂问题相去甚远。
- 验证机制不可靠:审计发现,SWE-bench Pro 的验证器存在 8% 的误报率 和 24% 的漏报率,即可能错误地将失败的任务判为成功,或将成功的任务判为失败。
DeepSWE 的四大核心优势
DeepSWE 正是为解决上述痛点而设计,其四大创新之处在于:
- 无污染(Contamination Free):所有任务均从零开始编写,不依赖任何已有的代码提交或 PR,确保模型在预训练阶段绝对没有接触过解决方案。
- 高多样性(High Diversity):任务覆盖了 91 个代码仓库,横跨 5 种编程语言,确保了评估的广泛性和代表性。
- 真实世界复杂度(Real-world Complexity):虽然提示词(prompt)长度仅为 SWE-bench Pro 的一半,但解决方案所需的代码量却是后者的 5.5 倍,输出 token 数也约为后者的 2 倍。这更贴近开发者实际工作中遇到的复杂任务。
- 可靠的验证(Reliable Verification):验证器由人工编写,专注于测试软件的实际行为而非实现细节,大幅提高了评估的准确性。
排行榜上的显著差异
DeepSWE 的评估结果揭示了不同模型之间的真实差距。在已公布的排行榜上,那些在传统基准上表现接近的模型,在 DeepSWE 上展现出了明显的层级分化。例如,GPT-5.5 以 70% 的解决率位居榜首,而 GPT-5.4 和 Claude Opus 4.7 分别以 56% 和 54% 紧随其后。值得注意的是,Claude Sonnet 4.6 的得分为 32%,与旗舰模型拉开了显著差距。这一排序与开发者在日常使用中的体感更为吻合。
完整的排行榜还包括 Gemini 3.5 Flash(28%)、GPT-5.4 Mini(24%)、Kimi K2.6(24%)等模型,而 DeepSeek V4 Pro(8%)和 Gemini 3 Flash(5%)则处于榜单末尾。所有模型均使用统一的 mini-swe-agent 框架运行,确保了对比的公平性。
对行业的影响与展望
DeepSWE 的出现,为 AI 编程智能体的评估树立了更高的标准。它不仅揭示了模型在长周期、复杂任务上的真实能力,也为研究人员和开发者提供了一个更可靠的参考。随着大模型在代码生成领域的竞争愈发激烈,一个无污染、高复杂度、验证可靠的基准显得尤为重要。DeepSWE 的推出,有望推动整个行业从“刷榜”转向真正的能力提升,让 AI 编程助手更好地服务于开发者。