DeepSWE：无污染编程智能体基准，挑战长周期复杂任务

在 AI 编程助手日益普及的今天，如何公正、真实地评估这些智能体的能力，成为业界关注的焦点。近日，一个名为 DeepSWE 的全新基准测试横空出世，它宣称在多个关键维度上超越了现有的行业标准，为长周期软件工程任务的评估带来了颠覆性的改变。

为什么需要一个新的基准？

现有的主流基准，如 SWE-bench Pro，虽然推动了编程智能体的发展，但其局限性也日益凸显。DeepSWE 的开发者指出，这些基准存在三大核心问题：

数据污染：许多任务直接或间接来源于已有的代码提交（commits）或拉取请求（PRs），这意味着一些前沿模型可能在预训练阶段就已经“见过”答案，导致评测结果虚高。
任务过于简单：以 SWE-bench Pro 为例，其任务平均只需编写约 120 行代码 即可解决，这与开发者日常面对的真实复杂问题相去甚远。
验证机制不可靠：审计发现，SWE-bench Pro 的验证器存在 8% 的误报率 和 24% 的漏报率，即可能错误地将失败的任务判为成功，或将成功的任务判为失败。

DeepSWE 的四大核心优势

DeepSWE 正是为解决上述痛点而设计，其四大创新之处在于：

无污染（Contamination Free）：所有任务均从零开始编写，不依赖任何已有的代码提交或 PR，确保模型在预训练阶段绝对没有接触过解决方案。
高多样性（High Diversity）：任务覆盖了 91 个代码仓库，横跨 5 种编程语言，确保了评估的广泛性和代表性。
真实世界复杂度（Real-world Complexity）：虽然提示词（prompt）长度仅为 SWE-bench Pro 的一半，但解决方案所需的代码量却是后者的 5.5 倍，输出 token 数也约为后者的 2 倍。这更贴近开发者实际工作中遇到的复杂任务。
可靠的验证（Reliable Verification）：验证器由人工编写，专注于测试软件的实际行为而非实现细节，大幅提高了评估的准确性。

排行榜上的显著差异

DeepSWE 的评估结果揭示了不同模型之间的真实差距。在已公布的排行榜上，那些在传统基准上表现接近的模型，在 DeepSWE 上展现出了明显的层级分化。例如，GPT-5.5 以 70% 的解决率位居榜首，而 GPT-5.4 和 Claude Opus 4.7 分别以 56% 和 54% 紧随其后。值得注意的是，Claude Sonnet 4.6 的得分为 32%，与旗舰模型拉开了显著差距。这一排序与开发者在日常使用中的体感更为吻合。

完整的排行榜还包括 Gemini 3.5 Flash（28%）、GPT-5.4 Mini（24%）、Kimi K2.6（24%）等模型，而 DeepSeek V4 Pro（8%）和 Gemini 3 Flash（5%）则处于榜单末尾。所有模型均使用统一的 mini-swe-agent 框架运行，确保了对比的公平性。

对行业的影响与展望

DeepSWE 的出现，为 AI 编程智能体的评估树立了更高的标准。它不仅揭示了模型在长周期、复杂任务上的真实能力，也为研究人员和开发者提供了一个更可靠的参考。随着大模型在代码生成领域的竞争愈发激烈，一个无污染、高复杂度、验证可靠的基准显得尤为重要。DeepSWE 的推出，有望推动整个行业从“刷榜”转向真正的能力提升，让 AI 编程助手更好地服务于开发者。

DeepSWE 基准：为长周期编程智能体打造的无污染评估新标准

为什么需要一个新的基准？

DeepSWE 的四大核心优势

排行榜上的显著差异

对行业的影响与展望

延伸阅读

相关资讯