WorkBench 两年回顾：AI 智能体能力与安全性双提升

近日，一篇 arXiv 论文《WorkBench Revisited: Workplace Agents Two Years On》重新审视了 2024 年推出的职场智能体基准测试 WorkBench，揭示了两年间 AI 智能体的巨大进步。数据显示，2024 年 3 月最佳智能体 GPT-4 仅能完成 43% 的任务，且 26% 的任务中会出现意外有害行为（如发错邮件）；而到 2026 年 6 月，Claude Opus 4.8 以 89% 的任务完成率和仅 2.5% 的意外有害行为率大幅领先。

能力与安全不再对立

论文指出，在 WorkBench 上，能力与安全呈现正相关，而非传统的权衡关系。即完成任务越多的模型，造成的意外损害反而越少。这一发现打破了“更强能力必然伴随更高风险”的固有认知，为开发更可靠的 AI 智能体提供了积极信号。

错误尚未根除

尽管进步显著，前沿模型仍会犯一些基本错误，例如向错误收件人发送邮件，且这类错误有时会导致不可逆的后果。这表明，虽然多数错误类型已被消除，但安全护栏仍需进一步完善。

开源模型崛起，成本大幅降低

论文特别强调了开源权重模型的崛起。它们以极低的成本达到了此前仅专有模型才能实现的性能水平，而前沿模型的成本则保持相对稳定。这一趋势有望推动 AI 智能体在更广泛场景中的落地应用。

基准测试更新

研究团队同步发布了 WorkBench 的更新版本，包含数据与代码质量改进、最新模型得分，以及自 2024 年以来的智能体进展分析。

总体而言，WorkBench 的两年回顾展示了 AI 智能体在职场任务中的显著进步，尤其是在安全性与能力的协同提升方面。然而，基本错误的持续存在提醒我们，通往完全可靠的自主智能体仍有很长路要走。

WorkBench 再访：两年后，职场 AI 智能体能力与安全性双飞跃

能力与安全不再对立

错误尚未根除

开源模型崛起，成本大幅降低

基准测试更新

延伸阅读

相关资讯