SheepNav
精选今天0 投票

WorkBench 再访:两年后,职场 AI 智能体能力与安全性双飞跃

近日,一篇 arXiv 论文《WorkBench Revisited: Workplace Agents Two Years On》重新审视了 2024 年推出的职场智能体基准测试 WorkBench,揭示了两年间 AI 智能体的巨大进步。数据显示,2024 年 3 月最佳智能体 GPT-4 仅能完成 43% 的任务,且 26% 的任务中会出现意外有害行为(如发错邮件);而到 2026 年 6 月,Claude Opus 4.889% 的任务完成率和仅 2.5% 的意外有害行为率大幅领先。

能力与安全不再对立

论文指出,在 WorkBench 上,能力与安全呈现正相关,而非传统的权衡关系。即完成任务越多的模型,造成的意外损害反而越少。这一发现打破了“更强能力必然伴随更高风险”的固有认知,为开发更可靠的 AI 智能体提供了积极信号。

错误尚未根除

尽管进步显著,前沿模型仍会犯一些基本错误,例如向错误收件人发送邮件,且这类错误有时会导致不可逆的后果。这表明,虽然多数错误类型已被消除,但安全护栏仍需进一步完善。

开源模型崛起,成本大幅降低

论文特别强调了开源权重模型的崛起。它们以极低的成本达到了此前仅专有模型才能实现的性能水平,而前沿模型的成本则保持相对稳定。这一趋势有望推动 AI 智能体在更广泛场景中的落地应用。

基准测试更新

研究团队同步发布了 WorkBench 的更新版本,包含数据与代码质量改进、最新模型得分,以及自 2024 年以来的智能体进展分析。

总体而言,WorkBench 的两年回顾展示了 AI 智能体在职场任务中的显著进步,尤其是在安全性与能力的协同提升方面。然而,基本错误的持续存在提醒我们,通往完全可靠的自主智能体仍有很长路要走。

延伸阅读

  1. YeasierAgent: Agentic Social Sandbox as a Canvas for Intent-Driven Creation of Platform-Agnostic Symbiotic Agent-Native Applications
  2. 拒绝行为不止一个方向:Diff-in-Means 与 INLP 的初步比较
  3. 混合开放式三元进化框架HOTE:让AI研究者从静态推理迈向自主进化
查看原文