SheepNav
精选今天0 投票

前沿AI能力评估新范式:从封闭基准测试走向“开放世界”

基准测试的局限与开放世界评估的崛起

长期以来,基准测试(Benchmark) 一直是衡量AI能力进步的核心工具。然而,一篇由普林斯顿大学等机构学者联合发表的最新论文指出,基准测试可能同时高估和低估AI在真实部署中的能力。原因在于,基准测试天然倾向于那些可精确指定、自动评分、易于优化、预算低且时间短的任务,而这些条件与真实世界的复杂任务相去甚远。

为此,研究团队提出了一种全新的评估范式——开放世界评估(Open-World Evaluations)。这类评估聚焦于长周期、混乱、真实世界的任务,通过小样本定性分析而非大规模自动化评分来评估AI能力。

CRUX项目:让AI自主开发iOS应用

作为这一理念的首次实践,论文介绍了 CRUX(Collaborative Research for Updating AI eXpectations) 项目,并展示了一个引人注目的案例:要求一个AI智能体自主开发并发布一款简单的iOS应用到苹果App Store

结果令人惊讶:AI智能体在仅有一次可避免的人工干预下完成了全部任务。这暗示了AI在真实世界任务中可能具备的、尚未被基准测试捕捉到的能力。

开放世界评估的价值与挑战

开放世界评估并非要取代基准测试,而是作为互补工具,提供早期预警信号,帮助研究者预见那些可能很快变得普遍的AI能力。论文系统梳理了近年来已有的开放世界评估实践,分析了其优势和局限性,并提出了设计与报告此类评估的最佳实践建议

  • 优势:更贴近真实部署场景,能发现基准测试无法揭示的能力边界。
  • 挑战:难以自动化、成本高、结果难以复现,且评估尺度需依赖人类专家判断。

对AI行业的影响

这一研究对AI安全、能力评估和政策制定具有深远意义。随着AI系统越来越多地进入现实世界,单纯依赖基准测试可能导致能力误判。开放世界评估提供了一种更全面的视角,帮助识别AI系统在复杂、开放环境中的真实行为,从而为风险管控和治理提供依据。

结语

基准测试不会消失,但开放世界评估的出现标志着AI评估进入新阶段。未来,两种方法结合使用,才能更准确地刻画前沿AI的真实能力。

延伸阅读

  1. 今日下载:编程的未来、“类固醇奥运会”与AI驱动的科学
  2. Google I/O 揭示:AI 驱动科学的路径正在转变
  3. 增强运动会:2026年“长寿狂热”下的另类体育实验
查看原文