精选今天0 投票
前沿AI能力评估新范式:从封闭基准测试走向“开放世界”
基准测试的局限与开放世界评估的崛起
长期以来,基准测试(Benchmark) 一直是衡量AI能力进步的核心工具。然而,一篇由普林斯顿大学等机构学者联合发表的最新论文指出,基准测试可能同时高估和低估AI在真实部署中的能力。原因在于,基准测试天然倾向于那些可精确指定、自动评分、易于优化、预算低且时间短的任务,而这些条件与真实世界的复杂任务相去甚远。
为此,研究团队提出了一种全新的评估范式——开放世界评估(Open-World Evaluations)。这类评估聚焦于长周期、混乱、真实世界的任务,通过小样本定性分析而非大规模自动化评分来评估AI能力。
CRUX项目:让AI自主开发iOS应用
作为这一理念的首次实践,论文介绍了 CRUX(Collaborative Research for Updating AI eXpectations) 项目,并展示了一个引人注目的案例:要求一个AI智能体自主开发并发布一款简单的iOS应用到苹果App Store。
结果令人惊讶:AI智能体在仅有一次可避免的人工干预下完成了全部任务。这暗示了AI在真实世界任务中可能具备的、尚未被基准测试捕捉到的能力。
开放世界评估的价值与挑战
开放世界评估并非要取代基准测试,而是作为互补工具,提供早期预警信号,帮助研究者预见那些可能很快变得普遍的AI能力。论文系统梳理了近年来已有的开放世界评估实践,分析了其优势和局限性,并提出了设计与报告此类评估的最佳实践建议。
- 优势:更贴近真实部署场景,能发现基准测试无法揭示的能力边界。
- 挑战:难以自动化、成本高、结果难以复现,且评估尺度需依赖人类专家判断。
对AI行业的影响
这一研究对AI安全、能力评估和政策制定具有深远意义。随着AI系统越来越多地进入现实世界,单纯依赖基准测试可能导致能力误判。开放世界评估提供了一种更全面的视角,帮助识别AI系统在复杂、开放环境中的真实行为,从而为风险管控和治理提供依据。
结语
基准测试不会消失,但开放世界评估的出现标志着AI评估进入新阶段。未来,两种方法结合使用,才能更准确地刻画前沿AI的真实能力。
