前沿AI评估新范式：开放世界评估与CRUX项目

基准测试的局限与开放世界评估的崛起

长期以来，基准测试（Benchmark） 一直是衡量AI能力进步的核心工具。然而，一篇由普林斯顿大学等机构学者联合发表的最新论文指出，基准测试可能同时高估和低估AI在真实部署中的能力。原因在于，基准测试天然倾向于那些可精确指定、自动评分、易于优化、预算低且时间短的任务，而这些条件与真实世界的复杂任务相去甚远。

为此，研究团队提出了一种全新的评估范式——开放世界评估（Open-World Evaluations）。这类评估聚焦于长周期、混乱、真实世界的任务，通过小样本定性分析而非大规模自动化评分来评估AI能力。

CRUX项目：让AI自主开发iOS应用

作为这一理念的首次实践，论文介绍了 CRUX（Collaborative Research for Updating AI eXpectations） 项目，并展示了一个引人注目的案例：要求一个AI智能体自主开发并发布一款简单的iOS应用到苹果App Store。

结果令人惊讶：AI智能体在仅有一次可避免的人工干预下完成了全部任务。这暗示了AI在真实世界任务中可能具备的、尚未被基准测试捕捉到的能力。

开放世界评估的价值与挑战

开放世界评估并非要取代基准测试，而是作为互补工具，提供早期预警信号，帮助研究者预见那些可能很快变得普遍的AI能力。论文系统梳理了近年来已有的开放世界评估实践，分析了其优势和局限性，并提出了设计与报告此类评估的最佳实践建议。

优势：更贴近真实部署场景，能发现基准测试无法揭示的能力边界。
挑战：难以自动化、成本高、结果难以复现，且评估尺度需依赖人类专家判断。

对AI行业的影响

这一研究对AI安全、能力评估和政策制定具有深远意义。随着AI系统越来越多地进入现实世界，单纯依赖基准测试可能导致能力误判。开放世界评估提供了一种更全面的视角，帮助识别AI系统在复杂、开放环境中的真实行为，从而为风险管控和治理提供依据。

结语

基准测试不会消失，但开放世界评估的出现标志着AI评估进入新阶段。未来，两种方法结合使用，才能更准确地刻画前沿AI的真实能力。

前沿AI能力评估新范式：从封闭基准测试走向“开放世界”

基准测试的局限与开放世界评估的崛起

CRUX项目：让AI自主开发iOS应用

开放世界评估的价值与挑战

对AI行业的影响

结语

延伸阅读

相关资讯