基准测试饱和后如何评估AI性能？CORE-Bench案例研究

在 AI 研究领域，当一个基准测试的准确率接近饱和时，通常的做法是将其退役并用更难的版本替代。然而，一篇来自 arXiv 的最新论文（arXiv:2606.26158）指出，这种做法过度关注准确率，忽略了评估智能体性能的其他六个关键维度：构念效度问题（如捷径）、分布外泛化能力、效率、可靠性、模型与脚手架的相对重要性，以及人机协作带来的提升。

该研究以 CORE-Bench Hard 为案例——这是一个用于评估科学代码计算可复现性的基准。作者发现，即使在准确率饱和后，从这些维度衡量智能体仍能获得有意义的见解。

首先，研究者揭示了 CORE-Bench Hard 中存在的构念效度威胁，这些威胁在能力较弱的智能体上难以预见。为此，他们推出了改进版基准 CORE-Bench v1.1 以及一个分布外任务集 CORE-Bench OOD。

其次，尽管准确率饱和，CORE-Bench v1.1 在测量效率、可靠性、模型性能和脚手架性能方面仍然有效。

最后，团队进行了一项小规模随机实验，测量真实世界计算可复现性任务中的人机协作提升。结果显示，协作带来了约两倍的显著加速——这一数字可能被低估，因为五分之一的人类单独复现因时间限制而未能完成。

该研究的贡献在于提出了一种比主流以准确率为中心的评估范式更严谨的替代方案。对于 AI 社区而言，这意味着基准测试的生命周期不应在准确率饱和时终结，而应转向更丰富的性能评估维度。

基准测试饱和之后：CORE-Bench 案例研究揭示 AI 性能评估新维度

延伸阅读

相关资讯