AI智能体综合科学结论能力评估：新基准F1仅0.337

研究人员推出 SciConBench 大规模实时基准测试，评估 AI 在开放域科学结论综合中的能力。测试包含 9,110 个问题及专家撰写的系统综述结论，采用自动评估流水线将结论分解为原子事实，通过事实精确率和召回率衡量正确性与全面性。为防范数据泄露，团队还开发了 SciConHarness 洁净室评估框架，限制代理仅通过受控网络交互获取信息。对 8 个前沿模型及深度研究代理的评估显示，在洁净室设置下最佳代理的事实 F1 仅 0.337，且洁净室环境下的性能普遍低于无约束评估，表明数据泄露可能虚高了模型真实能力。此外，对 Google AI Overview、OpenEvidence 等面向消费者的代理审计发现，它们常常生成不完整甚至矛盾的结论。研究指出，可靠的科学结论综合仍是开放挑战，洁净室评估对衡量开放域 AI 代理至关重要。

AI智能体能否综合科学结论？新基准测试揭示：最高F1仅0.337

延伸阅读

相关资讯