精选今天0 投票
AI智能体能否综合科学结论?新基准测试揭示:最高F1仅0.337
研究人员推出 SciConBench 大规模实时基准测试,评估 AI 在开放域科学结论综合中的能力。测试包含 9,110 个问题及专家撰写的系统综述结论,采用自动评估流水线将结论分解为原子事实,通过事实精确率和召回率衡量正确性与全面性。为防范数据泄露,团队还开发了 SciConHarness 洁净室评估框架,限制代理仅通过受控网络交互获取信息。对 8 个前沿模型及深度研究代理的评估显示,在洁净室设置下最佳代理的事实 F1 仅 0.337,且洁净室环境下的性能普遍低于无约束评估,表明数据泄露可能虚高了模型真实能力。此外,对 Google AI Overview、OpenEvidence 等面向消费者的代理审计发现,它们常常生成不完整甚至矛盾的结论。研究指出,可靠的科学结论综合仍是开放挑战,洁净室评估对衡量开放域 AI 代理至关重要。