
测试显示:谷歌AI概览功能每小时制造数百万谎言,90%准确率够用吗?
自2024年推出以来,谷歌的AI概览功能(AI Overviews)——由Gemini驱动的搜索机器人,位于搜索结果页顶部——一直因准确性参差不齐而备受用户诟病。尽管它在不断改进,通常能提供正确答案,但《纽约时报》的最新分析揭示了一个严峻现实:其准确率仅为90%。这意味着每10个AI答案中就有1个是错误的,换算成谷歌庞大的搜索量,相当于每分钟输出数十万个错误信息,每天总计数千万条。
测试方法与结果
《纽约时报》在初创公司Oumi的协助下进行了这项分析。Oumi使用名为SimpleQA的评估工具来测试AI概览功能的事实准确性。SimpleQA由OpenAI于2024年发布,包含超过4000个可验证答案的问题列表,常用于评估Gemini等生成式模型。
测试过程显示:
- 在Gemini 2.5模型时期,AI概览功能的准确率为85%。
- 随着Gemini 3更新后重新测试,准确率提升至91%。
然而,即使91%的准确率听起来不错,但考虑到谷歌每天处理数十亿次搜索,微小的错误率也会放大为海量误导信息。例如,当被问及“鲍勃·马利故居成为博物馆的日期”时,AI概览引用了三个页面,其中两个未提及日期,第三个维基百科页面列出了两个矛盾的年份,而AI却自信地选择了错误答案。另一个例子是,在询问“马友友被引入古典音乐名人堂的日期”时,AI引用了列出马友友入选的网站,却声称“古典音乐名人堂不存在”。
谷歌的回应与行业背景
谷歌对SimpleQA测试持保留态度。发言人Ned Adriance向《纽约时报》表示,谷歌认为SimpleQA包含不准确信息,其模型评估更依赖名为SimpleQA Verified的类似测试,该测试使用经过更严格审核的较小问题集。这反映了AI行业在评估工具标准化方面的挑战——不同基准可能导致截然不同的结论。
在AI搜索竞争白热化的当下,微软必应等对手也在积极整合AI功能,准确性成为用户信任的关键。AI概览功能的错误不仅可能传播虚假信息,还可能影响谷歌的核心搜索业务信誉。
深度思考:90%准确率足够吗?
从技术角度看,90%以上的准确率在AI领域已属不错,尤其是对于生成式模型处理开放域问题。但搜索场景的特殊性在于:
- 规模效应:即使错误率低至1%,在谷歌的搜索量下也会产生巨大影响。
- 用户期望:用户通常默认搜索结果可靠,AI错误可能被误认为事实。
- 责任归属:当AI提供错误信息时,责任应由开发者、用户还是第三方承担?
谷歌正在通过迭代模型更新来改进,但平衡速度与准确性仍是长期挑战。未来,更精细的评估框架、实时事实核查机制以及用户教育可能成为解决方案的一部分。
总之,AI概览功能的测试结果提醒我们:在追求AI普及的同时,必须正视其局限性,否则“便捷”可能代价高昂。

