谷歌AI概览功能准确性测试：90%准确率仍存数百万错误

自2024年推出以来，谷歌的AI概览功能（AI Overviews）——由Gemini驱动的搜索机器人，位于搜索结果页顶部——一直因准确性参差不齐而备受用户诟病。尽管它在不断改进，通常能提供正确答案，但《纽约时报》的最新分析揭示了一个严峻现实：其准确率仅为90%。这意味着每10个AI答案中就有1个是错误的，换算成谷歌庞大的搜索量，相当于每分钟输出数十万个错误信息，每天总计数千万条。

测试方法与结果

《纽约时报》在初创公司Oumi的协助下进行了这项分析。Oumi使用名为SimpleQA的评估工具来测试AI概览功能的事实准确性。SimpleQA由OpenAI于2024年发布，包含超过4000个可验证答案的问题列表，常用于评估Gemini等生成式模型。

测试过程显示：

在Gemini 2.5模型时期，AI概览功能的准确率为85%。
随着Gemini 3更新后重新测试，准确率提升至91%。

然而，即使91%的准确率听起来不错，但考虑到谷歌每天处理数十亿次搜索，微小的错误率也会放大为海量误导信息。例如，当被问及“鲍勃·马利故居成为博物馆的日期”时，AI概览引用了三个页面，其中两个未提及日期，第三个维基百科页面列出了两个矛盾的年份，而AI却自信地选择了错误答案。另一个例子是，在询问“马友友被引入古典音乐名人堂的日期”时，AI引用了列出马友友入选的网站，却声称“古典音乐名人堂不存在”。

谷歌的回应与行业背景

谷歌对SimpleQA测试持保留态度。发言人Ned Adriance向《纽约时报》表示，谷歌认为SimpleQA包含不准确信息，其模型评估更依赖名为SimpleQA Verified的类似测试，该测试使用经过更严格审核的较小问题集。这反映了AI行业在评估工具标准化方面的挑战——不同基准可能导致截然不同的结论。

在AI搜索竞争白热化的当下，微软必应等对手也在积极整合AI功能，准确性成为用户信任的关键。AI概览功能的错误不仅可能传播虚假信息，还可能影响谷歌的核心搜索业务信誉。

深度思考：90%准确率足够吗？

从技术角度看，90%以上的准确率在AI领域已属不错，尤其是对于生成式模型处理开放域问题。但搜索场景的特殊性在于：

规模效应：即使错误率低至1%，在谷歌的搜索量下也会产生巨大影响。
用户期望：用户通常默认搜索结果可靠，AI错误可能被误认为事实。
责任归属：当AI提供错误信息时，责任应由开发者、用户还是第三方承担？

谷歌正在通过迭代模型更新来改进，但平衡速度与准确性仍是长期挑战。未来，更精细的评估框架、实时事实核查机制以及用户教育可能成为解决方案的一部分。

总之，AI概览功能的测试结果提醒我们：在追求AI普及的同时，必须正视其局限性，否则“便捷”可能代价高昂。

测试显示：谷歌AI概览功能每小时制造数百万谎言，90%准确率够用吗？

测试方法与结果

谷歌的回应与行业背景

深度思考：90%准确率足够吗？

延伸阅读

相关资讯