AI基准测试失效？人机协同情境化评估成新方向

数十年来，人工智能的评估一直围绕着“机器能否超越人类”这一核心问题展开。从国际象棋到高等数学，从编程到论文写作，AI模型和应用的性能总是通过与人类个体完成特定任务的能力进行比较来衡量。这种框架看似诱人：在孤立问题中对比AI与人类，答案非对即错，易于标准化、比较和优化，也容易产生排名和头条新闻。

但问题在于：AI几乎从未以基准测试所设想的方式被使用。

尽管研究界和产业界已经开始改进基准测试方法，从静态测试转向更动态的评估方式，但这些创新只解决了部分问题。根本原因在于，它们仍然是在脱离真实应用场景——即人类团队和组织工作流——的情况下评估AI性能。当AI在真空中以任务级别被评估时，它实际上是在混乱、复杂的环境中使用的，通常需要与多人互动。其性能（或缺陷）往往只有在长期使用中才会显现出来。

这种错位导致我们误解AI的能力、忽视系统性风险，并误判其经济和社会后果。

从“任务表现”到“情境表现”

为了缓解这一问题，是时候从狭隘的评估方法转向新的基准体系了——我们需要评估AI系统在更长的时间跨度内，在人类团队、工作流程和组织中的表现。自2022年以来，作者通过对英国、美国、亚洲的小型企业以及医疗、人道主义、非营利和高等教育组织的研究，并结合对伦敦和硅谷领先AI设计生态系统的观察，提出了一个不同的方法：HAIC基准（Human–AI, Context-Specific Evaluation，人机协同、情境化评估）。

当AI“失败”时会发生什么？

对于政府和企业而言，AI基准分数似乎比供应商的声明更客观。它们是决定AI模型或应用是否“足够好”以进行实际部署的关键部分。想象一下，一个AI模型在最前沿的基准测试中取得了令人印象深刻的技术分数——98%的准确率、突破性的速度、引人注目的输出。基于这些结果，组织可能会决定采用该模型，投入大量资金和技术资源进行采购和集成。

然而，一旦部署，基准测试与现实表现之间的差距很快就会显现。例如，一个在标准化测试中表现出色的AI工具，在实际工作流程中可能因为与现有系统不兼容、用户交互设计不佳，或无法适应动态变化的团队需求而表现不佳。这种差距不仅造成资源浪费，还可能引发信任危机和操作风险。

构建HAIC基准的核心原则

HAIC基准强调评估AI在真实协作环境中的长期影响，而非单一任务的瞬时表现。它关注几个关键维度：

时间维度：评估AI在数周、数月甚至更长时间内的性能演变，而非单次测试。
协作维度：衡量AI如何与多人互动，促进或阻碍团队协作与决策。
组织适配性：考察AI是否融入现有工作流，是否适应组织文化和结构。
风险与韧性：识别长期使用中可能出现的系统性风险，如偏见累积、依赖过度或意外后果。

对AI行业的启示

当前AI基准的局限性反映了行业早期“技术优先”思维的遗留问题。随着AI从实验室走向广泛部署，评估体系必须同步进化。HAIC基准的提出，不仅是方法论上的调整，更是思维模式的转变：从将AI视为替代人类的工具，转向将其视为增强人类能力的协作伙伴。

对于开发者而言，这意味着在设计阶段就需要考虑真实应用场景；对于采购方，则需要更谨慎地解读基准分数，结合试点和长期评估来做决策。最终，一个更健全的评估体系将有助于推动AI技术的负责任创新与落地，减少“纸上高分，落地失灵”的尴尬局面。

AI基准测试已失效：我们需要怎样的新评估体系？

从“任务表现”到“情境表现”

当AI“失败”时会发生什么？

构建HAIC基准的核心原则

对AI行业的启示

延伸阅读

相关资讯