GPTNT基准测试：AI在《拆弹专家》协作任务中全军覆没

一句话快讯：最新基准测试GPTNT基于合作游戏《Keep Talking and Nobody Explodes》设计，要求两个多模态智能体在实时压力下通过不对称信息协作拆弹。结果显示，当前最强AI无一成功，而人类玩家轻松过关。该测试揭示了AI在状态追踪、时效行动、歧义处理和错误恢复上的严重短板。核心发现：所有测试模型（包括闭源和开源）在实时拆弹任务中全部失败，暴露出协作能力的系统性缺失。背景与设计：现有AI评测多聚焦单一能力，但真实协作需同时应对时间压力、信息不对称和不完美沟通。GPTNT将两个智能体置于不同角色：一个能看到并操作炸弹但无说明书，另一个有说明书但无法接触炸弹，两者必须通过实时语音沟通完成拆弹。任务采用程序化生成谜题，且可选择性移除手册或伙伴来隔离模型依赖。测试结果：在实时设定下，所有模型均无法在时限内拆解任何炸弹。相比之下，人类玩家通过明确分工、快速确认和错误纠正能稳定成功。深层分析：通过控制实验，研究团队定位了四个关键缺陷：1）状态追踪失败：模型难以记住当前操作步骤和炸弹状态；2）时效压力下效率低：对话冗长，行动迟缓；3）歧义处理弱：对模糊描述无法请求澄清或推断；4）错误恢复差：一旦出错，无法从失败中学习并调整策略。未来意义：GPTNT作为可演进的基准，将随模型能力提升而更新，避免被一次性破解。它提醒业界：多模态智能体的协作能力远未达到实用水平，实时交互与信息不对称仍是核心挑战。

GPTNT：用《拆弹专家》考验多智能体实时协作，AI全军覆没

延伸阅读

相关资讯