精选今天0 投票
GPTNT:用《拆弹专家》考验多智能体实时协作,AI全军覆没
一句话快讯:最新基准测试GPTNT基于合作游戏《Keep Talking and Nobody Explodes》设计,要求两个多模态智能体在实时压力下通过不对称信息协作拆弹。结果显示,当前最强AI无一成功,而人类玩家轻松过关。该测试揭示了AI在状态追踪、时效行动、歧义处理和错误恢复上的严重短板。核心发现:所有测试模型(包括闭源和开源)在实时拆弹任务中全部失败,暴露出协作能力的系统性缺失。背景与设计:现有AI评测多聚焦单一能力,但真实协作需同时应对时间压力、信息不对称和不完美沟通。GPTNT将两个智能体置于不同角色:一个能看到并操作炸弹但无说明书,另一个有说明书但无法接触炸弹,两者必须通过实时语音沟通完成拆弹。任务采用程序化生成谜题,且可选择性移除手册或伙伴来隔离模型依赖。测试结果:在实时设定下,所有模型均无法在时限内拆解任何炸弹。相比之下,人类玩家通过明确分工、快速确认和错误纠正能稳定成功。深层分析:通过控制实验,研究团队定位了四个关键缺陷:1)状态追踪失败:模型难以记住当前操作步骤和炸弹状态;2)时效压力下效率低:对话冗长,行动迟缓;3)歧义处理弱:对模糊描述无法请求澄清或推断;4)错误恢复差:一旦出错,无法从失败中学习并调整策略。未来意义:GPTNT作为可演进的基准,将随模型能力提升而更新,避免被一次性破解。它提醒业界:多模态智能体的协作能力远未达到实用水平,实时交互与信息不对称仍是核心挑战。