三思而后行:验证器引导的具身智能体动作选择新方法
引言
具身智能体(Embodied Agent)要在真实世界中完成复杂任务,一直是人工智能领域的核心挑战。多模态大语言模型(MLLM)通过强大的视觉-语言知识和思维链(CoT)推理,显著提升了这类智能体的推理能力,但在面对分布外(out-of-distribution)的困难场景时仍显脆弱。针对这一问题,来自多所机构的研究者在 CVPR 2026 会议上提出了一种名为 VeGAS(Verifier-Guided Action Selection) 的测试时框架,通过引入显式的验证步骤来提升 MLLM 基座智能体的鲁棒性。
核心思路:先采样,后验证
传统 MLLM 智能体在推理时通常直接解码一个动作并执行,而 VeGAS 则采取“三思而后行”的策略:在推理阶段,智能体首先生成一个候选动作的集成(ensemble),然后利用一个生成式验证器(generative verifier) 从中挑选出最可靠的动作,再付诸执行。整个过程无需修改底层的策略模型,仅在测试时增加验证环节。
关键发现:现成 MLLM 做验证器效果不佳
研究团队发现,直接使用现成的 MLLM 作为验证器并不能带来性能提升。为此,他们提出了一种 LLM 驱动的数据合成策略,自动构建包含多样化失败案例的课程式训练数据,让验证器在训练阶段就接触到丰富的潜在错误分布,从而学会更精准地甄别候选动作的质量。
实验效果:最高提升 36%
在 Habitat 和 ALFRED 两个具身推理基准环境上的实验表明,VeGAS 能够持续提升智能体的泛化能力。在最具挑战性的多目标、长时域任务中,相比强 CoT 基线,VeGAS 取得了高达 36% 的相对性能提升。
行业意义
VeGAS 的提出为增强 MLLM 基座具身智能体的可靠性提供了一条轻量级、可插拔的路径。它不改变原有模型结构,而是通过“验证-选择”机制弥补了纯 CoT 推理在复杂、非典型场景下的短板。这一思路与当前 AI 安全领域倡导的“可验证推理”趋势不谋而合,有望推动具身智能在机器人、自动驾驶等高风险场景中的实际落地。
小结
VeGAS 通过“先采样、后验证”的测试时框架,有效提升了 MLLM 基座具身智能体在分布外场景下的鲁棒性。其核心贡献包括:验证器引导的动作选择机制、基于 LLM 的数据合成策略,以及在两个主流基准上的显著性能提升。未来,如何进一步降低验证器的计算开销,并将其扩展到更多模态和更复杂的任务中,将是值得关注的方向。