VeGAS：验证器引导的具身智能体动作选择，性能提升36%

引言

具身智能体（Embodied Agent）要在真实世界中完成复杂任务，一直是人工智能领域的核心挑战。多模态大语言模型（MLLM）通过强大的视觉-语言知识和思维链（CoT）推理，显著提升了这类智能体的推理能力，但在面对分布外（out-of-distribution）的困难场景时仍显脆弱。针对这一问题，来自多所机构的研究者在 CVPR 2026 会议上提出了一种名为 VeGAS（Verifier-Guided Action Selection） 的测试时框架，通过引入显式的验证步骤来提升 MLLM 基座智能体的鲁棒性。

核心思路：先采样，后验证

传统 MLLM 智能体在推理时通常直接解码一个动作并执行，而 VeGAS 则采取“三思而后行”的策略：在推理阶段，智能体首先生成一个候选动作的集成（ensemble），然后利用一个生成式验证器（generative verifier） 从中挑选出最可靠的动作，再付诸执行。整个过程无需修改底层的策略模型，仅在测试时增加验证环节。

关键发现：现成 MLLM 做验证器效果不佳

研究团队发现，直接使用现成的 MLLM 作为验证器并不能带来性能提升。为此，他们提出了一种 LLM 驱动的数据合成策略，自动构建包含多样化失败案例的课程式训练数据，让验证器在训练阶段就接触到丰富的潜在错误分布，从而学会更精准地甄别候选动作的质量。

实验效果：最高提升 36%

在 Habitat 和 ALFRED 两个具身推理基准环境上的实验表明，VeGAS 能够持续提升智能体的泛化能力。在最具挑战性的多目标、长时域任务中，相比强 CoT 基线，VeGAS 取得了高达 36% 的相对性能提升。

行业意义

VeGAS 的提出为增强 MLLM 基座具身智能体的可靠性提供了一条轻量级、可插拔的路径。它不改变原有模型结构，而是通过“验证-选择”机制弥补了纯 CoT 推理在复杂、非典型场景下的短板。这一思路与当前 AI 安全领域倡导的“可验证推理”趋势不谋而合，有望推动具身智能在机器人、自动驾驶等高风险场景中的实际落地。

小结

VeGAS 通过“先采样、后验证”的测试时框架，有效提升了 MLLM 基座具身智能体在分布外场景下的鲁棒性。其核心贡献包括：验证器引导的动作选择机制、基于 LLM 的数据合成策略，以及在两个主流基准上的显著性能提升。未来，如何进一步降低验证器的计算开销，并将其扩展到更多模态和更复杂的任务中，将是值得关注的方向。

三思而后行：验证器引导的具身智能体动作选择新方法

引言

核心思路：先采样，后验证

关键发现：现成 MLLM 做验证器效果不佳

实验效果：最高提升 36%

行业意义

小结

延伸阅读

相关资讯