SheepNav
精选今天0 投票

OOWM:通过面向对象的程序化世界建模构建具身推理与规划新范式

在具身人工智能领域,大型语言模型(LLMs)通过思维链(CoT)提示获得了推理能力,但其依赖的线性自然语言表达方式,在应对复杂物理环境时显得力不从心。文本的灵活性优势,恰恰成为其无法明确表示状态空间、对象层次结构和因果依赖关系的短板——而这些正是机器人进行稳健规划所必需的核心要素。

OOWM(Object-Oriented World Modeling) 的提出,正是为了突破这一瓶颈。这项研究摒弃了将世界模型视为潜在向量空间的传统思路,转而从软件工程的形式化方法中汲取灵感,开创了一种全新的结构化推理框架。

核心理念:将世界定义为可执行的符号元组

OOWM 将世界模型 W 明确定义为一个符号元组 ⟨S, T⟩。其中:

  • S 代表环境状态,由 状态抽象(G_state) 来实例化。
  • T 代表状态转移逻辑,由 控制策略(G_control) 来表征,其函数形式为 T: S × A → S,即根据当前状态和动作,决定下一个状态。

这一看似抽象的定义,通过引入软件工程中广泛使用的 统一建模语言(UML) 而变得具体可操作:

  • 类图(Class Diagrams) 被用来将视觉感知“锚定”为严谨的对象层次结构,明确对象属性、关系与继承。
  • 活动图(Activity Diagrams) 则被用来将规划任务“操作化”为可执行的控制流,清晰展示动作序列、决策分支与并发过程。

技术实现:三阶段训练与隐式结构优化

为了让模型学会生成并利用这种结构化的世界模型,研究团队设计了一个创新的三阶段训练流程:

  1. 监督微调(SFT):使用标注数据,初步教会模型如何生成符合 UML 规范的世界模型描述。
  2. 组相对策略优化(GRPO):这是训练的关键。该方法的核心在于,它并不直接对模型生成的中间推理结构(如类图、活动图)进行密集的逐点奖励,而是利用最终规划结果的成败来生成奖励信号。
  3. 隐式结构优化:GRPO 利用最终结果的奖励,反向传播并隐式地优化底层面向对象的推理结构。这意味着,模型学习到的是“什么样的结构能导向成功的行动”,而非机械记忆固定模板。这种方法大大降低了对大量结构化标注数据的依赖,实现了在稀疏标注下的有效学习。

性能验证与行业意义

MRoom-30k 基准测试上的广泛评估表明,OOWM 在多个维度上显著超越了非结构化的文本基线方法:

  • 规划连贯性:基于明确对象和状态的定义,规划步骤的逻辑一致性更强。
  • 执行成功率:生成的可执行控制流能更准确地映射到真实环境动作,任务完成率更高。
  • 结构保真度:生成的世界模型在对象关系、状态转换上更符合真实世界的约束。

OOWM 的提出,标志着具身AI推理从“自由文本描述”向“程序化工程规范”迈进的重要一步。 它将软件工程中成熟的结构化、模块化思想引入AI推理,为开发更可靠、可解释、可泛化的具身智能体提供了新的范式。这不仅对机器人学、自动驾驶等领域有直接的应用价值,也为探索AI如何构建并利用对物理世界的内部“心智模型”开辟了新的技术路径。

延伸阅读

  1. 即将发布:当前AI领域最重要的10大趋势
  2. “你体内有尼安德特人基因”的流行观点,可能是个统计假象
  3. 屏幕上的图灵测试:为移动GUI智能体“拟人化”设立新基准
查看原文