精选今天0 投票
内化未来:一种统一的世界模型规划智能体训练范式
大型语言模型(LLM)智能体在序列决策中展现了强大能力,但在长周期任务中仍本质上是“反应式”的——它们缺乏人类那种在行动前就进行“假设推演”的能力。最新arXiv论文《Internalizing the Future: A Unified Agentic Training Paradigm for World Model Planning》提出了一种全新的训练范式,旨在让LLM智能体“内化”一种内部世界模型,从而能够像人类一样模拟未来结果并据此规划。
核心挑战:格式与能力的错位
研究者指出,现有方法尝试通过在后训练阶段让模型模仿“前瞻性轨迹”来学习规划,但这往往流于表面——模型只是机械地复现了“先预测再行动”的文本格式,却并未真正具备预测未来的因果能力。作者将这种现象称为 “格式-能力鸿沟”:模型学会了说话的格式,却没有学会预测的能力。
解决方案:三阶段训练范式
为了弥合这一鸿沟,论文提出了一套 三阶段训练流程:
- 世界模型智能体中期训练(WM-AMT):首先通过专门的中期训练,向策略网络中注入潜在的预测能力。这一阶段不强调输出格式,而是专注于让模型学会在隐空间中模拟状态演化和结果评估。
- 格式引出监督微调(FE-SFT):在能力已初步具备的基础上,通过监督微调将这种内化能力“引出”为结构化的文本输出——包括对未来状态的逐步描述以及类似Q值的计划成功估计。
- 前瞻条件强化学习(FC-RL):最后,利用强化学习对生成的模拟进行校准,使其预测更加准确、实用,并提升规划决策的整体效用。
实验验证与意义
在搜索和数学推理两类任务上,该方法显著优于各种基线。结果表明,要让LLM智能体真正拥有“世界模型”,关键在于先构建预测能力,再赋予其输出格式——顺序不能颠倒。
这一研究不仅为智能体规划提供了一条新路径,也提示我们:语言模型的“思考”与“输出”之间,存在需要刻意设计的桥梁。未来,具备内化世界模型的智能体或将在机器人控制、自动化科研、复杂游戏策略等领域展现出更接近人类的规划能力。