内化未来：LLM智能体世界模型规划新范式

大型语言模型（LLM）智能体在序列决策中展现了强大能力，但在长周期任务中仍本质上是“反应式”的——它们缺乏人类那种在行动前就进行“假设推演”的能力。最新arXiv论文《Internalizing the Future: A Unified Agentic Training Paradigm for World Model Planning》提出了一种全新的训练范式，旨在让LLM智能体“内化”一种内部世界模型，从而能够像人类一样模拟未来结果并据此规划。

核心挑战：格式与能力的错位

研究者指出，现有方法尝试通过在后训练阶段让模型模仿“前瞻性轨迹”来学习规划，但这往往流于表面——模型只是机械地复现了“先预测再行动”的文本格式，却并未真正具备预测未来的因果能力。作者将这种现象称为 “格式-能力鸿沟”：模型学会了说话的格式，却没有学会预测的能力。

解决方案：三阶段训练范式

为了弥合这一鸿沟，论文提出了一套 三阶段训练流程：

世界模型智能体中期训练（WM-AMT）：首先通过专门的中期训练，向策略网络中注入潜在的预测能力。这一阶段不强调输出格式，而是专注于让模型学会在隐空间中模拟状态演化和结果评估。
格式引出监督微调（FE-SFT）：在能力已初步具备的基础上，通过监督微调将这种内化能力“引出”为结构化的文本输出——包括对未来状态的逐步描述以及类似Q值的计划成功估计。
前瞻条件强化学习（FC-RL）：最后，利用强化学习对生成的模拟进行校准，使其预测更加准确、实用，并提升规划决策的整体效用。

实验验证与意义

在搜索和数学推理两类任务上，该方法显著优于各种基线。结果表明，要让LLM智能体真正拥有“世界模型”，关键在于先构建预测能力，再赋予其输出格式——顺序不能颠倒。

这一研究不仅为智能体规划提供了一条新路径，也提示我们：语言模型的“思考”与“输出”之间，存在需要刻意设计的桥梁。未来，具备内化世界模型的智能体或将在机器人控制、自动化科研、复杂游戏策略等领域展现出更接近人类的规划能力。

内化未来：一种统一的世界模型规划智能体训练范式

核心挑战：格式与能力的错位

解决方案：三阶段训练范式

实验验证与意义

延伸阅读

相关资讯