SheepNav
精选27天前0 投票

通过逐步PDDL模拟实现智能LLM规划:一项实证研究

智能体规划新范式:LLM能否挑战经典符号方法?

任务规划——即从初始状态出发,通过一系列动作序列达成目标——是自主机器人系统的核心能力要求。长期以来,符号规划方法(如PDDL)在这一领域占据主导地位。但随着大语言模型(LLM)能力的飞速发展,一个关键问题浮现:LLM能否作为可行的规划器,与经典方法并肩作战?

近日,一项发布于arXiv的研究《Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation》对此进行了深入探索。研究团队提出了 PyPDDLEngine——一个开源的规划域定义语言(PDDL)模拟引擎。其核心创新在于,通过模型上下文协议(MCP)接口,将规划操作暴露为LLM的工具调用。

从“一次性输出”到“交互式搜索”

传统LLM规划往往要求模型一次性生成完整的动作序列,这在高复杂度任务中容易出错。PyPDDLEngine引入了一种智能体式(agentic)规划范式:LLM不再需要预先承诺整个计划,而是扮演一个交互式搜索策略的角色。具体流程如下:

  1. LLM每次只选择一个动作。
  2. 引擎执行该动作,并反馈新的状态。
  3. LLM基于新状态决定下一步行动。
  4. 过程中,LLM可以随时“重置”并重试。

这种逐步模拟的方式,让LLM能够像在真实环境中“试错”一样进行规划,更贴近人类解决问题的方式。

实证对比:LLM vs. 经典规划器

为了量化评估,研究团队在102个国际规划竞赛(IPC)的积木世界(Blocksworld)实例上,设定了统一的180秒时间预算,对比了四种方法:

  • 经典基线:Fast Downward规划器的两种配置(lama-first 和 seq-sat-lama-2011)。
  • 直接LLM规划:使用Claude Haiku 4.5模型直接生成完整计划。
  • 智能体式LLM规划:通过PyPDDLEngine与Claude Haiku 4.5交互完成。

关键结果如下:

  • 成功率:经典规划器Fast Downward表现最佳,达到85.3% 的成功率。直接LLM规划为63.7%,而智能体式LLM规划为66.7%。后者相比前者有3个百分点的稳定但有限的优势。
  • 成本:智能体式方法的代价是更高的计算开销,其每个解决方案的token成本是直接方法的5.7倍
  • 计划长度:一个有趣的发现是,在大多数共同解决的难度区块中,两种LLM方法生成的计划都比seq-sat-lama-2011更短,尽管后者具有迭代质量改进机制。研究人员认为,这可能更多源于LLM对训练数据中类似解决方案的“回忆”,而非真正可泛化的规划能力。

深度洞察:反馈的性质决定智能体增益

这项研究最重要的洞见或许不在于性能的微小提升,而在于揭示了环境反馈的性质如何深刻影响智能体式方法的有效性

  • 编码智能体为何成功? 在代码生成等任务中,智能体(如Devin、SWE-agent)能从编译器错误、测试失败中获得外部锚定的、明确的反馈信号。这些信号是客观的、二元的(对/错),能有效指导修正。
  • PDDL规划智能体的挑战? 在PDDL逐步模拟中,反馈是自我评估的。引擎只告诉智能体“状态变成了A”,但“状态A是否离目标更近?”、“当前选择是否最优?”——这些判断需要智能体自己做出,缺乏外部验证。这就像一个人蒙眼下棋,只能靠自己记忆棋盘,难度陡增。

结论与展望

研究表明,将LLM作为交互式规划智能体在技术上是可行的,并在特定基准上带来了小幅但一致的性能提升。然而,这种“智能体增益”并非放之四海而皆准,它高度依赖于任务能否提供清晰、外部锚定的反馈信号。

对于PDDL规划这类缺乏强外部验证的任务,单纯依靠逐步状态反馈可能不足以充分释放LLM的规划潜力。未来的研究方向可能包括:

  • 设计更丰富的反馈机制,为LLM提供部分目标达成度的评估或启发式提示。
  • 探索混合架构,结合符号规划器的可靠性与LLM的灵活性。
  • 进一步研究LLM在规划任务中,其表现究竟在多大程度上依赖于数据记忆,又在多大程度上体现了真正的推理与泛化能力。

这项工作为理解LLM在复杂决策任务中的角色迈出了坚实的一步,也提醒业界,“智能体化”并非万能钥匙,其成功与否,与任务本身提供的“教学信号”质量息息相关

延伸阅读

  1. Donut Browser:开源反检测浏览器,支持无限用户配置文件
  2. Klick AI 相机助手:实时 AI 相机,现场指导构图
  3. Vista:macOS 本该内置的图片查看器
查看原文