Traversal-as-Policy:将日志蒸馏为门控行为树,打造可外部化、可验证的安全高效AI代理策略
当前,基于大型语言模型(LLM)的自主智能代理在复杂任务中面临挑战:其长期策略隐含在模型权重和冗长的交互记录中,难以显式控制;安全机制往往是事后补救,而非内置保障。针对这些问题,一项名为 Traversal-as-Policy 的新研究提出了一种创新方法:将智能体在沙盒环境中的执行日志“蒸馏”成一个单一的、可执行的 门控行为树(Gated Behavior Tree, GBT),并将树的遍历过程本身作为核心控制策略,而非依赖模型的无约束生成。
核心思想:从“生成”到“遍历”的策略转变
传统LLM代理通过不断生成文本来决定下一步动作,这导致策略不透明、难以验证,且容易在长程任务中累积错误或产生不安全行为。Traversal-as-Policy 的核心转变在于,当任务处于其覆盖范围内时,控制权从LLM的“生成”转移到一个预构建的GBT的“遍历”上。
这个GBT是如何构建的呢?研究团队从智能体在OpenHands沙盒环境中成功完成任务的轨迹日志里,挖掘并提炼出一个个 “状态-动作宏(state-conditioned action macro)” 。每个宏封装了一个在特定状态下应执行的动作序列。更重要的是,系统会进行“合并检查”,确保宏的合理性和一致性。
安全与鲁棒性的双重保障:门控与恢复机制
安全是该方法的重中之重。研究不仅从成功轨迹中学习,还特别关注那些导致不安全结果的失败轨迹。从这些不安全轨迹中识别出的动作宏,会被附加上确定性的预执行门控(pre-execution gates)。这些门控基于结构化的工具上下文和有限的历史记录进行判断,就像一个严格的“安检员”,阻止智能体进入已知的危险状态。
门控的规则并非一成不变,而是遵循 “基于经验的单调性” 原则进行更新。这意味着,一旦某个上下文被判定为不安全并拒绝,系统将“记住”这个决定,未来在相同或更危险的上下文中,该动作宏将永远无法被再次执行,从而杜绝安全漏洞的复发。
在运行时,一个轻量级的遍历器负责工作:它首先将基础LLM模型表达的意图与GBT子节点中的动作宏进行匹配。然后,它会在全局和节点本地门控的双重监督下,一次执行一个宏。如果执行过程“卡住”(例如,遇到未覆盖的情况或临时故障),系统不会盲目尝试或重启,而是启动 “风险感知的最短路径恢复” 机制,寻找一条返回可行“成功叶子节点”的路径,确保任务能够继续推进或安全终止。
性能与效率的显著提升
该方法带来的好处是立体的:策略外部化、可验证、更安全、更鲁棒,同时成本更低。
- 取代冗长记录:智能体遍历GBT的路径会形成一个紧凑的“脊柱记忆”,这完全取代了传统需要反复回放的大量交互记录(transcript replay),大大提升了效率。
- 综合评测表现优异:研究在统一的OpenHands沙盒中,对超过15个涵盖软件工程、网页操作、推理以及安全/安防的基准测试进行了评估。结果显示,GBT方法在提升任务成功率的同时,能将违规行为驱向于零,并显著降低成本。
关键数据佐证
在SWE-bench Verified(软件工程基准,Protocol A,500个问题)上:
- GBT-SE 将成功率从 34.6% 大幅提升至 73.6%。
- 将违规率从 2.8% 降至 0.2%。
- 令牌(Token)使用量从 208k 减少到 126k,字符使用量从 820k 减少到 490k。
更令人印象深刻的是模型效率的提升:使用同一个蒸馏出的GBT,一个较小的 8B参数执行器 在多个基准上的表现实现了飞跃:
- 在 SWE-bench Verified 上,成功率从 14.0% 提升至 58.8%。
- 在 WebArena(网页操作基准)上,成功率从 9.1% 提升至 37.3%。
这证明了GBT作为一种“策略编译器”的价值,它能让较小、较便宜的模型执行出接近或超越更大模型在传统范式下的复杂任务。
行业意义与展望
Traversal-as-Policy 的研究为AI代理的发展提供了一个重要的新方向。它试图解决LLM代理在迈向实际应用过程中的几个核心痛点:安全性、可解释性、确定性和成本。通过将隐含的策略显式化为可检查、可验证的行为树,并为关键节点加上“安全锁”,它为构建真正可靠、可用于高风险场景(如金融交易、工业控制、关键软件运维)的AI代理奠定了方法论基础。
未来,如何自动化地构建、更新和扩展这些门控行为树,以及如何将其与LLM的创造性、泛化能力更灵活地结合,将是值得探索的方向。这项研究标志着AI代理正从“黑盒生成”迈向“白盒可控”的重要一步。
