SheepNav
精选今天0 投票

Evoflux:推理时进化可执行工具工作流,让紧凑型AI智能体更可靠

紧凑型语言模型(LM)在成本、延迟和部署风险上具有优势,但在构建工具智能体时面临挑战:智能体不仅需要调用函数,还要从实时目录中发现工具、满足模式、维护中间依赖,并基于执行证据给出最终响应。小型规划器生成的流程图表往往在工具解析、参数验证和依赖跟踪阶段失败。

针对这一问题,来自IBM研究院和伦斯勒理工学院的研究团队提出了Evoflux,一种推理时进化搜索方法。其核心思想是将工具使用问题转化为可执行工作流的修复过程,通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝,迭代优化工作流图。

实验表现

在包含250个工具MCP-Bench任务上,Evoflux将小型规划器的执行可行性从约3%提升至17-24%。相比之下,基于相同搜索挖掘数据的监督微调(SFT)和SFT+DPO方法表现不佳,甚至低于零样本性能;ReAct虽然能达到更高峰值,但方差和token成本也更高。

关键洞察

  • 执行反馈是关键:Evoflux在每个推理步骤都尝试执行当前工作流,并根据执行结果调整进化方向,避免了纯格式模仿的局限。
  • 超越蒸馏局限:传统方法依赖少量教师轨迹进行蒸馏,但难以覆盖工具目录变化时的修复行为。Evoflux通过进化搜索,在有限的教师轨迹预算下实现了更可靠的性能。
  • 自适应机制:算法根据搜索历史动态调整变异强度和多样性,防止早熟收敛,同时保持探索效率。

行业启示

随着MCP(Model Context Protocol)等标准推动工具生态发展,紧凑型智能体在边缘设备、实时系统中的应用需求日益迫切。Evoflux证明了推理时计算可以有效弥补模型容量不足带来的规划缺陷,为低成本部署可靠智能体提供了新思路。未来,将进化搜索与轻量级规划器结合,或能成为构建鲁棒工具智能体的主流范式。

延伸阅读

  1. TrajGenAgent:分层LLM智能体实现高质量人类移动轨迹生成
  2. “你撒谎了吗?”:评估不同规模模型与信念验证模型体上的谎言检测器
  3. PersonaDrive:用于闭环驾驶仿真的人类风格检索增强VLA智能体
查看原文