Evoflux：推理时进化提升紧凑AI智能体工具工作流可行性

紧凑型语言模型（LM）在成本、延迟和部署风险上具有优势，但在构建工具智能体时面临挑战：智能体不仅需要调用函数，还要从实时目录中发现工具、满足模式、维护中间依赖，并基于执行证据给出最终响应。小型规划器生成的流程图表往往在工具解析、参数验证和依赖跟踪阶段失败。

针对这一问题，来自IBM研究院和伦斯勒理工学院的研究团队提出了Evoflux，一种推理时进化搜索方法。其核心思想是将工具使用问题转化为可执行工作流的修复过程，通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝，迭代优化工作流图。

实验表现

在包含250个工具的MCP-Bench任务上，Evoflux将小型规划器的执行可行性从约3%提升至17-24%。相比之下，基于相同搜索挖掘数据的监督微调（SFT）和SFT+DPO方法表现不佳，甚至低于零样本性能；ReAct虽然能达到更高峰值，但方差和token成本也更高。

关键洞察

执行反馈是关键：Evoflux在每个推理步骤都尝试执行当前工作流，并根据执行结果调整进化方向，避免了纯格式模仿的局限。
超越蒸馏局限：传统方法依赖少量教师轨迹进行蒸馏，但难以覆盖工具目录变化时的修复行为。Evoflux通过进化搜索，在有限的教师轨迹预算下实现了更可靠的性能。
自适应机制：算法根据搜索历史动态调整变异强度和多样性，防止早熟收敛，同时保持探索效率。

行业启示

随着MCP（Model Context Protocol）等标准推动工具生态发展，紧凑型智能体在边缘设备、实时系统中的应用需求日益迫切。Evoflux证明了推理时计算可以有效弥补模型容量不足带来的规划缺陷，为低成本部署可靠智能体提供了新思路。未来，将进化搜索与轻量级规划器结合，或能成为构建鲁棒工具智能体的主流范式。

Evoflux：推理时进化可执行工具工作流，让紧凑型AI智能体更可靠

实验表现

关键洞察

行业启示

延伸阅读

相关资讯