SheepNav
精选今天0 投票

INFRAMIND:基础设施感知的多智能体编排框架

快讯:基础设施盲区是LLM多智能体系统的性能瓶颈

在共享GPU集群上运行多智能体LLM系统时,您是否遇到过这样的问题:某些模型排队严重,而同等能力的替代模型却闲置?现有编排方法从暴力集成到学习型路由器,都基于任务和模型特征选择模型与拓扑,却完全忽略了运行时基础设施状态。这种“基础设施盲区”导致资源系统性利用不足,尤其在并发负载下,延迟会沿多步流水线逐级放大。

核心方案:让整个堆栈感知基础设施

最新研究提出 INFRAMIND,一个让多智能体编排全栈感知基础设施状态的框架。其核心包含三个组件:

  • 基础设施感知规划器:根据实时系统负载和剩余预算,动态选择拓扑与角色。高负载时偏向简单图,低负载时采用更丰富的结构。
  • 基础设施感知执行器:在每个智能体步骤观察每模型队列深度、缓存利用率和响应延迟,决定调用哪个模型以及推理深度。
  • 预算感知调度器:重新排序每个模型的队列,优先处理紧急请求。

整个问题被建模为分层约束MDP,并通过强化学习端到端求解,自动平衡质量与延迟。

效果:低延迟与高SLA保障兼得

在五个基准测试中,INFRAMIND 表现亮眼:

  • 低负载下,相比基线方法,准确率提升高达7.6个百分点,同时延迟降低最多7倍
  • 高负载下,SLO(服务等级目标)达标率保持99.9%,而所有基线方法均低于50%。

这意味着,INFRAMIND 不仅能提升资源利用率,还能在高峰期提供稳定的服务质量,这对于生产环境下的多智能体应用至关重要。

行业背景:从模型选择到系统协同

当前多智能体LLM系统多关注模型能力,却忽视了底层基础设施的动态性。INFRAMIND 的提出标志着研究视角从“模型中心”转向“系统协同”,将排队论、调度优化与强化学习结合,为实际部署提供了可行方案。未来,类似技术可能成为多智能体框架的标准组件。

延伸阅读

  1. 长期研究型智能体的搜索纪律:聚合指标可能误导科学候选者选择
  2. 将预测AI行为本身变成一项学习任务:新方法绕过传统解释路径
  3. AI 自动化调解员:用结构化 LLM 流水线重塑人类谈判准备阶段
查看原文