精选今天0 投票
INFRAMIND:基础设施感知的多智能体编排框架
快讯:基础设施盲区是LLM多智能体系统的性能瓶颈
在共享GPU集群上运行多智能体LLM系统时,您是否遇到过这样的问题:某些模型排队严重,而同等能力的替代模型却闲置?现有编排方法从暴力集成到学习型路由器,都基于任务和模型特征选择模型与拓扑,却完全忽略了运行时基础设施状态。这种“基础设施盲区”导致资源系统性利用不足,尤其在并发负载下,延迟会沿多步流水线逐级放大。
核心方案:让整个堆栈感知基础设施
最新研究提出 INFRAMIND,一个让多智能体编排全栈感知基础设施状态的框架。其核心包含三个组件:
- 基础设施感知规划器:根据实时系统负载和剩余预算,动态选择拓扑与角色。高负载时偏向简单图,低负载时采用更丰富的结构。
- 基础设施感知执行器:在每个智能体步骤观察每模型队列深度、缓存利用率和响应延迟,决定调用哪个模型以及推理深度。
- 预算感知调度器:重新排序每个模型的队列,优先处理紧急请求。
整个问题被建模为分层约束MDP,并通过强化学习端到端求解,自动平衡质量与延迟。
效果:低延迟与高SLA保障兼得
在五个基准测试中,INFRAMIND 表现亮眼:
- 低负载下,相比基线方法,准确率提升高达7.6个百分点,同时延迟降低最多7倍。
- 高负载下,SLO(服务等级目标)达标率保持99.9%,而所有基线方法均低于50%。
这意味着,INFRAMIND 不仅能提升资源利用率,还能在高峰期提供稳定的服务质量,这对于生产环境下的多智能体应用至关重要。
行业背景:从模型选择到系统协同
当前多智能体LLM系统多关注模型能力,却忽视了底层基础设施的动态性。INFRAMIND 的提出标志着研究视角从“模型中心”转向“系统协同”,将排队论、调度优化与强化学习结合,为实际部署提供了可行方案。未来,类似技术可能成为多智能体框架的标准组件。