SheepNav
新上线今天0 投票

RaMP:面向混合专家模型的运行时感知多形态内核调度框架

背景:MoE 推理中的“静态调度”瓶颈

混合专家模型(MoE)是当前大语言模型提升参数规模与计算效率的核心架构。然而,在生产环境中,MoE 推理的**内核配置(kernel configuration)**通常仅依据 batch size 进行静态调度,完全忽略了专家路由分布(expert routing distribution)的实时变化。这导致 10% 到 70% 的内核吞吐量潜力未被发挥——一个亟待解决的性能浪费问题。

RaMP:让调度“看见”路由

来自研究团队的 RaMP(Runtime-Aware Megakernel Polymorphism) 正是为此而生。它提出了一种路由感知的调度框架,核心包含两大组件:

  1. 性能区域分析(Performance-Region Analysis):仅凭硬件常数即可推导出不同优化策略的生效条件。该分析正确预测了全部 8 种测试架构(包括 3 种未见过的架构),验证了其泛化能力。

  2. 四参数波成本模型(Four-Parameter Wave Cost Model):根据运行时专家直方图,从众多候选中选出最快的内核配置。该模型与 CTA 网格几何参数相关,因此是内核无关的——只需对每个模型进行 10-24 分钟的一次性性能剖析即可完成拟合。在实验中,其平均遗憾度(mean regret)仅为 0.93%,几乎与穷举搜索持平。

实测性能:1.22x 内核加速,1.30x 端到端提升

RaMP 的实用性体现在多个层面:

  • 直接适配现有系统:应用于 Alpha-MoE 时,无需修改源码即可获得 1.14x 加速。
  • 与定制内核协同:配合团队自研的 CuTe DSL 内核(提供 134-268 种多态配置),RaMP 在 vLLM 推理服务中实现了:
    • 相比静态调度,内核加速 1.22x
    • 相比 Triton 后端,端到端加速 1.30x
    • 相比 DeepGEMM,加速 1.41x
    • 相比 FlashInfer CUTLASS,加速 1.13x

为什么重要?

MoE 模型的推理优化是当前 AI 基础设施的热点。现有的调度方案(如 DeepGEMM、Triton、FlashInfer)主要依赖静态规则或固定模板,无法动态适应路由分布的变化。RaMP 首次将运行时路由信息纳入调度决策,并通过硬件可推导的性能模型降低了部署成本。它的“内核无关”特性意味着未来新出现的 MoE 内核也能直接受益,无需重新设计调度逻辑。

对于 AI 工程团队而言,RaMP 提供了一条清晰的路径:在不改动模型代码的前提下,通过更智能的运行时调度,榨干硬件算力。这也预示着,MoE 推理的“静态调度”时代即将结束,路由感知的动态调度将成为下一代推理引擎的标准配置。

延伸阅读

  1. 无需矩阵组装与训练:随机PDE能量驱动框架实现高效稳定求解
  2. 多智能体深度强化学习中的图神经网络通信综述
  3. 信息瓶颈理论统一KV缓存驱逐策略,CapKV实现理论驱动的内存优化
查看原文