SheepNav
新上线22天前0 投票

P-EAGLE:vLLM 中并行推测解码实现更快的 LLM 推理

在大型语言模型(LLM)推理领域,推测解码(Speculative Decoding)已成为提升生成速度的关键技术。其中,EAGLE 作为当前最先进的推测解码方法,通过一个较小的“草稿模型”提前预测多个候选 token,再由主模型快速验证,实现了 2-3 倍的推理加速,并被 vLLM、SGLang、TensorRT-LLM 等主流推理框架广泛采用。

然而,EAGLE 的草稿生成过程是自回归的。这意味着,为了生成 K 个草稿 token,草稿模型需要进行 K 次顺序的前向传播。随着模型预测能力的提升,我们希望能一次性推测更多 token 以获得更大加速比,但这种线性增长的序列计算开销,最终会抵消掉加速收益,成为性能提升的“隐形瓶颈”。

突破瓶颈:P-EAGLE 的并行化革新

P-EAGLE 正是为了解决这一瓶颈而生。其核心创新在于,将 EAGLE 的自回归草稿生成转变为并行草稿生成。简而言之,P-EAGLE 让草稿模型能够在单次前向传播中,一次性并行生成所有 K 个候选 token。

这种设计从根本上移除了草稿阶段的序列计算开销。根据在 NVIDIA B200 GPU 上的实测,在真实工作负载下,P-EAGLE 相比标准的 EAGLE-3 实现了 1.05倍至1.69倍 的额外速度提升。对于追求极致推理效率的生产环境而言,这一提升意义重大。

如何快速启用 P-EAGLE?

得益于与 vLLM 的深度集成(从 v0.16.0 版本开始,PR#32887),启用 P-EAGLE 变得异常简单。用户无需改动核心代码,只需满足两个条件:

  1. 使用支持并行生成的草稿模型头:亚马逊已经提供了多个预训练好的 P-EAGLE 模型头,并托管在 HuggingFace 上,包括:

    • GPT-OSS 120B
    • GPT-OSS 20B
    • Qwen3-Coder 30B
      用户可以直接下载使用,也可以基于自己的模型进行训练。
  2. 在 vLLM 服务配置中开启并行选项:在 SpeculativeConfig 配置中,将 parallel_drafting 参数设置为 true 即可。

以下是一个启动服务的示例命令:

vllm serve openai/gpt-oss-20b \
--speculative-config '{"method": "eagle3", "model": "amazon/gpt-oss-20b-p-eagle", "num_speculative_tokens": 5, "parallel_drafting": true}'

技术影响与行业展望

P-EAGLE 的出现,标志着推测解码技术从“优化序列计算”迈向了“重构计算范式”的新阶段。它不仅仅是 EAGLE 的一个优化补丁,更是一种思路的转变:通过并行化来彻底规避序列瓶颈。

  • 对推理服务商:这意味着在相同硬件上能够承载更高的并发请求,或为现有用户提供更低的响应延迟,直接优化了服务成本和用户体验。
  • 对模型开发者:为更大参数量的模型实现高效推理提供了新的工具,可能推动模型能力边界与实用性的进一步结合。
  • 对技术生态:vLLM 作为高性能推理引擎的代表,率先集成 P-EAGLE,很可能带动其他框架(如 SGLang、TensorRT-LLM)快速跟进,从而在整个行业层面提升 LLM 推理的效率基准。

目前,P-EAGLE 的预训练模型主要面向 GPT-OSS 和 Qwen3-Coder 系列。可以预见,随着该方法被更广泛地验证和采纳,未来会有更多主流模型家族推出对应的 P-EAGLE 版本,让高速推理成为更多开发者的标配能力。

延伸阅读

  1. 出差两个月,我让智能花盆自己照顾植物——结果令人惊喜
  2. 如何清理Android手机缓存——以及为何它能显著提升性能
  3. 电工警告:这7种常见家用电器切勿插在延长线上
查看原文