P-EAGLE并行推测解码：vLLM中LLM推理速度再提升1.69倍

在大型语言模型（LLM）推理领域，推测解码（Speculative Decoding）已成为提升生成速度的关键技术。其中，EAGLE 作为当前最先进的推测解码方法，通过一个较小的“草稿模型”提前预测多个候选 token，再由主模型快速验证，实现了 2-3 倍的推理加速，并被 vLLM、SGLang、TensorRT-LLM 等主流推理框架广泛采用。

然而，EAGLE 的草稿生成过程是自回归的。这意味着，为了生成 K 个草稿 token，草稿模型需要进行 K 次顺序的前向传播。随着模型预测能力的提升，我们希望能一次性推测更多 token 以获得更大加速比，但这种线性增长的序列计算开销，最终会抵消掉加速收益，成为性能提升的“隐形瓶颈”。

突破瓶颈：P-EAGLE 的并行化革新

P-EAGLE 正是为了解决这一瓶颈而生。其核心创新在于，将 EAGLE 的自回归草稿生成转变为并行草稿生成。简而言之，P-EAGLE 让草稿模型能够在单次前向传播中，一次性并行生成所有 K 个候选 token。

这种设计从根本上移除了草稿阶段的序列计算开销。根据在 NVIDIA B200 GPU 上的实测，在真实工作负载下，P-EAGLE 相比标准的 EAGLE-3 实现了 1.05倍至1.69倍 的额外速度提升。对于追求极致推理效率的生产环境而言，这一提升意义重大。

如何快速启用 P-EAGLE？

得益于与 vLLM 的深度集成（从 v0.16.0 版本开始，PR#32887），启用 P-EAGLE 变得异常简单。用户无需改动核心代码，只需满足两个条件：

使用支持并行生成的草稿模型头：亚马逊已经提供了多个预训练好的 P-EAGLE 模型头，并托管在 HuggingFace 上，包括：
- GPT-OSS 120B
- GPT-OSS 20B
- Qwen3-Coder 30B
  用户可以直接下载使用，也可以基于自己的模型进行训练。
在 vLLM 服务配置中开启并行选项：在 SpeculativeConfig 配置中，将 parallel_drafting 参数设置为 true 即可。

以下是一个启动服务的示例命令：

vllm serve openai/gpt-oss-20b \
--speculative-config '{"method": "eagle3", "model": "amazon/gpt-oss-20b-p-eagle", "num_speculative_tokens": 5, "parallel_drafting": true}'

技术影响与行业展望

P-EAGLE 的出现，标志着推测解码技术从“优化序列计算”迈向了“重构计算范式”的新阶段。它不仅仅是 EAGLE 的一个优化补丁，更是一种思路的转变：通过并行化来彻底规避序列瓶颈。

对推理服务商：这意味着在相同硬件上能够承载更高的并发请求，或为现有用户提供更低的响应延迟，直接优化了服务成本和用户体验。
对模型开发者：为更大参数量的模型实现高效推理提供了新的工具，可能推动模型能力边界与实用性的进一步结合。
对技术生态：vLLM 作为高性能推理引擎的代表，率先集成 P-EAGLE，很可能带动其他框架（如 SGLang、TensorRT-LLM）快速跟进，从而在整个行业层面提升 LLM 推理的效率基准。

目前，P-EAGLE 的预训练模型主要面向 GPT-OSS 和 Qwen3-Coder 系列。可以预见，随着该方法被更广泛地验证和采纳，未来会有更多主流模型家族推出对应的 P-EAGLE 版本，让高速推理成为更多开发者的标配能力。

P-EAGLE：vLLM 中并行推测解码实现更快的 LLM 推理

突破瓶颈：P-EAGLE 的并行化革新

如何快速启用 P-EAGLE？

技术影响与行业展望

延伸阅读

相关资讯