P-EAGLE:vLLM 中并行推测解码实现更快的 LLM 推理
在大型语言模型(LLM)推理领域,推测解码(Speculative Decoding)已成为提升生成速度的关键技术。其中,EAGLE 作为当前最先进的推测解码方法,通过一个较小的“草稿模型”提前预测多个候选 token,再由主模型快速验证,实现了 2-3 倍的推理加速,并被 vLLM、SGLang、TensorRT-LLM 等主流推理框架广泛采用。
然而,EAGLE 的草稿生成过程是自回归的。这意味着,为了生成 K 个草稿 token,草稿模型需要进行 K 次顺序的前向传播。随着模型预测能力的提升,我们希望能一次性推测更多 token 以获得更大加速比,但这种线性增长的序列计算开销,最终会抵消掉加速收益,成为性能提升的“隐形瓶颈”。
突破瓶颈:P-EAGLE 的并行化革新
P-EAGLE 正是为了解决这一瓶颈而生。其核心创新在于,将 EAGLE 的自回归草稿生成转变为并行草稿生成。简而言之,P-EAGLE 让草稿模型能够在单次前向传播中,一次性并行生成所有 K 个候选 token。
这种设计从根本上移除了草稿阶段的序列计算开销。根据在 NVIDIA B200 GPU 上的实测,在真实工作负载下,P-EAGLE 相比标准的 EAGLE-3 实现了 1.05倍至1.69倍 的额外速度提升。对于追求极致推理效率的生产环境而言,这一提升意义重大。
如何快速启用 P-EAGLE?
得益于与 vLLM 的深度集成(从 v0.16.0 版本开始,PR#32887),启用 P-EAGLE 变得异常简单。用户无需改动核心代码,只需满足两个条件:
使用支持并行生成的草稿模型头:亚马逊已经提供了多个预训练好的 P-EAGLE 模型头,并托管在 HuggingFace 上,包括:
- GPT-OSS 120B
- GPT-OSS 20B
- Qwen3-Coder 30B
用户可以直接下载使用,也可以基于自己的模型进行训练。
在 vLLM 服务配置中开启并行选项:在
SpeculativeConfig配置中,将parallel_drafting参数设置为true即可。
以下是一个启动服务的示例命令:
vllm serve openai/gpt-oss-20b \
--speculative-config '{"method": "eagle3", "model": "amazon/gpt-oss-20b-p-eagle", "num_speculative_tokens": 5, "parallel_drafting": true}'
技术影响与行业展望
P-EAGLE 的出现,标志着推测解码技术从“优化序列计算”迈向了“重构计算范式”的新阶段。它不仅仅是 EAGLE 的一个优化补丁,更是一种思路的转变:通过并行化来彻底规避序列瓶颈。
- 对推理服务商:这意味着在相同硬件上能够承载更高的并发请求,或为现有用户提供更低的响应延迟,直接优化了服务成本和用户体验。
- 对模型开发者:为更大参数量的模型实现高效推理提供了新的工具,可能推动模型能力边界与实用性的进一步结合。
- 对技术生态:vLLM 作为高性能推理引擎的代表,率先集成 P-EAGLE,很可能带动其他框架(如 SGLang、TensorRT-LLM)快速跟进,从而在整个行业层面提升 LLM 推理的效率基准。
目前,P-EAGLE 的预训练模型主要面向 GPT-OSS 和 Qwen3-Coder 系列。可以预见,随着该方法被更广泛地验证和采纳,未来会有更多主流模型家族推出对应的 P-EAGLE 版本,让高速推理成为更多开发者的标配能力。