LEAP：扩散语言模型并行解码新方法，延迟降低30%

扩散语言模型（dLLM）因其高度并行的处理潜力而备受关注，但现有方法依赖严格置信度阈值来保证准确性，严重限制了并行可扩展性。一篇新研究论文《LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection》系统揭示了这一瓶颈，并提出了一种无需训练、即插即用的解决方案。

核心发现：置信度标准过于保守

研究团队通过细粒度的令牌级统计分析发现，在去噪过程中，大量令牌其实很早就收敛到了正确预测，却未能达到标准置信度阈值。这意味着，当前基于置信度的判据过于严苛，导致许多本可提前解码的令牌被“卡住”，白白增加了计算步骤。

LEAP方法：前瞻与多序列叠加

针对这一问题，作者提出了 LEAP（Lookahead Early-Convergence Token Detection）。该方法无需额外训练，可直接嵌入现有dLLM推理流程。其核心包括：

未来上下文过滤：利用后续生成的部分上下文来辅助判断当前令牌是否已稳定收敛。
多序列叠加：通过并行生成多个候选序列并对比其一致性，识别出那些在不同序列中表现稳定的令牌。

通过验证“早期收敛”与“预测正确性”之间的强关联，LEAP能够可靠地提前解码这些令牌，从而减少去噪步骤。

性能提升：延迟降低约30%

在多个领域的基准测试中，LEAP显著降低了推理延迟和解码步数。与传统的置信度解码相比，平均去噪步数减少了约 30%。在GSM8K数据集上，将LEAP与dParallel结合使用，每秒令牌数提升至 7.2个，同时保持了模型精度。

行业意义

LEAP打破了dLLM对高置信度先验的依赖，为并行解码提供了一种新范式。随着大模型推理效率成为落地关键，这类无需训练、即插即用的优化方法具有很高的实用价值，尤其适合对延迟敏感的应用场景，如实时对话和代码生成。

论文地址：arXiv:2605.10980

LEAP：通过“前瞻早期收敛令牌检测”解锁扩散语言模型并行潜力

延伸阅读

相关资讯