新上线今天0 投票
LEAP:通过“前瞻早期收敛令牌检测”解锁扩散语言模型并行潜力
扩散语言模型(dLLM)因其高度并行的处理潜力而备受关注,但现有方法依赖严格置信度阈值来保证准确性,严重限制了并行可扩展性。一篇新研究论文《LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection》系统揭示了这一瓶颈,并提出了一种无需训练、即插即用的解决方案。
核心发现:置信度标准过于保守
研究团队通过细粒度的令牌级统计分析发现,在去噪过程中,大量令牌其实很早就收敛到了正确预测,却未能达到标准置信度阈值。这意味着,当前基于置信度的判据过于严苛,导致许多本可提前解码的令牌被“卡住”,白白增加了计算步骤。
LEAP方法:前瞻与多序列叠加
针对这一问题,作者提出了 LEAP(Lookahead Early-Convergence Token Detection)。该方法无需额外训练,可直接嵌入现有dLLM推理流程。其核心包括:
- 未来上下文过滤:利用后续生成的部分上下文来辅助判断当前令牌是否已稳定收敛。
- 多序列叠加:通过并行生成多个候选序列并对比其一致性,识别出那些在不同序列中表现稳定的令牌。
通过验证“早期收敛”与“预测正确性”之间的强关联,LEAP能够可靠地提前解码这些令牌,从而减少去噪步骤。
性能提升:延迟降低约30%
在多个领域的基准测试中,LEAP显著降低了推理延迟和解码步数。与传统的置信度解码相比,平均去噪步数减少了约 30%。在GSM8K数据集上,将LEAP与dParallel结合使用,每秒令牌数提升至 7.2个,同时保持了模型精度。
行业意义
LEAP打破了dLLM对高置信度先验的依赖,为并行解码提供了一种新范式。随着大模型推理效率成为落地关键,这类无需训练、即插即用的优化方法具有很高的实用价值,尤其适合对延迟敏感的应用场景,如实时对话和代码生成。
论文地址:arXiv:2605.10980