SheepNav
新上线今天0 投票

LEAP:通过“前瞻早期收敛令牌检测”解锁扩散语言模型并行潜力

扩散语言模型(dLLM)因其高度并行的处理潜力而备受关注,但现有方法依赖严格置信度阈值来保证准确性,严重限制了并行可扩展性。一篇新研究论文《LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection》系统揭示了这一瓶颈,并提出了一种无需训练、即插即用的解决方案。

核心发现:置信度标准过于保守

研究团队通过细粒度的令牌级统计分析发现,在去噪过程中,大量令牌其实很早就收敛到了正确预测,却未能达到标准置信度阈值。这意味着,当前基于置信度的判据过于严苛,导致许多本可提前解码的令牌被“卡住”,白白增加了计算步骤。

LEAP方法:前瞻与多序列叠加

针对这一问题,作者提出了 LEAP(Lookahead Early-Convergence Token Detection)。该方法无需额外训练,可直接嵌入现有dLLM推理流程。其核心包括:

  • 未来上下文过滤:利用后续生成的部分上下文来辅助判断当前令牌是否已稳定收敛。
  • 多序列叠加:通过并行生成多个候选序列并对比其一致性,识别出那些在不同序列中表现稳定的令牌。

通过验证“早期收敛”与“预测正确性”之间的强关联,LEAP能够可靠地提前解码这些令牌,从而减少去噪步骤。

性能提升:延迟降低约30%

在多个领域的基准测试中,LEAP显著降低了推理延迟和解码步数。与传统的置信度解码相比,平均去噪步数减少了约 30%。在GSM8K数据集上,将LEAP与dParallel结合使用,每秒令牌数提升至 7.2个,同时保持了模型精度。

行业意义

LEAP打破了dLLM对高置信度先验的依赖,为并行解码提供了一种新范式。随着大模型推理效率成为落地关键,这类无需训练、即插即用的优化方法具有很高的实用价值,尤其适合对延迟敏感的应用场景,如实时对话和代码生成。

论文地址:arXiv:2605.10980

延伸阅读

  1. ξ-DPO:通过比率奖励边际实现直接偏好优化
  2. 分层多尺度图神经网络:解决异质性图学习的过平滑与过挤压问题
  3. Vertex-Softmax:通过精确Softmax优化实现紧致Transformer验证
查看原文