SheepNav
新上线今天0 投票

移动NPU加速扩散LLM推理:三招实现17-42倍性能提升

扩散大语言模型(dLLM)通过并行去噪多个token来加速生成,非常适合延迟敏感的移动端推理。然而,重复的去噪过程在智能手机上带来了大量计算负担。移动神经处理单元(NPU)虽然擅长高吞吐的密集矩阵运算,但高效利用它们面临三大挑战:token提交导致每块有效负载缩减、token修订使KV缓存复用复杂化、以及NPU可见地址空间有限引发昂贵的数据重映射和传输开销。

针对这些问题,本文提出了 NPU-Align——首个面向智能手机的NPU感知dLLM推理框架。它通过三项关键技术将dLLM的块级推理与移动NPU的执行特性对齐:

  1. 多块投机解码(Multi-Block Speculative Decoding):在当前块解码的后期阶段,用投机性的未来块token填补缩减的工作负载,保持NPU计算密度。
  2. 双路径渐进修订(Dual-Path Progressive Revision):允许已提交的token在稳定前持续修订,并通过CPU侧路径刷新不稳定token,避免阻塞NPU密集执行。
  3. 交换优化内存运行时(Swap-Optimized Memory Runtime):紧凑化NPU可见地址布局,并将数据准备与NPU计算重叠,减少重映射和传输开销。

实验表现

研究者在多种硬件平台和dLLM负载上评估了NPU-Align。结果显示,在采用前缀KV缓存复用的条件下,NPU-Align将LLaDA-8B模型的生成延迟相比CPU基线降低了17倍至42倍,同时保持了生成质量。

行业意义

随着大模型向边缘设备下沉,dLLM的低延迟优势与移动NPU的高吞吐潜力相结合,有望推动新一代端侧AI应用。NPU-Align提出的三项技术——尤其是双路径渐进修订和交换优化内存——为克服NPU硬件限制提供了实用方案,或将成为未来移动端LLM推理引擎的重要参考。

延伸阅读

  1. 超越LoRA:稀疏诱导适配是否更优?
  2. D2H-AD:融合超维度计算的混合异常检测模型,轻量高效适配边缘AI
  3. 权重范数决定神经网络「顿悟」时间尺度:一项因果延迟定律
查看原文