移动NPU加速扩散LLM推理：17-42倍性能提升

扩散大语言模型（dLLM）通过并行去噪多个token来加速生成，非常适合延迟敏感的移动端推理。然而，重复的去噪过程在智能手机上带来了大量计算负担。移动神经处理单元（NPU）虽然擅长高吞吐的密集矩阵运算，但高效利用它们面临三大挑战：token提交导致每块有效负载缩减、token修订使KV缓存复用复杂化、以及NPU可见地址空间有限引发昂贵的数据重映射和传输开销。

针对这些问题，本文提出了 NPU-Align——首个面向智能手机的NPU感知dLLM推理框架。它通过三项关键技术将dLLM的块级推理与移动NPU的执行特性对齐：

多块投机解码（Multi-Block Speculative Decoding）：在当前块解码的后期阶段，用投机性的未来块token填补缩减的工作负载，保持NPU计算密度。
双路径渐进修订（Dual-Path Progressive Revision）：允许已提交的token在稳定前持续修订，并通过CPU侧路径刷新不稳定token，避免阻塞NPU密集执行。
交换优化内存运行时（Swap-Optimized Memory Runtime）：紧凑化NPU可见地址布局，并将数据准备与NPU计算重叠，减少重映射和传输开销。

实验表现

研究者在多种硬件平台和dLLM负载上评估了NPU-Align。结果显示，在采用前缀KV缓存复用的条件下，NPU-Align将LLaDA-8B模型的生成延迟相比CPU基线降低了17倍至42倍，同时保持了生成质量。

行业意义

随着大模型向边缘设备下沉，dLLM的低延迟优势与移动NPU的高吞吐潜力相结合，有望推动新一代端侧AI应用。NPU-Align提出的三项技术——尤其是双路径渐进修订和交换优化内存——为克服NPU硬件限制提供了实用方案，或将成为未来移动端LLM推理引擎的重要参考。

移动NPU加速扩散LLM推理：三招实现17-42倍性能提升

实验表现

行业意义

延伸阅读

相关资讯