新上线今天0 投票
移动NPU加速扩散LLM推理:三招实现17-42倍性能提升
扩散大语言模型(dLLM)通过并行去噪多个token来加速生成,非常适合延迟敏感的移动端推理。然而,重复的去噪过程在智能手机上带来了大量计算负担。移动神经处理单元(NPU)虽然擅长高吞吐的密集矩阵运算,但高效利用它们面临三大挑战:token提交导致每块有效负载缩减、token修订使KV缓存复用复杂化、以及NPU可见地址空间有限引发昂贵的数据重映射和传输开销。
针对这些问题,本文提出了 NPU-Align——首个面向智能手机的NPU感知dLLM推理框架。它通过三项关键技术将dLLM的块级推理与移动NPU的执行特性对齐:
- 多块投机解码(Multi-Block Speculative Decoding):在当前块解码的后期阶段,用投机性的未来块token填补缩减的工作负载,保持NPU计算密度。
- 双路径渐进修订(Dual-Path Progressive Revision):允许已提交的token在稳定前持续修订,并通过CPU侧路径刷新不稳定token,避免阻塞NPU密集执行。
- 交换优化内存运行时(Swap-Optimized Memory Runtime):紧凑化NPU可见地址布局,并将数据准备与NPU计算重叠,减少重映射和传输开销。
实验表现
研究者在多种硬件平台和dLLM负载上评估了NPU-Align。结果显示,在采用前缀KV缓存复用的条件下,NPU-Align将LLaDA-8B模型的生成延迟相比CPU基线降低了17倍至42倍,同时保持了生成质量。
行业意义
随着大模型向边缘设备下沉,dLLM的低延迟优势与移动NPU的高吞吐潜力相结合,有望推动新一代端侧AI应用。NPU-Align提出的三项技术——尤其是双路径渐进修订和交换优化内存——为克服NPU硬件限制提供了实用方案,或将成为未来移动端LLM推理引擎的重要参考。