参数高效≠内存高效：LARS框架破解设备端LLM微调内存瓶颈

近年来，参数高效微调（PEFT）方法如LoRA和IA3因其仅更新少量参数而成为大语言模型（LLM）适配的主流范式。然而，一篇来自arXiv的最新论文（arXiv:2604.22783）对这一普遍假设提出了尖锐质疑：参数高效并不等同于内存高效。该研究指出，尽管LoRA等方法显著减少了可训练参数数量，但其内存占用仍受限于中间激活张量，这些张量的大小随序列长度线性增长，在资源受限的设备上极易触发内存溢出错误。

为突破这一瓶颈，研究团队提出了 LARS（低内存激活秩子空间） 框架。与现有方法对模型参数施加低秩约束不同，LARS直接对训练过程中的激活子空间进行约束，从根本上降低内存消耗的主要来源，使内存增长速率与序列长度解耦。实验表明，在多种推理、理解及长上下文数据集上，LARS相比LoRA在GPU上平均减少 33.54% 的内存占用，在CPU上更是达到 51.95%，同时保持具有竞争力的精度和吞吐量。

从参数到激活：内存瓶颈的新视角

传统PEFT方法的核心思想是通过低秩分解减少可训练参数，例如LoRA将权重更新矩阵分解为两个低秩矩阵的乘积。但论文作者指出，微调过程中的内存消耗大头并非参数本身，而是前向传播和反向传播中产生的中间激活张量。这些张量的大小与序列长度成正比，当处理长文档或高分辨率图像时，即使参数极少，内存也会迅速飙升。

LARS的巧妙之处在于将低秩约束从参数空间转移到激活空间。它通过构造一个低维的激活子空间，使得训练过程中需要存储的中间表示大幅缩减。这种设计直接针对内存消耗的源头，实现了“内存增长与序列长度脱钩”的效果。实验数据显示，在序列长度从512增长到8192时，LoRA的内存占用增长约4倍，而LARS仅增长约1.5倍。

边缘设备上的LLM个性化成为可能

论文进一步展示了LARS在极端资源受限硬件上的部署潜力。在 Raspberry Pi 和普通消费级CPU上，LARS成功完成了模型微调任务，而LoRA在相同设置下因内存不足而失败。这意味着，用户未来或许能在手机、智能家居设备甚至嵌入式系统上直接对LLM进行个性化适配，无需依赖云端算力。

例如，在Raspberry Pi 4（4GB RAM）上，LARS对LLaMA-7B模型进行微调时，峰值内存仅约2.8GB，而LoRA需要超过4GB。这一差距随着模型规模扩大而更加显著。对于隐私敏感的应用场景（如医疗记录分析、个人助理个性化），设备端微调既保护数据安全，又降低延迟。

行业影响与未来方向

该研究给当前AI社区敲响警钟：仅关注参数效率可能掩盖真正的资源瓶颈。随着LLM向更长的上下文窗口和更高分辨率输入演进，激活内存问题将愈发突出。LARS提供了一条可行的解决路径，但其在超大规模模型（如1000亿参数以上）上的表现仍需验证。此外，论文提到LARS在吞吐量上略低于LoRA（约5-10%的牺牲），这可能是未来优化的方向。

总体而言，这项工作是设备端AI民主化进程中的重要一步。它提醒我们，在追求参数效率的同时，必须重新审视内存效率，才能真正让LLM“飞入寻常百姓家”。

参数高效≠内存高效：重新思考设备端LLM微调策略

从参数到激活：内存瓶颈的新视角

边缘设备上的LLM个性化成为可能

行业影响与未来方向

延伸阅读

相关资讯