新上线今天0 投票
多项式扩展秩适应:通过高阶交互增强低秩微调能力
低秩微调的瓶颈与突破
在大型语言模型(LLM)的高效微调领域,低秩适应(LoRA) 已成为主流技术。它通过在预训练权重上添加低秩矩阵来更新参数,大幅减少了需要训练的参数数量,从而显著降低了计算和存储成本。然而,LoRA的线性结构也带来了根本性限制——其权重更新采用双线性形式,只能捕捉低秩因子之间的一阶依赖关系,难以建模复杂的非线性交互和高阶参数耦合。
PERA:引入多项式扩展的创新方法
针对这一瓶颈,研究人员提出了多项式扩展秩适应(PERA)。该方法的核心创新在于,将结构化多项式扩展直接引入低秩因子空间。具体而言,PERA在组合低秩因子之前,先对每个因子进行多项式扩展,合成高阶交互项。这一过程将适应空间转化为一个多项式流形,能够建模更丰富的非线性耦合,而无需增加秩数或推理成本。
关键优势
- 增强表达能力:通过引入高阶项(特别是平方项),PERA能够捕捉参数之间更复杂的相互作用,从而提升模型的表达能力。
- 保持效率:尽管表达能力增强,但PERA并未增加低秩矩阵的秩,因此推理时的计算开销与标准LoRA相当,保持了高效性。
- 理论支撑:研究提供了理论分析,证明PERA相比现有的线性适应方法,在表达能力和特征利用方面更具优势。
实证表现与行业意义
在广泛的基准测试中,PERA的表现持续优于当前最先进的方法。实验结果表明,引入高阶非线性组件对于在各种秩设置下保持强大且稳健的性能至关重要。
这项研究的意义在于,它为解决低秩微调的表达能力限制提供了一个新的、有理论依据的路径。随着LLM规模的持续增长和微调需求的多样化,如何在保持效率的同时提升微调质量,已成为AI工程实践中的关键挑战。PERA通过巧妙的数学设计,在现有框架内实现了突破,有望推动更高效、更强大的模型定制化技术的发展。
该论文已被ACL 2026接收,相关代码也已开源,为研究社区和工业界提供了宝贵的参考和工具。