SheepNav
新上线今天0 投票

FRAME:用分数傅里叶专家混合学习适配域

从固定域到可学习域:PEFT 的下一个前沿

参数高效微调(PEFT)是当前大模型适配的核心技术之一。无论是经典的 LoRA 在空间域操作,还是近期涌现的谱方法在固定傅里叶域工作,它们都默认了一个前提:适配域(adaptation domain)是固定的。但一项新研究 FRAME 提出了一个根本性问题——域本身是否也应该被学习?

单一域并非万能

不同任务、不同层甚至不同 token,其最优的表示域可能截然不同。空间域擅长捕捉局部模式,而傅里叶域更适合全局频率特征。固定域意味着在面对多样化下游任务时,模型被迫使用同一个“镜头”去观察所有问题,这显然不是最优解。

FRAME:让专家“选择”自己的域

FRAME(Fractional-Fourier Mixture of Experts)的核心创新在于引入了一个可学习的分数傅里叶阶数(fractional-Fourier order)。每个专家都拥有一个标量阶数,该阶数连续插值于空间域(阶数=0,退化为 LoRA)与傅里叶域(阶数=1,退化为谱适配器)之间。通过路由机制,不同 token 被分配到处于空间-频谱连续体上不同位置的专家,从而让每个低秩更新都在其最紧凑的域中进行。

更巧妙的是,不同阶数的分数傅里叶算子天然互不相干(mutually incoherent),这使得专家之间自然去相关,减少了干扰,提升了多任务组合的性能。

计算成本几乎不变

分数傅里叶变换通过 Chirp-FFT 代理实现,复杂度仅为 O(d log d),且每个专家仅需额外学习一个标量参数。因此,FRAME 相比标准 MoE-LoRA 几乎没有增加额外开销。

实验表现:全面超越

在 LLaMA-3.1-8B 和 Qwen2.5-7B 上,FRAME 在常识推理、数学、代码和知识基准测试中,均超越了强基线 MoE-LoRA、FlyLoRA、FourierMoE 和 HMoRA,同时保持了较小的激活参数预算。分析还显示,学习到的阶数在任务和层间呈现出可解释的特化模式——例如,底层更偏好空间域,而高层更倾向频谱域。

意义与展望

FRAME 提出了一种全新的视角:适配域本身是一个可设计的自由度,而混合专家架构为自动选择域提供了优雅的框架。这不仅提升了性能,还揭示了模型在不同层次和任务上对表示域的内在偏好。未来,这一方向可能推动 PEFT 从“固定域”走向“自适应域”,甚至结合更复杂的变换家族(如小波、自适应基)进一步扩展。

延伸阅读

  1. 可验证奖励助力概率预测校准:7B模型达到市场级别精度
  2. EVOTS:进化Transformer搜索,为时间序列预测定制最优架构
  3. GRPO、Dr. GRPO 和 DAPO 竟是同一回事?论文揭示三者本质:操作的是同一个数
查看原文