SheepNav
新上线今天0 投票

MetaAdamW:自注意力元优化器实现分组自适应学习率与权重衰减

深度学习模型的训练中,不同层和模块往往具有异构的优化动态(optimization dynamics),但主流自适应优化器如 AdamW 对所有参数组应用统一的超参数,忽略了这种差异。针对这一局限,来自研究者提出了一种新型优化器 MetaAdamW,通过引入自注意力机制(self-attention)为每个参数组动态调节学习率和权重衰减。

核心设计:轻量级Transformer编码器

MetaAdamW 的核心是一个轻量级的 Transformer 编码器,它接收每个参数组提取的统计特征(包括梯度范数、动量范数、梯度与动量之间的相关性等),并输出对应组的调制因子(modulation factors),用于动态调整该组的学习率和权重衰减。这种设计使得优化器能够感知不同层在训练过程中的状态差异,从而做出更精细的调整。

元学习目标与任务优先级

为了训练这个注意力模块,论文设计了一个元学习目标(meta-learning objective),该目标同时考虑三个信号:梯度对齐(gradient alignment)、损失下降(loss decrease)以及泛化差距(generalization gap)。特别值得注意的是,作者扩展了同方差不确定性加权(Homoscedastic Uncertainty Weighting, HUW)方法,引入了任务特定优先级(task-specific priorities),直接对损失中的正则项进行缩放,从而允许将领域知识融入自动损失平衡过程。

实验结果:显著提升与效率兼顾

研究者在五个不同任务上进行了广泛实验:

  • 时间序列预测(ETT)
  • 语言建模(WikiText-2)
  • 机器翻译(Multi30k)
  • 图像分类(CIFAR-10)
  • 情感分析(IMDB)

结果显示,MetaAdamW 在验证损失、准确率或困惑度上一致优于标准 AdamW 基线。具体而言,根据任务不同,MetaAdamW 要么减少总训练时间(最高达 17.11%),要么提升最终性能(最高达 11.08%),同时仅引入适度的计算开销。在某些情况下,它还能缓解因过早停止(early stopping)导致的收敛不足问题。

消融研究:各组件均有效

通过消融实验,论文验证了不同特征版本、分组策略以及所提出的优先级注入不确定性加权(priority-injected uncertainty weighting)各自的有效性。这表明 MetaAdamW 的每个设计环节都对其最终效果有贡献。

意义与展望

MetaAdamW 代表了一种将元学习与自注意力机制结合的优化器设计新思路。它不仅提升了现有优化器的性能,还为未来自适应优化器的发展提供了可扩展的框架——通过轻量级神经网络动态调整超参数,有望在更大规模的模型和数据集上取得进一步突破。对于追求训练效率与模型性能的实践者而言,这一方法值得关注。

延伸阅读

  1. 内生机制切换:标量不可约学习动力学驱动自主智能新范式
  2. 基于群分解理论与参数划分的变换分类方法
  3. SPARK:用大模型驱动神经网络架构搜索,实现28倍效率提升
查看原文