SheepNav
SCAO — Optimizer

SCAO — Optimizer

producthunt.com

大模型训练提速54%的二阶优化器

1个月前制作者:Danilo Souza

关于 SCAO — Optimizer

SCAO 是一款专为大语言模型(LLM)设计的稀疏二阶 PyTorch 优化器,可作为 AdamW 的高吞吐即插即用替代方案。它通过引入二阶优化信息,在保持与 AdamW 相同内存占用的前提下,将训练速度提升高达 54%,同时不牺牲模型精度。

核心功能

SCAO 的核心在于其稀疏二阶优化算法。传统一阶优化器(如 AdamW)仅利用梯度的一阶矩和二阶矩,而 SCAO 通过近似 Hessian 矩阵,更准确地估计参数的更新方向和步长,从而加速收敛。它特别针对 LLM 训练中常见的稀疏梯度场景进行了优化,仅对关键参数进行二阶修正,大幅降低计算开销。

主要特性

  • 训练提速 54%:在相同硬件和超参数下,SCAO 能显著减少达到目标损失所需的迭代次数,实测训练时间缩短超过一半。
  • 即插即用:API 与 PyTorch 的 AdamW 完全兼容,只需将 torch.optim.AdamW 替换为 SCAO,无需改动模型代码或训练循环。
  • 内存高效:采用稀疏更新策略,内存占用与 AdamW 持平,不会增加显存压力。
  • 精度无损:在多种 LLM 架构(如 GPT、LLaMA)上验证,最终模型性能(如困惑度、下游任务准确率)与 AdamW 相当或更优。
  • 开源友好:基于 PyTorch 实现,代码简洁易读,支持自定义超参数调整。

适用场景

SCAO 适用于所有使用 AdamW 进行训练的 LLM 场景,尤其适合以下情况:

  • 大规模预训练:需要快速迭代的预训练任务,SCAO 能大幅缩短训练周期,节省算力成本。
  • 微调与适配:在资源受限的环境下微调大模型,SCAO 的加速效果可让更多开发者高效完成定制。
  • 研究实验:需要频繁调整模型架构或超参数的研究团队,SCAO 能加速实验循环。

无论是学术研究还是工业部署,SCAO 都为 LLM 训练提供了一种高效、易用的优化方案。

所属分类

相关工具