BASIS算法突破反向传播内存瓶颈，实现高效神经网络训练

在深度神经网络训练中，反向传播所需的激活内存一直是制约模型规模扩展的关键瓶颈。传统方法中，激活内存随网络深度、上下文长度和特征维度线性增长，形成O(L * BN)的空间瓶颈（其中B是序列-批次基数，N是特征维度）。这不仅限制了更大型模型的训练，也使得在资源受限环境下的高效训练变得困难。

随机自动微分等现有技术试图缓解这一问题，但往往面临“灾难性方差”的困扰，导致梯度估计不稳定，影响模型收敛。

BASIS：一种高效的反向传播算法

近日，研究人员提出了BASIS（Balanced Activation Sketching with Invariant Scalars），这是一种创新的反向传播算法，旨在彻底解决激活内存瓶颈问题。BASIS的核心思想是完全解耦激活内存与批次和序列维度，从而大幅降低内存需求。

具体来说，BASIS在传播误差信号（dX）时保持精确，以确保梯度流的完整性；而在计算权重更新（dW）时，则使用高度压缩的秩-R张量。这种方法理论上将激活内存从O(L * BN)减少到O(L * RN)，其中R远小于B，显著降低了反向传播过程中的矩阵乘法计算量。

为了解决草图梯度固有的不稳定性问题，BASIS引入了两种新颖机制：

在一项针对GPT架构的实验中，研究人员进行了50,000步的训练验证。结果显示，当R=32时，BASIS在验证损失上达到了与精确反向传播相当甚至略优的性能（6.575 vs. 6.616），表现出隐式正则化的效果。

更令人印象深刻的是，即使在极端空间压缩（R=1）的条件下，由于梯度幅值轨迹的稳定化，模型仍能平滑收敛，证明了该估计器的极端鲁棒性。

BASIS的提出为大规模神经网络训练提供了新的可能性。通过有效降低内存需求，它有望推动更深、更复杂的模型在资源受限环境下的应用，加速AI模型的迭代与部署。

随着AI模型规模的不断扩大，类似BASIS这样的高效训练算法将变得越来越重要。它不仅有助于降低计算成本，还可能开启新的研究方向，如更高效的分布式训练和边缘计算场景下的模型优化。

代码已开源，研究人员和开发者可进一步探索其在不同架构和任务上的应用潜力。