SheepNav
新上线今天0 投票

WAV:面向深度仅解码器Transformer的多分辨率块残差路由方法

近日,一篇题为《WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers》的论文在arXiv上发布,提出了一种名为WAV v1的轻量级多分辨率残差路由方法,旨在提升深度仅解码器Transformer的训练效果。

残差连接的新挑战

残差连接是训练深度Transformer的核心机制。标准PreNorm残差流以固定的单位权重聚合子层更新,而近年来的Attention Residuals方法引入了内容相关的深度路由,Block Attention Residuals则通过路由块级残差摘要来提高效率。然而,单个块摘要仅存储块内的低频总残差位移,丢失了方向性结构信息,例如注意力与MLP之间的不平衡,以及早期与后期子层动态的差异。

WAV v1:方向性细节的引入

WAV v1针对上述问题,为每个块增加了两个方向性细节基:相位基(phase basis)用于对比注意力和MLP更新,分割基(split basis)用于对比早期与后期子层更新。这些基与标准块摘要一起通过相同的深度softmax混合器进行路由。同时,负细节源初始化和分离RMS匹配技术稳定了训练过程。

实验表现:深度越大,收益越明显

在字符级TinyStories和Text8语言建模任务上,WAV v1展现出明显的深度依赖性收益。在12层时,其优势并不稳定;但在24层时,WAV v1开始具备竞争力;在48层时,它全面超越所有基线方法。具体来说,在48层设置下,WAV v1在TinyStories上将验证损失从0.4960(Block AttnRes)降至0.4738,在Text8上从0.9363降至0.9305,且仅增加了极少的额外参数。

结论:方向性残差细节的重要性

这项研究表明,对于深度Transformer的残差路由缩放,方向性残差细节(而不仅仅是块级总和)至关重要。WAV v1为大规模语言模型的高效训练提供了新的思路,尤其适用于需要极深网络的场景。

延伸阅读

  1. 跳过一层还是循环它?LLM中的“层程序”学习
  2. 生成模型如何通过市场选择侵蚀人类时间学习
  3. 你确定吗?符号回归中的不确定性量化全面综述
查看原文