WAV v1：多分辨率块残差路由提升深度Transformer性能

近日，一篇题为《WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers》的论文在arXiv上发布，提出了一种名为WAV v1的轻量级多分辨率残差路由方法，旨在提升深度仅解码器Transformer的训练效果。

残差连接的新挑战

残差连接是训练深度Transformer的核心机制。标准PreNorm残差流以固定的单位权重聚合子层更新，而近年来的Attention Residuals方法引入了内容相关的深度路由，Block Attention Residuals则通过路由块级残差摘要来提高效率。然而，单个块摘要仅存储块内的低频总残差位移，丢失了方向性结构信息，例如注意力与MLP之间的不平衡，以及早期与后期子层动态的差异。

WAV v1：方向性细节的引入

WAV v1针对上述问题，为每个块增加了两个方向性细节基：相位基（phase basis）用于对比注意力和MLP更新，分割基（split basis）用于对比早期与后期子层更新。这些基与标准块摘要一起通过相同的深度softmax混合器进行路由。同时，负细节源初始化和分离RMS匹配技术稳定了训练过程。

实验表现：深度越大，收益越明显

在字符级TinyStories和Text8语言建模任务上，WAV v1展现出明显的深度依赖性收益。在12层时，其优势并不稳定；但在24层时，WAV v1开始具备竞争力；在48层时，它全面超越所有基线方法。具体来说，在48层设置下，WAV v1在TinyStories上将验证损失从0.4960（Block AttnRes）降至0.4738，在Text8上从0.9363降至0.9305，且仅增加了极少的额外参数。

结论：方向性残差细节的重要性

这项研究表明，对于深度Transformer的残差路由缩放，方向性残差细节（而不仅仅是块级总和）至关重要。WAV v1为大规模语言模型的高效训练提供了新的思路，尤其适用于需要极深网络的场景。

WAV：面向深度仅解码器Transformer的多分辨率块残差路由方法

残差连接的新挑战

WAV v1：方向性细节的引入

实验表现：深度越大，收益越明显

结论：方向性残差细节的重要性

延伸阅读

相关资讯