新上线今天0 投票
Toeplitz MLP Mixer:低复杂度、高信息保留的序列模型新架构
Transformer 的注意力机制虽强大,但其二次复杂度(O(n²))在处理长序列时成为瓶颈。近期,研究者提出 Toeplitz MLP Mixer(TMM),一种类似 Transformer 但替换注意力为三角掩码 Toeplitz 矩阵乘法的架构,将训练复杂度降至 O(dn log n) 时间和 O(dn) 空间,推理预填充阶段同样为 O(dn) 时间与空间。
架构创新:从注意力到 Toeplitz 矩阵
TMM 的核心思路是用结构化的 Toeplitz 矩阵替代注意力中的 softmax 加权和。Toeplitz 矩阵的每条对角线元素相同,结合三角掩码实现因果约束。这种设计避免了注意力中的二次计算,同时保留了序列建模所需的全局依赖捕获能力。
性能亮点:更高效、更保真
实验表明,TMM 在同等计算预算下取得 更低的训练损失,且显存占用更优。更引人注目的是,TMM 在 复制任务 上表现突出——这得益于其较少的架构偏置,从而保留更多输入信息。在信息检索和上下文学习基准上,TMM 也优于同类次二次复杂度架构。
理论洞察:可逆性与信息流
论文从算子指数理论角度分析,发现一个反直觉现象:训练后的因果非可逆 TMM 层,其 Toeplitz 矩阵反而更接近可逆或近似可逆状态,而输入上实际可逆的模型反而未必如此。这暗示 TMM 可能通过隐式正则化保持了更优的信息流,解释了其高信息保留的特性。
行业意义
TMM 为长序列建模提供了一种兼具低复杂度和高信息保留的实用方案。虽然目前尚需在更大规模数据和语言模型上验证,但其简洁的设计和理论支撑为超越 Transformer 的序列模型探索提供了新方向。对于需要高效处理超长上下文的应用(如文档分析、代码生成),TMM 值得关注。