Toeplitz MLP Mixer：低复杂度高信息保留序列模型

Transformer 的注意力机制虽强大，但其二次复杂度（O(n²)）在处理长序列时成为瓶颈。近期，研究者提出 Toeplitz MLP Mixer（TMM），一种类似 Transformer 但替换注意力为三角掩码 Toeplitz 矩阵乘法的架构，将训练复杂度降至 O(dn log n) 时间和 O(dn) 空间，推理预填充阶段同样为 O(dn) 时间与空间。

架构创新：从注意力到 Toeplitz 矩阵

TMM 的核心思路是用结构化的 Toeplitz 矩阵替代注意力中的 softmax 加权和。Toeplitz 矩阵的每条对角线元素相同，结合三角掩码实现因果约束。这种设计避免了注意力中的二次计算，同时保留了序列建模所需的全局依赖捕获能力。

性能亮点：更高效、更保真

实验表明，TMM 在同等计算预算下取得 更低的训练损失，且显存占用更优。更引人注目的是，TMM 在 复制任务 上表现突出——这得益于其较少的架构偏置，从而保留更多输入信息。在信息检索和上下文学习基准上，TMM 也优于同类次二次复杂度架构。

理论洞察：可逆性与信息流

论文从算子指数理论角度分析，发现一个反直觉现象：训练后的因果非可逆 TMM 层，其 Toeplitz 矩阵反而更接近可逆或近似可逆状态，而输入上实际可逆的模型反而未必如此。这暗示 TMM 可能通过隐式正则化保持了更优的信息流，解释了其高信息保留的特性。

行业意义

TMM 为长序列建模提供了一种兼具低复杂度和高信息保留的实用方案。虽然目前尚需在更大规模数据和语言模型上验证，但其简洁的设计和理论支撑为超越 Transformer 的序列模型探索提供了新方向。对于需要高效处理超长上下文的应用（如文档分析、代码生成），TMM 值得关注。

Toeplitz MLP Mixer：低复杂度、高信息保留的序列模型新架构

架构创新：从注意力到 Toeplitz 矩阵

性能亮点：更高效、更保真

理论洞察：可逆性与信息流

行业意义

延伸阅读

相关资讯