StateSMix：Mamba SSM在线无损压缩，超越xz

近日，一项名为 StateSMix 的新型无损压缩方案引发关注。该方案完全自包含，无需预训练权重、GPU或外部依赖，仅通过在线训练一个轻量级 Mamba 风格状态空间模型（SSM），结合稀疏 N-gram 上下文混合与算术编码，即可在标准基准上超越传统压缩工具如 xz。

核心架构：SSM + 稀疏 N-gram 混合

StateSMix 的核心是一个参数约 12 万的 SSM（维度 32，层数 2），它在压缩过程中逐 token 在线训练，为每个 BPE token 提供连续更新的概率估计。与此同时，系统维护了 9 个稀疏 N-gram 哈希表（从 bigram 到 32-gram，每个表 1600 万槽位），通过 softmax 不变的对数偏置机制精确记忆局部和长距离模式。SSM 和 N-gram 的贡献由熵自适应缩放机制动态调节——当 SSM 预测置信度高时，N-gram 的影响自动减弱，避免过度修正。

性能表现：轻量级击败传统算法

在标准 enwik8 基准上，StateSMix 在 1MB、3MB 和 10MB 数据上分别达到 2.123、2.149 和 2.162 bpb，相比 xz -9e（LZMA2）压缩率分别提升 8.7%、5.4% 和 0.7%。消融实验显示，SSM 是主要压缩引擎：单凭 SSM 即可比频数基线减少 46.6% 体积，且无需 N-gram 组件已超越 xz；而 N-gram 表通过精确上下文记忆额外贡献 4.1% 的增益。

工程实现与效率

StateSMix 完全用纯 C 语言实现，并利用 AVX2 SIMD 指令集加速。在普通 x86-64 硬件上，每秒可处理约 2000 个 token。训练循环通过 OpenMP 并行化，在 4 核上获得 1.9 倍加速。这意味着它无需 GPU 即可在 CPU 上高效运行，非常适合资源受限的环境。

行业意义与展望

StateSMix 展示了将现代序列模型（如 Mamba）与传统压缩技术结合的巨大潜力。其在线学习特性尤其适合流式数据或一次性文件压缩场景，避免了预训练模型对海量数据和算力的依赖。未来，该方法有望进一步扩展到图像、音频等领域的无损压缩，或与更高效的 tokenizer 结合以提升性能。

StateSMix：基于Mamba状态空间模型与稀疏N-gram上下文混合的在线无损压缩

核心架构：SSM + 稀疏 N-gram 混合

性能表现：轻量级击败传统算法

工程实现与效率

行业意义与展望

延伸阅读

相关资讯