StateSMix:基于Mamba状态空间模型与稀疏N-gram上下文混合的在线无损压缩
近日,一项名为 StateSMix 的新型无损压缩方案引发关注。该方案完全自包含,无需预训练权重、GPU或外部依赖,仅通过在线训练一个轻量级 Mamba 风格状态空间模型(SSM),结合稀疏 N-gram 上下文混合与算术编码,即可在标准基准上超越传统压缩工具如 xz。
核心架构:SSM + 稀疏 N-gram 混合
StateSMix 的核心是一个参数约 12 万的 SSM(维度 32,层数 2),它在压缩过程中逐 token 在线训练,为每个 BPE token 提供连续更新的概率估计。与此同时,系统维护了 9 个稀疏 N-gram 哈希表(从 bigram 到 32-gram,每个表 1600 万槽位),通过 softmax 不变的对数偏置机制精确记忆局部和长距离模式。SSM 和 N-gram 的贡献由熵自适应缩放机制动态调节——当 SSM 预测置信度高时,N-gram 的影响自动减弱,避免过度修正。
性能表现:轻量级击败传统算法
在标准 enwik8 基准上,StateSMix 在 1MB、3MB 和 10MB 数据上分别达到 2.123、2.149 和 2.162 bpb,相比 xz -9e(LZMA2)压缩率分别提升 8.7%、5.4% 和 0.7%。消融实验显示,SSM 是主要压缩引擎:单凭 SSM 即可比频数基线减少 46.6% 体积,且无需 N-gram 组件已超越 xz;而 N-gram 表通过精确上下文记忆额外贡献 4.1% 的增益。
工程实现与效率
StateSMix 完全用纯 C 语言实现,并利用 AVX2 SIMD 指令集加速。在普通 x86-64 硬件上,每秒可处理约 2000 个 token。训练循环通过 OpenMP 并行化,在 4 核上获得 1.9 倍加速。这意味着它无需 GPU 即可在 CPU 上高效运行,非常适合资源受限的环境。
行业意义与展望
StateSMix 展示了将现代序列模型(如 Mamba)与传统压缩技术结合的巨大潜力。其在线学习特性尤其适合流式数据或一次性文件压缩场景,避免了预训练模型对海量数据和算力的依赖。未来,该方法有望进一步扩展到图像、音频等领域的无损压缩,或与更高效的 tokenizer 结合以提升性能。