理论最优量化：BDQ在W4A4上仅降1%精度

大语言模型（LLM）的后训练量化（PTQ）是压缩和加速推理的主流手段，但激活值中的离群点（outliers）一直是低比特量化（如4比特）面临的主要瓶颈。近期方法尝试通过线性变换沿特征维度抑制离群点，但本文作者分析发现，变换后的权重和激活仍存在集中的离群模式。为此，他们提出平坦度（Flatness）这一新指标来量化离群点的分布特性，并推导出关于平坦度的理论最优解。基于该理论，团队提出了双向对角量化（BDQ）框架，通过优化矩阵变换将离群幅度分散到矩阵的不同维度。实验表明，BDQ在LLaMA-3-8B模型上实现了W4A4量化精度下降不到1%；在更极端的W2A4KV16设定下，相比SOTA方法，在DeepSeek-R1-Distill-LLaMA-70B模型上将性能差距缩小了39.1%。该研究为低比特量化提供了新的理论视角与实用方案。

离群点：量化精度下降的根源

LLM的激活值中常常出现少数远大于其他值的离群点，这些离群点在低比特量化时会被严重截断或舍入，导致模型性能骤降。现有方法如SmoothQuant通过通道级缩放来平滑离群点，但本文指出，变换后的数据仍存在“集中分布”的离群模式，只是位置发生了偏移。

平坦度：量化误差的新解释

作者首先建立了量化误差与离群点之间的数学关系，发现误差不仅取决于离群点的幅度，更取决于其在矩阵中的分布集中程度。基于此，他们定义了“平坦度”指标：平坦度越高，表示离群点分布越分散，量化误差越小。进一步，他们推导了在给定平坦度下的理论最优量化方案，为后续方法提供了上界。

BDQ：双向对角量化框架

受理论指导，BDQ设计了一种双向对角变换机制：分别在权重和激活矩阵上学习可逆的对角变换，将离群点能量沿行和列两个方向分散。这种操作相当于在矩阵维度上“抹平”离群点，使其分布更均匀。变换后的矩阵再进行标准量化，推理时变换与反变换可融合到相邻算子中，几乎不增加额外计算。

实验结果：W4A4仅降1%精度

在LLaMA-3-8B模型上，BDQ的W4A4（权重4比特、激活4比特）量化相比FP16基线，精度下降不足1%。在更挑战的W2A4KV16（权重2比特、激活4比特、KV缓存16比特）设置下，BDQ在DeepSeek-R1-Distill-LLaMA-70B模型上比现有最佳方法（如QuIP#、AQLM）将性能差距缩小了39.1%。该结果证明了平坦度理论的有效性。

小结

BDQ通过引入平坦度指标和双向对角变换，为LLM低比特量化提供了理论最优解。其核心价值在于：将离群点问题从“抑制幅度”转向“分散分布”，从而在极低比特下仍能保持高精度。未来，该方法有望推动端侧部署和实时推理场景中更激进的压缩策略。

理论最优量化：基于“平坦度”新指标，BDQ在W4A4上仅降1%精度

离群点：量化精度下降的根源

平坦度：量化误差的新解释

BDQ：双向对角量化框架

实验结果：W4A4仅降1%精度

小结

延伸阅读

相关资讯