FAIR-Calib：扩散大语言模型PTQ校准新方法

背景：扩散LLM的“稳定性滞后”难题

扩散大语言模型（dLLMs）通过迭代精炼（refine）token生成文本，但其不可逆的写入机制导致了一个关键问题：早期决策在写入后仍然脆弱，容易受到后续量化误差的影响，这种现象被称为“稳定性滞后”（stability lag）。当模型进行**训练后量化（PTQ）**时，量化误差可能翻转这些处于边界的决策（write frontier），而一旦翻转，错误将被永久锁定并放大，严重影响生成质量。

方法：FAIR-Calib 两阶段框架

针对这一挑战，来自北京航空航天大学等机构的研究者提出了 FAIR-Calib（Frontier-Aware Instability-Reweighted Calibration），一种专门为dLLMs设计的PTQ校准方法。该方法包含两个阶段：

Stage I：边界先验估计。使用全精度教师模型探测，估计一个位置先验（position prior），该先验结合了“边界命中率”（frontier hits）和“掩码阶段可靠性”（masked-stage reliability），从而识别出哪些token处于易翻转的脆弱边界。
Stage II：离策略逐层校准。通过最小化一个重加权后的隐藏状态均方误差（MSE），优先保护脆弱的边界状态。校准过程采用离策略（off-policy）方式，无需昂贵的端到端扩散 rollout 即可完成。

研究者从理论上证明，该加权目标函数是输出KL散度的一个有效代理（surrogate），确保了校准方向与生成质量优化一致。

实验结果与意义

在 LLaDA 和 Dream 两个dLLM模型上，采用W4A4（4-bit权重和激活）量化配置，FAIR-Calib 在多个基准测试中显著优于现有最先进方法。它有效减少了边界决策翻转（frontier decision flips）并压制了写入后的不匹配（post-commit mismatches）。

该工作已被 ICML 2026 接收为海报论文，为扩散LLM的高效部署提供了新的量化校准思路，尤其适用于对生成稳定性和准确性要求高的应用场景。

FAIR-Calib：面向扩散大语言模型的边界感知不稳定重加权校准方法

背景：扩散LLM的“稳定性滞后”难题

方法：FAIR-Calib 两阶段框架

实验结果与意义

延伸阅读

相关资讯