新上线今天0 投票
FAIR-Calib:面向扩散大语言模型的边界感知不稳定重加权校准方法
背景:扩散LLM的“稳定性滞后”难题
扩散大语言模型(dLLMs)通过迭代精炼(refine)token生成文本,但其不可逆的写入机制导致了一个关键问题:早期决策在写入后仍然脆弱,容易受到后续量化误差的影响,这种现象被称为“稳定性滞后”(stability lag)。当模型进行**训练后量化(PTQ)**时,量化误差可能翻转这些处于边界的决策(write frontier),而一旦翻转,错误将被永久锁定并放大,严重影响生成质量。
方法:FAIR-Calib 两阶段框架
针对这一挑战,来自北京航空航天大学等机构的研究者提出了 FAIR-Calib(Frontier-Aware Instability-Reweighted Calibration),一种专门为dLLMs设计的PTQ校准方法。该方法包含两个阶段:
- Stage I:边界先验估计。使用全精度教师模型探测,估计一个位置先验(position prior),该先验结合了“边界命中率”(frontier hits)和“掩码阶段可靠性”(masked-stage reliability),从而识别出哪些token处于易翻转的脆弱边界。
- Stage II:离策略逐层校准。通过最小化一个重加权后的隐藏状态均方误差(MSE),优先保护脆弱的边界状态。校准过程采用离策略(off-policy)方式,无需昂贵的端到端扩散 rollout 即可完成。
研究者从理论上证明,该加权目标函数是输出KL散度的一个有效代理(surrogate),确保了校准方向与生成质量优化一致。
实验结果与意义
在 LLaDA 和 Dream 两个dLLM模型上,采用W4A4(4-bit权重和激活)量化配置,FAIR-Calib 在多个基准测试中显著优于现有最先进方法。它有效减少了边界决策翻转(frontier decision flips)并压制了写入后的不匹配(post-commit mismatches)。
该工作已被 ICML 2026 接收为海报论文,为扩散LLM的高效部署提供了新的量化校准思路,尤其适用于对生成稳定性和准确性要求高的应用场景。