SheepNav
新上线今天0 投票

FAIR-Calib:面向扩散大语言模型的边界感知不稳定重加权校准方法

背景:扩散LLM的“稳定性滞后”难题

扩散大语言模型(dLLMs)通过迭代精炼(refine)token生成文本,但其不可逆的写入机制导致了一个关键问题:早期决策在写入后仍然脆弱,容易受到后续量化误差的影响,这种现象被称为“稳定性滞后”(stability lag)。当模型进行**训练后量化(PTQ)**时,量化误差可能翻转这些处于边界的决策(write frontier),而一旦翻转,错误将被永久锁定并放大,严重影响生成质量。

方法:FAIR-Calib 两阶段框架

针对这一挑战,来自北京航空航天大学等机构的研究者提出了 FAIR-Calib(Frontier-Aware Instability-Reweighted Calibration),一种专门为dLLMs设计的PTQ校准方法。该方法包含两个阶段:

  • Stage I:边界先验估计。使用全精度教师模型探测,估计一个位置先验(position prior),该先验结合了“边界命中率”(frontier hits)和“掩码阶段可靠性”(masked-stage reliability),从而识别出哪些token处于易翻转的脆弱边界。
  • Stage II:离策略逐层校准。通过最小化一个重加权后的隐藏状态均方误差(MSE),优先保护脆弱的边界状态。校准过程采用离策略(off-policy)方式,无需昂贵的端到端扩散 rollout 即可完成。

研究者从理论上证明,该加权目标函数是输出KL散度的一个有效代理(surrogate),确保了校准方向与生成质量优化一致。

实验结果与意义

LLaDADream 两个dLLM模型上,采用W4A4(4-bit权重和激活)量化配置,FAIR-Calib 在多个基准测试中显著优于现有最先进方法。它有效减少了边界决策翻转(frontier decision flips)并压制了写入后的不匹配(post-commit mismatches)。

该工作已被 ICML 2026 接收为海报论文,为扩散LLM的高效部署提供了新的量化校准思路,尤其适用于对生成稳定性和准确性要求高的应用场景。

延伸阅读

  1. 跳过一层还是循环它?LLM中的“层程序”学习
  2. 生成模型如何通过市场选择侵蚀人类时间学习
  3. 你确定吗?符号回归中的不确定性量化全面综述
查看原文