SCMDM：掩码扩散模型自我条件适应，生成困惑度降50%

掩码扩散模型（MDM）通过迭代去噪生成离散序列，但标准方法中，若某token在反向更新后仍保持掩码状态，模型会丢弃该位置之前的干净状态预测，导致仍需从掩码token重复推断，限制了跨步精炼。为解决此问题，arXiv 2604.26985提出了一种简单有效的后训练适应方法——自我条件掩码扩散模型（SCMDM），通过让每个去噪步基于模型自身上一轮的干净状态预测进行条件化，实现了显著的性能提升。

核心思路：让掩码位置“记住”历史预测

SCMDM的核心改动极小：在反向去噪过程中，对于仍处于掩码状态的token，模型不再丢弃其上一轮的干净预测，而是将其作为额外输入（即“自我条件”），从而让后续去噪步能基于更丰富的信息进行推断。这种方法无需引入循环隐状态路径，不依赖辅助参考模型，也不增加采样时的额外去噪评估次数，是一种轻量级的后训练适配方案。

关键发现：后训练场景下，部分自我条件化策略并非最优

论文特别指出，常见的部分自我条件化策略（如50% dropout训练）在从头训练时有效，但在后训练场景下反而次优。当模型自我生成的干净状态估计变得可靠时，专注于“精炼”任务（即基于干净预测进行微调）比混合条件与非条件目标更好。SCMDM正是基于这一洞察，采用全条件化策略，让模型最大化利用自身历史预测。

实验结果：生成困惑度降低近50%

SCMDM在多个领域展现出显著改进：

文本生成：在OpenWebText训练的模型上，生成困惑度从42.89降至23.72，降幅接近50%。
图像合成：离散图像生成质量大幅提升。
分子生成：小分子生成任务表现更优。
基因组建模：在基因组分布建模中，保真度进一步增强。

行业意义：后训练适配的轻量级范式

SCMDM的提出为掩码扩散模型的改进提供了新思路。相比需要从头训练或引入复杂架构的方法，这种后训练适配方式成本低、改动小，且效果显著。对于已部署的MDM模型，用户可通过简单的微调快速提升生成质量，尤其适用于资源受限或需要快速迭代的场景。这一工作也凸显了“自我条件化”在生成模型中的潜力，未来可能推动更多轻量级自适应技术的发展。

简单自我条件适应，为掩码扩散模型注入跨步精炼能力

核心思路：让掩码位置“记住”历史预测

关键发现：后训练场景下，部分自我条件化策略并非最优

实验结果：生成困惑度降低近50%

行业意义：后训练适配的轻量级范式

延伸阅读

相关资讯