少步文本生成为何失败？新研究发现几何原因是关键

研究背景：图像与文本的生成差异

近年来，确定性少步生成（如一致性模型、整流流）在图像潜在空间（如 Stable Diffusion 的 latent）上取得了显著成功，仅需几步即可生成高质量图像。然而，当将同样的方法应用于连续文本潜在空间时，生成结果却会崩溃为无意义的乱码。这一现象引发了研究者的好奇：为何图像能成功，而文本却不行？

核心发现：几何原因而非训练不足

来自 arXiv 的最新论文（arXiv:2606.30705）给出了一个令人信服的解释：问题出在几何结构上，而非训练或模型规模不足。作者 Zhongyao Wang 证明，一个平滑且受正则性限制的确定性映射，无法在尖锐的类别读出之前解决离散分支选择问题。换句话说，少步失败的根本原因在于解码器的“尖锐度”，而非传输精度。

关键概念：DABI 与 CCI

为了量化这一现象，论文提出了两个诊断指标：

DABI（读出尖锐度）：衡量解码器对边界附近扰动的放大程度。
CCI（类别承诺度）：衡量生成过程对离散类别的承诺程度。

实验表明，在四个独立构建的连续文本解码器上，DABI 值高达 5×10² 到 >10⁵，意味着解码器将边界对齐的扰动放大了数百到数万倍；而图像解码器的 DABI 值约为 1，几乎无放大。这直接导致文本生成中，微小扰动即可导致 token 翻转，产生混乱输出。

理论证明：几何本质

论文在理论上（Theorem 3）严格证明：在真实文本自编码器的重叠区域中，后验均值终末步会以与决策边界周围 O(s(t)) 管状区域内的潜在质量成比例的速率翻转 token。这意味着 生成失败是由解码器的尖锐边界几何决定的，而非生成过程的精度。

两种逃逸机制

尽管确定性连续模型存在固有局限，论文也指出了两种可以绕过这一限制的机制：

类别承诺（Categorical Commitment）：自回归解码器虽然读出更尖锐，但通过逐步承诺类别实现了成功。
随机重注入（Stochastic Re-injection）：在同一个模型上，确定性 ODE（K=4 步）的困惑度（PPL）高达 294，而 SDE（随机微分方程）仅需 50，显著优于确定性方法。

维度相图与权衡

进一步，论文在理想化分离区域推导了匹配的尖锐传输定律，并给出了维度相图：

要分离 M 个模式所需的确定性刚度随潜在维度变化：当维度 Ω(log M) 时，刚度增长为 Θ(√(log M))；在固定维度下则增长为 M^(1/n)。
深度为 B 的层级结构可将每步峰值降低 √B 倍。

这揭示了一个精度-深度-刚度权衡：在确定性连续模型类中，代价是不可约的；而两种逃逸机制（自回归和随机性）则跳出了该类。

行业意义

这项研究对于 AI 生成领域具有重要启示：

对于文本生成，单纯增加模型规模或训练步数可能无法解决少步生成问题，必须从架构或算法层面引入随机性或离散承诺。
对于多模态模型，理解图像与文本潜在空间的几何差异，有助于设计更通用的少步生成框架。

未来，或许我们能看到结合确定性快速推理与随机性纠错的混合方法，在文本生成中实现类似图像的少步高质量输出。

为什么少步文本潜在空间生成会失败，而图像潜在空间却能成功？尖锐类别读出时的“非承诺”问题