Google DeepMind 发布 DiffusionGemma：本地 AI 推理速度提升 4 倍

Google DeepMind 近日发布了 Gemma 4 开源模型家族的新成员 DiffusionGemma，它采用了与图像生成模型类似的扩散（diffusion）技术，而非传统的自回归（autoregressive）方式。这意味着模型不再逐字生成文本，而是并行输出整个文本块，在本地硬件上推理速度最高可提升 4 倍。

工作原理：从“逐字造句”到“整体去噪”

传统大语言模型（如 GPT 系列或标准 Gemma）是自回归的——从左到右一个 token 接一个 token 地生成文本，每一步都依赖前一步的结果。这种串行方式虽然精确，但受限于内存带宽，速度难以大幅提升。

DiffusionGemma 则另辟蹊径：它首先在“画布”上放置大量占位 token，然后像图像扩散模型一样，通过多次迭代逐步“去噪”——每次迭代都会根据当前预测更新所有 token，最终同时生成一整段文本。这一过程将计算瓶颈从内存带宽转移到了算力上，使得模型可以一次并行生成最多 256 个 token。

性能亮眼：700+ tokens/s 的本地速度

DiffusionGemma 是一个 混合专家（MoE） 模型，总参数量达 260 亿，但推理时仅激活 38 亿 参数，因此能够在高端消费级 GPU（如 RTX 5090 的 18GB 显存）上运行。

在 RTX 5090 上，DiffusionGemma 每秒可生成约 700 个 token。
在单块 Nvidia H100 加速卡上，速度超过 1000 tokens/s。

相比同等规模的 Gemma 自回归模型，速度提升约 4 倍。

适用场景：非线性任务的优势

扩散式文本生成尤其擅长那些需要全局依赖或反复修正的任务，例如：

内联编辑：修改文档中间部分时，模型能同时考虑前后文。
分子序列建模：生物信息学中常见的长序列预测。
数学图形生成：如数独求解——动画演示显示，DiffusionGemma 通过不断修正大量 token，比自回归模型更轻松地解决了数独问题。

为何 Gemini 不用？精度与成本权衡

尽管扩散模型速度更快，但 Google 并未将其用于云端 Gemini 系列。原因在于：

错误率较高：图像扩散模型中单个像素预测错误影响有限，但文本中一个 token 错误可能改变整个句子含义。
迭代计算成本：多次去噪迭代的总计算量可能不低于自回归模型。

因此，DiffusionGemma 更适合对速度要求高、对精度容忍度稍大的本地应用场景，如实时编辑助手、轻量级推理任务等。

行业影响：开源生态的新变量

DiffusionGemma 的发布为开源大模型社区提供了新的思路——在本地设备上实现更快推理，有望推动更多端侧 AI 应用，如离线智能助手、本地文档处理等。同时，它也展示了非自回归架构在特定任务上的潜力，可能激励更多研究者探索扩散模型在 NLP 领域的应用。

Google DeepMind 表示，DiffusionGemma 的代码和权重已在 Hugging Face 等平台开放，开发者可立即下载体验。