SheepNav
Google DeepMind 发布 DiffusionGemma:本地 AI 推理速度提升 4 倍
新上线今天0 投票

Google DeepMind 发布 DiffusionGemma:本地 AI 推理速度提升 4 倍

Google DeepMind 近日发布了 Gemma 4 开源模型家族的新成员 DiffusionGemma,它采用了与图像生成模型类似的扩散(diffusion)技术,而非传统的自回归(autoregressive)方式。这意味着模型不再逐字生成文本,而是并行输出整个文本块,在本地硬件上推理速度最高可提升 4 倍。

工作原理:从“逐字造句”到“整体去噪”

传统大语言模型(如 GPT 系列或标准 Gemma)是自回归的——从左到右一个 token 接一个 token 地生成文本,每一步都依赖前一步的结果。这种串行方式虽然精确,但受限于内存带宽,速度难以大幅提升。

DiffusionGemma 则另辟蹊径:它首先在“画布”上放置大量占位 token,然后像图像扩散模型一样,通过多次迭代逐步“去噪”——每次迭代都会根据当前预测更新所有 token,最终同时生成一整段文本。这一过程将计算瓶颈从内存带宽转移到了算力上,使得模型可以一次并行生成最多 256 个 token

性能亮眼:700+ tokens/s 的本地速度

DiffusionGemma 是一个 混合专家(MoE) 模型,总参数量达 260 亿,但推理时仅激活 38 亿 参数,因此能够在高端消费级 GPU(如 RTX 5090 的 18GB 显存)上运行。

  • RTX 5090 上,DiffusionGemma 每秒可生成约 700 个 token
  • 在单块 Nvidia H100 加速卡上,速度超过 1000 tokens/s

相比同等规模的 Gemma 自回归模型,速度提升约 4 倍

适用场景:非线性任务的优势

扩散式文本生成尤其擅长那些需要全局依赖或反复修正的任务,例如:

  • 内联编辑:修改文档中间部分时,模型能同时考虑前后文。
  • 分子序列建模:生物信息学中常见的长序列预测。
  • 数学图形生成:如数独求解——动画演示显示,DiffusionGemma 通过不断修正大量 token,比自回归模型更轻松地解决了数独问题。

为何 Gemini 不用?精度与成本权衡

尽管扩散模型速度更快,但 Google 并未将其用于云端 Gemini 系列。原因在于:

  • 错误率较高:图像扩散模型中单个像素预测错误影响有限,但文本中一个 token 错误可能改变整个句子含义。
  • 迭代计算成本:多次去噪迭代的总计算量可能不低于自回归模型。

因此,DiffusionGemma 更适合对速度要求高、对精度容忍度稍大的本地应用场景,如实时编辑助手、轻量级推理任务等。

行业影响:开源生态的新变量

DiffusionGemma 的发布为开源大模型社区提供了新的思路——在本地设备上实现更快推理,有望推动更多端侧 AI 应用,如离线智能助手、本地文档处理等。同时,它也展示了非自回归架构在特定任务上的潜力,可能激励更多研究者探索扩散模型在 NLP 领域的应用。

Google DeepMind 表示,DiffusionGemma 的代码和权重已在 Hugging Face 等平台开放,开发者可立即下载体验。

延伸阅读

  1. 亚马逊Prime Day提前开抢:三星Galaxy手机、平板、电视超值折扣汇总
  2. 苹果 WWDC 2026 发布会全览:Siri 升级、iOS 27 开发者测试版等重磅更新
  3. Claude Fable 拒绝回答基础生物学问题:为防生物武器,Anthropic 设下“过度保守”护栏
查看原文