Google Gemma 4 推测解码加速 3 倍，开源本地 AI 新突破

Google 近期发布了 Gemma 4 开源模型，并随之推出了实验性的多令牌预测（MTP）草稿器，通过推测解码技术大幅提升本地 AI 推理速度。官方称，在保持输出质量不变的前提下，推理速度最高可提升 3 倍。

技术原理：用“轻量草稿”加速“重型模型”

传统大语言模型（LLM）采用自回归方式逐个生成 token——每个 token 都需要完整的模型计算，即便只是填充词也不例外。在本地硬件上，内存带宽（相较于企业级高带宽内存 HBM）成为瓶颈：处理器频繁从显存搬运参数，大量计算周期被浪费。

MTP 的思路正是利用这段空闲时间：用一个极小的草稿模型（Gemma 4 E2B 的草稿器仅 7400 万参数）快速推测后续多个 token，再由主模型一次性验证。由于草稿器共享主模型的键值缓存，无需重复计算上下文，推测效率极高。

Gemma 4：从云端到本地的能力下放

Gemma 4 基于 Google 前沿模型 Gemini 的底层技术构建，但专门针对本地运行优化。单个高性能 AI 加速器即可运行最大规模的 Gemma 4 模型（全精度），量化后甚至可在消费级 GPU 上部署。相比 Gemini 依赖 Google 定制 TPU 芯片和超算集群，Gemma 让用户能在自有硬件上调试 AI，避免数据全部上传至云端。

此外，Google 将 Gemma 4 的许可协议改为 Apache 2.0，比前代的自定义许可更为开放，降低了商业使用门槛。

实际意义：本地 AI 推理的“降本增效”

推测解码并非全新概念，但 Google 将其系统性地集成到 Gemma 4 生态中，意义重大。对于开发者而言，这意味着：

在同样硬件上获得更快的响应速度，或为同等速度选择更小/更便宜的硬件；
保持模型输出质量（草稿器的错误会被主模型拒绝）；
开源实现便于社区优化和定制。

局限性：不是万能加速

需要指出，加速效果取决于任务类型：草稿器推测准确率高时（如模板化回复）提速明显；在高度创造性或逻辑复杂的任务中，推测命中率下降，加速比可能缩小。此外，草稿器本身也占用一定内存，对极端资源受限的场景并不友好。

总体而言，MTP 是 Google 在“边缘 AI”方向上的重要补丁——让强大的模型在普通硬件上跑得更快，离“人人都能运行本地 AI”的目标又近了一步。

Google 开源 Gemma 4 模型，采用“推测解码”技术实现最高 3 倍加速

技术原理：用“轻量草稿”加速“重型模型”

Gemma 4：从云端到本地的能力下放

实际意义：本地 AI 推理的“降本增效”

局限性：不是万能加速

延伸阅读

相关资讯