SheepNav
Google 开源 Gemma 4 模型,采用“推测解码”技术实现最高 3 倍加速
新上线今天0 投票

Google 开源 Gemma 4 模型,采用“推测解码”技术实现最高 3 倍加速

Google 近期发布了 Gemma 4 开源模型,并随之推出了实验性的多令牌预测(MTP)草稿器,通过推测解码技术大幅提升本地 AI 推理速度。官方称,在保持输出质量不变的前提下,推理速度最高可提升 3 倍。

技术原理:用“轻量草稿”加速“重型模型”

传统大语言模型(LLM)采用自回归方式逐个生成 token——每个 token 都需要完整的模型计算,即便只是填充词也不例外。在本地硬件上,内存带宽(相较于企业级高带宽内存 HBM)成为瓶颈:处理器频繁从显存搬运参数,大量计算周期被浪费。

MTP 的思路正是利用这段空闲时间:用一个极小的草稿模型(Gemma 4 E2B 的草稿器仅 7400 万参数)快速推测后续多个 token,再由主模型一次性验证。由于草稿器共享主模型的键值缓存,无需重复计算上下文,推测效率极高。

Gemma 4:从云端到本地的能力下放

Gemma 4 基于 Google 前沿模型 Gemini 的底层技术构建,但专门针对本地运行优化。单个高性能 AI 加速器即可运行最大规模的 Gemma 4 模型(全精度),量化后甚至可在消费级 GPU 上部署。相比 Gemini 依赖 Google 定制 TPU 芯片和超算集群,Gemma 让用户能在自有硬件上调试 AI,避免数据全部上传至云端。

此外,Google 将 Gemma 4 的许可协议改为 Apache 2.0,比前代的自定义许可更为开放,降低了商业使用门槛。

实际意义:本地 AI 推理的“降本增效”

推测解码并非全新概念,但 Google 将其系统性地集成到 Gemma 4 生态中,意义重大。对于开发者而言,这意味着:

  • 在同样硬件上获得更快的响应速度,或为同等速度选择更小/更便宜的硬件;
  • 保持模型输出质量(草稿器的错误会被主模型拒绝);
  • 开源实现便于社区优化和定制。

局限性:不是万能加速

需要指出,加速效果取决于任务类型:草稿器推测准确率高时(如模板化回复)提速明显;在高度创造性或逻辑复杂的任务中,推测命中率下降,加速比可能缩小。此外,草稿器本身也占用一定内存,对极端资源受限的场景并不友好。

总体而言,MTP 是 Google 在“边缘 AI”方向上的重要补丁——让强大的模型在普通硬件上跑得更快,离“人人都能运行本地 AI”的目标又近了一步。

延伸阅读

  1. 3 个 AI 技巧,助你拿下心仪工作面试
  2. 谷歌AI搜索大更新:引入Reddit等论坛的“专家建议”
  3. 网络罪犯也开始抱怨AI垃圾内容泛滥论坛
查看原文