谷歌Gemini Omni多模态模型发布：文本图像音频一键生成视频

在今年的 Google I/O 开发者大会上，谷歌正式发布了 Gemini Omni，一个全新的多模态模型家族。与以往的多模态模型不同，Omni 并非简单地将文字、图像、音频和视频拼接在一起，而是能够跨模态推理，理解物理、文化、历史和科学知识，生成连贯且高质量的视频内容。

从“理解”到“创造”

谷歌 CEO Sundar Pichai 在发布会上表示：“当我们在三年前首次推出 Gemini 时，它就原生支持多模态。但 Omni 的目标是让 AI 从预测文本转向模拟现实。”

以 Omni Flash 为起点，用户可以通过自然对话的方式，结合图片、音频、视频和文字作为输入，让模型生成或编辑视频。例如，输入“一个关于蛋白质折叠的黏土动画讲解”，Omni 不仅会生成一段定格动画风格的视频，还会自动配上画外音，用通俗的语言解释氨基酸链如何折叠成 α 螺旋和 β 折叠。

不仅仅是视频生成

虽然 Omni 的首个应用聚焦于视频，但其长期愿景更为宏大。谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 透露，未来 Omni 将支持“从音频生成图像”或“从视频生成音频”等多种双向转换。谷歌已有专门的视频模型 Veo，但 DeepMind 产品管理总监 Nicole Brichtova 强调：“Omni 不是 Veo 的简单升级，而是将 Gemini 的推理能力与媒体模型的渲染能力相结合的下一步。”

防止滥用与安全措施

作为发布的一部分，用户还可以使用自己的数字分身创建视频（类似 OpenAI 在 Sora 中推出的 Cameo 功能）。为防止深度伪造，用户需要通过严格的身份验证流程。谷歌表示，所有由 Omni 生成的内容都将添加不可见的数字水印，并遵守现有的 AI 安全准则。

行业影响

Gemini Omni 的发布标志着多模态 AI 从“理解内容”迈入“创造世界”的新阶段。过去，生成式 AI 主要依赖文本提示；如今，用户可以通过混合多种输入形式，更自然地表达创意。对于内容创作者、教育者和营销人员而言，Omni 可能大幅降低视频制作的门槛。

不过，Omni 目前仍处于早期阶段，首批功能仅支持视频生成，且仅面向部分开发者开放。谷歌计划在未来几个月内逐步扩大访问权限，并增加更多模态组合。

谷歌Gemini Omni：图像、音频、文本一键合成视频，这只是开始

从“理解”到“创造”

不仅仅是视频生成

防止滥用与安全措施

行业影响

延伸阅读

相关资讯