SheepNav
新上线昨天0 投票

谷歌Gemini Omni:图像、音频、文本一键合成视频,这只是开始

在今年的 Google I/O 开发者大会上,谷歌正式发布了 Gemini Omni,一个全新的多模态模型家族。与以往的多模态模型不同,Omni 并非简单地将文字、图像、音频和视频拼接在一起,而是能够跨模态推理,理解物理、文化、历史和科学知识,生成连贯且高质量的视频内容。

从“理解”到“创造”

谷歌 CEO Sundar Pichai 在发布会上表示:“当我们在三年前首次推出 Gemini 时,它就原生支持多模态。但 Omni 的目标是让 AI 从预测文本转向模拟现实。”

以 Omni Flash 为起点,用户可以通过自然对话的方式,结合图片、音频、视频和文字作为输入,让模型生成或编辑视频。例如,输入“一个关于蛋白质折叠的黏土动画讲解”,Omni 不仅会生成一段定格动画风格的视频,还会自动配上画外音,用通俗的语言解释氨基酸链如何折叠成 α 螺旋和 β 折叠。

不仅仅是视频生成

虽然 Omni 的首个应用聚焦于视频,但其长期愿景更为宏大。谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 透露,未来 Omni 将支持“从音频生成图像”或“从视频生成音频”等多种双向转换。谷歌已有专门的视频模型 Veo,但 DeepMind 产品管理总监 Nicole Brichtova 强调:“Omni 不是 Veo 的简单升级,而是将 Gemini 的推理能力与媒体模型的渲染能力相结合的下一步。”

防止滥用与安全措施

作为发布的一部分,用户还可以使用自己的数字分身创建视频(类似 OpenAI 在 Sora 中推出的 Cameo 功能)。为防止深度伪造,用户需要通过严格的身份验证流程。谷歌表示,所有由 Omni 生成的内容都将添加不可见的数字水印,并遵守现有的 AI 安全准则。

行业影响

Gemini Omni 的发布标志着多模态 AI 从“理解内容”迈入“创造世界”的新阶段。过去,生成式 AI 主要依赖文本提示;如今,用户可以通过混合多种输入形式,更自然地表达创意。对于内容创作者、教育者和营销人员而言,Omni 可能大幅降低视频制作的门槛。

不过,Omni 目前仍处于早期阶段,首批功能仅支持视频生成,且仅面向部分开发者开放。谷歌计划在未来几个月内逐步扩大访问权限,并增加更多模态组合。

延伸阅读

  1. 掩码离散序列模型中成对互信息的神经估计:让AI学会“读懂”变量关系
  2. GraphDiffMed:融合药理图先验与差分注意力机制,实现更可靠的药物推荐
  3. TabPFN-MT:专为表格数据设计的原生多任务上下文学习器
查看原文