谷歌Omni AI实测：万物互转视频生成有多强？

去年，我用AI深度伪造了孩子的毛绒玩具，让它看起来像在度假。今年，谷歌在I/O 2026上发布了全新的Omni系列生成模型，号称能实现“任何输入到任何输出”的转换。我第一时间用Omni Flash模型重新测试了那只叫Buddy的小鹿，结果令人既兴奋又困惑。

Omni是什么？

Omni是谷歌新一代生成式AI模型家族，其核心愿景是：未来能够将任意类型的输入（照片、视频、文字）转化为任意类型的输出。不过目前，它主要聚焦在视频生成领域。首个发布的模型是 Omni Flash，现已集成到谷歌的AI视频生成与编辑平台 Flow 中。用户仍可使用前代模型Veo，但Omni在几个关键方面实现了显著提升。

Omni Flash的核心改进

多模态输入：你可以上传一段视频，再配合文字提示，作为AI生成内容的起点。这比单纯依靠文字提示提供了更丰富的创意控制。
更强的世界知识：谷歌声称Omni在生成视频时融入了更多现实世界知识，从而能更好地保持角色一致性。例如，小鹿Buddy在不同镜头中的外观、姿态和所处环境逻辑上更连贯。
角色一致性：这是前代模型Veo的痛点——角色容易“变脸”或“变形”。Omni在这方面有明确改进，但并非完美。

实测体验：好到令人不安，但AI“跳吓”依旧

为了验证Omni的真实水平，我让Buddy进行了一系列冒险：漂流、跳伞、在埃菲尔铁塔前合影。结果喜忧参半：

最佳片段：比五个月前测试Veo时好得多，提示词的还原度更高，Buddy的外观在连续镜头中保持稳定，场景细节也更丰富。例如，Buddy在竹筏上漂流时，水花、光影和毛绒质感都相当逼真。
AI“跳吓”：在跳伞片段中，Buddy突然在空中翻转了180度，姿势和朝向完全不合逻辑。这种突然的“变形”或“物理违和”依然是当前AI视频的典型特征，提醒我们这并非真正的“奇点”。

从“无害娱乐”到“全面垃圾内容”？

去年，我出于好奇尝试复刻谷歌Gemini广告中的场景，当时就意识到：生成逼真视频的工具已经好得惊人，且几乎不需要专业知识。Omni的出现将这一趋势推向新高。它让“无害的趣味实验”与“泛滥的垃圾内容”之间的界限变得更加模糊——或许这两者本就是同一枚硬币的两面。

行业背景与展望

谷歌在I/O 2026上大力押注多模态AI，Omni正是其核心战略的体现。与OpenAI的Sora、Meta的Make-A-Video等竞品相比，Omni强调“任意到任意”的转换能力，而不仅仅是文本到视频。这为创意工具、广告制作、甚至个人娱乐打开了新的大门。但随之而来的风险也不容忽视：深度伪造的门槛进一步降低，内容验证和伦理监管的需求更加迫切。

目前Omni Flash已在Flow平台上线，用户可免费试用。谷歌表示，更强大的Omni Ultra模型将在未来几个月内推出，届时可能支持更复杂的多模态转换，如图像到3D模型、音频到视频等。

小结

Omni代表了AI视频生成的一个重要里程碑：它更聪明、更连贯、更易用，但离真正的“以假乱真”仍有距离。对于创作者而言，它是强大的新玩具；对于社会而言，它是需要谨慎对待的双刃剑。至于我四岁儿子——他依然不知道Buddy曾独自“环游世界”，而我也还没想好是否要告诉他真相。

谷歌全新“万物互转”AI模型Omni实测：把孩子的毛绒玩具扔进激流，还让我在埃菲尔铁塔前“深度伪造”了自己

延伸阅读

相关资讯