谷歌全新“万物互转”AI模型Omni实测:把孩子的毛绒玩具扔进激流,还让我在埃菲尔铁塔前“深度伪造”了自己
去年,我用AI深度伪造了孩子的毛绒玩具,让它看起来像在度假。今年,谷歌在I/O 2026上发布了全新的Omni系列生成模型,号称能实现“任何输入到任何输出”的转换。我第一时间用Omni Flash模型重新测试了那只叫Buddy的小鹿,结果令人既兴奋又困惑。
Omni是什么?
Omni是谷歌新一代生成式AI模型家族,其核心愿景是:未来能够将任意类型的输入(照片、视频、文字)转化为任意类型的输出。不过目前,它主要聚焦在视频生成领域。首个发布的模型是 Omni Flash,现已集成到谷歌的AI视频生成与编辑平台 Flow 中。用户仍可使用前代模型Veo,但Omni在几个关键方面实现了显著提升。
Omni Flash的核心改进
- 多模态输入:你可以上传一段视频,再配合文字提示,作为AI生成内容的起点。这比单纯依靠文字提示提供了更丰富的创意控制。
- 更强的世界知识:谷歌声称Omni在生成视频时融入了更多现实世界知识,从而能更好地保持角色一致性。例如,小鹿Buddy在不同镜头中的外观、姿态和所处环境逻辑上更连贯。
- 角色一致性:这是前代模型Veo的痛点——角色容易“变脸”或“变形”。Omni在这方面有明确改进,但并非完美。
实测体验:好到令人不安,但AI“跳吓”依旧
为了验证Omni的真实水平,我让Buddy进行了一系列冒险:漂流、跳伞、在埃菲尔铁塔前合影。结果喜忧参半:
- 最佳片段:比五个月前测试Veo时好得多,提示词的还原度更高,Buddy的外观在连续镜头中保持稳定,场景细节也更丰富。例如,Buddy在竹筏上漂流时,水花、光影和毛绒质感都相当逼真。
- AI“跳吓”:在跳伞片段中,Buddy突然在空中翻转了180度,姿势和朝向完全不合逻辑。这种突然的“变形”或“物理违和”依然是当前AI视频的典型特征,提醒我们这并非真正的“奇点”。
从“无害娱乐”到“全面垃圾内容”?
去年,我出于好奇尝试复刻谷歌Gemini广告中的场景,当时就意识到:生成逼真视频的工具已经好得惊人,且几乎不需要专业知识。Omni的出现将这一趋势推向新高。它让“无害的趣味实验”与“泛滥的垃圾内容”之间的界限变得更加模糊——或许这两者本就是同一枚硬币的两面。
行业背景与展望
谷歌在I/O 2026上大力押注多模态AI,Omni正是其核心战略的体现。与OpenAI的Sora、Meta的Make-A-Video等竞品相比,Omni强调“任意到任意”的转换能力,而不仅仅是文本到视频。这为创意工具、广告制作、甚至个人娱乐打开了新的大门。但随之而来的风险也不容忽视:深度伪造的门槛进一步降低,内容验证和伦理监管的需求更加迫切。
目前Omni Flash已在Flow平台上线,用户可免费试用。谷歌表示,更强大的Omni Ultra模型将在未来几个月内推出,届时可能支持更复杂的多模态转换,如图像到3D模型、音频到视频等。
小结
Omni代表了AI视频生成的一个重要里程碑:它更聪明、更连贯、更易用,但离真正的“以假乱真”仍有距离。对于创作者而言,它是强大的新玩具;对于社会而言,它是需要谨慎对待的双刃剑。至于我四岁儿子——他依然不知道Buddy曾独自“环游世界”,而我也还没想好是否要告诉他真相。