实测对比:Gemini、ChatGPT 与 Claude 的视频分析能力,谁赢了?
一场视频理解的“摸底考试”
当 AI 不仅能“读”文字,还能“看”视频,我们不禁要问:它们是真正理解了视频内容,还是仅仅在“假装看懂”?为了找到答案,资深科技编辑 David Gewirtz 对目前最主流的三大 AI —— Gemini、ChatGPT 和 Claude —— 进行了一场视频分析能力的横向对比测试,结果令人意外。
测试设计:三大场景,三种格式
测试者选取了三段风格迥异的视频,涵盖 YouTube 链接、本地 MP4 文件以及原始 MOV 文件,旨在全面考察 AI 对视频内容的理解能力。
- 科普讲解视频:一段关于“退火(Annealing)”科学过程的 YouTube 视频(带音频解说)。任务:理解视频内容,并尝试生成比原版更好的缩略图。
- 无人机运动测试:一段无音频的 DJI Neo 2 无人机手势控制演示视频(MP4 格式)。任务:仅凭画面判断发生了什么。
- 创作者策略分享:一段关于 YouTube 发布策略的边走边谈视频(原始 MOV 文件)。任务:不依赖 YouTube 元数据或字幕,仅凭视频本身判断讨论主题。
结果纵览:Gemini 遥遥领先
Gemini:全面领先,实至名归
Gemini 在本次测试中表现最为出色,成为唯一一个能够直接处理 YouTube 链接、MP4 和 MOV 文件 的 AI。它不仅准确理解了退火视频中的科学概念,还能基于画面内容生成合理的缩略图建议。对于无音频的无人机测试,Gemini 成功识别出“手势控制无人机飞行”这一核心动作。最关键的是,在处理本地 MOV 文件时,Gemini 在没有元数据辅助的情况下,准确推断出视频主题是“YouTube 发布策略与内容规划”,展现了强大的多模态理解能力。
ChatGPT:中规中矩,需外力辅助
ChatGPT Plus(月费 20 美元)在视频分析上表现尚可,但存在明显短板。它无法直接处理本地视频文件,需要借助 Codex 插件 或通过上传视频帧截图来进行“间接”分析。对于 YouTube 视频,ChatGPT 能较好地理解带音频的内容,但在无音频的无人机测试中,它只能描述画面中的静态元素(如“一个人站在无人机前”),未能准确推断出“手势控制”这一动态意图。整体来看,ChatGPT 的视频能力更多是文本与图像理解的延伸,而非原生视频理解。
Claude:仍在“门外”
Claude 是三者中表现最弱的——它 目前根本无法直接处理视频文件。无论是 YouTube 链接还是本地文件,Claude 都无法解析视频内容。它只能依赖用户提供的文字描述或截图来“猜测”视频内容,这在实际应用中几乎毫无价值。在本次测试中,Claude 几乎全程“掉线”,未能完成任何一项核心任务。
行业启示:视频理解仍是 AI 的“硬骨头”
这次测试清晰地揭示了当前 AI 在视频理解领域的巨大差距。Gemini 凭借其原生多模态架构,在视频分析上建立了显著优势,尤其是对 无音频、无元数据的“裸视频” 的理解能力,已经接近实用水平。而 ChatGPT 和 Claude 则暴露出它们在视频处理上更多是“文本+图像”的拼接,而非真正的视频时序理解。
对于 AI 行业而言,视频理解是通往通用人工智能(AGI)的关键一步。如果 AI 能像人类一样“看”懂一段包含动作、对话、场景切换的视频,那么在视频监控、内容审核、自动剪辑、教育辅助等领域的应用潜力将是巨大的。目前来看,Gemini 已经在这一赛道上抢跑,但距离真正“看懂”视频(例如理解复杂的因果关系与情感表达)仍有很长的路要走。