SheepNav
新上线今天0 投票

实测对比:Gemini、ChatGPT 与 Claude 的视频分析能力,谁赢了?

一场视频理解的“摸底考试”

当 AI 不仅能“读”文字,还能“看”视频,我们不禁要问:它们是真正理解了视频内容,还是仅仅在“假装看懂”?为了找到答案,资深科技编辑 David Gewirtz 对目前最主流的三大 AI —— GeminiChatGPTClaude —— 进行了一场视频分析能力的横向对比测试,结果令人意外。

测试设计:三大场景,三种格式

测试者选取了三段风格迥异的视频,涵盖 YouTube 链接、本地 MP4 文件以及原始 MOV 文件,旨在全面考察 AI 对视频内容的理解能力。

  1. 科普讲解视频:一段关于“退火(Annealing)”科学过程的 YouTube 视频(带音频解说)。任务:理解视频内容,并尝试生成比原版更好的缩略图。
  2. 无人机运动测试:一段无音频的 DJI Neo 2 无人机手势控制演示视频(MP4 格式)。任务:仅凭画面判断发生了什么。
  3. 创作者策略分享:一段关于 YouTube 发布策略的边走边谈视频(原始 MOV 文件)。任务:不依赖 YouTube 元数据或字幕,仅凭视频本身判断讨论主题。

结果纵览:Gemini 遥遥领先

Gemini:全面领先,实至名归

Gemini 在本次测试中表现最为出色,成为唯一一个能够直接处理 YouTube 链接、MP4 和 MOV 文件 的 AI。它不仅准确理解了退火视频中的科学概念,还能基于画面内容生成合理的缩略图建议。对于无音频的无人机测试,Gemini 成功识别出“手势控制无人机飞行”这一核心动作。最关键的是,在处理本地 MOV 文件时,Gemini 在没有元数据辅助的情况下,准确推断出视频主题是“YouTube 发布策略与内容规划”,展现了强大的多模态理解能力。

ChatGPT:中规中矩,需外力辅助

ChatGPT Plus(月费 20 美元)在视频分析上表现尚可,但存在明显短板。它无法直接处理本地视频文件,需要借助 Codex 插件 或通过上传视频帧截图来进行“间接”分析。对于 YouTube 视频,ChatGPT 能较好地理解带音频的内容,但在无音频的无人机测试中,它只能描述画面中的静态元素(如“一个人站在无人机前”),未能准确推断出“手势控制”这一动态意图。整体来看,ChatGPT 的视频能力更多是文本与图像理解的延伸,而非原生视频理解。

Claude:仍在“门外”

Claude 是三者中表现最弱的——它 目前根本无法直接处理视频文件。无论是 YouTube 链接还是本地文件,Claude 都无法解析视频内容。它只能依赖用户提供的文字描述或截图来“猜测”视频内容,这在实际应用中几乎毫无价值。在本次测试中,Claude 几乎全程“掉线”,未能完成任何一项核心任务。

行业启示:视频理解仍是 AI 的“硬骨头”

这次测试清晰地揭示了当前 AI 在视频理解领域的巨大差距。Gemini 凭借其原生多模态架构,在视频分析上建立了显著优势,尤其是对 无音频、无元数据的“裸视频” 的理解能力,已经接近实用水平。而 ChatGPT 和 Claude 则暴露出它们在视频处理上更多是“文本+图像”的拼接,而非真正的视频时序理解。

对于 AI 行业而言,视频理解是通往通用人工智能(AGI)的关键一步。如果 AI 能像人类一样“看”懂一段包含动作、对话、场景切换的视频,那么在视频监控、内容审核、自动剪辑、教育辅助等领域的应用潜力将是巨大的。目前来看,Gemini 已经在这一赛道上抢跑,但距离真正“看懂”视频(例如理解复杂的因果关系与情感表达)仍有很长的路要走。

延伸阅读

  1. TurboQuant 启发下的 KV 缓存量化统计推断与质量评估
  2. 基础模型嵌入能提升跨国作物产量泛化能力吗?一项撒哈拉以南非洲的留一国交叉验证评估
  3. TTCD:基于Transformer的非平稳时间序列因果关系发现框架
查看原文