SheepNav
新上线24天前0 投票

大规模多模态嵌入:为媒体与娱乐工作负载构建AI数据湖

在媒体与娱乐行业,海量视频内容的检索一直是个难题。传统基于手动标签或关键词的搜索方式,不仅效率低下,还难以捕捉视频中丰富的语义信息。AWS近期发布的一篇技术博客,展示了如何利用Amazon Nova多模态嵌入模型Amazon OpenSearch Service,构建一个可扩展的多模态视频搜索系统,实现跨大型视频数据集的自然语言搜索。

项目规模与成本概览

为了验证系统的可扩展性,该项目处理了两个来自AWS开放数据注册表的数据集:

  • Multimedia Commons:包含787,479个视频,平均时长37秒。
  • MEVA:包含4,791个视频,平均时长5分钟。

总计处理了792,270个视频,相当于8,480小时(3,050万秒)的视频内容。整个处理流程耗时41小时

在成本方面,第一年的总成本估算如下:

  • 使用OpenSearch按需实例:27,328美元
  • 使用OpenSearch预留实例:23,632美元

成本主要由一次性数据摄取成本和年度OpenSearch服务成本构成。其中,一次性摄取成本(约18,088美元)的详细分解为:

  • Amazon EC2计算资源:使用4台c7i.48xlarge竞价实例,运行41小时,成本约421美元。
  • Amazon Bedrock Nova多模态嵌入:处理3,050万秒视频,采用批量定价(每秒0.00056美元),成本约17,096美元。
  • Nova Pro标签生成:为79.2万个视频生成标签(平均每个视频约600个token),成本约571美元。

技术架构与核心工作流

该解决方案的核心在于生成音视频结合的嵌入向量,并将其存储在OpenSearch Service中,以支持多种搜索模式。系统架构主要包含两个工作流:

1. 视频摄取管道
为了高效处理海量视频,摄取管道部署了4台Amazon EC2 c7i.48xlarge实例,配备了600个并行工作线程,每小时可处理约19,400个视频。由于Amazon Bedrock的异步API有并发限制(每个账户30个并发任务),管道实现了一个带轮询机制的作业队列。工作线程在并发限额内提交任务,轮询任务完成状态,并在有空闲槽位时提交新任务。

Amazon Nova多模态嵌入模型以异步方式处理视频,其关键步骤包括:

  • 将视频分割成15秒的片段。这个时长是经过优化的平衡点,既能有效捕捉场景变化,又能将嵌入向量的数量控制在可管理范围内。
  • 为每个片段生成1024维的嵌入向量。项目选择了1024维而非3072维的版本,主要从存储成本角度考虑,能节省约3倍存储空间,同时对精度影响最小。值得注意的是,嵌入向量的生成成本与维度无关。

2. 搜索工作流
生成的嵌入向量被索引到OpenSearch Service中。该系统支持三种强大的搜索模式:

  • 文本到视频搜索:用户可以用自然语言描述(如“一只狗在沙滩上奔跑”)来查找相关视频片段。
  • 视频到视频搜索:用户可以上传一个视频片段,系统会找到视觉或语义上相似的视频。
  • 混合搜索:结合多种查询方式,进行更精准的检索。

行业意义与未来展望

这项技术演示标志着视频内容管理从“关键词匹配”向“语义理解”的深刻转变。对于流媒体平台、影视制作公司、广告机构乃至体育赛事分析等领域,这意味着:

  • 提升内容发现效率:用户和编辑能更直观、快速地找到所需素材。
  • 释放内容资产价值:盘活历史视频库,让未被充分标记的内容也能被有效检索。
  • 优化个性化推荐:基于深层的语义理解,提供更精准的内容推荐。

尽管项目展示了强大的处理能力,但在实际大规模部署中,企业仍需根据自身数据量、查询频率和延迟要求,对架构进行细化和成本优化。例如,可以进一步探索嵌入向量压缩技术、更高效的索引策略,以及利用预留实例或Savings Plans来降低长期运营成本。

总体而言,基于AWS Nova和OpenSearch构建的多模态AI数据湖,为处理和分析海量非结构化媒体内容提供了一个可扩展、高性价比的云原生蓝图,是AI驱动媒体产业升级的一个有力例证。

延伸阅读

  1. 太空数据中心能否支撑SpaceX的巨额估值?
  2. 在日本,机器人不是来抢工作的,而是填补没人愿意干的岗位
  3. 我让Google Maps里的Gemini规划我的一天,结果出乎意料地好
查看原文