
D-ID 推出“会回话”的交互视频:Agentic Videos 让视频真正“活”起来
AI 视频生成赛道又迎来一位重量级玩家。近日,D-ID 正式发布 Agentic Videos(智能体视频),这一产品突破了传统视频单向输出的限制,让视频中的 AI 数字人能够实时理解用户提问并做出回应,实现真正的“对话式视频”体验。
从“看视频”到“与视频对话”
传统视频,无论是录播还是 AI 生成内容,观众都只能被动接收信息。而 D-ID 的 Agentic Videos 则彻底改变了这一点:视频中的 AI 形象不仅会说话,还能听懂你的问题、记住上下文,并基于预设的知识库或实时信息给出个性化回答。这意味着,一段产品介绍视频可以变成 24 小时在线的销售顾问,一段教学视频可以随时解答学生的疑惑。
技术内核:多模态理解 + 实时生成
Agentic Videos 背后的技术栈融合了 语音识别、自然语言处理、面部动画生成和语音合成 等多模态 AI 能力。D-ID 利用其擅长的面部动画技术,让数字人的口型、表情与语音高度同步,同时借助大语言模型实现对话管理。用户只需提供一段基础视频脚本或知识库,系统便能自动生成一个可交互的 AI 数字人视频。
落地场景广泛
从应用层面看,Agentic Videos 的想象空间相当可观:
- 客户服务:企业可将常见 FAQ 转化为交互视频,用户直接提问,AI 数字人即时解答。
- 教育培训:虚拟讲师可根据学生提问调整讲解内容,实现个性化教学。
- 营销销售:产品演示视频可自动回答潜在客户关于价格、功能等细节问题。
- 内部培训:新员工入职视频能随时响应用户关于流程、政策的疑问。
与同类产品的差异化
相比其他 AI 视频工具(如 Synthesia、HeyGen)主要聚焦于“生成逼真视频”,D-ID 的 Agentic Videos 更强调“交互性”。它不是一段录制好的视频,而是一个始终在线的 AI 智能体。这种“视频即服务”的模式,可能重新定义企业对视频内容的利用方式。
局限与挑战
当然,Agentic Videos 仍有改进空间。实时交互的延迟 是首要挑战——用户提问后,系统需要时间理解并生成回应,这会影响对话的流畅度。此外,数字人的表情和肢体语言在长时间对话中可能显得不够自然。知识库的维护成本也是企业需要考虑的因素。
行业影响
D-ID 此举进一步拉近了 AI 视频与真人员工之间的能力差距。随着多模态大模型的发展,“能对话的视频”可能成为企业数字化的标配。Agentic Videos 的推出,也预示着 AI 视频生成正从“内容制作工具”向“交互式 AI 代理”演进。