D-ID 推出 Agentic Videos：会回话的交互式 AI 视频

AI 视频生成赛道又迎来一位重量级玩家。近日，D-ID 正式发布 Agentic Videos（智能体视频），这一产品突破了传统视频单向输出的限制，让视频中的 AI 数字人能够实时理解用户提问并做出回应，实现真正的“对话式视频”体验。

从“看视频”到“与视频对话”

传统视频，无论是录播还是 AI 生成内容，观众都只能被动接收信息。而 D-ID 的 Agentic Videos 则彻底改变了这一点：视频中的 AI 形象不仅会说话，还能听懂你的问题、记住上下文，并基于预设的知识库或实时信息给出个性化回答。这意味着，一段产品介绍视频可以变成 24 小时在线的销售顾问，一段教学视频可以随时解答学生的疑惑。

技术内核：多模态理解 + 实时生成

Agentic Videos 背后的技术栈融合了 语音识别、自然语言处理、面部动画生成和语音合成 等多模态 AI 能力。D-ID 利用其擅长的面部动画技术，让数字人的口型、表情与语音高度同步，同时借助大语言模型实现对话管理。用户只需提供一段基础视频脚本或知识库，系统便能自动生成一个可交互的 AI 数字人视频。

落地场景广泛

从应用层面看，Agentic Videos 的想象空间相当可观：

客户服务：企业可将常见 FAQ 转化为交互视频，用户直接提问，AI 数字人即时解答。
教育培训：虚拟讲师可根据学生提问调整讲解内容，实现个性化教学。
营销销售：产品演示视频可自动回答潜在客户关于价格、功能等细节问题。
内部培训：新员工入职视频能随时响应用户关于流程、政策的疑问。

与同类产品的差异化

相比其他 AI 视频工具（如 Synthesia、HeyGen）主要聚焦于“生成逼真视频”，D-ID 的 Agentic Videos 更强调“交互性”。它不是一段录制好的视频，而是一个始终在线的 AI 智能体。这种“视频即服务”的模式，可能重新定义企业对视频内容的利用方式。

局限与挑战

当然，Agentic Videos 仍有改进空间。实时交互的延迟 是首要挑战——用户提问后，系统需要时间理解并生成回应，这会影响对话的流畅度。此外，数字人的表情和肢体语言在长时间对话中可能显得不够自然。知识库的维护成本也是企业需要考虑的因素。

行业影响

D-ID 此举进一步拉近了 AI 视频与真人员工之间的能力差距。随着多模态大模型的发展，“能对话的视频”可能成为企业数字化的标配。Agentic Videos 的推出，也预示着 AI 视频生成正从“内容制作工具”向“交互式 AI 代理”演进。

D-ID 推出“会回话”的交互视频：Agentic Videos 让视频真正“活”起来