
AI Agent 语音视频通话技能上线:让编码智能体拥有“对话能力”
随着 AI Agent 逐渐从文本对话走向多模态交互,一项名为 Calling Skills for AI Agents 的新功能正在改变开发者与智能体协作的方式。它允许开发者为自己的编码智能体(coding agent)集成语音和视频通话能力,让 AI 不仅能写代码,还能“开口说话”和“面对面交流”。
为什么需要通话技能?
传统的 AI Agent 大多依赖文本输入/输出,但在实际开发场景中,语音或视频沟通往往更高效。例如:
- 在代码审查时,通过语音直接指出问题,比打字更自然;
- 在远程协作中,AI Agent 可以像团队成员一样参与视频会议,实时提供技术建议;
- 对于非技术用户,语音交互降低了使用门槛,无需精确输入指令。
这项功能本质上是一套 API 和 SDK,让开发者可以快速为现有 Agent 添加实时通信模块。它支持 WebRTC 协议,兼容主流浏览器和移动端,并提供了低延迟、高清音视频传输。
技术实现与集成方式
据官方介绍,Calling Skills 采用模块化设计,开发者只需几行代码即可激活通话能力。它集成了语音识别(ASR)、文本转语音(TTS)以及视频流处理,使 Agent 能理解语音指令并生成语音回复。此外,它还支持多轮对话和打断机制,更接近人类对话体验。
对于编码智能体而言,这意味着:开发者可以在编写代码时直接与 Agent 语音讨论架构设计,或者让 Agent 通过视频展示运行结果。这种交互方式有望提升开发效率,尤其适合需要频繁迭代和快速反馈的场景。
行业背景与价值
当前,AI Agent 正从“工具”向“协作者”演进。OpenAI 的 GPT-4o 已展示实时语音对话能力,而 Google 的 Gemini 也在推进多模态交互。Calling Skills for AI Agents 的出现,将此类能力普惠化,让普通开发者也能为自己的 Agent 赋予“感官”。
从产品定位看,它填补了 AI Agent 在实时通信领域的空白。以往,Agent 只能通过文本或异步消息交互,而通话技能让交互更即时、更自然。这对于客服机器人、远程教育、协作办公等场景尤其有价值。
局限与展望
目前,该功能仍处于早期阶段,可能面临以下挑战:
- 延迟:尽管宣称低延迟,但实际效果取决于网络环境和后端处理能力;
- 语言支持:初期可能只支持主流语言,中文等语种的准确度有待验证;
- 成本:实时音视频处理对算力消耗较大,可能增加使用成本。
不过,随着 WebRTC 技术的成熟和边缘计算的发展,这些限制有望逐步解决。未来,AI Agent 或许能通过“通话技能”真正融入人类团队,成为随时在线的数字同事。
对于开发者而言,现在就可以尝试将 Calling Skills 集成到自己的 Agent 中,体验“边聊边编程”的新范式。

