SheepNav
精选昨天0 投票

OpenAI 如何实现低延迟语音 AI 的规模化部署

核心挑战:语音 AI 的实时性门槛

语音 AI 只有在对话达到语音速度时才会感觉自然。网络延迟会直接导致尴尬的停顿、生硬的打断或延迟的插入,这对 ChatGPT 语音、Realtime API 开发者、交互式工作流中的智能体以及需要边听边处理的模型都至关重要。在 OpenAI 的规模下,这转化为三个具体需求:覆盖 9 亿周活跃用户 的全球接入、快速连接建立、以及低且稳定的媒体往返时间(低抖动和丢包),以确保交互的清晰流畅。

架构重构:从单端口到中继+收发器

OpenAI 团队最近重新设计了其 WebRTC 协议栈,以解决规模化过程中出现的三个瓶颈:每会话单端口媒体终止不适合 OpenAI 的基础设施、有状态的 ICE 和 DTLS 会话需要稳定的所有权、以及全局路由必须保持低首跳延迟。新架构称为 “拆分中继加收发器”,它保留了客户端的标准 WebRTC 行为,同时改变了 OpenAI 内部的路由方式。

WebRTC 为何是基石

WebRTC 是低延迟音频、视频和数据的开放标准,它标准化了连接建立(ICE)、NAT 穿越、加密传输(DTLS/SRTP)、编解码器协商、质量控制(RTCP)以及客户端特性(回声消除、抖动缓冲)。对 AI 产品而言,这意味着无需为每个客户端定制连接方案,从而大幅降低开发复杂度。

关键设计要点

  • 拆分中继:将媒体中继与信令解耦,避免单端口限制。
  • 收发器抽象:每个会话使用独立的收发器,而非固定端口,提高资源利用率。
  • 全局路由优化:通过智能路由选择最近的边缘节点,降低首跳延迟。

实际效果

重构后,OpenAI 实现了 全球统一的低延迟体验,媒体往返时间显著降低,丢包率控制在极低水平,用户对话中的打断和停顿现象大幅减少。这一架构为未来更复杂的实时 AI 交互(如多模态、流式推理)奠定了基础。

小结

OpenAI 通过重建 WebRTC 协议栈,解决了语音 AI 大规模部署中的实时性难题,证明了标准协议与定制化基础设施结合的有效性。对于开发者而言,这意味着可以更专注于 AI 能力本身,而非底层网络优化。

延伸阅读

  1. 马斯克诉奥特曼案第一周:法庭内幕直击
  2. 为医疗需求定制AI解决方案:从临床到行政的全面布局
  3. Flowly:原生桌面AI助手,让效率触手可及
查看原文