OpenAI 的 WebRTC 困境：语音 AI 为何不该用 WebRTC

核心观点：WebRTC 并非语音 AI 的最佳选择

一位曾在 Twitch 和 Discord 重写 WebRTC 的资深工程师，在看到 OpenAI 的技术博客后忍不住发声：别学 OpenAI，别在语音 AI 中用 WebRTC。

WebRTC 最初为实时音视频会议设计，核心目标是低延迟、即时交互。为此，它会在网络不佳时主动丢弃音频包，甚至禁止重传。这在人类对话中尚可接受——听不清可以让对方重复，但对 AI 语音交互是灾难：

WebRTC 涉及约 45 个 RFC（部分可追溯到 2000 年代初），外加一些仍为草案的事实标准（如 TWCC、REMB）。实现完整栈极其复杂，甚至作者本人——这位“认证 WebRTC 专家”——都表示再也不想碰它。

OpenAI 选用 WebRTC 可能出于浏览器兼容性和实时性的考虑，但作者认为这属于路径依赖。语音 AI 需要的是可靠传输而非激进降质，更合适的方案可能是自定义协议或基于 QUIC 的传输。

作者感叹：“你注意到趋势了吗？每次我都要重写 WebRTC，因为原生实现根本无法满足需求。”

WebRTC 成就了实时通信，却可能成为语音 AI 的绊脚石。当“实时”不再是最高优先级，“准确”才是，我们是否该重新定义传输协议？