利用 Responses API 中的 WebSockets 加速智能体工作流
智能体工作流的性能瓶颈与突破
当开发者要求 Codex 修复一个代码错误时,它需要扫描代码库、读取文件、构建上下文、进行编辑并运行测试。这一系列操作背后,是数十次甚至上百次的 Responses API 请求循环:确定模型的下一个动作、在本地运行工具、将工具输出发送回 API,然后重复。这些请求累积起来,可能导致用户等待数分钟才能完成复杂任务。
从延迟角度来看,Codex 智能体循环主要消耗在三个阶段:API 服务处理(验证和请求处理)、模型推理,以及客户端时间(运行工具和构建模型上下文)。其中,模型推理 是模型在 GPU 上生成新令牌的阶段。过去,在 GPU 上运行 LLM 推理是智能体循环中最慢的部分,因此 API 服务开销容易被掩盖。但随着推理速度的加快,智能体工作流中累积的 API 开销变得愈发显著。
从 65 TPS 到 1000 TPS:推理速度的飞跃
在 Responses API 中,之前的旗舰模型如 GPT‑5 和 GPT‑5.2 的运行速度约为每秒 65 个令牌(TPS)。而为了发布 GPT‑5.3‑Codex‑Spark(一款专为快速编码优化的模型),OpenAI 的目标是实现数量级的提升:超过 1000 TPS。这一速度提升得益于专为 LLM 推理优化的 Cerebras 硬件。
然而,为了让用户真正体验到新模型的速度优势,必须大幅减少 API 开销。大约在 2025 年 11 月,OpenAI 启动了对 Responses API 的性能冲刺,实施了一系列优化措施,旨在降低单次请求的关键路径延迟。
核心优化:WebSockets 与连接范围缓存
为了从根本上解决 API 开销问题,团队采取了多管齐下的策略:
- 缓存机制:在内存中缓存已渲染的令牌和模型配置,避免在多轮响应中进行昂贵的令牌化和网络调用。
- 减少网络跳转:通过消除对中间服务(如图像处理解析)的调用,直接降低网络延迟。
- 安全栈优化:改进安全堆栈,以快速标记问题,减少不必要的处理时间。
- 持久连接:最重要的是,构建了一种创建到 Responses API 的持久连接的方式,取代了之前必须进行的一系列同步 API 调用。
其中,WebSockets 技术的引入 是关键突破。通过建立持久连接,智能体工作流不再需要为每个动作发起独立的 HTTP 请求,从而显著减少了网络往返时间和连接建立开销。结合连接范围的缓存,进一步避免了重复的数据传输和处理。
成果:端到端速度提升 40%
通过这些优化,OpenAI 成功将使用 API 的智能体循环的端到端速度提升了 40%。这意味着用户能够更直接地感受到模型推理速度从 65 TPS 跃升至近 1000 TPS 带来的体验改善。对于依赖 Codex 进行复杂编码任务的开发者而言,等待时间的大幅缩短直接提升了工作效率和开发体验。
行业意义与未来展望
这一优化不仅体现了 OpenAI 在提升模型实际应用性能方面的持续努力,也反映了 AI 基础设施演进的一个重要趋势:随着硬件加速使模型推理速度不断提升,软件和 API 层的效率优化变得至关重要。智能体工作流(Agentic Workflows)作为 AI 应用落地的重要模式,其性能直接影响着用户体验和商业价值。
OpenAI 通过 WebSockets 和缓存等技术创新,有效解决了智能体循环中的 API 瓶颈,为更复杂、更实时的 AI 交互场景铺平了道路。未来,随着多模态、长上下文等能力的增强,对低延迟、高吞吐的 API 基础设施的需求将只增不减。此次优化或许只是开始,我们期待看到更多旨在消除“最后一英里”延迟的技术突破。