OpenAI 利用 WebSockets 加速智能体工作流，提升 40% 速度

智能体工作流的性能瓶颈与突破

当开发者要求 Codex 修复一个代码错误时，它需要扫描代码库、读取文件、构建上下文、进行编辑并运行测试。这一系列操作背后，是数十次甚至上百次的 Responses API 请求循环：确定模型的下一个动作、在本地运行工具、将工具输出发送回 API，然后重复。这些请求累积起来，可能导致用户等待数分钟才能完成复杂任务。

从延迟角度来看，Codex 智能体循环主要消耗在三个阶段：API 服务处理（验证和请求处理）、模型推理，以及客户端时间（运行工具和构建模型上下文）。其中，模型推理 是模型在 GPU 上生成新令牌的阶段。过去，在 GPU 上运行 LLM 推理是智能体循环中最慢的部分，因此 API 服务开销容易被掩盖。但随着推理速度的加快，智能体工作流中累积的 API 开销变得愈发显著。

从 65 TPS 到 1000 TPS：推理速度的飞跃

在 Responses API 中，之前的旗舰模型如 GPT‑5 和 GPT‑5.2 的运行速度约为每秒 65 个令牌（TPS）。而为了发布 GPT‑5.3‑Codex‑Spark（一款专为快速编码优化的模型），OpenAI 的目标是实现数量级的提升：超过 1000 TPS。这一速度提升得益于专为 LLM 推理优化的 Cerebras 硬件。

然而，为了让用户真正体验到新模型的速度优势，必须大幅减少 API 开销。大约在 2025 年 11 月，OpenAI 启动了对 Responses API 的性能冲刺，实施了一系列优化措施，旨在降低单次请求的关键路径延迟。

核心优化：WebSockets 与连接范围缓存

为了从根本上解决 API 开销问题，团队采取了多管齐下的策略：

缓存机制：在内存中缓存已渲染的令牌和模型配置，避免在多轮响应中进行昂贵的令牌化和网络调用。
减少网络跳转：通过消除对中间服务（如图像处理解析）的调用，直接降低网络延迟。
安全栈优化：改进安全堆栈，以快速标记问题，减少不必要的处理时间。
持久连接：最重要的是，构建了一种创建到 Responses API 的持久连接的方式，取代了之前必须进行的一系列同步 API 调用。

其中，WebSockets 技术的引入 是关键突破。通过建立持久连接，智能体工作流不再需要为每个动作发起独立的 HTTP 请求，从而显著减少了网络往返时间和连接建立开销。结合连接范围的缓存，进一步避免了重复的数据传输和处理。

成果：端到端速度提升 40%

通过这些优化，OpenAI 成功将使用 API 的智能体循环的端到端速度提升了 40%。这意味着用户能够更直接地感受到模型推理速度从 65 TPS 跃升至近 1000 TPS 带来的体验改善。对于依赖 Codex 进行复杂编码任务的开发者而言，等待时间的大幅缩短直接提升了工作效率和开发体验。

行业意义与未来展望

这一优化不仅体现了 OpenAI 在提升模型实际应用性能方面的持续努力，也反映了 AI 基础设施演进的一个重要趋势：随着硬件加速使模型推理速度不断提升，软件和 API 层的效率优化变得至关重要。智能体工作流（Agentic Workflows）作为 AI 应用落地的重要模式，其性能直接影响着用户体验和商业价值。

OpenAI 通过 WebSockets 和缓存等技术创新，有效解决了智能体循环中的 API 瓶颈，为更复杂、更实时的 AI 交互场景铺平了道路。未来，随着多模态、长上下文等能力的增强，对低延迟、高吞吐的 API 基础设施的需求将只增不减。此次优化或许只是开始，我们期待看到更多旨在消除“最后一英里”延迟的技术突破。

利用 Responses API 中的 WebSockets 加速智能体工作流

智能体工作流的性能瓶颈与突破

从 65 TPS 到 1000 TPS：推理速度的飞跃

核心优化：WebSockets 与连接范围缓存

成果：端到端速度提升 40%

行业意义与未来展望

延伸阅读

相关资讯