OpenAI 最新工程博客指出,随着 GPT-5/5.2 及 Codex-Spark 等模型推理速度大幅提升(目标超1000 TPS),传统请求-响应 API 框架的固定开销成为 Agent 工作流的主要瓶颈。为此,OpenAI 为 Responses API 引入了 WebSocket 模式,通过保持长连接、在内存中缓存对话状态和已渲染 token,实现了跨工具调用的状态复用,避免了每次交互都重复预处理完整历史。此举使端到端延迟降低最多 40%,让 Codex-Spark 能稳定实现 1000 TPS 并峰值达 4000 TPS,显著提升了 Vercel AI SDK、Cline 和 Cursor 等集成的体验。
OpenAI 把 Responses API 提速 40%:为什么 Agent 时代,API 本身成了瓶颈?
OpenAI 最新发布了一篇工程博客,讲了一件容易被忽视的事:当模型推理越来越快,API 框架本身反而成了 Agent 工作流的最大瓶颈。他们的解法是给 Responses API 加上 WebSocket 模式,端到端提速 40%,并让 GPT-5.3-Codex-Spark 真正跑出 1000 TPS、峰值 4000 TPS 的体验。 https://openai.com/index/speeding-up-agentic-workflows-with-websockets/
问题是怎么浮现的 一次 Codex 修 Bug,背后是几十次 Responses API 的来回:决定下一步动作 → 在用户机器上执行工具 → 把结果回传 → 再次推理。整个 Agent loop 的耗时主要分三段:API 服务处理、模型推理、客户端工具执行。
过去 GPU 推理慢,API 的开销被自然掩盖。但 GPT-5/5.2 时代约 65 TPS,新一代 Codex-Spark 借助 Cerebras 专用硬件目标是 1000+ TPS,推理快了一个数量级,API 那点"固定成本"就被无情放大。用户在等的,不再是 GPU,而是跑在 CPU 上的 API 框架本身。