# OpenAI 发布三款实时语音新模型，推动语音交互向任务执行演进

- 来源：meng shao (@shao__meng)
- 发布时间：2026-05-08 07:33
- AIHOT 分数：80
- AIHOT 链接：https://aihot.virxact.com/items/cmow4ob9a02smslcx4s7v66j8
- 原文链接：https://x.com/shao__meng/status/2052532351444697234

## AI 摘要

OpenAI 在 Realtime API 中推出三款新模型，将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力，支持边听边思考、并行调用工具并完成任务，关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译，GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式，旨在构建下一代语音协作智能体。

## 正文

OpenAI 在 Realtime API 推出三款新模型：GPT-Realtime-2 把 GPT-5 级推理带入语音，让 Agent 能边听边想边调用工具完成任务；搭配 GPT-Realtime-Translate（70+ 语言实时互译）和 GPT-Realtime-Whisper（低延迟流式转录），共同把实时语音从"问答交互"推向"可执行任务的语音界面"。

GPT-Realtime-2：首个具备 GPT-5 级推理能力的实时语音模型；推理、工具调用、对话连贯
GPT-Realtime-Translate：实时语音翻译模型；70+ 输入语言 → 13 输出语言
GPT-Realtime-Whisper：流式语音转文字；边说边转录，低延迟
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

三种语音应用范式
OpenAI 观察到开发者正围绕三种模式构建产品：
· Voice-to-action（语音驱动行动）：听懂需求 → 推理 → 调用工具 → 完成任务。示例：Zillow 的看房助手。
· Systems-to-voice（系统主动播报）：把上下文转化为口语化提示。示例：航班延误时主动告知改签方案。
· Voice-to-voice（跨语言对话）：实时翻译让不同语言的用户自然交流。示例：Deutsche Telekom 的多语客服。

Priceline 是三者结合的典型：语音搜机票、改酒店、落地后翻译沟通。

GPT-Realtime-2 的关键升级
· Preambles（前置语）：可插入 "let me check that" 等过渡语，让用户感知系统在工作。
· 并行工具调用 + 工具透明化：可同时调用多工具，并用语音说明 "正在查日历"。
· 更优雅的失败恢复：能说 "我现在处理这个有点困难"，而非沉默或崩溃。
· 上下文窗口 32K → 128K：支撑更长的 agent 流程。
· 更强的领域词汇保持：医疗术语、专有名词识别更稳。
· 可控语调：冷静、共情、振奋等模式可调。
· 可调推理强度：minimal / low / medium / high / xhigh 五档，默认 low，平衡延迟与思考深度。

性能对比（相对 GPT-Realtime-1.5）：
· Big Bench Audio（音频推理）：+15.2%（high 档）
· Audio MultiChallenge（指令跟随）：+13.8%（xhigh 档）

客户验证（Zillow）：在最难的对抗性基准上，呼叫成功率从 69% → 95%（+26 分），且在公平住房合规上更稳健。

GPT-Realtime-Translate 的定位
· 面向客服、跨境销售、教育、活动、媒体等全球化场景。
· 在保持语速同步的同时保留含义，支持口音、方言与领域术语。
· 客户验证（BolnaAI）：印度语种（印地语、泰米尔语、泰卢固语）测试中，词错率比此前最佳模型再降 12.5%。
· Vimeo 已用其为产品教学视频做现场多语播报。

GPT-Realtime-Whisper 的应用面
低延迟流式转录，瞄准：
· 会议 / 课堂 / 直播实时字幕
· 边谈边生成的会议纪要
· 需要持续理解用户的语音 agent
· 客服、医疗、销售、招聘等高频口语场景的后续工作流

### 引用推文

> OpenAI：Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents. Voice agents are now real-time coll...