OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。
OpenAI 在 Realtime API 推出三款新模型:GPT-Realtime-2 把 GPT-5 级推理带入语音,让 Agent 能边听边想边调用工具完成任务;搭配 GPT-Realtime-Translate(70+ 语言实时互译)和 GPT-Realtime-Whisper(低延迟流式转录),共同把实时语音从"问答交互"推向"可执行任务的语音界面"。
GPT-Realtime-2:首个具备 GPT-5 级推理能力的实时语音模型;推理、工具调用、对话连贯 GPT-Realtime-Translate:实时语音翻译模型;70+ 输入语言 → 13 输出语言 GPT-Realtime-Whisper:流式语音转文字;边说边转录,低延迟 https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
三种语音应用范式 OpenAI 观察到开发者正围绕三种模式构建产品: · Voice-to-action(语音驱动行动):听懂需求 → 推理 → 调用工具 → 完成任务。示例:Zillow 的看房助手。 · Systems-to-voice(系统主动播报):把上下文转化为口语化提示。示例:航班延误时主动告知改签方案。 · Voice-to-voice(跨语言对话):实时翻译让不同语言的用户自然交流。示例:Deutsche Telekom 的多语客服。