5月8日

08:21

Berryxia.AI@berryxia

在ScaleAILabs的音频多挑战榜单中，OpenAI新发布的GPT-Realtime-2超越Google的gemini-3.1-flash-live，位居榜首。其指令保持能力较前代大幅提升，从36.7%增至70.8% APR，并在实时语音编辑方面表现突出，这对语音代理应用至关重要。尽管Google此前在图像模型和Gemini 3.1等产品上有过亮眼表现，但评论认为其在当前激烈的AI竞争中尚未展现出决定性的“杀手锏”。市场格局变化迅速，没有永远的赢家，期待Google能尽快推出突破性产品。

Scale Labs: Congrats to @OpenAI for taking the top spot on our Audio MultiChallenge S2S leaderboard with the release of GPT-Realtime...

Google OpenAI 现象/趋势语音

08:16

IT之家（RSS）

iOS 27 版苹果备忘录 App 前瞻：接入 AI 版 Siri 简化内容收集、高效梳理信息

据报道，iOS 27系统将对Siri进行彻底重构，其底层将基于谷歌Gemini构建，交互模式将从指令式转变为类似ChatGPT的对话模式。新版Siri将与备忘录应用深度整合，用户可通过“把这个加到新备忘录”等语音指令，直接将AI生成的内容自动、完整地保存至备忘录，解决手动复制粘贴导致的流程繁琐和格式错乱问题。此外，Siri还能利用大语言模型能力，高效梳理信息并创建特定主题的备忘录。

产品更新语音

07:43

xAI@xai

您的客户服务需要一个为现实世界打造的语音助手。 Grok Voice Think Fast 1.0能以速度和准确性处理复杂工作流，即使在嘈杂环境中也能胜任。从多步骤故障排除到高频工具调用，它都能从容应对。

智能体 xAI 产品更新语音

07:36

OpenAI Developers@OpenAIDevs

精选76

正在用GPT-Realtime-2构建语音应用？我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体，以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2

OpenAI 推理教程/实践语音

推荐理由：官方出了 Realtime-2 的提示工程指南，从调参到工具调用都给了清晰路径，做语音产品的同学值得认真翻一遍，能省几周摸索时间。

07:35

Elon Musk@elonmusk

为您的客户支持尝试 Grok Voice 【引用 @xai】：您的客户支持需要一个为现实世界构建的语音代理。 Grok Voice Think Fast 1.0 以速度和准确性处理复杂的工作流程，即使在难以听清的环境中。从多步骤故障排除到高容量工具调用，它都能跟上。

xAI: Your customer support needs a voice agent built for the real world. Grok Voice Think Fast 1.0 handles complex workflows ...

智能体 xAI 产品更新语音

07:16

IT之家（RSS）

尺寸类似 AirTag：古尔曼称苹果正开发 AI 可穿戴设备，能和 iOS 27 版 Siri 语音交互

据彭博社记者马克·古尔曼爆料，苹果正在开发两款智能穿戴设备。一款是尺寸类似AirTag的吊坠配件，可夹在衣物或作为项链佩戴，配备常开摄像头和麦克风，依赖连接iPhone及iOS 27版Siri进行语音交互与数据处理，无屏幕和投影仪，项目仍处早期，可能于2027年发布。另一款是计划在2026年底或2027年初推出的智能眼镜，内置摄像头、扬声器和麦克风，支持拍照、通话及Siri通知，并与Apple Intelligence整合优化导航等功能，采用自主设计的塑料镜框，但第一代不配备AR显示功能。

端侧行业动态语音

06:21

Berryxia.AI@berryxia

OpenAI推出GPT-Realtime-2，将语音AI能力提升至GPT-5级别

OpenAI在API中正式发布GPT-Realtime-2，称其为目前最智能的语音模型，为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作，在对话过程中同步完成聆听、思考与复杂问题解决，使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate，以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面，标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI 推理模型发布语音

04:42

TestingCatalog News 🗞@testingcatalog

补充说明：Codex 很快将获得 Realtime Voice Mode 👀

Sam Altman: @LexnLin yeah we need to

OpenAI 产品更新语音

04:35

Greg Brockman@gdb

自OpenAI创立以来，我一直对实时语音翻译这一AI应用感到兴奋。现在看到它通过API向所有开发者开放，真是太酷了：

jason liu: 新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。

OpenAI 产品更新语音

04:35

Artificial Analysis@ArtificialAnlys

OpenAI发布GPT-Realtime-2语音模型，在多项基准测试中领先

OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩，与Gemini 3.1 Flash持平，较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先，最小推理努力变体得分96.1%，尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级，上下文窗口从32K增至128K，并支持文本、音频和图像输入，音频定价保持不变。

OpenAI 推理模型发布语音

03:42

TestingCatalog News 🗞@testingcatalog

AVM 2 目前正在开发中 🚧 历史上，AVM 更新都安排在 Google I/O 的前一天快了吗？@sama 👀👀👀

TestingCatalog News 🗞: OPENAI 🚨: 3 new models are now available on OpenAI Playground and APIs. - gpt-realtime 2 - gpt-realtime-whisper - gpt-r...

OpenAI 模型发布语音