全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「语音」清除

5月12日周二

05:55Chubby♨️64超越问答：Thinking Machines 推出原生实时交互AI模型

05:33🚨 AI News | TestingCatalog61Thinking Machines发布实时交互AI模型研究预览

03:35阿绎 AYi71Karpathy提出AI交互新范式：以HTML输出提升人机沟通效率

5月11日周一

21:34IT之家（RSS）46哈曼发布 AI 赋能车载 K 歌平台 Sing Drive：支持实时人声消除，打破预授权曲库依赖

16:34IT之家（RSS）331099 元，吉利 Eva 车载机器人发售

10:00公众号：昆仑万维（天工）26当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移，以及它背后的理由

08:45ginobefun61EP54 · 2026.05.11 BestBlogs 早报：Incorruptible / Agent 持久化 / TTS 架构变革

08:00Thinking Machines Lab：官方博客（RSS）59精选Thinking Machines Lab发布Interaction Models研究预览

07:45ginobefun50早报摘要：抗腐化结构、长时AI Agent与音频生成新路径

5月10日周日

22:33IT之家（RSS）40古尔曼：苹果 macOS 27 将进一步完善液态玻璃设计

18:21Chubby♨️45人工智能无法取代人类播客主播的魅力

02:27AK56MiniCPM-o 4.5实现全双工全模态实时交互

01:29OpenAI Developers74精选GPT-Realtime-2语音控制CRM集成方案

5月9日周六

23:57Greg Brockman66GPT-Realtime-2实现浏览器实时AI翻译与交互

20:32IT之家（RSS）53光帆科技推出"行业首款带摄像头 AI 耳机"，5 月 15 日发售

15:29IT之家（RSS）28微信 Win / Mac PC 版 4.1.9 已支持滚动长截图、发表情一键复制等功能

14:51公众号：阶跃星辰（Step）45阶跃语音模型位列 Artificial Analysis 评测榜中国第一、全球前三

12:35StepFun69StepAudio 2.5 TTS 在语音竞技场盲测中跻身全球前三

10:29IT之家（RSS）34华为 Sound X5 智能音箱开售：全新悦彰音质、升级 AI 大模型，2199~2499 元

10:29IT之家（RSS）66阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

10:19Hacker News 热门（buzzing.cc 中文翻译）50OpenAI 的 WebRTC 问题

09:47Simon Willison 博客38引用 Luke Curley

08:50Artificial Analysis62StepFun StepAudio 2.5 TTS 在语音竞技场排名第三，质量提升但定价偏高

08:20Artificial Analysis67StepAudio 2.5 TTS跻身语音合成榜前三

07:29IT之家（RSS）50苹果 CarPlay 接入马斯克的 Grok 模型，在车内和 AI 自然聊天

07:27Sam Altman51邀约试探成网络热梗

04:58Suno68精选仅凭人声能否创作流行歌曲？

5月8日周五

22:09公众号：阶跃星辰（Step）50StepAudio 2.5 Realtime 上线！真人级实时语音对话能力，千万人设任你打造

17:21ginobefun60语音AI成为主交互界面，AI智能体系统自主性增强

17:21ginobefun46语音AI模型显著提升，编程范式加速变革

17:15小互58Claude开发者大会展示Cardputer实体交互设备

16:16IT之家（RSS）27海信 Vidda G11 智能音频眼镜发布：6mic 空间拾音、待机 12 天，首发价 1299 元起

15:14小互69GPT-Realtime-2 语音模型发布

13:21Berryxia.AI11开发者下单开发板，征求创意构建语音助手

11:05Eric85OpenAI推出GPT-Realtime-2，为语音智能带来GPT-5级推理

10:21Berryxia.AI47Grok支持CarPlay 国内特斯拉接入豆包

10:21Berryxia.AI26探讨Cardputer打造语音助手可行性

09:43Tibo83OpenAI发布GPT-Realtime-2语音模型

09:16IT之家（RSS）70OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

08:21ginobefun64OpenAI发布三款语音模型引关注

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月12日

05:55

Chubby♨️@kimmonismus

64

超越问答：Thinking Machines 推出原生实时交互AI模型

Thinking Machines公司发布的新型交互模型，旨在从根本上改变人机协作模式。该模型能够原生地同时实现聆听、观看、说话、打断、反应、后台思考和使用工具，而非依赖语音转文本等拼接技术。其目标是将AI从被动的“一问一答”工具，转变为能感知用户犹豫、主动介入、预测下一步并维持流畅对话的实时协作伙伴。这标志着AI交互范式从提供最终答案，转向在协作过程中保持“在场”的根本性转变。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音

05:33

🚨 AI News | TestingCatalog@testingcatalog

61

Thinking Machines公司宣布推出新型实时语音交互模型的研究预览。该模型被定义为"交互模型"，其核心设计理念是让人工智能能够像人类一样，同时进行交谈、倾听、观察、思考和协作，实现原生、实时的多模态交互，而非依赖外部架构拼接。初步研究展示了其在交互能力上的质变性突破，并在智能性与响应速度的综合性能上达到了当前最优水平。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

模型发布语音

03:35

阿绎 AYi@AYi_AInotes

71

Karpathy提出AI交互新范式：以HTML输出提升人机沟通效率

Andrej Karpathy指出，当前AI发展的核心瓶颈并非模型能力，而是低带宽的文本交互方式。他建议在向大模型提问时要求“以HTML格式构建回答”，并在浏览器中查看结果。由于人类大脑约三分之一皮层专司视觉处理，HTML提供的丰富视觉呈现能带来远超Markdown的阅读效率与理解深度。他认为人机交互正从Markdown向HTML演进，虽然后者消耗更多token，但用少量成本换取人类时间效率是值得的交易。最终，给人消费的内容应优先采用HTML格式，而AI代理间则可用Markdown或JSON沟通。

Andrej Karpathy: This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...

多模态大佬观点语音

5月11日

21:34

IT之家（RSS）

46

哈曼发布 AI 赋能车载 K 歌平台 Sing Drive：支持实时人声消除，打破预授权曲库依赖

哈曼中国发布AI赋能车载K歌平台Sing Drive。该平台原生集成于整车信息娱乐与音响系统，采用低时延AI技术，可对任意来源的音乐进行实时人声消除与分离，打破了对预授权卡拉OK曲库的依赖。其结合车规级麦克风架构与专属数字信号处理，旨在提供稳定、低延迟的高品质车内K歌体验。平台支持灵活配置，可覆盖从基础伴唱到具备同步歌词和AI技术的全功能卡拉OK系统。

产品更新端侧语音

16:34

IT之家（RSS）

33

1099 元，吉利 Eva 车载机器人发售

吉利银河life商城上架吉利Eva车载机器人，定价1099元并已开启预售。该产品采用圆角矩形设计，可安装于车机中控屏后方，通过小屏幕展示不同表情。它支持蓝牙BLE与WiFi双模双频连接，能与车机深度协同，一键触发上车欢迎、语音聆听等场景，并在充电、导航、座椅通风、开启智能驾驶时显示对应动画表情，还包含节日彩蛋。目前适配吉利银河星耀7的220km四驱星耀版和230km两驱探索+版两款车型。

产品更新语音

10:00

公众号：昆仑万维（天工）

26

当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移，以及它背后的理由

Mureka正被企业用以替换Suno，一场AI音乐领域的迁移正在发生。背后涉及功能、成本或合规等方面的理由。

多模态现象/趋势语音

08:45

ginobefun@hongming731

61

EP54 · 2026.05.11 BestBlogs 早报：Incorruptible / Agent 持久化 / TTS 架构变革

本期早报围绕三条主线。Eric Ries新书《Incorruptible》探讨成功公司如何通过公益公司章程等结构性设计抵御“财务重力”导致的腐化。Trigger.dev联创Eric Allam指出传统重放模型无法应对长时工作的AI Agent，提出上下文日志与执行快照的两层持久化架构。Mistral科学家Samuel Humeau阐述TTS技术正复用LLM范式，走向架构趋同。三者共同揭示：选择更复杂的结构性方案能获得更长久的生命力。速览部分还涉及AI自我成长评估、Agent上下文工程等议题。

智能体现象/趋势语音

08:00

Thinking Machines Lab：官方博客（RSS）

精选59

Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练，原生处理音频、视频和文本，采用多流微回合设计实现实时响应，无需外部脚手架。研究预览展示了全新的交互能力，并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由：Thinking Machines 把实时交互训进了模型本身，不再是外挂脚手架，微轮次架构和 benchmark 数据很硬，做语音/视频助手的可以认真看看，虽然还是研究预览，但方向值得盯着。

07:45

ginobefun@hongming731

50

早报摘要：抗腐化结构、长时AI Agent与音频生成新路径

Eric Ries提出用公益公司章程等“不锈钢螺栓”结构将使命嵌入组织，以对抗成功后的腐化。Eric Allam探讨长时AI Agent的持久化方案，通过分层实现毫秒级恢复。Samuel Humeau展示音频生成正复刻LLM技术路径，并以17毫秒首包延迟为当前标杆。

智能体现象/趋势语音部署/工程

5月10日

22:33

IT之家（RSS）

40

古尔曼：苹果 macOS 27 将进一步完善液态玻璃设计

据彭博社记者马克・古尔曼透露，苹果计划在下一版macOS中进行小幅重新设计，以进一步完善液态玻璃设计语言，并优化Tahoe系统界面的细节。此次更新将微调系统全局透明度和阴影效果，旨在解决用户反馈的应用对比度不足问题。古尔曼指出，macOS 27版本将完整实现设计团队最初的液态玻璃构想。除界面优化外，新系统还将提升稳定性与运行效率，并进行代码精简，以提高设备性能与续航。新版Siri将是重点功能，依托AI平台升级，系统还将获得多项其他优化。

产品更新语音

18:21

Chubby♨️@kimmonismus

45

人工智能无法取代人类播客主播的魅力

尽管AI生成播客内容日益增多，但成功的播客仍将依赖人类主播。播客的成功核心在于主播的个人魅力、表达能力和亲和力，这使听众渴望参与对话并成为节目的一部分。这与现场音乐会的魅力类似，关键在于“在场感”、人际互动与社会性动态。虽然如NotebookLM等AI工具的对话形式对学习有帮助，但这与作为人类听众参与一个有吸引力的播客体验存在本质区别。

大佬观点语音

02:27

AK@_akhaliq

56

MiniCPM-o 4.5 迈向实时全双工全模态交互论文： https://huggingface.co/papers/2604.27393

Hugging Face 多模态论文/研究语音

01:29

OpenAI Developers@OpenAIDevs

精选74

以下介绍如何集成GPT-Realtime-2为CRM工作流添加语音控制功能。

OpenAI 教程/实践语音

推荐理由：OpenAI 官方手把手教你怎么把 GPT-Realtime-2 的语音能力接进 CRM，想给企业工作流加语音控制的开发者可以直接抄作业。

5月9日

23:57

Greg Brockman@gdb

66

开发者利用GPT-Realtime-2模型，在Chrome浏览器扩展中实现了实时AI音频翻译功能。该功能适用于YouTube视频、直播、会议和演示等所有浏览器内音频场景，能实时显示翻译后的语音。用户可在音视频播放或会议进行的同时，基于实时上下文调用AI进行摘要提取、要点归纳、笔记整理和内容解释等交互操作。这标志着浏览器正演变为实时AI操作系统，推动互联网语言壁垒趋于消失。

CHOI: I just added real-time AI translation into Chormex using GPT-Realtime-2... and this feels absolutely surreal. It works a...

OpenAI 产品更新多模态语音

20:32

IT之家（RSS）

53

光帆科技推出"行业首款带摄像头 AI 耳机"，5 月 15 日发售

光帆科技宣布将于5月15日发售“光帆全感AI耳机”，该产品被称作行业首款带摄像头的AI耳机。耳机主打“全感知、主动式、个性化”，能通过环境感知主动提供提醒与服务，用户还可为AI选择不同人设，使其成为具有陪伴感的随身助理。硬件方面，单耳重11克，采用开放式耳挂设计，双侧配备200万像素双目摄像头用于实时识别物体与场景。耳机盒集成4G网络，支持脱离手机独立使用。续航上，耳机通话可达9小时，音乐播放15小时，配合充电盒总续航最高为90小时。

产品更新多模态端侧语音

15:29

IT之家（RSS）

28

微信 Win / Mac PC 版 4.1.9 已支持滚动长截图、发表情一键复制等功能

微信发布了Windows和Mac平台4.1.9版本，核心更新包括电脑端新增语音消息发送功能，用户可通过点击麦克风图标或按住Alt键录制并发送最长60秒的语音。截图工具加入滚动长截图功能，用户可截取完整纵向长页面。此外，输入默认表情后按右方向键可快速复制表情以连续发送，合并转发的文本消息支持右键一键全文翻译，网页打印功能也新增了预览支持。

14:51

公众号：阶跃星辰（Step）

45

阶跃语音模型位列 Artificial Analysis 评测榜中国第一、全球前三

评测/基准语音

12:35

StepFun@StepFun_ai

69

StepFun 推出的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测排行榜中位列全球第三，Elo 评分为 1187 分，仅次于 Inworld TTS 1.5 Max 与 Google Gemini 3.1 Flash TTS。该模型语音自然度较前代显著提升，并以 8 分优势超越 Eleven v3。其定价为每百万字符 85 美元，生成速度为每秒 37.6 字符，并提供了全局上下文提示和行内情感标签两种语音控制方式。

Artificial Analysis: StepFun's new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld's Real...

模型发布评测/基准语音

10:29

IT之家（RSS）

34

华为 Sound X5 智能音箱开售：全新悦彰音质、升级 AI 大模型，2199~2499 元

华为Sound X5智能音箱正式开售，定价2199至2499元。新品主打全新“悦彰音质”，采用八单元三分频设计，支持36Hz低音。其核心升级在于搭载鸿蒙AI大模型，具备模糊语义理解和拟人连续对话能力。音箱支持鸿蒙智联全场景互联，提供智慧助眠、一碰传音、挥手控全屋等功能，并升级了可随声变化的幻彩灯效。共有鎏金、玄黑、云白三款配色。

产品更新语音

10:29

IT之家（RSS）

66

阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime，现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪，动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等，其能力基于超万个原生人设生成的百万级特征矩阵训练，并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升，可应对从闲聊到专业面试等多种场景。据2026年4月评测，其主观对话体验与语音问答基准得分均领先于同期竞品。

多模态模型发布评测/基准语音

10:19

Hacker News 热门（buzzing.cc 中文翻译）

50

OpenAI 的 WebRTC 问题

OpenAI的实时通信服务因依赖WebRTC协议而面临延迟问题。分析显示，其服务往返时间中位数达88毫秒，远超QUIC等现代协议的个位数毫秒水平。这一技术选择导致交互响应显著延迟，成为性能瓶颈。文章指出，优化或替换现有WebRTC架构可大幅提升实时体验，对AI语音交互等场景至关重要。

OpenAI 现象/趋势语音

09:47

Simon Willison 博客

38

引用 Luke Curley

WebRTC 的设计会在网络状况不佳时主动降级甚至丢弃语音提示数据包，以保持低延迟。这导致在语音会议中常出现失真的音频，因为其核心设计优先考虑实时对话的流畅性，不允许等待或重传数据包。然而，对于需要高准确性的AI语音交互场景，用户宁愿多等待200毫秒以确保提示完整无误，因为不完整的提示会导致低质量的AI回复。Discord的实践表明，在浏览器中甚至无法实现WebRTC音频包的重传，其实现被硬编码为必须满足实时性要求。

OpenAI 大佬观点语音

08:50

Artificial Analysis@ArtificialAnlys

62

StepFun StepAudio 2.5 TTS 在语音竞技场排名第三，质量提升但定价偏高

StepFun 推出的 StepAudio 2.5 TTS 模型在 Artificial Analysis 语音竞技场排行榜中位列第三，仅次于 Inworld Realtime TTS 1.5 Max 和 Google Gemini 3.1 Flash TTS。该模型语音自然度显著提升，以 1187 的 Elo 评分超越 Eleven v3。其定价为每百万字符 85 美元，高于领先模型；生成速度为每秒 37.6 字符，介于竞品之间。模型提供全局上下文提示和行内情感标签两种控制语音表现的方式。

多模态评测/基准语音

08:20

Artificial Analysis@ArtificialAnlys

67

StepAudio 2.5 TTS跻身语音合成榜前三

StepFun的StepAudio 2.5 TTS在Artificial Analysis语音竞技场排行榜位列第三，仅次于Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS。该模型Elo评分达1187分，在测试集上已超越Eleven v3，语音自然度显著提升。其定价为每百万字符85美元，高于头部竞品；生成速度为每秒37.6字符。模型提供全局上下文提示和行内情感标签两种控制路径，可精细调节语音风格与韵律。

模型发布语音

07:29

IT之家（RSS）

50

苹果 CarPlay 接入马斯克的 Grok 模型，在车内和 AI 自然聊天

苹果 CarPlay 在 iOS 26.4 系统更新中接入了马斯克旗下的 Grok AI 模型，用户通过 iPhone 连接车辆即可在车机中控屏进行语音对话。继 ChatGPT 和 Perplexity 之后，Grok 成为 CarPlay 生态的新成员，交互以语音为核心，支持查看最近对话、新建会话，并新增临时静音和切换语音功能，提升驾驶中的使用便利性。

xAI 产品更新语音

07:27

Sam Altman@sama

51

打电话给我，也许

OpenAI 大佬观点语音

04:58

Suno@suno

精选68

你能只用你的声音创作一首流行歌曲吗？

产品更新多模态语音

推荐理由：Suno 这个用纯人声做流行歌的功能，把创作门槛砍到零，以后做 demo 比打字还快，玩音乐的一看就会想试。

5月8日

22:09

公众号：阶跃星辰（Step）

50

StepAudio 2.5 Realtime 上线！真人级实时语音对话能力，千万人设任你打造

产品更新语音

17:21

ginobefun@hongming731

60

语音AI成为主交互界面，AI智能体系统自主性增强

OpenAI发布GPT-Realtime-2等实时语音模型，将高级推理能力引入语音交互，推动其从辅助转向核心界面。ElevenLabs年收入达4亿美元，并强调情绪智能与音频水印。Anthropic因80倍增长面临算力挑战，与SpaceX合作获取大规模计算能力，同时升级Claude托管智能体，使其具备自我改进与多智能体协作能力。行业趋势显示，AI正从工具演变为能自主运行的智能体系统，这给GitHub等基础设施带来了新的负载压力。

智能体 Anthropic OpenAI 现象/趋势

17:21

ginobefun@hongming731

46

语音AI模型显著提升，编程范式加速变革

BestBlogs 周刊 #94｜语音 AI 突围本周主线：OpenAI 发布了三个实时语音模型，GPT-Realtime-2 实测通话成功率从69%提升到95%。ElevenLabs 年收入4亿美元，下一个方向是情绪智能。Anthropic 增长80倍，算力成为核心瓶颈。同时 AI 编程范式加速：Claude Code 创作者日均150个PR，GitHub 被 AI 流量压到86%可用性。播客和图文都已上线 ↓

ginobefun: http://x.com/i/article/2052675131466809344

Anthropic OpenAI 现象/趋势编码

17:15

小互@xiaohu

58

Claude开发者大会展示Cardputer实体交互设备

Cardputer是Anthropic在Claude开发者大会上推出的售价29.9美元的实体设备，通过WiFi连接电脑，支持键盘输入问题由Claude处理并显示结果、语音对讲经STT/TTS转换交互，以及作为Claude实体宠物显示动态像素动物，还可接入OpenClaw平台扩展语音功能。

Anthropic 教程/实践端侧语音

16:16

IT之家（RSS）

27

海信 Vidda G11 智能音频眼镜发布：6mic 空间拾音、待机 12 天，首发价 1299 元起

海信Vidda G11智能音频眼镜正式发布，首发价1299元起。产品主打轻量化设计，提供行业最轻的26.5克钛镜框和最细5.3毫米镜腿。音频方面首发搭载6麦克风空间拾音系统，配合自研AI算法，支持5米/秒抗风噪。续航表现突出，标称待机时间长达12天，实用续航47.2小时，并支持10分钟充电50%的快充功能。

产品更新语音

15:14

小互@xiaohu

69

GPT-Realtime-2 语音模型发布

OpenAI发布三款实时语音模型。核心GPT-Realtime-2首次集成“GPT-5级推理”能力，支持复杂对话推理、并行调用工具及纠错，上下文窗口扩展至128K。GPT-Realtime-Translate支持70多种语言的实时翻译，能适应说话节奏并处理专业词汇。GPT-Realtime-Whisper则为低延迟场景提供流式语音转文字服务。

OpenAI 产品更新语音

13:21

Berryxia.AI@berryxia

11

一位开发者已下单开发板，计划进行有趣的硬件项目开发。他公开征求社区建议，并特别回应了另一位用户@berryxia关于构建Voice Agent（语音代理）的询问。该询问希望Voice Agent能实现直接问答、定向检测和人物识别等功能。开发者邀请有相关经验的朋友提供建议，并表示将持续分享项目进展。

Berryxia.AI: 我想用这个做个Voice Agent 能行吗? 直接给我进行问答和做一些定向的检测和人物啊! 有没有玩过的朋友?

11:05

Eric@ericmitchellai

85

OpenAI在API中正式推出GPT-Realtime-2，这是其迄今为止最智能的语音模型，为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者，在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper，共同构成了一套面向下一代语音界面的全新音频能力组合。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI 推理模型发布语音

10:21

Berryxia.AI@berryxia

47

Grok 支持Apple CarPlay，可惜国内的特斯拉都已经要介入的是豆包了哈哈哈

xAI 产品更新语音

10:21

Berryxia.AI@berryxia

26

我想用这个做个Voice Agent 能行吗？直接给我进行问答和做一些定向的检测和人物啊！有没有玩过的朋友？

marisa: the @claudeai code conference welcome kit came with a tiny cardputer 😭 it's basically a mini programmable handheld comp...

智能体其他端侧语音

09:43

Tibo@thsottiaux

83

我们正在众目睽睽之下构建通用人工智能【引用 @OpenAI】：在API中推出GPT-Realtime-2：这是我们迄今为止最智能的语音模型，为语音代理带来GPT-5级别的推理能力。语音代理现已成为实时协作者，能够在对话展开时倾听、推理并解决复杂问题。现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体 OpenAI 推理模型发布

09:16

IT之家（RSS）

70

OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

OpenAI 发布三款集成于Realtime API的实时语音模型，旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中，GPT-Realtime-2具备GPT-5级推理能力，可在对话中进行推理、调用工具并处理打断，音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言，每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录，每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。

OpenAI 推理模型发布语音

08:21

ginobefun@hongming731

64

#BestBlogs 早报 2026-05-08 重点关注 OpenAI 发布的三款语音模型

OpenAI 行业动态语音

1…11 121314 15…19