AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
5月12日周二
05:55Chubby♨️64超越问答:Thinking Machines 推出原生实时交互AI模型
05:33🚨 AI News | TestingCatalog61Thinking Machines发布实时交互AI模型研究预览
03:35阿绎 AYi71Karpathy提出AI交互新范式:以HTML输出提升人机沟通效率
5月11日周一
21:34IT之家(RSS)46哈曼发布 AI 赋能车载 K 歌平台 Sing Drive:支持实时人声消除,打破预授权曲库依赖
16:34IT之家(RSS)331099 元,吉利 Eva 车载机器人发售
10:00公众号:昆仑万维(天工)26当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由
08:45ginobefun61EP54 · 2026.05.11 BestBlogs 早报:Incorruptible / Agent 持久化 / TTS 架构变革
08:00Thinking Machines Lab:官方博客(RSS)59精选Thinking Machines Lab发布Interaction Models研究预览
07:45ginobefun50早报摘要:抗腐化结构、长时AI Agent与音频生成新路径
5月10日周日
22:33IT之家(RSS)40古尔曼:苹果 macOS 27 将进一步完善液态玻璃设计
18:21Chubby♨️45人工智能无法取代人类播客主播的魅力
02:27AK56MiniCPM-o 4.5实现全双工全模态实时交互
01:29OpenAI Developers74精选GPT-Realtime-2语音控制CRM集成方案
5月9日周六
23:57Greg Brockman66GPT-Realtime-2实现浏览器实时AI翻译与交互
20:32IT之家(RSS)53光帆科技推出"行业首款带摄像头 AI 耳机",5 月 15 日发售
15:29IT之家(RSS)28微信 Win / Mac PC 版 4.1.9 已支持滚动长截图、发表情一键复制等功能
14:51公众号:阶跃星辰(Step)45阶跃语音模型位列 Artificial Analysis 评测榜中国第一、全球前三
12:35StepFun69StepAudio 2.5 TTS 在语音竞技场盲测中跻身全球前三
10:29IT之家(RSS)34华为 Sound X5 智能音箱开售:全新悦彰音质、升级 AI 大模型,2199~2499 元
10:29IT之家(RSS)66阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime,支持情绪感知与人设自定义
10:19Hacker News 热门(buzzing.cc 中文翻译)50OpenAI 的 WebRTC 问题
09:47Simon Willison 博客38引用 Luke Curley
08:50Artificial Analysis62StepFun StepAudio 2.5 TTS 在语音竞技场排名第三,质量提升但定价偏高
08:20Artificial Analysis67StepAudio 2.5 TTS跻身语音合成榜前三
07:29IT之家(RSS)50苹果 CarPlay 接入马斯克的 Grok 模型,在车内和 AI 自然聊天
07:27Sam Altman51邀约试探成网络热梗
04:58Suno68精选仅凭人声能否创作流行歌曲?
5月8日周五
22:09公众号:阶跃星辰(Step)50StepAudio 2.5 Realtime 上线!真人级实时语音对话能力,千万人设任你打造
17:21ginobefun60语音AI成为主交互界面,AI智能体系统自主性增强
17:21ginobefun46语音AI模型显著提升,编程范式加速变革
17:15小互58Claude开发者大会展示Cardputer实体交互设备
16:16IT之家(RSS)27海信 Vidda G11 智能音频眼镜发布:6mic 空间拾音、待机 12 天,首发价 1299 元起
15:14小互69GPT-Realtime-2 语音模型发布
13:21Berryxia.AI11开发者下单开发板,征求创意构建语音助手
11:05Eric85OpenAI推出GPT-Realtime-2,为语音智能带来GPT-5级推理
10:21Berryxia.AI47Grok支持CarPlay 国内特斯拉接入豆包
10:21Berryxia.AI26探讨Cardputer打造语音助手可行性
09:43Tibo83OpenAI发布GPT-Realtime-2语音模型
09:16IT之家(RSS)70OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力
08:21ginobefun64OpenAI发布三款语音模型引关注
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月12日
05:55
Chubby♨️@kimmonismus
64
超越问答:Thinking Machines 推出原生实时交互AI模型

Thinking Machines公司发布的新型交互模型,旨在从根本上改变人机协作模式。该模型能够原生地同时实现聆听、观看、说话、打断、反应、后台思考和使用工具,而非依赖语音转文本等拼接技术。其目标是将AI从被动的“一问一答”工具,转变为能感知用户犹豫、主动介入、预测下一步并维持流畅对话的实时协作伙伴。这标志着AI交互范式从提供最终答案,转向在协作过程中保持“在场”的根本性转变。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音
05:33
🚨 AI News | TestingCatalog@testingcatalog
61
Thinking Machines公司宣布推出新型实时语音交互模型的研究预览。该模型被定义为"交互模型",其核心设计理念是让人工智能能够像人类一样,同时进行交谈、倾听、观察、思考和协作,实现原生、实时的多模态交互,而非依赖外部架构拼接。初步研究展示了其在交互能力上的质变性突破,并在智能性与响应速度的综合性能上达到了当前最优水平。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

模型发布语音
03:35
阿绎 AYi@AYi_AInotes
71
Karpathy提出AI交互新范式:以HTML输出提升人机沟通效率

Andrej Karpathy指出,当前AI发展的核心瓶颈并非模型能力,而是低带宽的文本交互方式。他建议在向大模型提问时要求“以HTML格式构建回答”,并在浏览器中查看结果。由于人类大脑约三分之一皮层专司视觉处理,HTML提供的丰富视觉呈现能带来远超Markdown的阅读效率与理解深度。他认为人机交互正从Markdown向HTML演进,虽然后者消耗更多token,但用少量成本换取人类时间效率是值得的交易。最终,给人消费的内容应优先采用HTML格式,而AI代理间则可用Markdown或JSON沟通。

Andrej Karpathy: This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...

多模态大佬观点语音
5月11日
21:34
IT之家(RSS)
46
哈曼发布 AI 赋能车载 K 歌平台 Sing Drive:支持实时人声消除,打破预授权曲库依赖

哈曼中国发布AI赋能车载K歌平台Sing Drive。该平台原生集成于整车信息娱乐与音响系统,采用低时延AI技术,可对任意来源的音乐进行实时人声消除与分离,打破了对预授权卡拉OK曲库的依赖。其结合车规级麦克风架构与专属数字信号处理,旨在提供稳定、低延迟的高品质车内K歌体验。平台支持灵活配置,可覆盖从基础伴唱到具备同步歌词和AI技术的全功能卡拉OK系统。

产品更新端侧语音
16:34
IT之家(RSS)
33
1099 元,吉利 Eva 车载机器人发售

吉利银河life商城上架吉利Eva车载机器人,定价1099元并已开启预售。该产品采用圆角矩形设计,可安装于车机中控屏后方,通过小屏幕展示不同表情。它支持蓝牙BLE与WiFi双模双频连接,能与车机深度协同,一键触发上车欢迎、语音聆听等场景,并在充电、导航、座椅通风、开启智能驾驶时显示对应动画表情,还包含节日彩蛋。目前适配吉利银河星耀7的220km四驱星耀版和230km两驱探索+版两款车型。

产品更新语音
10:00
公众号:昆仑万维(天工)
26
当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由

Mureka正被企业用以替换Suno,一场AI音乐领域的迁移正在发生。背后涉及功能、成本或合规等方面的理由。

多模态现象/趋势语音
08:45
ginobefun@hongming731
61
EP54 · 2026.05.11 BestBlogs 早报:Incorruptible / Agent 持久化 / TTS 架构变革

本期早报围绕三条主线。Eric Ries新书《Incorruptible》探讨成功公司如何通过公益公司章程等结构性设计抵御“财务重力”导致的腐化。Trigger.dev联创Eric Allam指出传统重放模型无法应对长时工作的AI Agent,提出上下文日志与执行快照的两层持久化架构。Mistral科学家Samuel Humeau阐述TTS技术正复用LLM范式,走向架构趋同。三者共同揭示:选择更复杂的结构性方案能获得更长久的生命力。速览部分还涉及AI自我成长评估、Agent上下文工程等议题。

智能体现象/趋势语音
08:00
Thinking Machines Lab:官方博客(RSS)
精选59
Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由:Thinking Machines 把实时交互训进了模型本身,不再是外挂脚手架,微轮次架构和 benchmark 数据很硬,做语音/视频助手的可以认真看看,虽然还是研究预览,但方向值得盯着。
07:45
ginobefun@hongming731
50
早报摘要:抗腐化结构、长时AI Agent与音频生成新路径

Eric Ries提出用公益公司章程等“不锈钢螺栓”结构将使命嵌入组织,以对抗成功后的腐化。Eric Allam探讨长时AI Agent的持久化方案,通过分层实现毫秒级恢复。Samuel Humeau展示音频生成正复刻LLM技术路径,并以17毫秒首包延迟为当前标杆。

智能体现象/趋势语音部署/工程
5月10日
22:33
IT之家(RSS)
40
古尔曼:苹果 macOS 27 将进一步完善液态玻璃设计

据彭博社记者马克・古尔曼透露,苹果计划在下一版macOS中进行小幅重新设计,以进一步完善液态玻璃设计语言,并优化Tahoe系统界面的细节。此次更新将微调系统全局透明度和阴影效果,旨在解决用户反馈的应用对比度不足问题。古尔曼指出,macOS 27版本将完整实现设计团队最初的液态玻璃构想。除界面优化外,新系统还将提升稳定性与运行效率,并进行代码精简,以提高设备性能与续航。新版Siri将是重点功能,依托AI平台升级,系统还将获得多项其他优化。

产品更新语音
18:21
Chubby♨️@kimmonismus
45
人工智能无法取代人类播客主播的魅力

尽管AI生成播客内容日益增多,但成功的播客仍将依赖人类主播。播客的成功核心在于主播的个人魅力、表达能力和亲和力,这使听众渴望参与对话并成为节目的一部分。这与现场音乐会的魅力类似,关键在于“在场感”、人际互动与社会性动态。虽然如NotebookLM等AI工具的对话形式对学习有帮助,但这与作为人类听众参与一个有吸引力的播客体验存在本质区别。

大佬观点语音
02:27
AK@_akhaliq
56
MiniCPM-o 4.5 迈向实时全双工全模态交互 论文: https://huggingface.co/papers/2604.27393
Hugging Face多模态论文/研究语音
01:29
OpenAI Developers@OpenAIDevs
精选74
以下介绍如何集成GPT-Realtime-2为CRM工作流添加语音控制功能。
OpenAI教程/实践语音

推荐理由:OpenAI 官方手把手教你怎么把 GPT-Realtime-2 的语音能力接进 CRM,想给企业工作流加语音控制的开发者可以直接抄作业。
5月9日
23:57
Greg Brockman@gdb
66
开发者利用GPT-Realtime-2模型,在Chrome浏览器扩展中实现了实时AI音频翻译功能。该功能适用于YouTube视频、直播、会议和演示等所有浏览器内音频场景,能实时显示翻译后的语音。用户可在音视频播放或会议进行的同时,基于实时上下文调用AI进行摘要提取、要点归纳、笔记整理和内容解释等交互操作。这标志着浏览器正演变为实时AI操作系统,推动互联网语言壁垒趋于消失。

CHOI: I just added real-time AI translation into Chormex using GPT-Realtime-2... and this feels absolutely surreal. It works a...

OpenAI产品更新多模态语音
20:32
IT之家(RSS)
53
光帆科技推出"行业首款带摄像头 AI 耳机",5 月 15 日发售

光帆科技宣布将于5月15日发售“光帆全感AI耳机”,该产品被称作行业首款带摄像头的AI耳机。耳机主打“全感知、主动式、个性化”,能通过环境感知主动提供提醒与服务,用户还可为AI选择不同人设,使其成为具有陪伴感的随身助理。硬件方面,单耳重11克,采用开放式耳挂设计,双侧配备200万像素双目摄像头用于实时识别物体与场景。耳机盒集成4G网络,支持脱离手机独立使用。续航上,耳机通话可达9小时,音乐播放15小时,配合充电盒总续航最高为90小时。

产品更新多模态端侧语音
15:29
IT之家(RSS)
28
微信 Win / Mac PC 版 4.1.9 已支持滚动长截图、发表情一键复制等功能

微信发布了Windows和Mac平台4.1.9版本,核心更新包括电脑端新增语音消息发送功能,用户可通过点击麦克风图标或按住Alt键录制并发送最长60秒的语音。截图工具加入滚动长截图功能,用户可截取完整纵向长页面。此外,输入默认表情后按右方向键可快速复制表情以连续发送,合并转发的文本消息支持右键一键全文翻译,网页打印功能也新增了预览支持。

其他语音
14:51
公众号:阶跃星辰(Step)
45
阶跃语音模型位列 Artificial Analysis 评测榜中国第一、全球前三
评测/基准语音
12:35
StepFun@StepFun_ai
69
StepFun 推出的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测排行榜中位列全球第三,Elo 评分为 1187 分,仅次于 Inworld TTS 1.5 Max 与 Google Gemini 3.1 Flash TTS。该模型语音自然度较前代显著提升,并以 8 分优势超越 Eleven v3。其定价为每百万字符 85 美元,生成速度为每秒 37.6 字符,并提供了全局上下文提示和行内情感标签两种语音控制方式。

Artificial Analysis: StepFun's new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld's Real...

模型发布评测/基准语音
10:29
IT之家(RSS)
34
华为 Sound X5 智能音箱开售:全新悦彰音质、升级 AI 大模型,2199~2499 元

华为Sound X5智能音箱正式开售,定价2199至2499元。新品主打全新“悦彰音质”,采用八单元三分频设计,支持36Hz低音。其核心升级在于搭载鸿蒙AI大模型,具备模糊语义理解和拟人连续对话能力。音箱支持鸿蒙智联全场景互联,提供智慧助眠、一碰传音、挥手控全屋等功能,并升级了可随声变化的幻彩灯效。共有鎏金、玄黑、云白三款配色。

产品更新语音
10:29
IT之家(RSS)
66
阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime,支持情绪感知与人设自定义

阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime,现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪,动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等,其能力基于超万个原生人设生成的百万级特征矩阵训练,并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升,可应对从闲聊到专业面试等多种场景。据2026年4月评测,其主观对话体验与语音问答基准得分均领先于同期竞品。

多模态模型发布评测/基准语音
10:19
Hacker News 热门(buzzing.cc 中文翻译)
50
OpenAI 的 WebRTC 问题

OpenAI的实时通信服务因依赖WebRTC协议而面临延迟问题。分析显示,其服务往返时间中位数达88毫秒,远超QUIC等现代协议的个位数毫秒水平。这一技术选择导致交互响应显著延迟,成为性能瓶颈。文章指出,优化或替换现有WebRTC架构可大幅提升实时体验,对AI语音交互等场景至关重要。

OpenAI现象/趋势语音
09:47
Simon Willison 博客
38
引用 Luke Curley

WebRTC 的设计会在网络状况不佳时主动降级甚至丢弃语音提示数据包,以保持低延迟。这导致在语音会议中常出现失真的音频,因为其核心设计优先考虑实时对话的流畅性,不允许等待或重传数据包。然而,对于需要高准确性的AI语音交互场景,用户宁愿多等待200毫秒以确保提示完整无误,因为不完整的提示会导致低质量的AI回复。Discord的实践表明,在浏览器中甚至无法实现WebRTC音频包的重传,其实现被硬编码为必须满足实时性要求。

OpenAI大佬观点语音
08:50
Artificial Analysis@ArtificialAnlys
62
StepFun StepAudio 2.5 TTS 在语音竞技场排名第三,质量提升但定价偏高

StepFun 推出的 StepAudio 2.5 TTS 模型在 Artificial Analysis 语音竞技场排行榜中位列第三,仅次于 Inworld Realtime TTS 1.5 Max 和 Google Gemini 3.1 Flash TTS。该模型语音自然度显著提升,以 1187 的 Elo 评分超越 Eleven v3。其定价为每百万字符 85 美元,高于领先模型;生成速度为每秒 37.6 字符,介于竞品之间。模型提供全局上下文提示和行内情感标签两种控制语音表现的方式。

多模态评测/基准语音
08:20
Artificial Analysis@ArtificialAnlys
67
StepAudio 2.5 TTS跻身语音合成榜前三

StepFun的StepAudio 2.5 TTS在Artificial Analysis语音竞技场排行榜位列第三,仅次于Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS。该模型Elo评分达1187分,在测试集上已超越Eleven v3,语音自然度显著提升。其定价为每百万字符85美元,高于头部竞品;生成速度为每秒37.6字符。模型提供全局上下文提示和行内情感标签两种控制路径,可精细调节语音风格与韵律。

模型发布语音
07:29
IT之家(RSS)
50
苹果 CarPlay 接入马斯克的 Grok 模型,在车内和 AI 自然聊天

苹果 CarPlay 在 iOS 26.4 系统更新中接入了马斯克旗下的 Grok AI 模型,用户通过 iPhone 连接车辆即可在车机中控屏进行语音对话。继 ChatGPT 和 Perplexity 之后,Grok 成为 CarPlay 生态的新成员,交互以语音为核心,支持查看最近对话、新建会话,并新增临时静音和切换语音功能,提升驾驶中的使用便利性。

xAI产品更新语音
07:27
Sam Altman@sama
51
打电话给我,也许
OpenAI大佬观点语音
04:58
Suno@suno
精选68
你能只用你的声音创作一首流行歌曲吗?
产品更新多模态语音

推荐理由:Suno 这个用纯人声做流行歌的功能,把创作门槛砍到零,以后做 demo 比打字还快,玩音乐的一看就会想试。
5月8日
22:09
公众号:阶跃星辰(Step)
50
StepAudio 2.5 Realtime 上线!真人级实时语音对话能力,千万人设任你打造
产品更新语音
17:21
ginobefun@hongming731
60
语音AI成为主交互界面,AI智能体系统自主性增强

OpenAI发布GPT-Realtime-2等实时语音模型,将高级推理能力引入语音交互,推动其从辅助转向核心界面。ElevenLabs年收入达4亿美元,并强调情绪智能与音频水印。Anthropic因80倍增长面临算力挑战,与SpaceX合作获取大规模计算能力,同时升级Claude托管智能体,使其具备自我改进与多智能体协作能力。行业趋势显示,AI正从工具演变为能自主运行的智能体系统,这给GitHub等基础设施带来了新的负载压力。

智能体AnthropicOpenAI现象/趋势
17:21
ginobefun@hongming731
46
语音AI模型显著提升,编程范式加速变革

BestBlogs 周刊 #94|语音 AI 突围 本周主线:OpenAI 发布了三个实时语音模型,GPT-Realtime-2 实测通话成功率从69%提升到95%。ElevenLabs 年收入4亿美元,下一个方向是情绪智能。Anthropic 增长80倍,算力成为核心瓶颈。 同时 AI 编程范式加速:Claude Code 创作者日均150个PR,GitHub 被 AI 流量压到86%可用性。 播客和图文都已上线 ↓

ginobefun: http://x.com/i/article/2052675131466809344

AnthropicOpenAI现象/趋势编码
17:15
小互@xiaohu
58
Claude开发者大会展示Cardputer实体交互设备

Cardputer是Anthropic在Claude开发者大会上推出的售价29.9美元的实体设备,通过WiFi连接电脑,支持键盘输入问题由Claude处理并显示结果、语音对讲经STT/TTS转换交互,以及作为Claude实体宠物显示动态像素动物,还可接入OpenClaw平台扩展语音功能。

Anthropic教程/实践端侧语音
16:16
IT之家(RSS)
27
海信 Vidda G11 智能音频眼镜发布:6mic 空间拾音、待机 12 天,首发价 1299 元起

海信Vidda G11智能音频眼镜正式发布,首发价1299元起。产品主打轻量化设计,提供行业最轻的26.5克钛镜框和最细5.3毫米镜腿。音频方面首发搭载6麦克风空间拾音系统,配合自研AI算法,支持5米/秒抗风噪。续航表现突出,标称待机时间长达12天,实用续航47.2小时,并支持10分钟充电50%的快充功能。

产品更新语音
15:14
小互@xiaohu
69
GPT-Realtime-2 语音模型发布

OpenAI发布三款实时语音模型。核心GPT-Realtime-2首次集成“GPT-5级推理”能力,支持复杂对话推理、并行调用工具及纠错,上下文窗口扩展至128K。GPT-Realtime-Translate支持70多种语言的实时翻译,能适应说话节奏并处理专业词汇。GPT-Realtime-Whisper则为低延迟场景提供流式语音转文字服务。

OpenAI产品更新语音
13:21
Berryxia.AI@berryxia
11
一位开发者已下单开发板,计划进行有趣的硬件项目开发。他公开征求社区建议,并特别回应了另一位用户@berryxia关于构建Voice Agent(语音代理)的询问。该询问希望Voice Agent能实现直接问答、定向检测和人物识别等功能。开发者邀请有相关经验的朋友提供建议,并表示将持续分享项目进展。

Berryxia.AI: 我想用这个做个Voice Agent 能行吗? 直接给我进行问答和做一些定向的检测和人物啊! 有没有玩过的朋友?

其他语音
11:05
Eric@ericmitchellai
85
OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
10:21
Berryxia.AI@berryxia
47
Grok 支持Apple CarPlay, 可惜国内的特斯拉都已经要介入的是豆包了哈哈哈
xAI产品更新语音
10:21
Berryxia.AI@berryxia
26
我想用这个做个Voice Agent 能行吗? 直接给我进行问答和做一些定向的检测和人物啊! 有没有玩过的朋友?

marisa: the @claudeai code conference welcome kit came with a tiny cardputer 😭 it's basically a mini programmable handheld comp...

智能体其他端侧语音
09:43
Tibo@thsottiaux
83
我们正在众目睽睽之下构建通用人工智能 【引用 @OpenAI】:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
09:16
IT之家(RSS)
70
OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力

OpenAI 发布三款集成于Realtime API的实时语音模型,旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中,GPT-Realtime-2具备GPT-5级推理能力,可在对话中进行推理、调用工具并处理打断,音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言,每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录,每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。

OpenAI推理模型发布语音
08:21
ginobefun@hongming731
64
#BestBlogs 早报 2026-05-08 重点关注 OpenAI 发布的三款语音模型
OpenAI行业动态语音
‹ 上一页
1…1112131415…19
下一页 ›