AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
5月8日周五
08:21Berryxia.AI63OpenAI音频模型超越Google,AI竞争格局瞬息万变
08:16IT之家(RSS)50iOS 27 版苹果备忘录 App 前瞻:接入 AI 版 Siri 简化内容收集、高效梳理信息
07:43xAI64Grok语音助手高效处理复杂工作流
07:36OpenAI Developers76精选GPT实时模型提示指南发布
07:35Elon Musk53Grok Voice 优化客户支持流程
07:16IT之家(RSS)53尺寸类似 AirTag:古尔曼称苹果正开发 AI 可穿戴设备,能和 iOS 27 版 Siri 语音交互
06:21Berryxia.AI83OpenAI推出GPT-Realtime-2,将语音AI能力提升至GPT-5级别
04:42TestingCatalog News 🗞42Codex即将上线实时语音模式
04:35Greg Brockman76OpenAI API上线实时语音翻译功能
04:35Artificial Analysis73OpenAI发布GPT-Realtime-2语音模型,在多项基准测试中领先
03:42TestingCatalog News 🗞59AVM 2开发中,或于谷歌I/O前发布
03:10Sam Altman79GPT-Realtime-2 API上线 语音交互成趋势
03:10The Decoder:AI News(RSS)70OpenAI发布新语音模型,为实时对话带来GPT-5级推理能力
02:36MiniMax (official)45身处技术前沿是AGI竞赛唯一关键
02:05Greg Brockman87OpenAI发布GPT-Realtime-2语音推理模型,助力构建新一代语音智能体
02:01Chubby♨️75OpenAI发布三款全新实时语音模型,并预告ChatGPT语音功能即将更新
01:42TestingCatalog News 🗞81OpenAI发布三款新实时模型,或预示语音模式升级
01:40OpenAI86GPT-Realtime-2 API上线 语音智能新突破
01:38宝玉81OpenAI在Realtime API上线三款新语音模型
01:36OpenAI Developers78语音智能体能力迎来重大升级:OpenAI发布新一代实时模型
01:18OpenAI:官网动态(RSS · 排除企业/客户案例)86精选通过 API 中的新模型推进语音智能
5月7日周四
23:04OpenRouter72精选OpenRouter新增音频端点,支持语音合成与识别
21:16IT之家(RSS)18绿联 X8 耳夹式耳机发售:VPU 骨声纹降噪、11mm 单元,399 元
19:13OpenAI:官网动态(RSS · 排除企业/客户案例)22Parloa 打造客户愿意与之交谈的服务代理
15:16IT之家(RSS)72精选用嘴干活:阿里千问 PC 端上线 AI 语音输入功能
08:20Berryxia.AI72Google翻译推出实时耳机传译,支持70多种语言
08:16IT之家(RSS)23漫步者 Lolli5 ANC 智能触控大圆屏耳机开售:50dB 降噪,539 元
07:16IT之家(RSS)53微信鸿蒙版 App 8.0.17.36 正式版更新发布
06:40OpenAI:官网动态(RSS · 排除企业/客户案例)72精选Uber 利用 OpenAI 帮助司机更智能地赚钱、乘客更快地叫车
5月6日周三
14:31Hacker News 热门(buzzing.cc 中文翻译)50Telus利用人工智能调整客服代表的口音
08:17Berryxia.AI67今天这个tts有点东西啊!
08:01宝玉16AI语音音色逼真但多音字识别成短板
05:27Chubby♨️66实时语音AI响应速度是关键,TTS-2模型突破延迟瓶颈
01:00TestingCatalog News 🗞69Inworld AI发布新一代实时对话语音模型Realtime TTS-2
5月5日周二
20:14阿绎 AYi73AI虚拟伴侣揭露:情感剥削与真实关系危机
16:18Chubby♨️57ChatGPT语音模式确认引期待
10:14阿绎 AYi74精选分享一个免费下载任何 YouTube 视频的GitHub开源项目,非常实用🔥
09:56meng shao55OpenAI 如何实现规模化的低延迟语音 AI
09:28TestingCatalog News 🗞44OpenAI语音模式升级引期待
08:56Sam Altman47语音模型发展引期待,人机交互方式初现变革
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月8日
08:21
Berryxia.AI@berryxia
63
OpenAI音频模型超越Google,AI竞争格局瞬息万变

在ScaleAILabs的音频多挑战榜单中,OpenAI新发布的GPT-Realtime-2超越Google的gemini-3.1-flash-live,位居榜首。其指令保持能力较前代大幅提升,从36.7%增至70.8% APR,并在实时语音编辑方面表现突出,这对语音代理应用至关重要。尽管Google此前在图像模型和Gemini 3.1等产品上有过亮眼表现,但评论认为其在当前激烈的AI竞争中尚未展现出决定性的“杀手锏”。市场格局变化迅速,没有永远的赢家,期待Google能尽快推出突破性产品。

Scale Labs: Congrats to @OpenAI for taking the top spot on our Audio MultiChallenge S2S leaderboard with the release of GPT-Realtime...

GoogleOpenAI现象/趋势语音
08:16
IT之家(RSS)
50
iOS 27 版苹果备忘录 App 前瞻:接入 AI 版 Siri 简化内容收集、高效梳理信息

据报道,iOS 27系统将对Siri进行彻底重构,其底层将基于谷歌Gemini构建,交互模式将从指令式转变为类似ChatGPT的对话模式。新版Siri将与备忘录应用深度整合,用户可通过“把这个加到新备忘录”等语音指令,直接将AI生成的内容自动、完整地保存至备忘录,解决手动复制粘贴导致的流程繁琐和格式错乱问题。此外,Siri还能利用大语言模型能力,高效梳理信息并创建特定主题的备忘录。

产品更新语音
07:43
xAI@xai
64
您的客户服务需要一个为现实世界打造的语音助手。 Grok Voice Think Fast 1.0能以速度和准确性处理复杂工作流,即使在嘈杂环境中也能胜任。从多步骤故障排除到高频工具调用,它都能从容应对。
智能体xAI产品更新语音
07:36
OpenAI Developers@OpenAIDevs
精选76
正在用GPT-Realtime-2构建语音应用? 我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体,以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2
OpenAI推理教程/实践语音

推荐理由:官方出了 Realtime-2 的提示工程指南,从调参到工具调用都给了清晰路径,做语音产品的同学值得认真翻一遍,能省几周摸索时间。
07:35
Elon Musk@elonmusk
53
为您的客户支持尝试 Grok Voice 【引用 @xai】:您的客户支持需要一个为现实世界构建的语音代理。 Grok Voice Think Fast 1.0 以速度和准确性处理复杂的工作流程,即使在难以听清的环境中。从多步骤故障排除到高容量工具调用,它都能跟上。

xAI: Your customer support needs a voice agent built for the real world. Grok Voice Think Fast 1.0 handles complex workflows ...

智能体xAI产品更新语音
07:16
IT之家(RSS)
53
尺寸类似 AirTag:古尔曼称苹果正开发 AI 可穿戴设备,能和 iOS 27 版 Siri 语音交互

据彭博社记者马克·古尔曼爆料,苹果正在开发两款智能穿戴设备。一款是尺寸类似AirTag的吊坠配件,可夹在衣物或作为项链佩戴,配备常开摄像头和麦克风,依赖连接iPhone及iOS 27版Siri进行语音交互与数据处理,无屏幕和投影仪,项目仍处早期,可能于2027年发布。另一款是计划在2026年底或2027年初推出的智能眼镜,内置摄像头、扬声器和麦克风,支持拍照、通话及Siri通知,并与Apple Intelligence整合优化导航等功能,采用自主设计的塑料镜框,但第一代不配备AR显示功能。

端侧行业动态语音
06:21
Berryxia.AI@berryxia
83
OpenAI推出GPT-Realtime-2,将语音AI能力提升至GPT-5级别

OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
04:42
TestingCatalog News 🗞@testingcatalog
42
补充说明:Codex 很快将获得 Realtime Voice Mode 👀

Sam Altman: @LexnLin yeah we need to

OpenAI产品更新语音
04:35
Greg Brockman@gdb
76
自OpenAI创立以来,我一直对实时语音翻译这一AI应用感到兴奋。 现在看到它通过API向所有开发者开放,真是太酷了:

jason liu: 新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。

OpenAI产品更新语音
04:35
Artificial Analysis@ArtificialAnlys
73
OpenAI发布GPT-Realtime-2语音模型,在多项基准测试中领先

OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩,与Gemini 3.1 Flash持平,较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先,最小推理努力变体得分96.1%,尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级,上下文窗口从32K增至128K,并支持文本、音频和图像输入,音频定价保持不变。

OpenAI推理模型发布语音
03:42
TestingCatalog News 🗞@testingcatalog
59
AVM 2 目前正在开发中 🚧 历史上,AVM 更新都安排在 Google I/O 的前一天 快了吗?@sama 👀👀👀

TestingCatalog News 🗞: OPENAI 🚨: 3 new models are now available on OpenAI Playground and APIs. - gpt-realtime 2 - gpt-realtime-whisper - gpt-r...

OpenAI模型发布语音
03:10
Sam Altman@sama
79
人们真的开始用语音与AI互动了,尤其是在需要输入大量上下文时。 GPT-Realtime-2今天登陆API;这是相当大的一步前进。 (我们正在改进聊天中的语音功能。)
OpenAI模型发布语音
03:10
The Decoder:AI News(RSS)
70
OpenAI发布新语音模型,为实时对话带来GPT-5级推理能力

OpenAI发布了三款新型语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中,GPT-Realtime-2具备与GPT-5相匹配的实时推理能力,旨在实现更流畅、智能的实时对话交互。GPT-Realtime-Translate支持超过70种语言的实时翻译,而GPT-Realtime-Whisper则专注于实时语音转写功能。这一系列模型标志着OpenAI在实时音频处理和交互领域的重要进展,有望显著提升跨语言沟通和语音应用的体验。

OpenAI推理模型发布语音
02:36
MiniMax (official)@MiniMax_AI
45
MiniMax全球业务总裁Linda Sheng在Cerebral Valley Voice峰会上指出,在AGI竞赛中,唯一重要的是是否处于技术前沿。她强调公开市场对快速变化的语音AI领域存在认知差距,上市公司仍需按季度交付业绩,但这不应动摇聚焦前沿技术的核心战略。MiniMax正是基于这一理念构建其发展路径。

Newcomer: Working as a public company in the ever-changing space of voice x AI: "The public market doesn't get it. You still need ...

大佬观点语音
02:05
Greg Brockman@gdb
87
OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型,标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者,在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型,共同构成了一套面向下一代语音界面的全新音频能力组合,为开发者构建卓越的实时语音交互应用提供了强大工具。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
02:01
Chubby♨️@kimmonismus
75
OpenAI近日发布了三款新的实时语音模型:GPT-Realtime-2具备近似GPT-5的推理能力,允许语音助手在对话中实时思考;GPT-Realtime-Translate支持超过70种语言的实时翻译;GPT-Realtime-Whisper则能实现流式语音转文本。与此同时,OpenAI官方通过引用推文暗示,用户期待已久的ChatGPT语音功能更新正在积极准备中,即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式,进一步提升其交互体验与应用能力。

OpenAI: We know you're eager for voice updates in ChatGPT. Stay tuned, we're cooking.

OpenAI多模态模型发布语音
01:42
TestingCatalog News 🗞@testingcatalog
81
OpenAI在Playground和API中推出了三款新模型:GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中,GPT-Realtime-2被描述为迄今最智能的语音模型,为语音智能体带来了GPT-5级别的推理能力,使其能作为实时协作者,在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集,也预示着ChatGPT的语音模式可能即将迎来重要更新。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
01:40
OpenAI@OpenAI
86
在API中推出GPT-Realtime-2:我们迄今为止最智能的语音模型,为语音助手带来GPT-5级别的推理能力。 语音助手现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线--为新一代语音界面提供全新的音频功能套件。
OpenAI推理模型发布语音
01:38
宝玉@dotey
81
OpenAI在Realtime API上线三款新语音模型

OpenAI在Realtime API中推出了三款新语音模型:GPT-Realtime-2用于对话,GPT-Realtime-Translate用于翻译,GPT-Realtime-Whisper用于实时转录。GPT-Realtime-2具备GPT-5级别推理能力,在音频测试中性能显著提升,改进了交互体验,如任务前语音提示、工具调用透明化和128K上下文窗口,并支持调节推理强度以平衡延迟。GPT-Realtime-Translate支持70多种输入和13种输出语言的实时翻译,GPT-Realtime-Whisper提供流式转录功能。三款模型均已上线,并公布了API价格。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI产品更新语音
01:36
OpenAI Developers@OpenAIDevs
78
OpenAI通过API正式发布了新一代实时语音模型系列,显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平,使语音智能体能作为实时协作者,在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译,GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
01:18
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选86
通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。

OpenAI多模态模型发布语音

推荐理由:语音模型不再只是‘听写’,开始能推理和翻译了,OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段,做语音产品的值得赶紧试试。
5月7日
23:04
OpenRouter@OpenRouter
精选72
1/ 音频现已成为OpenRouter的一等公民。 今日上线两个新端点: 📢 /api/v1/audio/speech - 文本转语音(TTS) 🎤 /api/v1/audio/transcriptions - 语音转文本(SST) 沿用您已在文本、图像和视频中使用的相同路由、计费和密钥。
产品更新语音部署/工程

推荐理由:OpenRouter 突然把 TTS 和 STT 拉进了统一路由,用同一把 Key 和账单,做多模态 App 的人可以少调一个 API。更新不大,但省事。
21:16
IT之家(RSS)
18
绿联 X8 耳夹式耳机发售:VPU 骨声纹降噪、11mm 单元,399 元

绿联 X8 耳夹式蓝牙耳机现已发售,首发价399元。耳机采用专利C桥设计,内嵌钛镁合金记忆丝确保稳固佩戴。其搭载11mm双磁钛膜单元,支持Hi-Res/LDAC双金标认证与格莱美大师调音。核心亮点是首发VPU骨声纹降噪技术,结合4麦克风与2个VPU实现6麦通话降噪。此外,内置AI助手支持实时翻译与录音转写,配备蓝牙6.0与IP56防尘防水。电池续航方面,单次使用可达10小时,配合充电仓综合续航为46小时。

产品更新语音
19:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
22
Parloa 打造客户愿意与之交谈的服务代理

Parloa 推出基于 OpenAI 模型的语音驱动 AI 客服代理,具备可扩展性,支持企业设计、模拟并部署可靠的实时交互。该平台通过大语言模型技术,使客服系统能够处理自然语音对话,提升服务响应速度与准确性,帮助企业实现高效、个性化的客户沟通解决方案。

OpenAI行业动态语音
15:16
IT之家(RSS)
精选72
用嘴干活:阿里千问 PC 端上线 AI 语音输入功能

阿里千问在PC端上线AI语音输入功能,用户通过快捷键即可在各类桌面应用中直接使用。该功能不仅支持去除语气词、纠错和格式化整理口语内容,更能基于上下文智能回复,并可直接下达创作、问答、翻译等指令。其设计逻辑超越传统语音打字工具,旨在成为跨应用的AI任务调度中枢:用户通过按住快捷键启动语音输入模式,或双击切换至AI指令模式,可直接派发信息检索、文档生成等任务。该功能覆盖文档编辑、网页浏览、即时通讯等主流办公场景,无需切换客户端或打开额外窗口,目前所有用户可免费使用。

产品更新语音

推荐理由:阿里千问把语音输入做成了跨应用的AI任务调度中枢,按住说话就能直接发指令干活,对办公族来说是个真提效的小功能,值得装上试试。
08:20
Berryxia.AI@berryxia
72
Google翻译推出实时耳机传译,支持70多种语言

Google Translate的Live translate功能通过耳机提供70多种语言的实时同声传译。用户只需佩戴耳机并启动应用,即可在耳中直接听到翻译。该功能基于Gemini高级语音模型,不仅能准确翻译语义,还能保留说话人的语气、重音和节奏等细微特征,使交流体验更接近真人对话。这项技术旨在消除跨语言沟通的障碍,让用户在海外能进行更自然的交流。

Google: Save this tip before your next big trip abroad ⬇️ With Google Translate's Live translate feature, you can get instant tr...

Google产品更新语音
08:16
IT之家(RSS)
23
漫步者 Lolli5 ANC 智能触控大圆屏耳机开售:50dB 降噪,539 元

漫步者 Lolli5 ANC 智能触控大圆屏耳机已上市,售价539元,提供沙滩白、礁石黑、落日橙三种配色。其最大亮点是充电盒配备智能触控屏,可显示时间并控制音乐、拍照。耳机支持50dB深度、5kHz宽度的ANC自适应降噪和3+3麦智能通话降噪,拥有双Hi-Res金标认证。采用13mm双复合LCP液晶振膜单元,支持蓝牙6.0、双设备连接和IP55级防尘防水。此外,还集成了豆包与DeepSeek双脑问答、会议录音及App实时互译等智能功能。

DeepSeek产品更新语音
07:16
IT之家(RSS)
53
微信鸿蒙版 App 8.0.17.36 正式版更新发布

微信鸿蒙版 App 发布 8.0.17.36 正式版,安装量已达 5369 万次。本次更新聚焦视频号、听一听及支付交互功能:视频号支持资料修改、新账号注册、双击点赞及直播选项细化;听一听新增 AI 写歌与翻唱功能,并可将歌曲设为状态或跳转至 QQ 音乐;支付方面新增 Apple 服务扣费管理,收款时可选择存入零钱或零钱通。此外,还优化了头像查看、图片引用浏览、跨端文件传输及聊天框语音转文字快捷按钮等多项用户体验细节。

产品更新语音
06:40
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选72
Uber 利用 OpenAI 帮助司机更智能地赚钱、乘客更快地叫车

Uber 宣布在其全球实时交通服务平台中集成 OpenAI 技术,用于驱动 AI 助手与语音功能。新功能旨在帮助司机更智能地规划接单以提升收入,同时让乘客能够更快完成叫车流程。该技术将应用于优化实时供需匹配与用户体验。

OpenAI行业动态语音

推荐理由:Uber 把 OpenAI 的语音和助手能力搬进了打车场景,这是 AI 真正融入日常服务的一个信号,对做产品的人来说,落地路径比技术参数更重要。
5月6日
14:31
Hacker News 热门(buzzing.cc 中文翻译)
50
Telus利用人工智能调整客服代表的口音

加拿大电信公司Telus正在使用人工智能技术实时调整客服代表的语音口音。该系统旨在改善通话清晰度与客户体验,通过AI处理使客服代表的语音更易于被客户理解。这一举措引发了关于技术伦理、文化认同及员工自主权的讨论,部分人士担忧其可能隐含的偏见或对多元性的压制。目前该技术已在部分客服通话中进行测试与应用。

行业动态语音
08:17
Berryxia.AI@berryxia
67
今天这个tts有点东西啊!

Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2,突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话,捕捉情绪、语气与节奏,动态决定回应方式,成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括:支持用自然语言语音指令像指挥大语言模型一样调整声音;同一声音身份可跨100多种语言保持一致性;还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

Inworld AI: Introducing Realtime TTS-2, a new generation of voice model built for realtime conversation. It is the first voice model...

多模态模型发布语音
08:01
宝玉@dotey
16
AI语音音色逼真但多音字识别成短板

用户在使用微信读书的AI听书功能时,发现其语音合成音色已非常逼真,但核心问题在于多音字识别准确率低,导致频繁读错字音,严重影响听书体验。相比之下,喜马拉雅的真人朗读版本效果更佳。用户认为,以当前大语言模型的技术水平,理应能更好地解决多音字歧义问题,并期待相关功能得到改进。

大佬观点语音
05:27
Chubby♨️@kimmonismus
66
主推文强调语音代理的首次音频响应时间(TTFA)低于200毫秒至关重要,超过300毫秒即可感知延迟。引用推文介绍了专为实时对话设计的Realtime TTS-2新一代语音模型,该模型能理解对话内容、接受自然语言语音指令、在超过100种语言中保持同一声音身份,并能模拟人类专注的说话方式,最终实现听觉与体验俱佳的语音AI效果。

Inworld AI: Introducing Realtime TTS-2, a new generation of voice model built for realtime conversation. It is the first voice model...

智能体模型发布语音
01:00
TestingCatalog News 🗞@testingcatalog
69
Inworld AI发布了新一代实时对话语音模型Realtime TTS-2。该模型的核心突破在于,能在说话前处理完整的多轮对话音频上下文,从而像真人一样实时适应对话情境。其关键特性包括:单一音色支持超过100种语言,首次音频生成延迟低于200毫秒,并能通过自然语言指令调整语音风格,无需预设情感标签。这标志着语音AI首次具备了"聆听"对话整体氛围而不仅是字面内容的能力,其架构设计旨在实现既自然动听又富有情境感知的对话体验。

Inworld AI: Introducing Realtime TTS-2, a new generation of voice model built for realtime conversation. It is the first voice model...

产品更新语音
5月5日
20:14
阿绎 AYi@AYi_AInotes
73
AI虚拟伴侣揭露:情感剥削与真实关系危机

一段视频揭露,OnlyFans等平台上的“完美女孩”实为AI系统生成的虚拟伴侣。技术通过Claude维持人格记忆、Flux实时生成图像视频、ElevenLabs克隆声音,仅需少量代码与API费用即可自动运行。系统能精准满足用户情感需求,同步模仿真人动作表情,形成极致的情感剥削。随着AI技术成熟,平台身份验证形同虚设,未来大部分账号可能被AI取代。核心矛盾在于,即使知晓对方是虚拟存在,用户仍可能为获得“完美陪伴”付费,引发真实与虚假关系的深刻伦理危机。

Anthropic图像生成现象/趋势语音
16:18
Chubby♨️@kimmonismus
57
新的 ChatGPT 语音模式基本确认了。 我对此感到非常兴奋。

Sam Altman: pretty excited for voice models to get great its interesting to watch how people are already starting to change the way ...

OpenAI行业动态语音
10:14
阿绎 AYi@AYi_AInotes
精选74
分享一个免费下载任何 YouTube 视频的GitHub开源项目,非常实用🔥

开源项目Voice-Pro将多语言视频创作流程大幅简化。用户输入YouTube链接后,该工具可在本地自动完成视频下载、人声分离、语音转文字、翻译、声线克隆及配音合成,全程不到两分钟。它将原本需要多个付费工具协作的复杂流程,整合为一个免费、本地化的高效解决方案,显著提升了创作者的工作效率。

GitHub开源/仓库视频语音

推荐理由:一个开源工具把 yt-dlp + Whisper + 翻译 + 声线克隆六步压缩成一条本地流水线,之前每月烧几百刀订阅费的事现在免费跑在自己机器上,做多语言视频的人可以直接换掉整套工具链。
09:56
meng shao@shao__meng
55
OpenAI 如何实现规模化的低延迟语音 AI

为实现语音AI的自然对话感,OpenAI采用WebRTC支持音频流式处理。针对1:1场景,采用Transceiver模型集中管理WebRTC状态,使后端可横向扩展。为解决WebRTC与K8s的端口和状态粘性问题,设计了Relay+Transceiver架构:轻量Relay层收敛公网UDP入口,并利用ICE ufrag字段编码路由信息,实现首包精准转发至对应Transceiver。该设计保留了协议语义,状态集中,并通过全球部署Relay优化路径,最终在K8s上实现了低延迟、高可扩展的语音交互系统。

OpenAI Developers: 🎙️ Voice AI only feels natural when conversation keeps pace with speech. Here's how we rebuilt our WebRTC stack with a ...

OpenAI教程/实践语音部署/工程
09:28
TestingCatalog News 🗞@testingcatalog
44
OPENAI 👀:语音模式升级即将到来? 这真是期待已久的发布! 你现在最常用哪个语音助手?

Sam Altman: pretty excited for voice models to get great its interesting to watch how people are already starting to change the way ...

产品更新语音
08:56
Sam Altman@sama
47
对语音模型即将变得出色感到相当兴奋 观察人们已经开始改变与AI交互的方式,这很有趣
OpenAI大佬观点语音
‹ 上一页
1…1213141516…19
下一页 ›