AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 96 条
全部一手资讯X论文
标签「语音」清除
7月2日周四
00:20xAI:News(网页)77精选xAI 发布 Voice Agent Builder 测试版
7月1日周三
05:25Suno:Blog(网页)40Dream Relic:用 Suno 为超现实影像配乐
01:29Apple:Newsroom(RSS)66精选Apple Creator Studio 更新:更智能、更快速、更互联
6月25日周四
00:15Hugging Face:Blog(RSS)61精选FFASR 排行榜发布:真实远场条件下 ASR 评测
6月23日周二
13:50公众号:火山引擎71精选豆包音频生成模型1.0发布,重新定义AI音频创作
6月18日周四
18:40公众号:火山引擎72精选火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测
13:56LMSYS:Blog(Chatbot Arena 团队)67精选MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上:原生流式 48 kHz 语音服务
6月15日周一
13:10公众号:昆仑万维(天工)28智源大会|Skywork首席科学家成宇:SkyReels V4与Mureka V9技术演进
6月11日周四
19:10公众号:京东JoyAI44为卫浴装上"AI大脑",JoyInside×惠达AI卫浴套系6月17日重磅开售
10:50公众号:小米 MiMo74精选小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议
6月10日周三
17:50公众号:百度智能云(文心)26利尔达与百度智能云合作,将AI能力集成至模组
03:55Hugging Face:Blog(RSS)67精选Hugging Face 博客发布语音智能体代码切换基准测试
6月9日周二
03:14Apple:Newsroom(RSS)69精选受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线
03:14Apple:Newsroom(RSS)56同事件精选Apple发布新一代Apple Intelligence和Siri AI同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
6月5日周五
23:26Suno:Blog(网页)64精选Suno Voices 使用指南:6 个技巧打造高质量人声录制
00:53LMSYS:Blog(Chatbot Arena 团队)77精选Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务
6月4日周四
21:42Hugging Face:Blog(RSS)75精选Nemotron 3.5 ASR:为你的语言、领域或口音进行微调
10:58xAI:News(网页)72精选Grok 成为 Vapi 的默认语音引擎
6月2日周二
23:13OpenAI:官网动态(RSS · 排除企业/客户案例)38Travelers借助OpenAI在全国部署AI理赔助手
6月1日周一
19:05公众号:京东JoyAI20JoyInside儿童节专题 | 不止一问一答,更是装在万物里的"童年玩伴"
5月29日周五
16:46公众号:京东JoyAI43JoyInside上新:小龙AI魔法益智打印机开启预售
5月28日周四
20:21公众号:京东JoyAI51听见京东 618:大模型时代下的声音供应链
02:57Midjourney:Updates(RSS)59精选Web 更新
00:20Hugging Face:Blog(RSS)72精选Reachy Mini 实现完全本地化语音交互
5月21日周四
13:43公众号:京东JoyAI49京东数字人核心能力升级
5月20日周三
13:53公众号:通义实验室(千问)55Qwen3.5-LiveTranslate 发布:开口即同传
02:18Google Blog:AI(RSS)75精选Google Workspace 推出全新创建方式与高效工作功能
5月19日周二
23:18Qwen:Blog Retrieval(API)77精选Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确
5月15日周五
11:17公众号:腾讯混元39腾讯新闻AI电台来了!基于混元大模型打造
5月14日周四
14:02公众号:豆包(字节)38豆包输入法上新,可以在电脑上语音打字了
5月11日周一
10:00公众号:昆仑万维(天工)26当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由
08:00Thinking Machines Lab:官方博客(RSS)59精选Thinking Machines Lab发布Interaction Models研究预览
5月9日周六
14:51公众号:阶跃星辰(Step)45阶跃语音模型位列 Artificial Analysis 评测榜中国第一、全球前三
5月8日周五
22:09公众号:阶跃星辰(Step)50StepAudio 2.5 Realtime 上线!真人级实时语音对话能力,千万人设任你打造
01:18OpenAI:官网动态(RSS · 排除企业/客户案例)86精选通过 API 中的新模型推进语音智能
5月7日周四
19:13OpenAI:官网动态(RSS · 排除企业/客户案例)22Parloa 打造客户愿意与之交谈的服务代理
06:40OpenAI:官网动态(RSS · 排除企业/客户案例)72精选Uber 利用 OpenAI 帮助司机更智能地赚钱、乘客更快地叫车
5月5日周二
02:59OpenAI:官网动态(RSS · 排除企业/客户案例)58精选OpenAI 如何大规模交付低延迟语音 AI
5月2日周六
02:00OpenRouter:Announcements(RSS)44OpenRouter 上线语音合成与转录 API
02:00OpenRouter:Announcements(RSS)52OpenRouter 推出新音频API:语音合成与转录
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月2日
00:20
xAI:News(网页)
精选77
xAI 发布 Voice Agent Builder 测试版

xAI 推出 Voice Agent Builder 测试版,这是一个基于 Grok Voice 的无代码平台,可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性,支持连接现有 SIP 号码、API 和 WebSocket,采用语音到语音路径。在 τ-voice Bench 上,Grok Voice Think Fast 1.0 得分 67.3%,领先 Gemini 3.1 Flash Live(43.8%)和 GPT Realtime 1.5(35.3%)。定价为每分钟音频 0.05 美元、电话费 0.01 美元,提供 80+ 种语音及声音克隆,每个账户附赠一个免费电话号码。

智能体MCP/工具xAI产品更新
关联讨论 1 条X:xAI (@xai)
推荐理由:xAI 用 Grok Voice 原生的语音到语音路径,把生产级语音代理的搭建门槛降到了无代码、两分钟,计费也简单,做语音业务的人值得试试。
7月1日
05:25
Suno:Blog(网页)
40
Dream Relic:用 Suno 为超现实影像配乐

AI 视觉艺术家 Dream Relic(Broc Vaughn)通过 Suno 的 Create 功能,将多年来积累的歌词转化为配乐歌曲,为其超现实、怀旧风格的影像世界赋予声音。他在 TikTok 和 Hooks 上发布的一首 Suno 生成曲目获得数百条评论,甚至有人表示“讨厌 AI 音乐但这是例外”。这一反响促使他更认真对待音乐创作——此前他曾与唱片公司和制作人合作但效果不佳。Dream Relic 正筹备发布全长专辑,并在 TikTok、Hooks、Spotify 等平台上线多首作品。

其他语音
01:29
Apple:Newsroom(RSS)
精选66
Apple Creator Studio 更新:更智能、更快速、更互联

Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions(自动转录音频生成字幕)和 Edit Detection(自动检测剪辑点)。Mac 版加入 Auto Mask(自动识别皮肤、天空等主体)、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑,并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年,新用户免费试用一个月,教育用户 $2.99/月。

产品更新图像生成语音

推荐理由:Final Cut Pro 的自动字幕和遮罩是实打实的工作流提升,Pixelmator Pro 的深度整合也让设计更顺畅,虽然没有颠覆性突破,但创意工作者今天就能用上。
6月25日
00:15
Hugging Face:Blog(RSS)
精选61
FFASR 排行榜发布:真实远场条件下 ASR 评测

Treble Technologies 与 Hugging Face 联合推出 FFASR(Far-Field ASR)排行榜,这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据,涵盖 14 种房间(20–470 m³)和三个信噪比级别(远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB),加上近场干燥条件,共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率(WER)和实时因子(RTFx,在 NVIDIA L4 GPU 上评估)。未来将支持多说话人场景、麦克风阵列和回声消除。

Hugging Face评测/基准语音

推荐理由:远场语音的‘实验室-生产’性能差终于有了量化指标,这个排行榜把 ASR 的真实世界鲁棒性公开化,做语音产品的团队该看看。
6月23日
13:50
公众号:火山引擎
精选71
豆包音频生成模型1.0发布,重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由:豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt,长时一致性解决了一直以来‘串戏’的痛点,音频创作者的生产流程可能会被改写。
6月18日
18:40
公众号:火山引擎
精选72
火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测

火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。该模型为原生全双工端到端语音大模型,具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命,指定话题出现时主动加入;支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升,误回复率与误打断率大幅降低;判停延迟缩短约250ms,复杂场景抢话比例下降40%,用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。

模型发布语音

推荐理由:豆包实时语音模型3.0带来的全双工实时工具调用,把语音助手从对讲机变成了真人助理,判停延迟和抢话率的改善数据扎实,做车载和智能硬件的团队该认真看看。
13:56
LMSYS:Blog(Chatbot Arena 团队)
精选67
MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上:原生流式 48 kHz 语音服务

MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型,支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器,通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%,CV3-Eval 上 WER 7.48%、SIM 61.59%,MiniMax Multilingual 上 WER 6.37%、SIM 75.31%,X Voice 上 WER 20.48%、SIM 63.00%。

产品更新语音部署/工程

推荐理由:SGLang-Omni 把 MOSS-TTS 的端到端服务拆成三阶段并做了大量底层优化,对想落地实时语音合成的团队是现成的技术方案,技术细节扎实,可以直接照着搭。
6月15日
13:10
公众号:昆仑万维(天工)
28
智源大会|Skywork首席科学家成宇:SkyReels V4与Mureka V9技术演进

昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video(With Audio)与Image to Video(With Audio)双赛道第一,超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性,以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术,实现段落级文本控制与母带级混音,在旋律性(7.25)、表现力(6.89)等维度排名第一。此外,昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。

多模态大佬观点开源生态视频
6月11日
19:10
公众号:京东JoyAI
44
为卫浴装上"AI大脑",JoyInside×惠达AI卫浴套系6月17日重磅开售

京东JoyInside与惠达推出行业首款搭载JoyInside统一智能中枢的卫浴套系“惠达小京灵系列AI卫浴套装”,含AI智能马桶、AI智能花洒、AI智能浴室柜。依托JoyAI大模型,设备支持语音控制、模糊语义理解、连续多轮对话及方言识别,可实现自动预排冷水、语音控温、镜面除雾等场景联动。套系已开启预售,6月17日晚8点正式售卖。JoyInside已与近200家机器人、AI玩具、家电家居品牌合作,预计年内接入超千万终端设备。

产品更新端侧语音
10:50
公众号:小米 MiMo
精选74
小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议

小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议。内置限时免费MiMo-V2.5多模态模型,性能比肩Claude Sonnet 4.6;支持接入DeepSeek、Kimi、GLM等模型。核心能力包括持久记忆系统(项目记忆、会话检查点、任务进度)和无限上下文——通过独立subagent自动保存状态解决长会话遗忘。独创Compose模式实现模型与Agent协同优化,SWE-Bench Pro达62%(Claude Code 57%),Terminal Bench 2达73%(68%)。内置语音输入和/dream命令,每7天自动合并记忆。终端输入mimo即可使用,所有设置中文汉化。

智能体产品更新开源生态编码
关联讨论 3 条X:Berry Xia (@berryxia)Hacker News 热门(buzzing.cc 中文翻译)X:小米 MiMo (@XiaomiMiMo)
推荐理由:小米悄悄发了MiMo Code,开源且免费,用记忆系统和Compose模式解决了AI编程两大顽疾:健忘和跑偏,实测比同模型Claude Code更强,开发者现在就能装上试。
6月10日
17:50
公众号:百度智能云(文心)
26
利尔达与百度智能云合作,将AI能力集成至模组

物联网模组厂商利尔达(蜂窝模组出货量全球第四)与百度智能云合作,将后者的多模态实时互动、超拟人语音模型、长期记忆、情绪识别、Function Call设备控制、MCP生态扩展等AI能力通过轻量级SDK深度集成至模组中。联合方案实现端到端响应时长低于2秒,休眠功耗低至3µA,支持多语言出海,并将硬件研发周期从年压缩至周级别。百度智能云已服务逾千家AI硬件企业,覆盖国民级终端、全场景智能及AI原生硬件。

端侧行业动态语音
03:55
Hugging Face:Blog(RSS)
精选67
Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言,基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统,包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现:代码切换的转录成本因语言对和模型而异;ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face评测/基准语音

推荐理由:如果你在给多语言客户做语音Agent,这篇博客直接把主流ASR的code-switching能力测了一遍,ElevenLabs Scribe V2目前最强,还开源了数据集,拿来就能测自己的模型。
6月9日
03:14
Apple:Newsroom(RSS)
精选69
受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线

由于欧盟《数字市场法案》(DMA),Apple 无法在 iOS 27 和 iPadOS 27 发布时于欧盟地区推出 Siri AI。该功能在欧盟的上线时间将晚于其他地区,具体时间未公布。

多模态政策/监管语音
关联讨论 8 条TechCrunch:AI(RSS)X:Kim (@kimmonismus)IT之家(RSS)Apple:Newsroom(RSS)公众号:数字生命卡兹克The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)Apple Machine Learning Research(RSS)
推荐理由:苹果首次将 DMA 作为 AI 功能地区延迟的直接理由,并详细披露了与欧盟监管者的分歧,这个案例可能定义了 AI 助手在监管下的权限边界。
03:14
Apple:Newsroom(RSS)
同事件精选56
Apple发布新一代Apple Intelligence和Siri AI

今天Apple预览了即将推出的软件版本,将带来新一代Apple Intelligence和Siri AI。

产品更新语音
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:苹果在WWDC26预览了下一代Siri AI,承诺深度集成、个人语境理解,但发布停留在功能描述层面,缺乏技术细节和可用性,更像是远期路线图的一次品牌表态而非即时的用户价值。
6月5日
23:26
Suno:Blog(网页)
精选64
Suno Voices 使用指南:6 个技巧打造高质量人声录制

Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧:在安静环境录音以减少背景噪音;先练习歌词再正式录制;不必追求完美,保留真实情感;录音时长尽量超过 1 分钟以提供更多学习素材;将人声匹配到合适的音乐流派(如民谣、流行、死亡金属、波萨诺瓦等);敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。

教程/实践语音

推荐理由:Suno 官方出的 Voices 录制避坑指南,不是大新闻,但照着做能让你克隆的声音干净不少,尤其是安静环境和别怕走音那两条,做音乐的朋友可以直接收藏。
00:53
LMSYS:Blog(Chatbot Arena 团队)
精选77
Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由:Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型,SGLang-Omni 为它搭好了多阶段推理的底座,做语音 Agent 的可以直接抄作业,这比多数论文落地快半拍。
6月4日
21:42
Hugging Face:Blog(RSS)
精选75
Nemotron 3.5 ASR:为你的语言、领域或口音进行微调

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,单个检查点覆盖 40 种语言-地区(含英、西、德、法、意、日、韩、中、阿拉伯等)。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器,缓存内部状态避免重复计算,实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本,无需后处理。支持指定语言(target_lang=es-ES)或自动语言检测(target_lang=auto)。通过注意力上下文大小(att_context_size)可在推理时直接调节延迟-准确率权衡,范围从 80ms 到 1.12s,无需重新训练。模型以 NeMo 检查点形式发布,可用于微调以适配特定语言、领域或口音。

教程/实践语音

推荐理由:一个模型搞定40种语言的实时语音转文字,NVIDIA还给了完整微调代码和实测数据,做语音Agent和字幕的可以照着抄作业。
10:58
xAI:News(网页)
精选72
Grok 成为 Vapi 的默认语音引擎

xAI 宣布与 Vapi 合作,Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎,覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中,Grok Voice 位列第一;X 平台上的人机语音盲猜中,超 4500 名用户有一半无法区分 Grok 与真人。现在,Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard,团队还可通过 Grok Voice API 获取高级定制选项(含语音克隆),用于旁白、播客、广告等场景。

xAI行业动态语音
关联讨论 1 条X:xAI (@xai)
推荐理由:xAI 把 Grok 的语音能力直接接入了 Vapi,250 万+语音代理一夜升级,语音交互的“自然度”竞赛从实验室卷到了生产环境。
6月2日
23:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
38
Travelers借助OpenAI在全国部署AI理赔助手

美国保险公司Travelers与OpenAI合作,构建了一款AI驱动的Claim Assistant。该工具旨在引导客户完成理赔流程,并提供全天候支持,以在业务高峰期扩展运营规模。

智能体OpenAI行业动态语音
6月1日
19:05
公众号:京东JoyAI
20
JoyInside儿童节专题 | 不止一问一答,更是装在万物里的"童年玩伴"

京东JoyInside将大模型技术嵌入多款儿童产品,包括AI毛绒公仔、小龙AI魔法益智打印机、京造AI台灯和小鸡球球点读笔,实现语音交互、伴读、双语互动等功能。六一前夕(5月最后一周),搭载JoyInside的AI终端销量环比4月同一周增长535%;小龙AI魔法益智打印机在618开门红4小时内销量环比激增17倍。

端侧行业动态语音
5月29日
16:46
公众号:京东JoyAI
43
JoyInside上新:小龙AI魔法益智打印机开启预售

京东JoyInside与ZORICAM联合推出小龙AI魔法益智打印机,集故事机、聊天机器人、打印机、学习机于一身。产品搭载京东自研JoyAI大模型,首创面向儿童的“情景式对话+打印”交互:唤醒“小龙”后通过语音指令即可生成画作并打印成专属贴纸,还能在对话中理解语境主动提出打印建议。硬件支持WiFi连接,续航超48小时。

产品更新图像生成语音
5月28日
20:21
公众号:京东JoyAI
51
听见京东 618:大模型时代下的声音供应链

京东自研JoyAI语音大模型LiveTTS具备多语种、情绪解耦、语速解耦、捏声音色及一句话音色克隆(3—10秒语音)五大能力,已接入JoyClaw技能商店。覆盖10余种语言和8种方言,支持同一音色多方言与情绪表达。应用于JoyInside智能终端、JoyAI App万能博士、数字人JoyStreamer(累计服务超7万商家)及AI播客。618期间支撑千万级并发实时交互,为智能客服、数字人直播等场景提供低延迟语音输出。

产品更新多模态语音
02:57
Midjourney:Updates(RSS)
精选59
Web 更新

对话模式在文本和语音输入方面进行了改进。语音会话开始时,可访问用户的图像提示、风格参考、侧边栏设置和最近任务。图像提示功能现可从托盘和侧边栏直接使用。在语音提交过程中,托盘中的图像将保持不变,直至用户手动移除。

产品更新语音

推荐理由:Midjourney给语音模式补了一课——现在它能记住你正在用的图片参考和风格设置,语音创作不用反复翻找,用完即走的轻量用户可能无感。
00:20
Hugging Face:Blog(RSS)
精选72
Reachy Mini 实现完全本地化语音交互

Reachy Mini 机器人现可通过 speech-to-speech 库实现完全本地化的语音交互,无需依赖云端。该方案采用级联流水线架构,对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问(Qwen3-TTS)作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理,保障了隐私且无 API 费用。

智能体Hugging Face教程/实践语音

推荐理由:小众硬件的本地语音实战,但HF这套开源管线证明端到端对话已完全可用,所有组件都可自由替换,想做本地化语音助手的人可以照抄。
5月21日
13:43
公众号:京东JoyAI
49
京东数字人核心能力升级

京东数字人近日完成核心能力升级,从“会播、会答”的数字主播进化为面向直播经营全链路的智能增长中枢,帮助商家以更低成本打造接近真人头部达播效果的直播间。已累计服务超7万商家,2026年一季度开播量同比激增10倍。该产品为京东自研AI,曾获2024年吴文俊奖,实现长时长、自由态、高频互动,推出采销东哥、总裁、明星及IP数字人。

产品更新视频语音
5月20日
13:53
公众号:通义实验室(千问)
55
Qwen3.5-LiveTranslate 发布:开口即同传

通义实验室(千问)发布 Qwen3.5-LiveTranslate,实现“开口即同传”——用户说话的同时即可获得翻译结果,支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音
02:18
Google Blog:AI(RSS)
精选75
Google Workspace 推出全新创建方式与高效工作功能

Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能,并推出了一款名为 Google Pics 的全新设计工具。同时,其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验,通过集成更智能的工具和交互方式,帮助用户更便捷地完成多项任务。

Google产品更新多模态语音

推荐理由:Google Workspace 直接植入了语音操作和设计工具 Pics,这波更新对办公效率很实在,做产品和运营的可以关注一下实际落地效果。
5月19日
23:18
Qwen:Blog Retrieval(API)
精选77
Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型,基于 Qwen3.5-Omni 架构,支持实时多模态翻译(音频、视频及视觉上下文)。语言覆盖大幅扩展:输入音频与输出文本从18种增至60种,输出音频从10种增至29种。采用 Readable Unit 技术,平均端到端每 token 延迟降至2.8秒,相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由:这个版本让同声传译从“能用”变成了“好用”,语言覆盖从 18 跃升 60,延迟压到 2.8 秒,加上视觉消除歧义,做国际业务和直播的人值得跟进。
5月15日
11:17
公众号:腾讯混元
39
腾讯新闻AI电台来了!基于混元大模型打造
产品更新语音
5月14日
14:02
公众号:豆包(字节)
38
豆包输入法上新,可以在电脑上语音打字了
产品更新端侧语音
5月11日
10:00
公众号:昆仑万维(天工)
26
当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由

Mureka正被企业用以替换Suno,一场AI音乐领域的迁移正在发生。背后涉及功能、成本或合规等方面的理由。

多模态现象/趋势语音
08:00
Thinking Machines Lab:官方博客(RSS)
精选59
Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由:Thinking Machines 把实时交互训进了模型本身,不再是外挂脚手架,微轮次架构和 benchmark 数据很硬,做语音/视频助手的可以认真看看,虽然还是研究预览,但方向值得盯着。
5月9日
14:51
公众号:阶跃星辰(Step)
45
阶跃语音模型位列 Artificial Analysis 评测榜中国第一、全球前三
评测/基准语音
5月8日
22:09
公众号:阶跃星辰(Step)
50
StepAudio 2.5 Realtime 上线!真人级实时语音对话能力,千万人设任你打造
产品更新语音
01:18
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选86
通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。

OpenAI多模态模型发布语音

推荐理由:语音模型不再只是‘听写’,开始能推理和翻译了,OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段,做语音产品的值得赶紧试试。
5月7日
19:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
22
Parloa 打造客户愿意与之交谈的服务代理

Parloa 推出基于 OpenAI 模型的语音驱动 AI 客服代理,具备可扩展性,支持企业设计、模拟并部署可靠的实时交互。该平台通过大语言模型技术,使客服系统能够处理自然语音对话,提升服务响应速度与准确性,帮助企业实现高效、个性化的客户沟通解决方案。

OpenAI行业动态语音
06:40
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选72
Uber 利用 OpenAI 帮助司机更智能地赚钱、乘客更快地叫车

Uber 宣布在其全球实时交通服务平台中集成 OpenAI 技术,用于驱动 AI 助手与语音功能。新功能旨在帮助司机更智能地规划接单以提升收入,同时让乘客能够更快完成叫车流程。该技术将应用于优化实时供需匹配与用户体验。

OpenAI行业动态语音

推荐理由:Uber 把 OpenAI 的语音和助手能力搬进了打车场景,这是 AI 真正融入日常服务的一个信号,对做产品的人来说,落地路径比技术参数更重要。
5月5日
02:59
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
OpenAI 如何大规模交付低延迟语音 AI

OpenAI 重建了其 WebRTC 技术栈,以支持实时语音 AI 服务。新系统实现了低延迟、全球规模扩展和无缝的对话轮转。此次重构旨在为 ChatGPT 的语音模式等产品提供更流畅、更自然的实时语音交互体验,解决了大规模部署时面临的延迟与稳定性挑战。

OpenAI教程/实践语音

推荐理由:OpenAI 把语音 AI 的低延迟秘诀摊开了,做实时语音产品的可以看看他们的 WebRTC 优化思路,虽然不太能直接抄,但方向值得参考。
5月2日
02:00
OpenRouter:Announcements(RSS)
44
OpenRouter 上线语音合成与转录 API

OpenRouter 新增两个 API 端点,分别提供语音合成(text-to-speech)和音频转录(transcription)功能,用户可通过单一接口跨多个提供商调用。

产品更新语音
02:00
OpenRouter:Announcements(RSS)
52
OpenRouter 推出新音频API:语音合成与转录

OpenRouter 现已上线文本转语音和音频转录功能。两个新端点提供跨多家提供商的语音合成与音频转录能力,统一API接入。

产品更新语音
‹ 上一页
123
下一页 ›