6月19日

14:40

小互@xiaohu

豆包实时语音模型3.0 API正式上线。支持全双工（同时听和说，可随时插话）和端到端（语音进、语音出，无转录），交互更快速自然。具备精准遵循指令能力，如设定“先不出声，聊到世界杯再加入”后安静待命。关键升级是支持自定义工具，可在实时对话中直接调用工具完成任务（预定日历、发邮件、总结文档、发起查询等），从“语音助手”向“语音 Agent”迈进。

MCP/工具模型发布语音

09:23

🚨 AI News | TestingCatalog@testingcatalog

OPENAI 🔥： Codex 上的实时语音模式将触发一只宠物或一个球体出现！ Codex = ChatGPT 即将到来 👀 * 视频显示，宠物已通过语音模式按钮被召唤。

OpenAI 产品更新语音

08:00

HuggingFace Daily Papers（社区热门论文）

非语言发声中的说话人身份：条件蒸馏与混合专家方法

针对非语言发声（NVV）中说话人身份一致性评估，现有说话人验证（SV）系统泛化差且微调会导致灾难性遗忘。本文提出融合冻结Data2Vec自监督特征与ECAPA-TDNN的框架，并加入带领域感知路由的混合专家（MoE）模块。通过预训练教师模型在语音输入上施加条件蒸馏损失以保持语音验证精度，同时用对比损失弥合语音与NVV的域间差距。该方法将NVV的等错误率（EER）从38.93%降至22.66%，语音EER从13.17%降至9.24%。

arXiv 论文/研究语音

01:21

xAI@xai

同事件精选66

xAI 的 Grok TTS 模型在 @Vapi_AI 的 Humanness Index 盲测中以 96 分（真人 100 分）位居榜首。该指数选取同一声音和引文，经各模型克隆后由听众盲评。

Vapi: Two days into blind voting of voice models on our Humanness IndexTM, and xAI's Grok TTS model is at the top of the pack....

xAI 模型发布语音

同一事件，精选展示《Grok 成为 Vapi 的默认语音引擎》

推荐理由：xAI Grok TTS 在 Vapi 盲测里人类相似度 96 分，只差真人 4 分，这个分数很有说服力，做语音产品的值得去听听看，能直观感受语音合成的进步。

01:19

TechCrunch：AI（RSS）

《粉雄救兵》Karamo Brown 推出健康应用 Kē，含 AI 数字克隆"AI Karamo"

《粉雄救兵》生活教练 Karamo Brown 推出健康应用 Kē，其核心特色为基于 AI 初创公司 Delphi 技术打造的“AI Karamo”数字克隆。该克隆通过学习 Brown 的采访、播客等内容，可与用户实时对话并提供建议。应用还提供个性化健身计划、基于家中食材的营养指导、冥想视频及社区支持功能。Kē 已上线 iOS 和 Android，订阅费 $14.99/月，提供 3 天免费试用。

产品更新语音

6月18日

19:14

IT之家（RSS）

Canonical 推出本地语音转文字项目 Myna，为 Ubuntu 26.10 引入 AI 听写功能

Canonical 公布 Project Myna，为 Ubuntu 桌面打造的本地语音转文字工具，首个版本随 Ubuntu 26.10 发布。Myna 仅提供听写功能：用户按下键盘快捷键后说话，转录文字直接插入当前应用，屏幕显示视觉反馈。所有识别在本地运行，下载模型后无需联网；麦克风仅在激活时被访问，音频数据在内存中处理后丢弃。首版以 Wayland 上的 GNOME 为主要验证环境，架构采用模块化设计，源码和文档已以 GPLv3 协议托管于 GitHub。后续计划加强桌面集成并优化听写体验。

产品更新开源生态端侧语音

18:40

公众号：火山引擎

精选72

火山引擎上线豆包实时语音模型3.0 API 服务，开启邀测

火山引擎上线豆包实时语音模型3.0（Seeduplex）API 服务并开启邀测。该模型为原生全双工端到端语音大模型，具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命，指定话题出现时主动加入；支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升，误回复率与误打断率大幅降低；判停延迟缩短约250ms，复杂场景抢话比例下降40%，用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。

模型发布语音

推荐理由：豆包实时语音模型3.0带来的全双工实时工具调用，把语音助手从对讲机变成了真人助理，判停延迟和抢话率的改善数据扎实，做车载和智能硬件的团队该认真看看。

15:14

IT之家（RSS）

科大讯飞 AI 眼镜首销：40克重量、122种语言翻译，4299元

讯飞AI眼镜6月18日在京东首销，定价4299元（部分国补后3369元），重40克，获SGS舒适认证。核心搭载语音同传大模型，支持122种语言翻译，覆盖通话翻译、线上同传、同声传译（8米全向拾音）、面对面翻译（18语种离线）、视觉翻译及附赠App权益等六大场景。还支持实时提词、蓝牙遥控翻页，内置GlassClaw AI助理，可开会自动总结图文纪要。

产品更新端侧语音

13:56

LMSYS：Blog（Chatbot Arena 团队）

精选67

MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上：原生流式 48 kHz 语音服务

MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型，支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器，通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%，CV3-Eval 上 WER 7.48%、SIM 61.59%，MiniMax Multilingual 上 WER 6.37%、SIM 75.31%，X Voice 上 WER 20.48%、SIM 63.00%。

产品更新语音部署/工程

推荐理由：SGLang-Omni 把 MOSS-TTS 的端到端服务拆成三阶段并做了大量底层优化，对想落地实时语音合成的团队是现成的技术方案，技术细节扎实，可以直接照着搭。

12:14

IT之家（RSS）

支持中文：Claude 语音模式酝酿升级，新图标暗示通话式 AI 交互

Anthropic 正升级 Claude 的语音模式，新增西班牙语、中文、日语、德语、葡萄牙语、俄语和乌克兰语等语言选项，打破仅支持英语的限制。语音交互引入两种模式：原有的免提模式支持连续对话，新增按下通话模式需按住按钮说话、松手发送语音消息。iOS 版 Claude 应用出现类似电话听筒的新图标，外界猜测可能为更接近通话的语音交互做准备。

Anthropic 产品更新语音

10:14

IT之家（RSS）

阿里将推"千问输入法"独立App，定位移动端AI输入法

据《读佳》今日报道，千问团队将推出名为“千问输入法”的独立App，其AI功能与键盘针对手机端操作优化，区别于PC端千问语音输入法。产品已开发完成，择日上线各大应用商店。继微信输入法、豆包输入法后，这将是国内第三家头部互联网大厂入局独立AI输入法赛道。千问语音输入法是今年5月上线的AI语音输入能力，集成于千问App内，支持口语去语气词、纠错、格式化整理，以及基于上下文的智能回复、创作、问答与翻译指令。

产品更新端侧语音

00:49

向阳乔木@vista8

NotebookLM：跨国小团队沟通对齐妙用

分享一个跨国小团队用 NotebookLM 高效沟通对齐的方法：将公司关键文档上传至 NotebookLM，生成播客，自己听无误后转成所需语种让对方收听；沟通不清晰时还可通过文本问答澄清。该方法在小团队中效果很好，但对内容安全要求不高时适用。

Google 教程/实践语音

00:32

TechCrunch：AI（RSS）

精选76

Google发布99美元Gemini智能音箱

Google推出首款专为Gemini打造的智能音箱Google Home Speaker，售价99.99美元。支持自然语言请求和多步指令，可在说话中途纠正，并具备连续对话功能。内置10种新声音。高级AI功能需订阅Google Home Premium（月费10美元或年费100美元），包括Gemini Live自由对话、Nest摄像头活动摘要等。即日起预售，本月发货。

Google 产品更新语音

推荐理由：Google 终于把 Gemini 塞进了音箱，多步指令和自然纠错是亮点，但高级功能要订阅 Home Premium。普通用户会觉得方便，智能家居玩家可以观望，AI 从业者不会有多大惊喜。

00:16

Ars Technica：AI（RSS）

谷歌 Home Speaker 开启预售，6 月 25 日开售

谷歌去年八月发布的新款智能音箱 Google Home Speaker 现已开启预售，售价 $99.99，6 月 25 日正式开售。扁球体织物外观有淡褐、瓷白、翠绿和浆果红四色。支持 360 度声场，底部环形灯带在语音交互时亮起，配备三个远场麦克风和静音开关。内部搭载四核 A55 处理器及专用 NPU，运行本地 AI 模型提升降噪。仅有一个 58mm 全频驱动单元，音质介于 Nest Audio 与 Nest Mini 之间。可与 Google TV Streamer 配对实现沉浸式音频，兼容其他 Nest 设备。购买附赠六个月 Google Home Premium，启用 Gemini Live 支持连续对话。

Google 产品更新语音

6月17日

23:15

Artificial Analysis@ArtificialAnlys

Soniox v5 Real-Time 发布：低延迟流式语音转文本模型

Soniox 发布 v5 Real-Time 流式 STT 模型，在 AA-WER Streaming 基准上处于准确率与延迟的帕累托前沿。First Final 转录 WER 4.5%（延迟 0.05s），比 Deepgram Flux (7.4%, 0.02s) 和 Nova-3 Realtime (6.7%, 0.06s) 更准确，比 Cartesia Ink-2 (3.7%, 0.09s) 和 ElevenLabs Scribe v2 Realtime (3.6%, 0.14s) 更快。First Partial 转录 WER 4.7%（延迟 0.05s），准确率仅次于上述两款模型但速度更快。价格 $2/1000 分钟，为所有测试专有流式模型最低。支持 60+ 语言及实时翻译。

模型发布语音