7月2日

00:20

xAI：News（网页）

精选77

xAI 推出 Voice Agent Builder 测试版，这是一个基于 Grok Voice 的无代码平台，可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性，支持连接现有 SIP 号码、API 和 WebSocket，采用语音到语音路径。在 τ-voice Bench 上，Grok Voice Think Fast 1.0 得分 67.3%，领先 Gemini 3.1 Flash Live（43.8%）和 GPT Realtime 1.5（35.3%）。定价为每分钟音频 0.05 美元、电话费 0.01 美元，提供 80+ 种语音及声音克隆，每个账户附赠一个免费电话号码。

智能体 MCP/工具 xAI 产品更新

关联讨论 1 条

推荐理由：xAI 用 Grok Voice 原生的语音到语音路径，把生产级语音代理的搭建门槛降到了无代码、两分钟，计费也简单，做语音业务的人值得试试。

7月1日

05:25

Suno：Blog（网页）

Dream Relic：用 Suno 为超现实影像配乐

AI 视觉艺术家 Dream Relic（Broc Vaughn）通过 Suno 的 Create 功能，将多年来积累的歌词转化为配乐歌曲，为其超现实、怀旧风格的影像世界赋予声音。他在 TikTok 和 Hooks 上发布的一首 Suno 生成曲目获得数百条评论，甚至有人表示“讨厌 AI 音乐但这是例外”。这一反响促使他更认真对待音乐创作——此前他曾与唱片公司和制作人合作但效果不佳。Dream Relic 正筹备发布全长专辑，并在 TikTok、Hooks、Spotify 等平台上线多首作品。

其他语音

01:29

Apple：Newsroom（RSS）

精选66

Apple Creator Studio 更新：更智能、更快速、更互联

Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions（自动转录音频生成字幕）和 Edit Detection（自动检测剪辑点）。Mac 版加入 Auto Mask（自动识别皮肤、天空等主体）、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑，并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年，新用户免费试用一个月，教育用户 $2.99/月。

产品更新图像生成语音

推荐理由：Final Cut Pro 的自动字幕和遮罩是实打实的工作流提升，Pixelmator Pro 的深度整合也让设计更顺畅，虽然没有颠覆性突破，但创意工作者今天就能用上。

6月25日

00:15

Hugging Face：Blog（RSS）

精选61

FFASR 排行榜发布：真实远场条件下 ASR 评测

Treble Technologies 与 Hugging Face 联合推出 FFASR（Far-Field ASR）排行榜，这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据，涵盖 14 种房间（20–470 m³）和三个信噪比级别（远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB），加上近场干燥条件，共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率（WER）和实时因子（RTFx，在 NVIDIA L4 GPU 上评估）。未来将支持多说话人场景、麦克风阵列和回声消除。

Hugging Face 评测/基准语音

推荐理由：远场语音的‘实验室-生产’性能差终于有了量化指标，这个排行榜把 ASR 的真实世界鲁棒性公开化，做语音产品的团队该看看。

6月23日

13:50

公众号：火山引擎

精选71

豆包音频生成模型1.0发布，重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成中保持多角色音色一致性，无需后期多轨混音。模型支持0样本多模态输入，无需额外训练即可生成；实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作，多次延长保持音色统一。已开启火山方舟API邀测，个人用户享30分钟创作额度，即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由：豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt，长时一致性解决了一直以来‘串戏’的痛点，音频创作者的生产流程可能会被改写。

6月18日

18:40

公众号：火山引擎

精选72

火山引擎上线豆包实时语音模型3.0 API 服务，开启邀测

火山引擎上线豆包实时语音模型3.0（Seeduplex）API 服务并开启邀测。该模型为原生全双工端到端语音大模型，具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命，指定话题出现时主动加入；支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升，误回复率与误打断率大幅降低；判停延迟缩短约250ms，复杂场景抢话比例下降40%，用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。

模型发布语音

推荐理由：豆包实时语音模型3.0带来的全双工实时工具调用，把语音助手从对讲机变成了真人助理，判停延迟和抢话率的改善数据扎实，做车载和智能硬件的团队该认真看看。

13:56

LMSYS：Blog（Chatbot Arena 团队）

精选67

MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上：原生流式 48 kHz 语音服务

MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型，支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器，通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%，CV3-Eval 上 WER 7.48%、SIM 61.59%，MiniMax Multilingual 上 WER 6.37%、SIM 75.31%，X Voice 上 WER 20.48%、SIM 63.00%。

产品更新语音部署/工程

推荐理由：SGLang-Omni 把 MOSS-TTS 的端到端服务拆成三阶段并做了大量底层优化，对想落地实时语音合成的团队是现成的技术方案，技术细节扎实，可以直接照着搭。

6月15日

13:10

公众号：昆仑万维（天工）

智源大会|Skywork首席科学家成宇：SkyReels V4与Mureka V9技术演进

昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video（With Audio）与Image to Video（With Audio）双赛道第一，超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性，以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术，实现段落级文本控制与母带级混音，在旋律性（7.25）、表现力（6.89）等维度排名第一。此外，昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。

多模态大佬观点开源生态视频

6月11日

19:10

公众号：京东JoyAI

为卫浴装上"AI大脑"，JoyInside×惠达AI卫浴套系6月17日重磅开售

京东JoyInside与惠达推出行业首款搭载JoyInside统一智能中枢的卫浴套系“惠达小京灵系列AI卫浴套装”，含AI智能马桶、AI智能花洒、AI智能浴室柜。依托JoyAI大模型，设备支持语音控制、模糊语义理解、连续多轮对话及方言识别，可实现自动预排冷水、语音控温、镜面除雾等场景联动。套系已开启预售，6月17日晚8点正式售卖。JoyInside已与近200家机器人、AI玩具、家电家居品牌合作，预计年内接入超千万终端设备。

产品更新端侧语音

10:50

公众号：小米 MiMo

精选74

小米发布并开源终端AI编程助手MiMo Code V0.1.0，采用MIT协议

小米发布并开源终端AI编程助手MiMo Code V0.1.0，采用MIT协议。内置限时免费MiMo-V2.5多模态模型，性能比肩Claude Sonnet 4.6；支持接入DeepSeek、Kimi、GLM等模型。核心能力包括持久记忆系统（项目记忆、会话检查点、任务进度）和无限上下文——通过独立subagent自动保存状态解决长会话遗忘。独创Compose模式实现模型与Agent协同优化，SWE-Bench Pro达62%（Claude Code 57%），Terminal Bench 2达73%（68%）。内置语音输入和/dream命令，每7天自动合并记忆。终端输入mimo即可使用，所有设置中文汉化。

智能体产品更新开源生态编码

关联讨论 3 条

推荐理由：小米悄悄发了MiMo Code，开源且免费，用记忆系统和Compose模式解决了AI编程两大顽疾：健忘和跑偏，实测比同模型Claude Code更强，开发者现在就能装上试。

6月10日

17:50

公众号：百度智能云（文心）

利尔达与百度智能云合作，将AI能力集成至模组

物联网模组厂商利尔达（蜂窝模组出货量全球第四）与百度智能云合作，将后者的多模态实时互动、超拟人语音模型、长期记忆、情绪识别、Function Call设备控制、MCP生态扩展等AI能力通过轻量级SDK深度集成至模组中。联合方案实现端到端响应时长低于2秒，休眠功耗低至3µA，支持多语言出海，并将硬件研发周期从年压缩至周级别。百度智能云已服务逾千家AI硬件企业，覆盖国民级终端、全场景智能及AI原生硬件。

端侧行业动态语音

03:55

Hugging Face：Blog（RSS）

精选67

Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言，基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统，包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现：代码切换的转录成本因语言对和模型而异；ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face 评测/基准语音

推荐理由：如果你在给多语言客户做语音Agent，这篇博客直接把主流ASR的code-switching能力测了一遍，ElevenLabs Scribe V2目前最强，还开源了数据集，拿来就能测自己的模型。

6月9日

03:14

Apple：Newsroom（RSS）

精选69

受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线

由于欧盟《数字市场法案》（DMA），Apple 无法在 iOS 27 和 iPadOS 27 发布时于欧盟地区推出 Siri AI。该功能在欧盟的上线时间将晚于其他地区，具体时间未公布。

多模态政策/监管语音

关联讨论 8 条

推荐理由：苹果首次将 DMA 作为 AI 功能地区延迟的直接理由，并详细披露了与欧盟监管者的分歧，这个案例可能定义了 AI 助手在监管下的权限边界。

03:14

Apple：Newsroom（RSS）

同事件精选56

Apple发布新一代Apple Intelligence和Siri AI

今天Apple预览了即将推出的软件版本，将带来新一代Apple Intelligence和Siri AI。

产品更新语音

同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

推荐理由：苹果在WWDC26预览了下一代Siri AI，承诺深度集成、个人语境理解，但发布停留在功能描述层面，缺乏技术细节和可用性，更像是远期路线图的一次品牌表态而非即时的用户价值。

6月5日

23:26

Suno：Blog（网页）

精选64

Suno Voices 使用指南：6 个技巧打造高质量人声录制

Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧：在安静环境录音以减少背景噪音；先练习歌词再正式录制；不必追求完美，保留真实情感；录音时长尽量超过 1 分钟以提供更多学习素材；将人声匹配到合适的音乐流派（如民谣、流行、死亡金属、波萨诺瓦等）；敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。

教程/实践语音

推荐理由：Suno 官方出的 Voices 录制避坑指南，不是大新闻，但照着做能让你克隆的声音干净不少，尤其是安静环境和别怕走音那两条，做音乐的朋友可以直接收藏。

00:53

LMSYS：Blog（Chatbot Arena 团队）

精选77

Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数，基于 Qwen3-4B 骨干，支持 100 种语言（内部评测覆盖 111 种），在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感（20+种）、风格、韵律（语速/音高/停顿）及音效。模型支持流式合成，文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计，统一调度 AR 解码与轻量计算，实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由：Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型，SGLang-Omni 为它搭好了多阶段推理的底座，做语音 Agent 的可以直接抄作业，这比多数论文落地快半拍。

6月4日

21:42

Hugging Face：Blog（RSS）

精选75

Nemotron 3.5 ASR：为你的语言、领域或口音进行微调

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型，单个检查点覆盖 40 种语言-地区（含英、西、德、法、意、日、韩、中、阿拉伯等）。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器，缓存内部状态避免重复计算，实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本，无需后处理。支持指定语言（target_lang=es-ES）或自动语言检测（target_lang=auto）。通过注意力上下文大小（att_context_size）可在推理时直接调节延迟-准确率权衡，范围从 80ms 到 1.12s，无需重新训练。模型以 NeMo 检查点形式发布，可用于微调以适配特定语言、领域或口音。

教程/实践语音

推荐理由：一个模型搞定40种语言的实时语音转文字，NVIDIA还给了完整微调代码和实测数据，做语音Agent和字幕的可以照着抄作业。

10:58

xAI：News（网页）

精选72

Grok 成为 Vapi 的默认语音引擎

xAI 宣布与 Vapi 合作，Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎，覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中，Grok Voice 位列第一；X 平台上的人机语音盲猜中，超 4500 名用户有一半无法区分 Grok 与真人。现在，Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard，团队还可通过 Grok Voice API 获取高级定制选项（含语音克隆），用于旁白、播客、广告等场景。

xAI 行业动态语音

关联讨论 1 条

推荐理由：xAI 把 Grok 的语音能力直接接入了 Vapi，250 万+语音代理一夜升级，语音交互的“自然度”竞赛从实验室卷到了生产环境。

6月2日