全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「语音」清除

6月7日周日

00:24AYi58杭州初创公司PettiChat发布AI宠物翻译项圈

6月6日周六

20:29The Verge：AI（RSS）70苹果WWDC再次预告新Siri：Apple Intelligence承诺仍未完全兑现

18:59The Decoder：AI News（RSS）68Audio Interaction：开源语音模型持续监听，每0.4秒决定是否说话或保持沉默

15:58MarkTechPost（RSS）69NVIDIA 发布 Nemotron 3.5 ASR：600M 参数缓存感知流式模型，实时转录 40 种语言-地区

15:17IT之家（RSS）32fpt. 渲染苹果 iOS 27：升级 Siri、调整通知手势、增强 AI 修图

09:16IT之家（RSS）31iOS 27 版 Siri 上线初期采用候补名单机制

09:01Artificial Analysis52Gemma 4 12B 语音转录表现不佳，落后于专有转录模型

00:41Google Gemini81精选Gemini Live 支持实时创建编辑图像

6月5日周五

23:26Suno：Blog（网页）64精选Suno Voices 使用指南：6 个技巧打造高质量人声录制

23:15IT之家（RSS）73同事件精选苹果新版 Siri 不会被宣传为完成品，内部将其标记为"Beta"版同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

12:47HuggingFace Daily Papers（社区热门论文）61迈向真正多语言 ASR：代码切换语音识别向未见语言对的泛化研究

08:00HuggingFace Daily Papers（社区热门论文）56Whisper幻觉检测与缓解：基于隐表示引导和稀疏自编码器

08:00HuggingFace Daily Papers（社区热门论文）63熵作为结构先验：DiT信念空间上的对数障碍驱动音乐多样性与发展

03:25Chubby♨️48Tavus Solutions推出企业级AI人类，赋能真实工作流

00:53LMSYS：Blog（Chatbot Arena 团队）77精选Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

00:48TechCrunch：AI（RSS）39WWDC 2026 前瞻：Siri 重大改版与 Apple Intelligence 更新

6月4日周四

21:42Hugging Face：Blog（RSS）75精选Nemotron 3.5 ASR：为你的语言、领域或口音进行微调

19:29MiniMax (official)57MiniMax语音AI黑客松：M3+Speech 2.8 Turbo亚250ms

18:59MiniMax (official)46MiniMax Speech 2.8 Turbo：<250ms 延迟，40+语言

16:21MarkTechPost（RSS）61Miso Labs 发布 MisoTTS：8B 参数情感文本转语音模型，开放权重

10:58xAI：News（网页）72精选Grok 成为 Vapi 的默认语音引擎

10:42HuggingFace Daily Papers（社区热门论文）60Audio-Interaction：统一流式音频交互模型

10:37Elon Musk61Grok Voice Think Fast 1.0 登顶 AI 语音客服基准

09:06Elon Musk72同事件精选Grok Imagine视频生成上线Vercel同一事件，精选展示《xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）》

08:51Berryxia.AI67MOSS-Audio：开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一

08:10IT之家（RSS）72同事件精选深陷版权诉讼仍受资本热捧，AI 音乐生成公司 Suno 再融资 4 亿美元同一事件，精选展示《Suno完成4亿美元D轮融资》

02:48MarkTechPost（RSS）68Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

01:48elvis76Miso One 8B开源情感TTS模型发布

01:08xAI70xAI Grok语音模型上线Vapi平台

00:50Chubby♨️75精选Miso One 开源语音模型：8B 参数、110ms 延迟、一次语音克隆

6月3日周三

23:15TechCrunch：AI（RSS）44两位前高盛和Meta创始人打造语音AI，瞄准非洲和中东被忽视的市场

23:09Suno68精选Suno完成4亿美元D轮融资

09:48Berryxia.AI74微软在Build大会发布七款MAI新模型

08:00HuggingFace Daily Papers（社区热门论文）57SpeechEditBench：双语多属性指令引导语音编辑基准

03:59OpenRouter68精选OpenRouter上线微软三款新模型

03:09IT之家（RSS）56谷歌宣布 Android 行业首创虚假来电检测功能，防范 AI 克隆语音冒充熟人诈骗

02:47Artificial Analysis64Microsoft发布MAI-Transcribe-1.5语音转录模型

02:15The Verge：AI（RSS）62Google Phone 应用推出诈骗检测功能：识别冒充联系人电话

01:08IT之家（RSS）62继 Phi-4-mini 后：微软宣布为 Edge 浏览器引入更高效的 Aion-1.0-Instruct 模型与翻译 API，支持 145 种以上语言

6月2日周二

23:13OpenAI：官网动态（RSS · 排除企业/客户案例）38Travelers借助OpenAI在全国部署AI理赔助手

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月7日

00:24

AYi@AYi_AInotes

58

杭州初创公司PettiChat发布AI宠物翻译项圈

中国杭州初创公司推出AI宠物翻译产品PettiChat，售价$119，采用阿里Qwen大模型，翻译准确率达94.6%。产品为AI宠物项圈形态，能实时翻译猫狗叫声，基于500+真实宠物声音样本训练，实现1秒内将动物叫声转化为人类语言。

产品更新语音

6月6日

20:29

The Verge：AI（RSS）

70

苹果WWDC再次预告新Siri：Apple Intelligence承诺仍未完全兑现

苹果在2024年WWDC首次展示新Siri，搭载发光边框、多种语音选项及向ChatGPT提问的能力，但关键的Apple Intelligence功能迟迟未上线，误导性宣传导致公司面临集体诉讼和解。本周WWDC上，苹果准备再次介绍新Siri，试图在AI领域扭转被动局面。

现象/趋势语音

18:59

The Decoder：AI News（RSS）

68

Audio Interaction：开源语音模型持续监听，每0.4秒决定是否说话或保持沉默

Audio Interaction是一个开源语音模型，持续监听环境，每0.4秒判断是否应该说话或保持沉默。与GPT-4o或Qwen3.5-Omni不同，它无需等待录音结束，可在单个流中同时进行翻译、转录、对话并识别咳嗽等日常噪音。代码和模型权重已在GitHub上以Apache 2.0开源许可发布，训练数据稍后公布。

开源/仓库模型发布语音

15:58

MarkTechPost（RSS）

69

NVIDIA 发布 Nemotron 3.5 ASR：600M 参数缓存感知流式模型，实时转录 40 种语言-地区

NVIDIA 发布 Nemotron 3.5 ASR，一个 600M 参数的缓存感知流式模型，支持从单个检查点实时转录 40 种语言-地区。

模型发布语音

15:17

IT之家（RSS）

32

fpt. 渲染苹果 iOS 27：升级 Siri、调整通知手势、增强 AI 修图

6月5日，YouTube 频道 fpt. 发布概念渲染视频，展示 iOS 27 可能的新设计。通知手势将调整：从屏幕左上方下滑进入通知中心，中部下滑呼出搜索或 Siri 提问界面。Siri 升级为对话伙伴，拥有独立对话区域，支持语音和文字输入，能结合屏幕内容和当前应用理解意图。照片 Clean Up 功能增强，支持用短语或语音编辑图片（如裁剪、增强颜色）。兼容性方面，iOS 27 预计支持 iPhone 12 及后续机型，但复杂 AI 功能可能需较新硬件。

产品更新语音

09:16

IT之家（RSS）

31

iOS 27 版 Siri 上线初期采用候补名单机制

据 IT 之家引述 9to5Mac 报道，iOS 27 版 Siri 上线初期将引入候补名单机制，苹果按批次开放体验资格，内部将其定义为“测试版”与“预览版”。官方可能在 2026 年 WWDC 宣布新功能，但并非所有用户能第一时间参与。苹果将边上线边打磨，收集用户反馈改进 Siri 表现。此前 Apple Intelligence 在 iOS 18.1 早期版本也曾采用类似机制。新版 Siri 采用全新架构并首次接入谷歌 Gemini 模型，系统稳定性、响应质量、兼容性与隐私体验需更谨慎观察。

产品更新端侧语音

09:01

Artificial Analysis@ArtificialAnlys

52

Gemma 4 12B 语音转录表现不佳，落后于专有转录模型

Google DeepMind 发布开源权重模型 Gemma 4 12B，支持语音转录，在 AA-WER 基准上得分为 8.8%（排名第 58），远低于专注转录的开源模型 Voxtral Mini Transcribe 2（4B 参数，WER 3.6%）和 Voxtral Small（12B 参数，WER 2.8%）。该模型是 Gemma 4 系列中支持转录的最大型号（另有 E4B、E2B），而 31B 和 26B A4B 仅支持文本、图片和视频输入。Google 同步推出本地听写应用 Eloquent（MacOS/iOS）。模型已在 Hugging Face、Ollama 和 LMStudio 上架。

Google 开源/仓库评测/基准语音

00:41

Google Gemini@GeminiApp

精选81

你现可直接在 Gemini Live 中创建和编辑图像。无论是测试房间装饰、解决数学问题，还是制作可分享的梗图，所有操作都实时完成。只需打开 Gemini 应用，点击 Live 按钮，共享摄像头，告诉 Gemini 你想看到的。

Google 产品更新图像生成多模态

推荐理由：Gemini Live 终于能用嘴改图了，实时对话+图像生成让装修试色、数学解题变成「聊着天就把活干了」，产品人和普通用户都该试试这个新交互。

6月5日

23:26

Suno：Blog（网页）

精选64

Suno Voices 使用指南：6 个技巧打造高质量人声录制

Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧：在安静环境录音以减少背景噪音；先练习歌词再正式录制；不必追求完美，保留真实情感；录音时长尽量超过 1 分钟以提供更多学习素材；将人声匹配到合适的音乐流派（如民谣、流行、死亡金属、波萨诺瓦等）；敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。

教程/实践语音

推荐理由：Suno 官方出的 Voices 录制避坑指南，不是大新闻，但照着做能让你克隆的声音干净不少，尤其是安静环境和别怕走音那两条，做音乐的朋友可以直接收藏。

23:15

IT之家（RSS）

同事件精选73

苹果新版 Siri 不会被宣传为完成品，内部将其标记为"Beta"版

苹果新版Siri被内部标记为“Beta”版，不会作为完成品宣传；可能设置等待清单供用户尝试。iOS 27细节：通知到达重新设计，通知中心手势移至左上角；“查找”应用视觉重设计；照片“清理”功能改进；大量底层安全改进。部分Siri查询将通过Google Cloud调用授权版Gemini，并使用谷歌的NVIDIA Blackwell B200集群处理。

Google 行业动态语音部署/工程

同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

推荐理由：古尔曼这料把苹果的策略摊开了，Siri不再死守自研，用谷歌Gemini加英伟达芯片，对追求隐私的苹果是转折点，但标Beta也说明离成熟还远。

12:47

HuggingFace Daily Papers（社区热门论文）

61

迈向真正多语言 ASR：代码切换语音识别向未见语言对的泛化研究

代码切换ASR（CS-ASR）因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调，但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法，探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明，合并的双语CS-ASR模型仅能适度泛化到未见语言对，提示双语CS能力在跨语言对间的迁移有限。

多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

56

Whisper幻觉检测与缓解：基于隐表示引导和稀疏自编码器

针对Whisper ASR模型在非语音音频上生成连贯转录（幻觉）的问题，研究提取音频编码器激活，评估原始Whisper激活和Sparse AutoEncoder（SAE）隐变量两个表示空间。两者均编码线性可分的幻觉相关信息，判别力集中在稀疏特征子集并向深层编码器递增。提出的SAE隐变量空间引导策略，在完整非语音测试集上将Whisper small幻觉率从72.63%降至14.11%，Whisper large-v3从86.88%降至27.33%，语音数据上WER退化很小，性能接近基于微调的方法。

论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

63

熵作为结构先验：DiT信念空间上的对数障碍驱动音乐多样性与发展

在监督式扩散训练中，Eisbach log-barrier利用DiT输出空间能量分布的熵导出无参数权重：高熵抑制梯度，低熵保留梯度。应用于Stable Audio 3 Medium在MusicCaps上的LoRA微调，意外产生更强的主题发展、更清晰的声学区分和更高的纹理多样性，而非模式坍缩。原因在于监督扩散中梯度方向锁定于真实值，置信度仅缩放步长，且时间熵压低平坦样本而保留高对比样本。该方法形成在线自参照数据课程，伴随噪声层级动力学分析与可检验预测。

数据/训练论文/研究语音

03:25

Chubby♨️@kimmonismus

48

Tavus Solutions正式发布，提供面向企业工作流的完整、生产就绪的AI人类解决方案，而非传统聊天机器人。该方案由Tavus团队负责构建和运维，抽象了角色设定、对话设计、集成、调优与部署等复杂环节，企业只需提供工作流程即可部署人类质量的AI交互界面，标志着从"构建AI基础设施"向"部署人类级AI界面"的转变。

Tavus: Introducing Tavus Solutions. Complete, production-ready AI humans for the enterprise workflows where human-quality conve...

产品更新视频语音

00:53

LMSYS：Blog（Chatbot Arena 团队）

精选77

Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数，基于 Qwen3-4B 骨干，支持 100 种语言（内部评测覆盖 111 种），在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感（20+种）、风格、韵律（语速/音高/停顿）及音效。模型支持流式合成，文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计，统一调度 AR 解码与轻量计算，实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由：Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型，SGLang-Omni 为它搭好了多阶段推理的底座，做语音 Agent 的可以直接抄作业，这比多数论文落地快半拍。

00:48

TechCrunch：AI（RSS）

39

WWDC 2026 前瞻：Siri 重大改版与 Apple Intelligence 更新

Apple WWDC 2026 即将举行，备受期待的 Siri 改版与 Apple Intelligence 更新将成为焦点。

图像生成行业动态语音

6月4日

21:42

Hugging Face：Blog（RSS）

精选75

Nemotron 3.5 ASR：为你的语言、领域或口音进行微调

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型，单个检查点覆盖 40 种语言-地区（含英、西、德、法、意、日、韩、中、阿拉伯等）。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器，缓存内部状态避免重复计算，实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本，无需后处理。支持指定语言（target_lang=es-ES）或自动语言检测（target_lang=auto）。通过注意力上下文大小（att_context_size）可在推理时直接调节延迟-准确率权衡，范围从 80ms 到 1.12s，无需重新训练。模型以 NeMo 检查点形式发布，可用于微调以适配特定语言、领域或口音。

教程/实践语音

推荐理由：一个模型搞定40种语言的实时语音转文字，NVIDIA还给了完整微调代码和实测数据，做语音Agent和字幕的可以照着抄作业。

19:29

MiniMax (official)@MiniMax_AI

57

MiniMax宣布联合YC于6月6-7日在旧金山举办24小时Conversational AI Hackathon。其方案结合@usemoss检索获取上下文、M3模型进行推理，以及MiniMax Speech 2.8 Turbo实现语音响应--延迟低于250毫秒，支持40+语言。第一名将获得YC合伙人面试机会。

Pete Koomen: Come build agents that can finally hold a fluid conversation at the 24-Hour Conversational AI Hackathon, hosted by @usem...

智能体行业动态语音

18:59

MiniMax (official)@MiniMax_AI

46

MiniMax 在 YC 办公室的 24 小时对话 AI 黑客马拉松（6 月 6-7 日）上推广其语音智能体方案。方案结合 @usemoss 的时序检索、M3 模型推理，以及 MiniMax Speech 2.8 Turbo--该语音模型实现低于 250ms 的响应延迟，支持 40 多种语言。黑客马拉松第一名将获得 YC 合伙人面试机会。

Pete Koomen: Come build agents that can finally hold a fluid conversation at the 24-Hour Conversational AI Hackathon, hosted by @usem...

智能体行业动态语音

16:21

MarkTechPost（RSS）

61

Miso Labs 发布 MisoTTS：8B 参数情感文本转语音模型，开放权重

Miso Labs 推出 MisoTTS，一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化（RVQ）在不增加参数量的情况下扩展声音范围，并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。

开源生态模型发布语音

10:58

xAI：News（网页）

精选72

Grok 成为 Vapi 的默认语音引擎

xAI 宣布与 Vapi 合作，Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎，覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中，Grok Voice 位列第一；X 平台上的人机语音盲猜中，超 4500 名用户有一半无法区分 Grok 与真人。现在，Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard，团队还可通过 Grok Voice API 获取高级定制选项（含语音克隆），用于旁白、播客、广告等场景。

xAI 行业动态语音

关联讨论 1 条X：xAI (@xai)

推荐理由：xAI 把 Grok 的语音能力直接接入了 Vapi，250 万+语音代理一夜升级，语音交互的“自然度”竞赛从实验室卷到了生产环境。

10:42

HuggingFace Daily Papers（社区热门论文）

60

Audio-Interaction：统一流式音频交互模型

Audio-Interaction是一种统一流式音频模型，通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署，包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本，覆盖7项基本能力、28个子任务；Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中，Audio-Interaction保持主流音频任务竞争力，同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。

智能体多模态论文/研究语音

10:37

Elon Musk@elonmusk

61

xAI 推出 Grok Voice，其中 Grok Voice Think Fast 1.0 在 Artificial Analysis τ-Voice 基准（真实世界智能客服解决能力评测）中排名第一，大幅超越 GPT-Realtime-2 （High）和 Gemini 3.1 Flash。该模型已实际部署，通过自然语音为 Starlink及多家企业提供实时客户服务，完全以语音交互驱动。

X Freeze: Grok Voice Think Fast 1.0 now ranks #1 on the Artificial Analysis τ-Voice benchmark for real-world agentic customer serv...

xAI 产品更新语音

09:06

Elon Musk@elonmusk

同事件精选72

Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频，一次性完成。示例代码： `await generateVideo（{ model： 'xai/grok-imagine-video-1.5-preview'， prompt： 'a rabbit sprinting through nyc' }）；`

Vercel Developers: Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...

xAI 图像生成模型发布视频

同一事件，精选展示《xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）》

推荐理由：Grok Imagine Video 1.5 把同步音频塞进了图生视频，一条 prompt 直接出带声短片，做短视频和创意的可以换上这条流水线了。

08:51

Berryxia.AI@berryxia

67

MOSS-Audio：开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一

OpenMOSS团队发布MOSS-Audio，一个融合语音（Speech）、环境音（Sound）、音乐（Music）的开源音频-语言模型，已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域，可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用，代码和权重已在Hugging Face及GitHub公布，开发者可本地运行。

MOSI: MOSS-Audio just hit #1 on @huggingface Trending. Speech. Sound. Music. One open audio-language model. Try it: Hugging Fa...

多模态模型发布语音

08:10

IT之家（RSS）

同事件精选72

深陷版权诉讼仍受资本热捧，AI 音乐生成公司 Suno 再融资 4 亿美元

AI 音乐生成企业 Suno 完成 4 亿美元 D 轮融资，投后估值 54 亿美元，较七个月前 C 轮估值翻番。公司承认使用受版权保护歌曲训练 AI 模型，但辩称符合合理使用原则。索尼与环球音乐 2024 年首次起诉后，涉案曲目从 560 首增至超 6.1 万首；华纳音乐于 2024 年 11 月与 Suno 和解并签订授权协议。本轮由 Bond Capital 领投，用户日均生成 AI 歌曲超 700 万首。

数据/训练行业动态语音

同一事件，精选展示《Suno完成4亿美元D轮融资》

推荐理由：一边被三大唱片巨头起诉，一边估值翻倍到54亿美元，资本对AI版权风险的容忍度比我们想的要大得多。创作者和平台都得重新想「合理使用」的边界在哪了。

02:48

MarkTechPost（RSS）

68

Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型，直接将视觉和音频输入大语言模型骨干，支持原生音频，可在 16 GB 笔记本电脑上本地运行，采用 Apache 2.0 开源许可。

Google 多模态开源/仓库模型发布

01:48

elvis@omarsar0

76

Miso One 8B开源情感TTS模型发布

Miso Labs 开源 8B 参数文本转语音模型 Miso One，专注于生成富有情感的表达，如温暖、犹豫或兴奋，告别机械音。模型专为短视频、播客和教育内容等旁白场景设计，推理延迟仅 110 毫秒，快于人类反应时间。模型权重完全开源，支持自托管、微调和数据私有化，API 即将开放。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

01:08

xAI@xai

70

试试 @Vapi_AI 上最自然的TTS和性价比最高的STT API。来自 @xai 的Grok STT和Grok TTS现已在企业语音AI平台Vapi上线。基于Vapi构建自定义语音智能体，可让它们用客户的语言交流、在受监管的工作流中捕捉重要细节，并在每次通话中明显更具人性化。

Vapi: Grok STT and Grok TTS from @xai are now live on Vapi, the platform for enterprise voice AI. Build on Vapi to create cust...

xAI 产品更新语音

关联讨论 1 条X：xAI (@xai)

00:50

Chubby♨️@kimmonismus

精选75

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆（只需短样本），推理延迟仅 110ms。模型权重已开源至 GitHub，无需 API 即可自托管，音频数据不离开本地。API 访问即将推出。演示已上线，可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

推荐理由：Miso One这种8B参数、110ms延迟的情感TTS模型，直接把声音克隆和自托管做成了开箱即用，做语音产品的可以马上 clone 一个玩玩，比等 API 爽多了。

6月3日

23:15

TechCrunch：AI（RSS）

44

两位前高盛和Meta创始人打造语音AI，瞄准非洲和中东被忽视的市场

这家由前高盛和Meta创始人创办的语音AI初创公司，专注于非洲和中东市场，其自有技术栈目前已处理日均超过17000通电话。

行业动态语音

23:09

Suno@suno

精选68

我们激动地宣布Suno的新篇章：4亿美元D轮融资，估值54亿美元！🚀 我们的使命一直很简单：让更多人能体验制作音乐的乐趣。非常感谢我们不可思议的社区和投资者与我们共同建设。点击此处阅读Mikey的博客：https://suno.com/blog/series-d-announcement

行业动态语音

推荐理由：AI音乐生成头部又融了一轮大的，估值涨3倍，但产品本身没啥变化，这轮更多是行业信号而不是用户福利。

09:48

Berryxia.AI@berryxia

74

微软在Build大会发布七款MAI新模型

微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练，旨在任务专精并能无缝协作。其中，MAI-Code-1-Flash在SWE-Bench Verified上得分71.6，比Claude Haiku 4.5高出5分，并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒，在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

Microsoft AI: Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...

Microsoft 图像生成模型发布编码

08:00

HuggingFace Daily Papers（社区热门论文）

57

SpeechEditBench：双语多属性指令引导语音编辑基准

SpeechEditBench 是一个双语多属性基准测试，系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务，并提出基于锚点的评估协议，分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现：（1）无单一模型在所有维度表现优异；（2）闭源语音LLM整体优于开源模型；（3）组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架，数据代码已公开。

arXiv 论文/研究语音

03:59

OpenRouter@OpenRouter

精选68

三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线！同步推出：MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵

Microsoft 产品更新图像生成多模态

推荐理由：微软三个多模态模型一口气上架 OpenRouter，图像、转录、语音全齐了，开发者直接调 API 就能用，做产品的可以试试效果。

03:09

IT之家（RSS）

56

谷歌宣布 Android 行业首创虚假来电检测功能，防范 AI 克隆语音冒充熟人诈骗

谷歌为 Android 推出“虚假来电检测”功能，当通讯录联系人双方均使用 Phone by Google 时，系统可基于端到端加密的 RCS 信号实时验证来电设备，防范利用 AI 语音克隆冒充熟人的诈骗。该功能默认开启，本月向全球推送，首批支持 Android 12 及以上系统设备，率先登陆 Google Pixel 系列。

Google 产品更新安全/对齐语音

02:47

Artificial Analysis@ArtificialAnlys

64

Microsoft发布MAI-Transcribe-1.5语音转录模型

微软AI发布了MAI-Transcribe-1.5语音转录模型。该模型在AA-WER排行榜上位列第三，词错误率（WER）为2.4%，仅次于阿里巴巴的Fun-Realtime-ASR-preview（1.7%）和ElevenLabs Scribe v2（2.2%）。其主要特点是速度极快，处理速度约为276倍实时，是准确率前十模型中第二快模型速度的两倍以上，因此在准确率-速度帕累托前沿上处于领先地位。模型还支持关键词偏差识别，并涵盖包括英语、法语、阿拉伯语、日语和中文在内的43种语言。

Microsoft 模型发布语音

02:15

The Verge：AI（RSS）

62

Google Phone 应用推出诈骗检测功能：识别冒充联系人电话

Google Phone 应用新增诈骗检测功能，当来电号码伪装成联系人但实为诈骗者使用 AI 变声时，会标记为可疑通话。2025 年 FBI 报告显示，美国人因 AI 诈骗损失超过 8.93 亿美元，该功能旨在帮助用户避免此类风险。

Google 产品更新语音

01:08

IT之家（RSS）

62

继 Phi-4-mini 后：微软宣布为 Edge 浏览器引入更高效的 Aion-1.0-Instruct 模型与翻译 API，支持 145 种以上语言

微软在 Build 2026 开发者大会上宣布扩展 Edge 浏览器的端侧 AI 能力。其核心是发布了 Aion-1.0-Instruct 小语言模型的开发者预览版，该模型比 Phi-4-mini 更高效，可在包括无 GPU 设备在内的更多设备上运行，并计划于 7 月在 Hugging Face 开源。同时，Edge 148 预览版推出了由端侧专用模型驱动的语言检测与翻译 API，支持超过 145 种语言。此外，Edge Canary 和 Dev 通道还提供了基于端侧模型的 Web Speech API 语音识别实验功能，实现了本地化处理。

产品更新端侧语音

6月2日

23:13

OpenAI：官网动态（RSS · 排除企业/客户案例）

38

Travelers借助OpenAI在全国部署AI理赔助手

美国保险公司Travelers与OpenAI合作，构建了一款AI驱动的Claim Assistant。该工具旨在引导客户完成理赔流程，并提供全天候支持，以在业务高峰期扩展运营规模。

智能体 OpenAI 行业动态语音

1…5 678 9…19