6月8日

23:38

TechCrunch：AI（RSS）

WWDC 2026 前瞻：Siri 备受期待的改造、Apple Intelligence 与 iOS 27

苹果 WWDC 2026 临近，Siri 备受期待的改造、Apple Intelligence 和 iOS 27 是本次大会的主要看点。

智能体行业动态语音

19:08

The Verge：AI（RSS）

WWDC 2026：如何观看及期待什么

Apple 年度开发者大会 WWDC 2026 将于 6 月 8 日举行，主题演讲预计持续数小时，重点发布 iOS、macOS 等操作系统更新，并可能对 Siri 进行重大改造。观众可通过 YouTube 或 Apple 官网观看直播。

端侧行业动态语音

17:08

MarkTechPost（RSS）

Microsoft AI 推出 MAI-Transcribe-1.5 语音转文本模型

Microsoft AI 发布 MAI-Transcribe-1.5，其自研语音转文本模型的第二代。该模型支持 43 种语言，新增关键词（实体）偏置功能，可针对领域特定术语优化。在 Artificial Analysis 排行榜上词错误率（WER）为 2.4%，在 FLEURS 基准上达到最佳准确率。转录一小时音频耗时不到 15 秒，长音频转录速度提升达 5 倍。MAI-Transcribe-1.5 已通过 Azure AI Foundry 提供。

Microsoft 模型发布语音

15:20

IT之家（RSS）

漫步者 LolliClip SE 耳夹式蓝牙耳机发布：蓝牙 6.1，到手价 449 元

漫步者正式发布 LolliClip SE 耳夹式开放式蓝牙耳机，活动到手价 449 元（京东指导价 499 元）。该耳机为首款支持杜比 AI 的耳夹耳机，配备杜比空间音效；搭载 12mm 双磁长冲程动圈与双材质复合振膜，支持动态低频补偿算法和 LHDC 高清解码（最高 990kbps），获 Hi-Res、HWA 双金标认证。采用专利多曲率空气弧软梁及智能左右声道自适应。集成豆包 + DeepSeek 双 AI，支持 AI 问答、21 种语言实时互译、AI 会议总结转写。连接基于蓝牙 6.1，支持双设备无缝切换，单次续航 10 小时，总续航 40 小时。具备双麦 AI 通话降噪、IP56 防尘防水，可通过 EDIFIER Connect APP 控制。云霜金版本将于 6 月 9 日 10 点开售。

产品更新语音

6月7日

16:19

IT之家（RSS）

谷歌 Gemini 语音助理曝"伪上下文对齐"漏洞，黑客可借特殊通知下毒

安全公司 SafeBreach 披露谷歌 Gemini 存在“Fake Context Alignment”漏洞。黑客可通过 WhatsApp、短信等发送特殊构造通知，将恶意指令隐藏在非目标语言文字或“静音超链接”中，利用 Gemini 的“Delayed Tool Invocation”机制绕过用户授权。攻击方式包括多语言混淆和语音助手不朗读超链接内容，可能导致智能家居被操控、通讯录被篡改。SafeBreach 于去年 8 月报告，谷歌在 11 月中旬通过改进内容分类器缓解。

Google 安全/对齐语音

09:19

IT之家（RSS）

特斯拉 Grok 车载 AI 助手全球扩容，新增智利、马来西亚等市场

根据特斯拉 2026.20 版本软件更新日志，由 xAI 研发的 Grok 聊天机器人已在车载系统应用近一年，现扩展至智利、马来西亚、菲律宾及中国香港等市场。Grok 支持开放式问答、导航指令、语音唤醒“嘿，Grok”及地理位置提醒功能。用户可通过应用启动栏、方向盘语音按键或语音唤醒使用，并可自定义语音音色与对话风格。部分功能需订阅特斯拉高级联网服务。Grok 仍处于早期测试版阶段，未来计划支持控制空调、车灯及 FSD 等核心功能。

xAI 产品更新端侧语音

6月6日

20:29

The Verge：AI（RSS）

苹果WWDC再次预告新Siri：Apple Intelligence承诺仍未完全兑现

苹果在2024年WWDC首次展示新Siri，搭载发光边框、多种语音选项及向ChatGPT提问的能力，但关键的Apple Intelligence功能迟迟未上线，误导性宣传导致公司面临集体诉讼和解。本周WWDC上，苹果准备再次介绍新Siri，试图在AI领域扭转被动局面。

现象/趋势语音

18:59

The Decoder：AI News（RSS）

Audio Interaction：开源语音模型持续监听，每0.4秒决定是否说话或保持沉默

Audio Interaction是一个开源语音模型，持续监听环境，每0.4秒判断是否应该说话或保持沉默。与GPT-4o或Qwen3.5-Omni不同，它无需等待录音结束，可在单个流中同时进行翻译、转录、对话并识别咳嗽等日常噪音。代码和模型权重已在GitHub上以Apache 2.0开源许可发布，训练数据稍后公布。

开源/仓库模型发布语音

15:58

MarkTechPost（RSS）

NVIDIA 发布 Nemotron 3.5 ASR：600M 参数缓存感知流式模型，实时转录 40 种语言-地区

NVIDIA 发布 Nemotron 3.5 ASR，一个 600M 参数的缓存感知流式模型，支持从单个检查点实时转录 40 种语言-地区。

模型发布语音

15:17

IT之家（RSS）

fpt. 渲染苹果 iOS 27：升级 Siri、调整通知手势、增强 AI 修图

6月5日，YouTube 频道 fpt. 发布概念渲染视频，展示 iOS 27 可能的新设计。通知手势将调整：从屏幕左上方下滑进入通知中心，中部下滑呼出搜索或 Siri 提问界面。Siri 升级为对话伙伴，拥有独立对话区域，支持语音和文字输入，能结合屏幕内容和当前应用理解意图。照片 Clean Up 功能增强，支持用短语或语音编辑图片（如裁剪、增强颜色）。兼容性方面，iOS 27 预计支持 iPhone 12 及后续机型，但复杂 AI 功能可能需较新硬件。

产品更新语音

09:16

IT之家（RSS）

iOS 27 版 Siri 上线初期采用候补名单机制

据 IT 之家引述 9to5Mac 报道，iOS 27 版 Siri 上线初期将引入候补名单机制，苹果按批次开放体验资格，内部将其定义为“测试版”与“预览版”。官方可能在 2026 年 WWDC 宣布新功能，但并非所有用户能第一时间参与。苹果将边上线边打磨，收集用户反馈改进 Siri 表现。此前 Apple Intelligence 在 iOS 18.1 早期版本也曾采用类似机制。新版 Siri 采用全新架构并首次接入谷歌 Gemini 模型，系统稳定性、响应质量、兼容性与隐私体验需更谨慎观察。

产品更新端侧语音

6月5日

23:26

Suno：Blog（网页）

精选64

Suno Voices 使用指南：6 个技巧打造高质量人声录制

Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧：在安静环境录音以减少背景噪音；先练习歌词再正式录制；不必追求完美，保留真实情感；录音时长尽量超过 1 分钟以提供更多学习素材；将人声匹配到合适的音乐流派（如民谣、流行、死亡金属、波萨诺瓦等）；敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。

教程/实践语音

推荐理由：Suno 官方出的 Voices 录制避坑指南，不是大新闻，但照着做能让你克隆的声音干净不少，尤其是安静环境和别怕走音那两条，做音乐的朋友可以直接收藏。

23:15

IT之家（RSS）

同事件精选73

苹果新版 Siri 不会被宣传为完成品，内部将其标记为"Beta"版

苹果新版Siri被内部标记为“Beta”版，不会作为完成品宣传；可能设置等待清单供用户尝试。iOS 27细节：通知到达重新设计，通知中心手势移至左上角；“查找”应用视觉重设计；照片“清理”功能改进；大量底层安全改进。部分Siri查询将通过Google Cloud调用授权版Gemini，并使用谷歌的NVIDIA Blackwell B200集群处理。

Google 行业动态语音部署/工程

同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

推荐理由：古尔曼这料把苹果的策略摊开了，Siri不再死守自研，用谷歌Gemini加英伟达芯片，对追求隐私的苹果是转折点，但标Beta也说明离成熟还远。

12:47

HuggingFace Daily Papers（社区热门论文）

迈向真正多语言 ASR：代码切换语音识别向未见语言对的泛化研究

代码切换ASR（CS-ASR）因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调，但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法，探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明，合并的双语CS-ASR模型仅能适度泛化到未见语言对，提示双语CS能力在跨语言对间的迁移有限。

多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

Whisper幻觉检测与缓解：基于隐表示引导和稀疏自编码器

针对Whisper ASR模型在非语音音频上生成连贯转录（幻觉）的问题，研究提取音频编码器激活，评估原始Whisper激活和Sparse AutoEncoder（SAE）隐变量两个表示空间。两者均编码线性可分的幻觉相关信息，判别力集中在稀疏特征子集并向深层编码器递增。提出的SAE隐变量空间引导策略，在完整非语音测试集上将Whisper small幻觉率从72.63%降至14.11%，Whisper large-v3从86.88%降至27.33%，语音数据上WER退化很小，性能接近基于微调的方法。

论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

熵作为结构先验：DiT信念空间上的对数障碍驱动音乐多样性与发展

在监督式扩散训练中，Eisbach log-barrier利用DiT输出空间能量分布的熵导出无参数权重：高熵抑制梯度，低熵保留梯度。应用于Stable Audio 3 Medium在MusicCaps上的LoRA微调，意外产生更强的主题发展、更清晰的声学区分和更高的纹理多样性，而非模式坍缩。原因在于监督扩散中梯度方向锁定于真实值，置信度仅缩放步长，且时间熵压低平坦样本而保留高对比样本。该方法形成在线自参照数据课程，伴随噪声层级动力学分析与可检验预测。

数据/训练论文/研究语音

00:53

LMSYS：Blog（Chatbot Arena 团队）

精选77

Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数，基于 Qwen3-4B 骨干，支持 100 种语言（内部评测覆盖 111 种），在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感（20+种）、风格、韵律（语速/音高/停顿）及音效。模型支持流式合成，文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计，统一调度 AR 解码与轻量计算，实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由：Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型，SGLang-Omni 为它搭好了多阶段推理的底座，做语音 Agent 的可以直接抄作业，这比多数论文落地快半拍。

00:48

TechCrunch：AI（RSS）

WWDC 2026 前瞻：Siri 重大改版与 Apple Intelligence 更新

Apple WWDC 2026 即将举行，备受期待的 Siri 改版与 Apple Intelligence 更新将成为焦点。

图像生成行业动态语音

6月4日

21:42

Hugging Face：Blog（RSS）

精选75

Nemotron 3.5 ASR：为你的语言、领域或口音进行微调

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型，单个检查点覆盖 40 种语言-地区（含英、西、德、法、意、日、韩、中、阿拉伯等）。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器，缓存内部状态避免重复计算，实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本，无需后处理。支持指定语言（target_lang=es-ES）或自动语言检测（target_lang=auto）。通过注意力上下文大小（att_context_size）可在推理时直接调节延迟-准确率权衡，范围从 80ms 到 1.12s，无需重新训练。模型以 NeMo 检查点形式发布，可用于微调以适配特定语言、领域或口音。

教程/实践语音

推荐理由：一个模型搞定40种语言的实时语音转文字，NVIDIA还给了完整微调代码和实测数据，做语音Agent和字幕的可以照着抄作业。

16:21

MarkTechPost（RSS）

Miso Labs 发布 MisoTTS：8B 参数情感文本转语音模型，开放权重

Miso Labs 推出 MisoTTS，一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化（RVQ）在不增加参数量的情况下扩展声音范围，并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。

开源生态模型发布语音

10:58

xAI：News（网页）

精选72

Grok 成为 Vapi 的默认语音引擎

xAI 宣布与 Vapi 合作，Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎，覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中，Grok Voice 位列第一；X 平台上的人机语音盲猜中，超 4500 名用户有一半无法区分 Grok 与真人。现在，Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard，团队还可通过 Grok Voice API 获取高级定制选项（含语音克隆），用于旁白、播客、广告等场景。

xAI 行业动态语音

关联讨论 1 条

推荐理由：xAI 把 Grok 的语音能力直接接入了 Vapi，250 万+语音代理一夜升级，语音交互的“自然度”竞赛从实验室卷到了生产环境。

10:42

HuggingFace Daily Papers（社区热门论文）

Audio-Interaction：统一流式音频交互模型

Audio-Interaction是一种统一流式音频模型，通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署，包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本，覆盖7项基本能力、28个子任务；Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中，Audio-Interaction保持主流音频任务竞争力，同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。

智能体多模态论文/研究语音

08:10

IT之家（RSS）

同事件精选72

深陷版权诉讼仍受资本热捧，AI 音乐生成公司 Suno 再融资 4 亿美元

AI 音乐生成企业 Suno 完成 4 亿美元 D 轮融资，投后估值 54 亿美元，较七个月前 C 轮估值翻番。公司承认使用受版权保护歌曲训练 AI 模型，但辩称符合合理使用原则。索尼与环球音乐 2024 年首次起诉后，涉案曲目从 560 首增至超 6.1 万首；华纳音乐于 2024 年 11 月与 Suno 和解并签订授权协议。本轮由 Bond Capital 领投，用户日均生成 AI 歌曲超 700 万首。

数据/训练行业动态语音

同一事件，精选展示《Suno完成4亿美元D轮融资》

推荐理由：一边被三大唱片巨头起诉，一边估值翻倍到54亿美元，资本对AI版权风险的容忍度比我们想的要大得多。创作者和平台都得重新想「合理使用」的边界在哪了。

02:48

MarkTechPost（RSS）

Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型，直接将视觉和音频输入大语言模型骨干，支持原生音频，可在 16 GB 笔记本电脑上本地运行，采用 Apache 2.0 开源许可。

Google 多模态开源/仓库模型发布

6月3日

23:15

TechCrunch：AI（RSS）

两位前高盛和Meta创始人打造语音AI，瞄准非洲和中东被忽视的市场

这家由前高盛和Meta创始人创办的语音AI初创公司，专注于非洲和中东市场，其自有技术栈目前已处理日均超过17000通电话。

行业动态语音

08:00

HuggingFace Daily Papers（社区热门论文）

SpeechEditBench：双语多属性指令引导语音编辑基准

SpeechEditBench 是一个双语多属性基准测试，系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务，并提出基于锚点的评估协议，分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现：（1）无单一模型在所有维度表现优异；（2）闭源语音LLM整体优于开源模型；（3）组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架，数据代码已公开。

arXiv 论文/研究语音

03:09

IT之家（RSS）

谷歌宣布 Android 行业首创虚假来电检测功能，防范 AI 克隆语音冒充熟人诈骗

谷歌为 Android 推出“虚假来电检测”功能，当通讯录联系人双方均使用 Phone by Google 时，系统可基于端到端加密的 RCS 信号实时验证来电设备，防范利用 AI 语音克隆冒充熟人的诈骗。该功能默认开启，本月向全球推送，首批支持 Android 12 及以上系统设备，率先登陆 Google Pixel 系列。

Google 产品更新安全/对齐语音

02:15

The Verge：AI（RSS）

Google Phone 应用推出诈骗检测功能：识别冒充联系人电话

Google Phone 应用新增诈骗检测功能，当来电号码伪装成联系人但实为诈骗者使用 AI 变声时，会标记为可疑通话。2025 年 FBI 报告显示，美国人因 AI 诈骗损失超过 8.93 亿美元，该功能旨在帮助用户避免此类风险。

Google 产品更新语音

01:08

IT之家（RSS）

继 Phi-4-mini 后：微软宣布为 Edge 浏览器引入更高效的 Aion-1.0-Instruct 模型与翻译 API，支持 145 种以上语言

微软在 Build 2026 开发者大会上宣布扩展 Edge 浏览器的端侧 AI 能力。其核心是发布了 Aion-1.0-Instruct 小语言模型的开发者预览版，该模型比 Phi-4-mini 更高效，可在包括无 GPU 设备在内的更多设备上运行，并计划于 7 月在 Hugging Face 开源。同时，Edge 148 预览版推出了由端侧专用模型驱动的语言检测与翻译 API，支持超过 145 种语言。此外，Edge Canary 和 Dev 通道还提供了基于端侧模型的 Web Speech API 语音识别实验功能，实现了本地化处理。

产品更新端侧语音

6月2日

23:13

OpenAI：官网动态（RSS · 排除企业/客户案例）

Travelers借助OpenAI在全国部署AI理赔助手

美国保险公司Travelers与OpenAI合作，构建了一款AI驱动的Claim Assistant。该工具旨在引导客户完成理赔流程，并提供全天候支持，以在业务高峰期扩展运营规模。

智能体 OpenAI 行业动态语音

20:08

IT之家（RSS）

xAI全球招"中文AI导师"：训练Grok听中文，可远程办公

xAI正在全球招聘“中文AI导师”，以训练其AI模型Grok的中文语音交互能力。核心工作是整理与标注高质量音频数据，以改进Grok的多语言语音识别与理解。应聘者需母语为中文，并具备至少英语B2水平。该职位提供全职、兼职或合同工等多种形式，支持全程远程办公。美国境内候选人的时薪为35-45美元。

xAI 行业动态语音

18:07

IT之家（RSS）

腾讯客服：微信正与多家手机厂商合作推出语音助手通话功能

微信正与华为、荣耀、小米、OPPO、vivo 等手机厂商合作推出 A2A（Agent-to-Agent）助手能力。用户可通过手机语音助理发起微信音视频通话或向指定好友发送消息。该功能由厂商 AI 助手向微信发起指令，微信负责执行并返回结果，采用双重授权机制保障数据安全。相关功能正在逐步开放中，荣耀的部分手机已率先支持。

智能体产品更新语音

11:03

Hacker News 热门（buzzing.cc 中文翻译）

GrapheneOS 语音服务 2.0 版发布

GrapheneOS 语音服务 2.0 版正式发布，该服务为 GrapheneOS 移动操作系统提供语音相关功能。此版本更新的具体内容和功能改进未在来源中详细说明。

产品更新端侧语音

07:07

IT之家（RSS）

苹果 WWDC26 下周开幕，新标语"全高光就位"暗指 Siri 将迎改版

苹果WWDC26开发者大会将于北京时间6月9日凌晨1点开幕。本届大会以“All systems glow”标语预热，这改编自“一切就绪”，被外界解读为暗示即将登陆iOS 27的Siri界面改版，可能包括推出独立App及在灵动岛新增功能，并采用深色UI与发光视觉元素。大会首场发布会将正式发布iOS 27等全系列新系统，并通过苹果官网及YouTube直播。

端侧行业动态语音

6月1日

22:36

The Verge：AI（RSS）

人工智能正在颠覆音乐。格莱美奖该如何应对？

录音学院 CEO Harvey Mason Jr. 指出，人工智能在音乐制作中已“无处不在”。流媒体平台 Deezer 报告，每天有超过 5 万首 AI 生成歌曲被上传，这类内容越来越难以识别和过滤。Suno 等工具已成为各类音乐家主流创作流程的一部分。尽管如此，录音学院的规则规定，AI 音乐不具备获得格莱美奖这一行业最高荣誉的资格。

大佬观点语音

21:05

IT之家（RSS）

微信安卓版 8.0.74 测试版发布，版本追齐 iOS

微信安卓版发布 8.0.74 测试版，版本号追齐 iOS。本次更新以灰度功能覆盖为主，全量上线了照片“分享为贴图”、公众号留言显示绿色“首评”标识以及转账支持勾选最多两种付款方式的组合支付功能。同时，朋友圈页面样式改版、发送三张及以上媒体可选择合并展示等多个功能仍在灰度测试中。

其他语音

19:05

公众号：京东JoyAI

JoyInside儿童节专题 | 不止一问一答，更是装在万物里的"童年玩伴"

京东JoyInside将大模型技术嵌入多款儿童产品，包括AI毛绒公仔、小龙AI魔法益智打印机、京造AI台灯和小鸡球球点读笔，实现语音交互、伴读、双语互动等功能。六一前夕（5月最后一周），搭载JoyInside的AI终端销量环比4月同一周增长535%；小龙AI魔法益智打印机在618开门红4小时内销量环比激增17倍。

端侧行业动态语音

17:05

IT之家（RSS）

华为 FreeClip 2 耳夹耳机典藏版发布：珠宝盒设计、全新 AI 键智能体交互，1499 元

华为在 nova 16 系列发布会上发布了 FreeClip 2 耳夹耳机典藏版，定价 1499 元。该产品采用鎏光宝盒与珠宝盒设计，充电舱内部空间提升 20%，并与周大福合作推出专属配饰。耳机提供星海蓝、珠光银两款配色，柔软度提升 25%，并配备专属 AI 键，支持智能体交互。

产品更新其他语音

10:28

IT之家（RSS）

华为 AI 眼镜"钛丝半框光学镜方形款"今日开售：钛银灰配色，2499 元

华为AI眼镜“钛丝半框光学镜方形款”今日开售，价格2499元。该眼镜采用钛银灰配色，镜腿薄至6.25毫米，镜架重35.5克。其内置华为自研AI眼镜芯片，支持语音唤醒、AI快捷键、小艺看世界及支付宝看一下支付等功能。拍摄方面配备1/2.8''大底传感器与AI算法。综合续航达12小时。

产品更新端侧语音

5月31日

11:24

IT之家（RSS）

299 元，黑鲨首款 AI 智能耳机"凤鸣耳夹式耳机 Pro"首销

黑鲨首款AI智能耳机“凤鸣耳夹式耳机Pro”在京东独家首销，到手价299元。耳机单耳重5g，搭载蓝牙6.0，支持LHDC 5.0协议与13mm镀钛复合振膜，提供游戏、音乐、影院三种音效并支持ENC通话降噪。其AI功能包括同声传译与对话翻译。耳机单次续航9小时，搭配充电仓总续航达30小时，并具备IPX5防水和双设备切换能力。

产品更新语音