全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「语音」清除

6月24日周三

23:13🚨 AI News | TestingCatalog32Gemini macOS 版新增语音听写功能

22:23小互48字节跳动发布 SeedMusic 1.0 Preview AI 音乐模型

21:39The Verge：AI（RSS）54Google Home Speaker 评测：音质出色但操作繁琐

17:44IT之家（RSS）64OpenAI 开源 Plant Talk：让室内植物通过 ChatGPT 拥有"声音"

12:42IT之家（RSS）74精选OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

11:41IT之家（RSS）69Jamendo 起诉英伟达未经授权用数万首音乐训练 AI 模型，索赔超 1780 万欧元

11:39OpenBMB63面壁智能 VoxCPM-0.5B 在 iPhone 上实现全端侧运行

10:27IT之家（RSS）62火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性

08:00HuggingFace Daily Papers（社区热门论文）47单一模型适配多种延迟：用于多样化实时应用的通用语音增强方案

07:27IT之家（RSS）41苹果 tvOS 27 测试版现 Siri AI 代码，Apple TV 与 HomePod 酝酿扩展 AI 功能

07:18gabriel55提示词：别保留，一次描述所有用语音

02:37MarkTechPost（RSS）51如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出

6月23日周二

23:38🚨 AI News | TestingCatalog58OpenAI Bidi 1 语音模型：可唱歌、生成声音

22:57Chubby♨️52GPT-5.6推迟，Claude Sonnet 5开放企业早期访问

22:13IT之家（RSS）60Meta 三款自有品牌智能眼镜首发亮相，299-399 美元

19:10IT之家（RSS）72精选网易有道发布 Confucius4-TTS：14 语种跨语种无口音语音克隆开源模型

17:37🚨 AI News | TestingCatalog57OpenAI Bidi 1语音模型将支持实时翻译

16:37🚨 AI News | TestingCatalog48OpenAI 正测试双向语音模型 Bidi 1，支持打断与连续对话

16:26Chubby♨️37OpenAI新"bidi"语音模式太疯狂

16:04凡人小北49火山引擎展示AI记忆卡YoooClaw C-ONE，打通飞书任务分发

13:50公众号：火山引擎71精选豆包音频生成模型1.0发布，重新定义AI音频创作

13:10Orange AI43豆包 Seed Audio 1.0：声音模型的 Seedance 时刻

09:06🚨 AI News | TestingCatalog33OpenAI 准备发布"Bidi 1"新语音模型

08:00HuggingFace Daily Papers（社区热门论文）57ConvFill：对话式填充实现语音智能体响应与能力兼得

08:00HuggingFace Daily Papers（社区热门论文）68Wan-Streamer v0.1：端到端实时交互基础模型

02:10Rohan Paul54Bland语音AI：周通话350万+，累计5.13亿，获1亿美元C轮融资

01:34TechCrunch：AI（RSS）35亚马逊在印度测试支持印地语的 Alexa+

6月22日周一

16:05IT之家（RSS）45华为智慧屏推送系统更新：新增儿童时长管控、畅连小窗调节等

15:05IT之家（RSS）36PINE64 推出 PineVoice 智能音箱：基于 RISC-V 处理器，支持本地唤醒词检测

15:04jason60Guinness Chen：用语音输入代替手动编辑提示词

12:04IT之家（RSS）46豆包 App 灰测打车功能，由曹操出行提供服务

07:06Rohan Paul52安巴尼将Jio网络打造成AI智能体试验场

6月21日周日

10:03IT之家（RSS）41马斯克：Grok 语音控制特斯拉 FSD 功能将在 3 个月左右推出

08:00HuggingFace Daily Papers（社区热门论文）55交错式语音语言模型在文本中隐式工作

6月20日周六

22:23X.PIN65微信小微扩大测试可生成小程序

07:59IT之家（RSS）47visionOS 27 今秋推送：M5 Vision Pro 头显独占 Siri 语音定制和苹果最强本地 AI 模型

07:22🚨 AI News | TestingCatalog60ChatGPT iOS语音气泡可自由拖动变形状

6月19日周五

23:59IT之家（RSS）42印度首富安巴尼：印度必须成为 AI 的创造者和全球领导者

23:50TechCrunch：AI（RSS）45信实工业推出多款AI服务，涵盖通话、应用与家居

21:19OpenBMB54社区开发者基于 VoxCPM2 和 ComfyUI 构建 VoiceGate，实现跨语言视频配音

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月24日

23:13

🚨 AI News | TestingCatalog@testingcatalog

32

GOOGLE 🔥： Gemini 桌面应用（macOS）将新增名为 "Speak to Window" 的语音听写功能，可在任意其他应用中使用。

Google 产品更新语音

22:23

小互@xiaohu

48

字节跳动发布 SeedMusic 1.0 Preview AI 音乐模型

字节跳动推出 SeedMusic 1.0 Preview AI 音乐模型，用户只需一句话提示词即可生成完整歌曲，生成速度约 2-3 分钟。示例提示词为“来一首古风歌曲，但是有着现代流行音乐的节奏感，能让人朗朗上口，关于爱情的歌曲”，效果不错。该模型属于字节跳动在 AI 领域的布局之一。

产品更新语音

21:39

The Verge：AI（RSS）

54

Google Home Speaker 评测：音质出色但操作繁琐

Google 新款 Home Speaker 售价 99 美元，体积小巧但音质饱满，低音优于同尺寸的 UE Wonderboom，清晰度和响度均超过 Amazon Echo Dot Max。配备三个麦克风，唤醒词识别灵敏，即便在淋浴中也能响应“Hey, Google”。外观呈彩色毛线球状，无可见按键；音量可通过点击左右侧调节，但触控区域小且方向不直观，顶部播放/暂停触控正常。灯光环隐藏于底部，反馈不够明显。不支持标准蓝牙，可通过 Google Cast 串流或与 Google TV Streamer 配对。内置 Gemini 智能助手，可用于控制家居、规划日程和查询信息。

Google 产品更新语音

17:44

IT之家（RSS）

64

OpenAI 开源 Plant Talk：让室内植物通过 ChatGPT 拥有"声音"

OpenAI 在 GitHub 开源 Plant Talk 项目，通过 Codex Desktop 连接 ChatGPT，让室内植物具备语音能力。用户可与植物语音交流，如询问“最近怎么样？”“需要浇水吗？”等。系统支持 Arduino、土壤湿度传感器、LM393 光照传感器获取环境数据，还可连接二氧化碳传感器、空气湿度传感器。用户可创建不同植物人格，如高冷仙人掌、话痨绿萝、吐槽多肉。搭建需配备麦克风、摄像头、扬声器的电脑及 OpenAI 账户。

OpenAI 开源/仓库语音

12:42

IT之家（RSS）

精选74

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

6月23日，部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1，位于设置模型选择器中，与标准语音和高级语音并列。该模型支持边说话边监听，用户可在对话中途打断并发出新指令，例如要求从1数到10时中途喊停倒数，模型会立即切换执行。OpenAI 尚未官宣，预计本周启动更大范围测试。

OpenAI 多模态模型发布语音

推荐理由：Bidi 1 让 ChatGPT 语音从回合制变成双向并行，打断后能立即响应，这是语音交互真正的升维，普通人很快就能感受到对话自然感的质变。

11:41

IT之家（RSS）

69

Jamendo 起诉英伟达未经授权用数万首音乐训练 AI 模型，索赔超 1780 万欧元

独立音乐平台 Jamendo 在美国加州联邦法院起诉英伟达，指控其未经授权使用 MTG-Jamendo 数据集（约 5.6 万首曲目）训练 Fugatto、Audio Flamingo 两款音频大模型。该数据集仅限非商用科研用途。2024 年 3 月发现后多次协商无果，2025 年 6 月寄出商用账单（1610 万欧元）并在比利时起诉。本次美国诉状主张直接著作权侵权、违约、不当得利、不正当竞争，最低索赔 1780 万欧元（含逾期利息）。

数据/训练行业动态语音

11:39

OpenBMB@OpenBMB

63

面壁智能（OpenBMB）的扩散式 TTS 模型 VoxCPM-0.5B 已通过 Apple Core AI 完全部署至 iPhone 端侧，无需联网。该模型整合了 MiniCPM4 语言模型、LocDiT flow-matching 和 AudioVAE，每一层均运行于 Neural Engine 和 GPU 上。模型权重和部署代码已开源至 HuggingFace 与 GitHub。

MLBoy_DaisukeMajima: VoxCPM now runs FULLY on-device on iPhone - via Apple's Core AI. @OpenBMB's diffusion TTS (MiniCPM4 LM + LocDiT flow-mat...

开源/仓库开源生态端侧语音

10:27

IT之家（RSS）

62

火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性

火山引擎昨日发布豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），首次支持文本、音频等多模态参考生成，端到端输出目标音频，长时生成中保持多角色音色一致性。用户可通过单条 Prompt 编排角色对白、情绪语气、背景音乐、环境氛围，直接产出成片级音频。模型一次支持 2 分钟音频创作，可多次延长且保持音色统一；实现零样本多模态生成，支持音色与风格解耦控制。火山方舟已开启 API 邀测，个人用户可免费体验 30 分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

08:00

HuggingFace Daily Papers（社区热门论文）

47

单一模型适配多种延迟：用于多样化实时应用的通用语音增强方案

针对不同实时语音应用需单独训练增强模型的痛点，本文提出一种通用实时语音增强模型，可同时控制算法延迟与计算延迟。算法延迟通过可配置的前瞻帧灵活调整，并引入并行卷积层应对不同填充配置带来的学习低效；计算延迟由早期退出机制控制，支持在不同网络深度推理。两阶段训练策略（共享到多解码器过渡）缩小了通用模型与专用模型的性能差距。该框架使单个模型可在多种延迟预算下部署，无需重新训练。

论文/研究语音

07:27

IT之家（RSS）

41

苹果 tvOS 27 测试版现 Siri AI 代码，Apple TV 与 HomePod 酝酿扩展 AI 功能

tvOS 27 首个开发者测试版代码显示，苹果正为 Apple TV 和 HomePod 引入 AI 功能。系统底层新增多个 Apple Intelligence 相关框架，HomePod 首次设置流程中直接提及 Siri AI。代码中还出现 N1 芯片（蓝牙与 Wi-Fi 处理器），该芯片未搭载于当前在售机型，被视作苹果推进智能家居新品的线索。

端侧行业动态语音

07:18

gabriel@gabriel1

55

提示时不要再克制了，你可以真的只用一个提示就一次性搞定任何功能，多说一会儿就好。目标是尽可能把你想到的一切都描述在一个提示中。另外，显然要用语音。我经常连续说上15分钟。

教程/实践语音

02:37

MarkTechPost（RSS）

51

如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出

该教程通过Python使用NVIDIA Canary-1B-v2构建语音识别与翻译管线：先安装NeMo ASR工具包和音频依赖，在GPU上加载模型；将音频处理为16 kHz单声道格式后，执行英语ASR，将语音翻译为25种语言，生成词级和时间段时间戳，导出SRT字幕文件，并支持长文本转录、批处理与推理速度基准测试。

教程/实践语音

6月23日

23:38

🚨 AI News | TestingCatalog@testingcatalog

58

OpenAI 即将推出双向语音模型 Bidi 1，支持唱歌和生成不同声音。Bidi 1 可在用户说话时插话并继续监听，能在句子中间来回切换任务，处理打断和停顿的能力显著提升，并能更好地保持对话上下文记忆。模型仍有连续说话长度上限（一次可轻松数到 23 不停顿）。Bidi 1 将登陆 ChatGPT，并可能进入 Codex，预计很快可用。

🚨 AI News | TestingCatalog: BREAKING 🔥: First tests of "Bidi 1", an upcoming bidirectional voice model from OpenAI. This upgrade will arrive in Cha...

OpenAI 产品更新语音

22:57

Chubby♨️@kimmonismus

52

据爆料，GPT-5.6本周不再发布，新目标推迟至7月中旬；DeepMind对Gemini 3.5 Pro当前状态不满意，本月不会推出。与此同时，Claude Sonnet 5已向部分企业客户开放早期访问，被视为Mythos/Fable 5开发停滞的权宜之计。OpenAI新语音模型Bidi也正准备在ChatGPT上线，可能本周可用。

leo 🐾: 🚨 SCOOP(s): - GPT-5.6 has been delayed and will no longer release this week. New target is ~mid-July. - DeepMind are no...

Anthropic Google OpenAI 行业动态

22:13

IT之家（RSS）

60

Meta 三款自有品牌智能眼镜首发亮相，299-399 美元

Meta 首次以自有品牌推出三款智能眼镜：Adventurer、Fury 及与凯莉·詹娜合作的 Starfire。Adventurer 和 Fury 售价 299 美元，Starfire 售价 399 美元，均比去年雷朋 Meta Wayfarer 便宜 80 美元。眼镜由 Meta 设计、依视路陆逊梯卡生产，内置摄像头、扬声器，支持与 Meta AI 对话、翻译及拍摄，预装最新 AI 模型 Muse Spark。鼻托三档可调，提供多种配色与镜片选项。Meta 透露未来可能推出无摄像头版本，并计划最终进入 AR 眼镜市场。

Meta 产品更新多模态端侧

19:10

IT之家（RSS）

精选72

网易有道发布 Confucius4-TTS：14 语种跨语种无口音语音克隆开源模型

网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS，声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆，克隆音色与原声相似度超 85%，任务准确度达 97%。模型支持中文、英语等 14 种语言，首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源（Apache 协议），提供 54GB 资源包供本地部署。

GitHub 模型发布语音

推荐理由：网易有道把语音克隆的门槛压到了 3 秒，跨 14 种语言还能保持无口音，而且全量开源、商用无限制，对多语种配音和短剧出海是直接可用的工具。

17:37

🚨 AI News | TestingCatalog@testingcatalog

57

OPENAI 🔥：即将推出的Bidi 1语音模型将能进行实时翻译！这将解锁大量用例，当它落地到API时可在其上构建。

OpenAI 模型发布语音

16:37

🚨 AI News | TestingCatalog@testingcatalog

48

OpenAI 正测试双向语音模型 Bidi 1，支持打断与连续对话

OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听，可在句子中间来回切换任务，处理打断和停顿的能力更强，还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限，但在测试中可轻松数到 23 而不中断。据推文透露，OpenAI 正为网页版准备 Bidi 1：设置中将新增该语音模型选项，语音气泡颜色从蓝色变为黄色。该模型尚未上线，但预计很快就会推出。

🚨 AI News | TestingCatalog: BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in setting...

OpenAI 多模态模型发布语音

16:26

Chubby♨️@kimmonismus

37

OpenAI即将推出的"bidi"语音模式听起来太疯狂了！

OpenAI 产品更新语音

16:04

凡人小北@frxiaobei

49

火山引擎展示AI记忆卡YoooClaw C-ONE，打通飞书任务分发

火山引擎在FORCE大会上展示YoooClaw C-ONE，一款卡片大小的「AI记忆卡」。它能录音转文字，也能抓取手机通知实时喂入，两路数据汇入火山引擎的ArkClaw做抽取和推理，形成个人知识大脑。出口端打通飞书，例如老板开完会后一句话即可将任务分别推送给对应同事。推文作者称这是除seedance2.5外今次最心动的产品。

产品更新语音部署/工程

13:50

公众号：火山引擎

精选71

豆包音频生成模型1.0发布，重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成中保持多角色音色一致性，无需后期多轨混音。模型支持0样本多模态输入，无需额外训练即可生成；实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作，多次延长保持音色统一。已开启火山方舟API邀测，个人用户享30分钟创作额度，即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由：豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt，长时一致性解决了一直以来‘串戏’的痛点，音频创作者的生产流程可能会被改写。

13:10

Orange AI@oran_ge

43

豆包 Seed Audio 1.0：声音模型的 Seedance 时刻

豆包音频生成模型 Seed Audio 1.0 发布，区别于传统 TTS（文本转语音）的朗读式合成，该模型能根据想象生成人声、音乐、音效和环境音，并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”，类比香蕉首次将智能赋予图像，认为这是人类首次将智能赋予声音。

多模态模型发布语音

09:06

🚨 AI News | TestingCatalog@testingcatalog

33

BREAKING 🔥： OpenAI 正在准备"Bidi 1"即将网络发布！ > 一种新的语音模型将在设置中可用，与标准和高级选项并列。 > 语音模式气泡将变为黄色而不是蓝色。多久？👀

OpenAI 产品更新语音

08:00

HuggingFace Daily Papers（社区热门论文）

57

ConvFill：对话式填充实现语音智能体响应与能力兼得

语音智能体面临响应速度与复杂能力的权衡。ConvFill 提出“对话式填充”（conversational infill）方法：用小参数 talker 模型实时生成上下文响应，隐藏外部 reasoner 模型的推理延迟，并在推理中动态整合 reasoner 的流式知识。基于 290,571 条合成数据、6 个领域、7 个 135M–1.7B 参数小语言模型验证任务可学习性。系统保持毫秒级首次响应时间，准确性差距缩小至前沿 reasoner 模型的 6.3% 以内。在 Apple M2 SoC 上的 18 人用户研究中，ConvFill 整体与前沿模型持平，检索密集型任务更受青睐，响应性显著更高。代码、模型和数据集已开源。

推理论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

68

Wan-Streamer v0.1：端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型，在单一 Transformer 中统一建模语言、音频和视频的输入与输出，序列表示为交错视觉、音频、文本 token，通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块，感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计，支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms，结合 350 ms 双向网络延迟后总交互延迟约 550 ms，实现亚秒级全双工音视频通信。

多模态模型发布视频语音

02:10

Rohan Paul@rohanpaul_ai

54

语音AI平台Bland （@usebland）每周处理超过350万次电话，累计已处理超5.13亿次。公司获得1亿美元C轮融资，将用于训练模型以处理紧急、高风险、长达45分钟的电话呼叫。Bland专注于受监管行业，主打高压力、后果严重的电话场景。

Bland: Our recent $100M Series C means we can continue training our models to handle the urgent, high-risk, 45-minute phone cal...

行业动态语音

01:34

TechCrunch：AI（RSS）

35

亚马逊在印度测试支持印地语的 Alexa+

亚马逊正将生成式AI对话助手Alexa+扩展至印度，邀请用户参与印地语版Beta测试。测试版可能存在Bug，或提供不准确信息及误发音本地用语。Alexa+尚未在印度上线，具体时间未定。亚马逊于2017年在印度推出英语版Alexa，2019年加入印地语支持。Alexa+于2025年发布，今年2月向所有美国用户开放，随后扩展至英国、加拿大等国。Prime会员免费，其他用户付费。

产品更新语音

6月22日

16:05

IT之家（RSS）

45

华为智慧屏推送系统更新：新增儿童时长管控、畅连小窗调节等

华为智慧屏今日推送系统更新，主要新增或优化：标准模式新增儿童时长管控（设置>通用>使用时间管理）；畅连小窗支持自由调节窗口大小；观看影视剧时可呼叫小艺进行人物、剧情等问答；超级桌面分辨率由1080P提升至2K；遥控器支持控制外接设备（需开启CEC）；开关机菜单支持自定义预设焦点；智慧屏可与全屋吸顶音箱联动；AI语音唤醒准确率和响应时延优化；门锁画中画联动显示接听设备名称及位置，并支持挂断。官方暂未公布新版本具体型号及适用机型。

产品更新端侧语音

15:05

IT之家（RSS）

36

PINE64 推出 PineVoice 智能音箱：基于 RISC-V 处理器，支持本地唤醒词检测

开源硬件制造商 PINE64 于本月 19 日推出 PineVoice 智能音箱，售价 49.99 美元（约 339.4 元人民币），可加购 14.99 美元的 Zigbee 加密狗。该音箱集成双麦克风阵列、音量控制和硬件麦克风静音按钮，基于博流智能 BL606P 无线多模网关芯片（含玄铁 C906 和 E907 内核），拥有 788KB SRAM、32MiB pSRAM 和 16MiB 闪存，支持 Wi-Fi (802.11 b/g/n) 及蓝牙 5.X，具备本地唤醒词检测，默认固件支持 Wyoming Satellite 远程语音卫星项目。

产品更新端侧语音

15:04

jason@jxnlco

60

Guinness Chen 表示，2026年6月了，别再手动编辑提示词，应该按住听写按钮即兴说上10分钟，把脑海里的每个碎片、警告、例子和感觉都交给模型--大语言模型最擅长的就是从语言中重建潜在意图。Jason Liu 称赞他只发好内容，观点总是很棒，并建议大家关注他 @guinnesschen。

Guinness Chen: Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...

大佬观点语音

12:04

IT之家（RSS）

46

豆包 App 灰测打车功能，由曹操出行提供服务

豆包在 App 内灰度上线一键打车服务，由曹操出行提供运力。获灰测用户可直接在对话框口述出行需求，系统自动识别起止地点、人数与用车偏好，匹配曹操出行后一键确认派单。目前北京、杭州部分用户已获灰测资格。曹操出行司机接单后弹窗提示“本单是豆包服务订单”，完成可获 2 元平台惊喜服务费。曹操出行上周在2026国际汽车及供应链博览会（香港）发布 RoboX 战略，提出“双十万计划”——到2030年累计部署10万辆Robotaxi与10万辆Robovan，同时成立AI事业部推进全面AI转型。

产品更新语音

07:06

Rohan Paul@rohanpaul_ai

52

Techcrunch：安巴尼正将Jio拥有5亿用户的电信网络转变为印度最大的日常AI智能体试验场。 Jio Call Agent将嵌入电话通话中，征得同意后监听、转录语音、总结对话，并触发行动，如打车或订餐。这个计划看起来像是AI正从独立应用向网络层移动。

智能体产品更新语音

6月21日

10:03

IT之家（RSS）

41

马斯克：Grok 语音控制特斯拉 FSD 功能将在 3 个月左右推出

马斯克在 X 平台回复称，Grok 语音控制特斯拉 FSD（监督版）功能预计约三个月后上线，今年秋季推送全系车辆。此前 Grok 已作为车载助手上线，通过 2025 假日版本更新增加导航语音指令，2026 春季更新新增“嘿 Grok”唤醒与位置提醒。新功能将允许用户用自然语言设定 FSD 行驶逻辑，无需手动打转向灯；停车场景提升显著，可实时口述精准泊车指令，弥补 14.1 版本“抵达目的地自动泊车”模式有限。

产品更新具身智能语音

08:00

HuggingFace Daily Papers（社区热门论文）

55

交错式语音语言模型在文本中隐式工作

通过logit lens分析不同家族和规模的交错式语音语言模型，发现模型在中间层隐式地将语音转录为文本token——77%的数据中目标语音对应的文本词出现在候选词前列，随后模型在文本空间中预测下一个词再转回语音域。这一行为并非源自语音识别训练，交错数据和文本LM初始化是诱发该机制的关键因素。

多模态论文/研究语音

6月20日

22:23

X.PIN@thexpin

65

微信于6月20日扩大了对小微（Xiaowei）的灰度测试--一个内置在主应用中的对话助手，可通过文本或语音运行。它能操作微信原生功能并调用小程序完成任务：打车、外卖、订酒店、查快递。它还能根据单条提示词生成一个可运行的小程序。生成的应用程序目前为

智能体产品更新语音

07:59

IT之家（RSS）

47

visionOS 27 今秋推送：M5 Vision Pro 头显独占 Siri 语音定制和苹果最强本地 AI 模型

visionOS 27 将于今秋推送。M5 Vision Pro 独占 Siri 语音定制（Voice Customization），用户可自由调整语气表现力和语速；同时独占搭载 AFM 3 Core Advanced 本地 AI 模型，该模型支持原生多模态能力并采用稀疏架构，需 M5 芯片算力支撑。M2 款 Vision Pro 可共享 visionOS 27 大部分升级，包括 Siri AI、全景照片转空间场景、重新设计的控制中心、更智能的自然语言理解及语音操作交互等。苹果承诺未来通过云端计算为 M2 设备提供部分 AI 功能的折中方案，具体细节尚未公布。

产品更新多模态端侧语音

07:22

🚨 AI News | TestingCatalog@testingcatalog

60

ICYMI： ChatGPT iOS 的语音模式气泡，可以拖到屏幕中间，还能变形。还是说，我应该叫它 Orb？👀

OpenAI 教程/实践语音

6月19日

23:59

IT之家（RSS）

42

印度首富安巴尼：印度必须成为 AI 的创造者和全球领导者

信实工业在年度股东大会上发布 AI 通话助手 Jio Call Agent，直接嵌入 Jio 电信网络，可转录对话、生成摘要，并帮助用户叫车、点餐和预订，用户通过“Hey Jio”唤醒，预计今年晚些上线，覆盖超 5 亿用户。同时推出 AI 版 MyJio，支持自然语言指令完成开通 eSIM、选漫游套餐等操作；TeleFrame 可利用 AI 智能体主动显示天气预警、日程和家庭提醒。信实还通过 Reliance Intelligence 为消费者、企业和政府开发支持印度 22 种语言的 AI 基础设施。安巴尼强调印度不能只做 AI 消费者，而应成为创造者和全球领导者。

产品更新行业动态语音

23:50

TechCrunch：AI（RSS）

45

信实工业推出多款AI服务，涵盖通话、应用与家居

印度信实工业在年度股东大会上发布AI服务：Jio Call Agent可加入电话会议转录、总结并执行叫车、订餐等任务，通过“Hey Jio”激活，今年晚些时候面向超5亿用户上线；MyJio应用新增AI版，支持自然语言激活eSIM、选择漫游套餐；家庭显示设备TeleFrame利用AI智能体推送天气、日程提醒；还推出医疗、教育、农业和中小企业AI套件，支持22种印度语言。公司计划投资1100亿美元建设AI基础设施，并与Google、Meta、Nvidia合作。此外，Jio Platforms董事会批准IPO草案，拟发行最多2.7亿股新股。

智能体产品更新语音

21:19

OpenBMB@OpenBMB

54

社区开发者基于 VoxCPM2 和 ComfyUI 构建 VoiceGate，实现跨语言视频配音

社区开发者基于 VoxCPM2 与 ComfyUI 构建了 VoiceGate，实现自动语音提取（ASR）、大语言模型翻译、多语言语音合成（支持 30 多种语言和 9 种方言，含语音克隆与音色设计）、时间戳对齐音频以及背景音分离混音。核心创新 VoiceBridge 插件首次在 ComfyUI 中引入 SRT 时间戳驱动的 TTS 对齐，实现字幕级精细控制，解决 AI 配音音视频不同步问题。应用包括中文视频转英/日/韩等多语言，以及全球视频转中文及方言。

开源/仓库视频语音

123 4…19