文章对2026年领先的商用与开源权重文本转语音(TTS)模型进行了排名对比。评估维度包括语音质量、延迟、成本、语言覆盖范围及许可协议,旨在帮助工程师根据具体应用场景选择合适的模型。
文章对2026年领先的商用与开源权重文本转语音(TTS)模型进行了排名对比。评估维度包括语音质量、延迟、成本、语言覆盖范围及许可协议,旨在帮助工程师根据具体应用场景选择合适的模型。
微信鸿蒙版 App 在华为应用市场推出 8.0.18.34 版本尝鲜升级,测试期为 2026/5/30 至 2026/6/29。该应用安装量已超 5000 万次。本次更新主要包括:将“歌曲制作”变更为“音乐回声”,并引入 AI 翻唱模型;聊天界面图片/视频支持横屏自动旋转;新增 AI 搜索功能(部分场景可用);以及视频号、通讯录、设置等多处界面与功能优化。
小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley,旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现,其代码、模型权重和在线 Demo 均已开放。
京东JoyInside与ZORICAM联合推出小龙AI魔法益智打印机,集故事机、聊天机器人、打印机、学习机于一身。产品搭载京东自研JoyAI大模型,首创面向儿童的“情景式对话+打印”交互:唤醒“小龙”后通过语音指令即可生成画作并打印成专属贴纸,还能在对话中理解语境主动提出打印建议。硬件支持WiFi连接,续航超48小时。
ChildVox 是一个用于评估AI模型对儿童多样化声学信号理解能力的新基准。它覆盖了从出生到学龄的完整发展轨迹,包含生理声音、非语言发声、规范音节和口语语言。该基准整合了17个儿童音频与语音数据集中的20多个子任务,实现了系统性跨语料库、跨领域比较。我们评估了自监督、面向ASR及大型音频-语言模型三类基础模型,任务涵盖生理声音分类、发声与规范音节建模、语音质量评估与识别。结果表明,ChildVox提供了一套高性能模型,能够识别广泛的儿童声学信号,支持下游应用,如表征儿童语言水平和追踪语音发展。
针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题,本文提出了NAVA(原生音视频对齐)框架。该框架在专用交互空间建立音视频对应关系后,利用外部上下文条件化联合去噪过程。具体实现上,NAVA采用Align-then-Fuse MMDiT架构,并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明,NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。
OpenSTBench 是一个统一的多维评估框架,将语音翻译系统(S2TT 和 S2ST,涵盖离线与流式两种模式)输出转化为共享评估格式,联合评测翻译质量、语音质量、说话人保留、情感与副语言保真度、时间一致性以及延迟。实验表明,翻译质量强的系统在语音质量和时间质量上仍存在显著差异。代码与数据集已开源至 GitHub。
SwanVoice 是一个支持 1-4 位说话人的零样本文本转语音(TTS)模型,旨在解决现有方法在合成富有表现力的长对话时推理成本高、声学一致性和情感连贯性差的问题。模型基于 SwanData-Speech 数据集构建,采用 25Hz VAE 与带停顿感知符号的原始文本条件处理,并结合具有说话人轮次条件的 flow-matching DiT。训练从独白数据开始,逐步过渡到真实对话数据,并使用 DiffusionNFT 进行后训练。在 SwanBench-Speech 评测中,SwanVoice 在独白和对话设置下的丰富性与层次性分数均优于所有开源基线,但内容准确性仍是主要限制。音频 demo 已上线。
针对实时高质量空间音频生成中存在的质量与延迟权衡及多模态空间信息捕捉难题,本文提出了SwanSphere。这是一个统一的流式框架,用于从全景视频和文本提示生成高保真空间音频。其核心贡献在于:1) 提出了一种因果自回归扩散Transformer架构,实现了流式的高质量生成;2) 设计了空间视频-音频对比学习策略来对齐视频编码器与声学域,并结合多目标在线直接偏好优化,增强了空间感知与多模态合成的鲁棒性;3) 开发了一个自动标注流程,用于生成详细的空间描述,以缓解数据稀缺问题。实验证明,SwanSphere在视频到空间音频和文本到空间音频任务中均表现优异。
由Oculus创始人创办的AI初创公司Sesame发布了其iOS应用,该应用将对话式AI智能体带给公众。应用提供更自然的来回交互体验,设计上区别于传统聊天机器人,旨在让用户感觉更像在和真人对话。
根据彭博社(Bloomberg)的渲染图显示,苹果计划在iOS 27中对Siri进行大幅重新设计。新版Siri将采用全新的聊天界面设计,可通过Dynamic Island(灵动岛)弹出,下拉菜单包含“Ask”、“Siri”和“ChatGPT”等选项,其视觉风格类似ChatGPT并融入了Liquid Glass设计语言。这些渲染图基于知情人士提供的信息,可能与最终设计有差异,苹果预计将在6月的WWDC大会上正式公布。
比亚迪王朝系列首款搭载“迪迪虾”智能体系统的B级插混SUV宋Ultra DM-i上市。该系统是具备主动交互能力的AI智能体,支持通过自然语言进行内容推荐与服务预订。新车CLTC纯电续航最高310公里,综合续航达1845公里,亏电油耗为3.3L/100km。其长宽高为4850/1910/1670mm,轴距2840mm。共推出5款车型,售价12.99万至15.99万元,首次将310公里纯电续航的B级插混SUV带入13万元级市场。
Rivian首席软件官Wassym Bensaid同时担任该公司与大众集团成立的合资公司RV Tech的联席CEO。这家合资公司源于大众近60亿美元投资,旨在为大众及其旗下品牌的未来电动汽车开发操作系统和电子架构。Rivian正准备交付基于新架构的更平价车型R2,并已在R1车型中推出了AI驱动的Rivian Assistant。Bensaid将此视为打造更具“智能体”特性车载软件平台的关键一步。
京东自研JoyAI语音大模型LiveTTS具备多语种、情绪解耦、语速解耦、捏声音色及一句话音色克隆(3—10秒语音)五大能力,已接入JoyClaw技能商店。覆盖10余种语言和8种方言,支持同一音色多方言与情绪表达。应用于JoyInside智能终端、JoyAI App万能博士、数字人JoyStreamer(累计服务超7万商家)及AI播客。618期间支撑千万级并发实时交互,为智能客服、数字人直播等场景提供低延迟语音输出。
AI音频公司ElevenLabs宣布与Stan Lee Universe达成合作,将在其平台整合漫威之父斯坦·李的声音、形象及音乐风格。其克隆声音已上线Iconic Marketplace和Eleven Reader,并内置“斯坦·李每月读书会”。ElevenCreative Music平台还推出了两款受其启发的Finetunes微调滤镜。相关使用默认限于个人非商业用途。
针对单遍语音识别难以纠正语义关键错误的问题,研究者提出 Agentic ASR 闭环框架,将单遍 ASR 前端与语义校正、意图路由、基于推理的编辑整合,并将交互式语音识别建模为多轮校正任务。同时引入句子级语义错误率(S²ER)作为基于大语言模型的语义评估指标,并构建交互模拟系统用于可扩展、可复现的基准测试。在多语言、命名实体密集及代码切换基准上,迭代交互持续降低语义错误,S²ER 改善幅度远大于传统 token 级指标。人类-AI 对齐和消融研究验证了语义评估器的可靠性与框架的鲁棒性。代码和在线演示已公开。
对话模式在文本和语音输入方面进行了改进。语音会话开始时,可访问用户的图像提示、风格参考、侧边栏设置和最近任务。图像提示功能现可从托盘和侧边栏直接使用。在语音提交过程中,托盘中的图像将保持不变,直至用户手动移除。
Reachy Mini 机器人现可通过 speech-to-speech 库实现完全本地化的语音交互,无需依赖云端。该方案采用级联流水线架构,对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问(Qwen3-TTS)作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理,保障了隐私且无 API 费用。
腾讯会议正式推出“声链”功能,旨在解决同一会议室内多台设备同时开麦时产生的啸叫问题。该功能基于腾讯天籁实验室的跨设备AI回声消除技术,通过算法对各设备音频进行回声消除与高质量混音对齐,以纯软件方案实现清晰无干扰的音频体验,并支持自动识别发言人。用户需将腾讯会议升级至最新版本以体验该功能。
在鸿蒙智行问界 M9 系列新品发布会上,华为发布全新一代鸿蒙智行 HarmonyOS 专属座舱。该座舱采用华为手机/平板/电脑同源设计,支持卡片/应用/文件夹自由组合布局,操作效率提升 70%,并支持 3D 空间极简控车。此外,座舱配备专属小艺,具备类人思考架构、跨设备协同及模糊目的地导航等功能。
华为协同认证功能正在逐步适配上线。该功能允许用户在设备锁屏时,通过附近协同设备(如华为AI眼镜)确认身份后,直接使用小艺的部分语音指令,无需手动解锁。目前华为AI眼镜已完成适配,后续将逐步支持更多耳机、手表等设备。
SwanBench-Speech是一个针对长语音生成的综合评测基准,涵盖长语音生成和对话生成,覆盖声学、语义和表现力挑战。该基准包含1,101个样本,横跨17种常见语音场景,并从上述三个维度定义了包含7个指标的自动化评测方案。实验揭示,当前模型在高表达性场景下表现依然吃力,且在一致性与层次感上与真实录音存在明显差距。
Stability AI 发布了 Stable Audio 3,这是一个用于器乐和音效生成的潜在扩散模型家族。此次发布包含 Small 和 Medium 两个开放权重变体。Small 变体可在 MacBook Pro M4 CPU 上运行,Medium 变体适配 8GB 显存的消费级显卡。两者均采用流匹配、蒸馏预热和对抗后训练的三阶段流水线,以生成 44.1 kHz 的立体声音频。在 BBC Sound Effects 基准测试(5秒片段)中,SA3 Medium 的 FAD 得分为 0.369,优于论文中评估的所有开放权重基线。
环球音乐集团(Universal Music Group)与 TikTok 续签了合作协议,旨在打击平台上未经授权的 AI 音乐。多年来,环球音乐集团一直推动各大平台、流媒体服务及 AI 公司实施更严格的内容审核政策,此次续签是其相关行动的一部分。
Suno 用户社区出现一种现象:部分用户不再使用 Spotify 等传统音乐流媒体,转而几乎只收听自己通过 Suno 生成的 AI 音乐。有用户在 Reddit 帖子中“自豪地宣称”并引发了共鸣,他们将此形容为一种“令人上瘾”的体验,沉迷于收听自己创作的、源源不断的“热门歌曲”。
小米集团总裁卢伟冰在财报电话会上表示,小米手机全球市场份额连续 23 个季度稳居前三,手机均价及海外均价创历史新高,毛利率超预期。他强调将坚定推进高端化与全球化,并用 AI 重塑手机业务,今年超级小爱与 miclaw 合体是关键节点。面对存储涨价,小米表示不会简单地将成本转嫁消费者,将通过产品矩阵升级与软件优化平衡规模与利润,并透露今年七八月将发布带来新交互体验的新一代 OS。
OmniVoice Studio 是一个完全在本地硬件上运行的开源项目,无需 API 密钥、云账户或订阅。它提供语音克隆、视频配音、实时听写和说话人分离等功能,支持 646 种语言的语音合成(TTS),并暴露一个 MCP 服务器,可与 Claude、Cursor 等 MCP 客户端集成。
荣耀推出 Earbuds 耳夹式耳机 Pro,主打佩戴时无需区分左右耳,App 会自动识别。耳机支持 AI 翻译、AI 录音、双设备连接和语音唤醒等功能。该产品已开售,首发价 599 元,国补价 539.1 元。
阶跃星辰于2026年5月发布StepAudio 2.5 Realtime,这是一款支持完全可定制个性化角色的端到端实时语音大语言模型。该模型通过WebSocket API提供服务,支持中英文。在2026年4月进行的五个基准测试维度中均排名第一,具体包括80.41的人类评测得分和82.18的副语言理解得分。
苹果将优化AirPods软件功能,但暂无独立应用计划。iOS 27将大幅改动设置应用中的AirPods菜单界面,使其更实用、清晰、简洁。当手机连接AirPods后,其设置页面会自动置顶于设置首页。此次改版旨在优化长期叠加新功能后变得繁杂的界面信息层级。该更新将同步上线于iOS 27、iPadOS 27及macOS 27系统,新系统将于数周后的苹果全球开发者大会发布。
亚马逊推出了AI可穿戴设备Bee,与其他同类产品类似,它在提供便利性的同时也引发了用户对隐私的担忧,这种便利与隐私焦虑的矛盾结合显得十分奇特。
科大讯飞推出新一代智能办公本 Air 3 系列,包含 NEO、标准及 Pro 三个版本,均搭载 8.2 英寸墨水屏。全系支持离线 AI 功能并内置龙虾助手。售价分别为 2499 元、2999 元和 3599 元。
苹果宣布WWDC 2026将于北京时间6月9日凌晨1点开幕,并已注册全新子域名genai.apple.com,预示其在生成式AI领域的新动作。新版iOS 27等系统将集成大量Apple Intelligence功能,包括支持连续对话的Siri独立应用、视频实时字幕生成、自然语言语音控制以及扫描提取信息等智能工具。