OpenRouter 正式上线文本转语音和音频转录功能。平台通过两个新的 API 端点,集成了多家供应商的语音合成与音频转录服务。用户现在可以统一调用单一 API,便捷访问多提供商的高质量语音生成与语音转文本能力,无需再为不同服务商单独集成。这简化了开发流程,为应用添加语音交互与内容转录功能提供了更高效的一站式解决方案。
OpenRouter 正式上线文本转语音和音频转录功能。平台通过两个新的 API 端点,集成了多家供应商的语音合成与音频转录服务。用户现在可以统一调用单一 API,便捷访问多提供商的高质量语音生成与语音转文本能力,无需再为不同服务商单独集成。这简化了开发流程,为应用添加语音交互与内容转录功能提供了更高效的一站式解决方案。
xAI于2026年4月30日推出自定义语音和语音库功能。用户可通过约1分钟录音快速克隆声音,并在Grok文本转语音及语音代理API中即时使用,整个过程仅需2分钟。语音库提供集中管理平台,内置语音已超80种,支持28种语言。为确保安全,系统采用两阶段验证,包括实时转录匹配和说话人嵌入确认,以防止未经授权的克隆。这些功能适用于品牌代理、内容创作、无障碍辅助、多语言团队及游戏娱乐等多种场景,且使用自定义语音无需额外费用。
苹果公司将于5月4日至8日在西班牙巴塞罗那举行的ICASSP 2026上展示其最新研究成果,并再次赞助该会议。本届会议汇聚了专注于信号处理及其应用的科学与工业研究界人士。苹果的参与凸显了其在相关前沿技术领域的持续投入。
近日,阶跃与腾讯云达成战略合作,双方将围绕智能座舱 Agent 展开深度共创,打造全新的智能座舱 Agent 助手。该助手以语音为入口,实现免唤醒、连续对话、情绪识别的超自然交互,并能基于用户情绪、驾驶状态、环境和历史信息秒懂意图,精准推荐腾讯系音乐、视频、地图等内容与应用生态。同时,产品打通腾讯在支付、地图、出行服务等领域的生态接口,从需求直达交易闭环,为用户提供一站式服务。
美团技术团队推出的LongCat-AudioDiT模型,实现了零样本TTS音色克隆,让AI直接学习声音本身的规律,跳过中间处理环节,从而突破音色克隆的上限。
天工AI Mureka亮相央视《焦点访谈》,1分钟内即可为宋词谱曲,展现中国AI在音乐创作领域的原创能力。
美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示,直接在波形潜空间操作,仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题,并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆,说话人相似度(SIM)在 Seed-ZH 达 0.818、Seed-Hard 达 0.797,超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。
关联讨论 1 条美团 LongCat:HuggingFace 新模型Google Translate 耳机实时翻译功能正式支持 iOS,可将耳机变为个人实时翻译器。该功能同时面向 iOS 和 Android 用户扩展至更多国家。
Gemini 推出 3.1 Flash Live 语音模型,通过提升精度、降低延迟,使语音交互更流畅自然且精准可靠。
Gemini 3.1 Flash Live 已上线 Google 全系产品,提供更自然、可靠的实时音频 AI 交互能力。
关联讨论 1 条Google DeepMind:Blog(RSS)Suno发布v5.5模型,推出Voices、Custom Models与My Taste三大功能。Voices支持Pro及Premier订阅者录制或上传人声,经语音验证后仅限本人使用;Custom Models可基于用户原创曲库训练最多三个个性化模型;My Taste则面向所有用户,自动学习其音乐偏好。此次更新旨在同时服务专业音乐人与普通创作者,并为与音乐产业合作的下一代模型奠定基础。
ServiceNow AI团队在Hugging Face上发布了语音智能体评估框架EVA。该框架通过标准化测试集与多模态指标,系统评估语音助手在对话理解、任务完成及交互自然度等方面的性能,旨在量化衡量智能体在复杂真实场景下的表现,助力研究人员客观比较不同模型,推动技术优化。
Voxtral 发布 40 亿参数文本转语音模型 Voxtral TTS,支持英语、法语等 9 种语言的逼真语音生成。该模型仅需 3 秒参考音频即可实现零样本语音克隆,延迟低至 70 毫秒。人工评测显示,其在保持与 ElevenLabs Flash v2.5 相当首音时间的同时,自然度表现更优,与 ElevenLabs v3 质量持平。模型支持情感控制和跨语言语音迁移,适用于企业级语音代理工作流。
MiniMax 推出的 AI 产品 OpenClaw(昵称“小龙虾”)具备 24 小时不间断学习能力,目前已开始自主生成内容(“虾说虾唱”)。该产品尚未公布具体参数或版本号,但强调“全天候学习”作为核心特性。
Descript 利用 OpenAI reasoning models 实现大规模多语言视频配音,可在自动本地化大型内容库时保持时间同步与语义准确。
百灵多模态团队于两天前发布 Ming-flash-omni-2.0,并基于其语音模块推出新模型 Ming-omni-tts。通过模型规模扩展(scale up),Ming-omni-tts 实现更强的语音生成效果。
inclusionAI 发布了 Ming-omni-tts,这是一个能够统一生成语音、音乐和声音的模型。该模型的核心特点是结构简单高效,并实现了对生成内容的精确控制。它通过一个统一的框架处理多种音频模态,简化了传统上需要不同模型分别处理语音、音乐和音效的流程。这一进展为跨模态音频内容的创作与编辑提供了更便捷、可控的工具。
inclusionAI团队发布了Ming-omni-tts-tokenizer-12Hz开源项目,这是一个面向文本转语音(TTS)的通用分词器。该模型支持12Hz的高采样率,旨在提升语音合成的自然度与表现力。项目基于开源与开放科学的理念推进,致力于让人工智能技术更加普及和易得。
inclusionAI 发布了 Ming-omni-tts-0.5B,这是一个参数规模为 0.5B(5亿)的文本转语音模型。该模型旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及。发布标志着在语音合成领域,一个中等规模、可公开访问的模型正式加入开源生态。
inclusionAI发布了开源文本转语音模型Ming-omni-tts-16.8B-A3B,参数量达168亿。该模型采用创新的A3B混合专家架构,在语音自然度、多语言支持和情感表现方面实现显著提升。项目遵循开源开放科学理念,旨在推动人工智能技术的民主化进程。
Mistral AI 发布 Voxtral Transcribe 2 系列两款新一代语音转文本模型。Voxtral Mini Transcribe V2 支持13种语言的批量转录,具备说话人日志、上下文偏置和词级时间戳功能,在 FLEURS 基准测试中词错率约4%,性价比领先。Voxtral Realtime 专为实时应用设计,采用流式架构,延迟可配置至200毫秒以下,支持13种语言,并以 Apache 2.0 协议开源。同时,Mistral Studio 上线了由该系列模型驱动的音频游乐场,供用户即时测试转录功能。
Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源,具备鲁棒性、流式处理与多语言能力。Qwen Studio 同步集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能。
MiniMax 发布新一代语音模型 MiniMax Speech 2.8,通过原生声音标签技术模拟人类口语中的"嗯"、"啊"等填充词及呼吸停顿,显著提升对话自然度。该模型支持10秒样本高保真声音克隆,精准还原音色与语速,同时消除背景噪音与数字伪影,输出录音室级纯净音质。此外,模型优化了跨语言表现,从普通话-日语对开始解决口音渗透问题,实现更接近母语者的发音效果。
Qwen Studio 功能全面,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 artifacts 等模块。
Qwen3-TTS 新增语音克隆与语音设计能力,Qwen Studio 集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等综合服务。
xAI 开放 Grok Voice Agent API,基于自研语音栈(VAD、tokenizer、音频模型),Big Bench Audio 基准排名第一,首音频延迟低于 1 秒(比竞品快近 5 倍),定价 $0.05/分钟。支持数十种语言自动切换、实时搜索 X 和网页、调用自定义工具,已深度集成特斯拉车机。提供 Ara、Eve 等多种自然声线,支持 [whisper] 等听觉标签,兼容 OpenAI Realtime API 规范。
GLM-TTS 采用 GRPO 多奖励强化学习框架,融合字符错误率、相似度、情感及笑声奖励,实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA,情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色,通过 Phoneme-in 混合输入精准控制多音字发音,配合自研 2D-Vocos 声码器提升音质与音域覆盖。
智谱发布开源语音识别模型 GLM-ASR-Nano,仅 1.5B 参数,面向真实世界场景优化鲁棒性,已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。
Qwen3-TTS 发布更新,支持 49 种音色、10 种语言和 9 种方言。Qwen Studio 平台同步提供聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈功能。
Suno宣布与华纳音乐集团达成合作。Suno已拥有近1亿音乐创作者社区,此次合作旨在推出更强大的创作功能、提供与WMG旗下艺术家互动的机会,并基于授权音乐构建新一代Suno模型,其性能将超越v5。未来,部分同意授权的WMG艺术家声音与形象可用于新的AI生成音乐创作体验,为其开辟新收入渠道。同时,歌曲下载功能将调整为仅限付费用户使用,而Suno Studio作为专业工具将保持现有功能并持续更新。
Hugging Face 的 Open ASR 排行榜新增多语言和长格式语音识别评估赛道。多语言赛道涵盖8种语言,长格式赛道则测试模型处理连续数分钟语音的能力。新榜单显示,领先模型在多语言任务上的词错误率平均比专用单语模型高约15%,在长格式任务上错误率可能上升超20%,凸显了模型在实际应用中的泛化能力仍面临严峻挑战。
Suno 宣布完成 2.5 亿美元 C 轮融资,投后估值 24.5 亿美元,由 Menlo Ventures 领投,NVentures、Lightspeed 等跟投。过去两年近 1 亿用户在平台首次创作音乐,众多专业制作人和词曲作者也已将 Suno 纳入日常工作流。本轮资金将用于开发更精细的专业工具、优化普通创作者体验,并构建创作者与听众共生的社交音乐生态,推动音乐创作全民化。