全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态一手 · 96 条

全部一手资讯 X 论文

标签「语音」清除

5月2日周六

02:00OpenRouter：Announcements（RSS）63精选面向语音与转录的全新 Audio API

5月1日周五

11:20xAI：News（网页）60精选自定义语音与语音库

4月30日周四

08:00Apple Machine Learning Research（RSS）44国际声学、语音与信号处理会议（ICASSP） 2026

4月27日周一

19:22公众号：阶跃星辰（Step）45阶跃与腾讯云达成战略合作，共同打造智能座舱 Agent 助手

4月24日周五

11:38公众号：阶跃星辰（Step）51阶跃 StepAudio 2.5 ASR 上线！500TPS 极速推理，30分钟语音"秒级转写"

01:53公众号：小米 MiMo52MiMo-V2.5-TTS-Series + ASR 正式发布

4月20日周一

14:01公众号：通义实验室（千问）38敢不敢用家乡话测试这个 AI？

4月16日周四

19:58公众号：龙猫LongCat（美团）38LongCat-AudioDiT：突破零样本TTS音色克隆上限

14:04公众号：阶跃星辰（Step）55阶跃 StepAudio 2.5 TTS 上线！人人都能是配音导演

4月9日周四

12:30公众号：豆包（字节）19今天，豆包打电话能力升级了

4月4日周六

12:57公众号：昆仑万维（天工）33天工AI Mureka惊艳央视《焦点访谈》！1 分钟谱就宋词新声，彰显中国 AI 原创力量

3月30日周一

11:25美团 LongCat：HuggingFace 新模型精选LongCat-AudioDiT-1B：高保真波形潜空间扩散式文本转语音模型

3月27日周五

00:00Google Blog：AI（RSS）Google Translate 耳机实时翻译功能登陆 iOS

3月26日周四

23:23Google DeepMind：Blog（RSS）Gemini 3.1 Flash Live：让语音 AI 更自然可靠

23:21Google Blog：AI（RSS）精选Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

00:00Suno：Blog（网页）Suno v5.5：更具表现力，更懂你

3月24日周二

10:01Hugging Face：Blog（RSS）78精选全新语音智能体评估框架EVA发布

3月23日周一

00:00Mistral AI：News（网页）Voxtral 发布 40 亿参数文本转语音模型

3月19日周四

00:48公众号：小米 MiMo53Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布

00:45公众号：小米 MiMo37Xiaomi MiMo-V2-TTS 发布：为 Agent 注入灵魂，从此刻开始发声

3月9日周一

11:06公众号：MiniMax（稀宇科技）42MiniMax 发布 OpenClaw "小龙虾"：24 小时持续学习，已开始自主生成内容

3月6日周五

08:00OpenAI：官网动态（RSS · 排除企业/客户案例）Descript 如何实现大规模多语言视频配音

3月5日周四

09:01公众号：阶跃星辰（Step）54创作一首新歌只需2秒！阶跃星辰开源 ACE-Step 1.5 收获开发社区好评

2月18日周三

09:20公众号：蚂蚁百灵（Ling）37蚂蚁百灵发布 Ming-flash-omni-2.0 与 Ming-omni-tts 语音模型

2月11日周三

20:18蚂蚁 inclusionAI：GitHub 新仓库51inclusionAI/Ming-omni-tts

11:12蚂蚁 inclusionAI：HuggingFace 新模型32inclusionAI/Ming-omni-tts-tokenizer-12Hz

11:10蚂蚁 inclusionAI：HuggingFace 新模型39inclusionAI/Ming-omni-tts-0.5B

10:49蚂蚁 inclusionAI：HuggingFace 新模型37inclusionAI/Ming-omni-tts-16.8B-A3B

2月4日周三

00:00Mistral AI：News（网页）82Mistral AI 发布 Voxtral Transcribe 2 系列语音转文本模型及音频游乐场

1月29日周四

00:00Qwen：Blog Retrieval（API）Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源：鲁棒、流式、多语言！

1月23日周五

00:00MiniMax：Blog（网页）精选MiniMax Speech 2.8 语音模型

1月22日周四

00:00Qwen：Blog Retrieval（API）Qwen3-TTS 系列现已开源：支持语音设计、克隆与生成！

12月23日周二

00:00Qwen：Blog Retrieval（API）Qwen3-TTS 升级：支持语音克隆和语音设计！

12月17日周三

08:00xAI：News（网页）精选xAI 发布 Grok Voice Agent API

12月11日周四

00:00智谱：研究（网页内嵌数据）精选GLM-TTS：基于多奖励融合强化学习，实现工业级语音合成

12月10日周三

00:00智谱：研究（网页内嵌数据）精选GLM-ASR-Nano：面向真实世界的高鲁棒性语音识别

12月5日周五

00:00Qwen：Blog Retrieval（API）Qwen3-TTS 更新！49 种音色 + 10 种语言 + 9 种方言

11月25日周二

00:00Suno：Blog（网页）56精选音乐创作的新篇章 · Suno 联合创始人兼首席执行官 Mikey Shulman · 2025年11月25日 Suno 与华纳音乐集团合作，共同构建交互式音乐的未来公告

11月21日周五

08:00Hugging Face：Blog（RSS）83精选Open ASR 排行榜新增多语言与长格式赛道，揭示模型性能新挑战

11月19日周三

00:00Suno：Blog（网页）音乐的未来已至

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月2日

02:00

OpenRouter：Announcements（RSS）

精选63

面向语音与转录的全新 Audio API

OpenRouter 正式上线文本转语音和音频转录功能。平台通过两个新的 API 端点，集成了多家供应商的语音合成与音频转录服务。用户现在可以统一调用单一 API，便捷访问多提供商的高质量语音生成与语音转文本能力，无需再为不同服务商单独集成。这简化了开发流程，为应用添加语音交互与内容转录功能提供了更高效的一站式解决方案。

产品更新语音

推荐理由：OpenRouter把语音合成和转录也接进来了，以后做语音应用的开发者可以少对接几个API，这是把‘省事’写进DNA的典型更新。

5月1日

11:20

xAI：News（网页）

精选60

自定义语音与语音库

xAI于2026年4月30日推出自定义语音和语音库功能。用户可通过约1分钟录音快速克隆声音，并在Grok文本转语音及语音代理API中即时使用，整个过程仅需2分钟。语音库提供集中管理平台，内置语音已超80种，支持28种语言。为确保安全，系统采用两阶段验证，包括实时转录匹配和说话人嵌入确认，以防止未经授权的克隆。这些功能适用于品牌代理、内容创作、无障碍辅助、多语言团队及游戏娱乐等多种场景，且使用自定义语音无需额外费用。

xAI 产品更新语音

推荐理由：xAI 这波‘声音克隆+管理’的更新很实用，安全验证做得细，创作品类和品牌方应该会喜欢，对开发者来说是个加分项，但不是那种能改变格局的大招。

4月30日

08:00

Apple Machine Learning Research（RSS）

44

国际声学、语音与信号处理会议（ICASSP） 2026

苹果公司将于5月4日至8日在西班牙巴塞罗那举行的ICASSP 2026上展示其最新研究成果，并再次赞助该会议。本届会议汇聚了专注于信号处理及其应用的科学与工业研究界人士。苹果的参与凸显了其在相关前沿技术领域的持续投入。

行业动态语音

4月27日

19:22

公众号：阶跃星辰（Step）

45

阶跃与腾讯云达成战略合作，共同打造智能座舱 Agent 助手

近日，阶跃与腾讯云达成战略合作，双方将围绕智能座舱 Agent 展开深度共创，打造全新的智能座舱 Agent 助手。该助手以语音为入口，实现免唤醒、连续对话、情绪识别的超自然交互，并能基于用户情绪、驾驶状态、环境和历史信息秒懂意图，精准推荐腾讯系音乐、视频、地图等内容与应用生态。同时，产品打通腾讯在支付、地图、出行服务等领域的生态接口，从需求直达交易闭环，为用户提供一站式服务。

智能体行业动态语音

4月24日

11:38

公众号：阶跃星辰（Step）

51

阶跃 StepAudio 2.5 ASR 上线！500TPS 极速推理，30分钟语音"秒级转写"

产品更新语音

01:53

公众号：小米 MiMo

52

MiMo-V2.5-TTS-Series + ASR 正式发布

模型发布语音

4月20日

14:01

公众号：通义实验室（千问）

38

敢不敢用家乡话测试这个 AI？

产品更新语音

4月16日

19:58

公众号：龙猫LongCat（美团）

38

LongCat-AudioDiT：突破零样本TTS音色克隆上限

美团技术团队推出的LongCat-AudioDiT模型，实现了零样本TTS音色克隆，让AI直接学习声音本身的规律，跳过中间处理环节，从而突破音色克隆的上限。

开源/仓库论文/研究语音

14:04

公众号：阶跃星辰（Step）

55

阶跃 StepAudio 2.5 TTS 上线！人人都能是配音导演

产品更新语音

4月9日

12:30

公众号：豆包（字节）

19

今天，豆包打电话能力升级了

产品更新语音

4月4日

12:57

公众号：昆仑万维（天工）

33

天工AI Mureka惊艳央视《焦点访谈》！1 分钟谱就宋词新声，彰显中国 AI 原创力量

天工AI Mureka亮相央视《焦点访谈》，1分钟内即可为宋词谱曲，展现中国AI在音乐创作领域的原创能力。

产品更新语音

3月30日

11:25

美团 LongCat：HuggingFace 新模型

精选

LongCat-AudioDiT-1B：高保真波形潜空间扩散式文本转语音模型

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示，直接在波形潜空间操作，仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题，并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆，说话人相似度（SIM）在 Seed-ZH 达 0.818、Seed-Hard 达 0.797，超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

开源生态模型发布语音

关联讨论 1 条美团 LongCat：HuggingFace 新模型

推荐理由：美团开源 1B 语音克隆模型，Seed 基准超 Seed-TTS，零样本推理可用

3月27日

00:00

Google Blog：AI（RSS）

Google Translate 耳机实时翻译功能登陆 iOS

Google Translate 耳机实时翻译功能正式支持 iOS，可将耳机变为个人实时翻译器。该功能同时面向 iOS 和 Android 用户扩展至更多国家。

Google 产品更新语音

3月26日

23:23

Google DeepMind：Blog（RSS）

Gemini 3.1 Flash Live：让语音 AI 更自然可靠

Gemini 推出 3.1 Flash Live 语音模型，通过提升精度、降低延迟，使语音交互更流畅自然且精准可靠。

DeepMind Google 产品更新语音

23:21

Google Blog：AI（RSS）

精选

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

Gemini 3.1 Flash Live 已上线 Google 全系产品，提供更自然、可靠的实时音频 AI 交互能力。

Google 模型发布语音

关联讨论 1 条Google DeepMind：Blog（RSS）

推荐理由：Google发布Gemini 3.1 Flash Live，提升音频AI自然度与可靠性

00:00

Suno：Blog（网页）

Suno v5.5：更具表现力，更懂你

Suno发布v5.5模型，推出Voices、Custom Models与My Taste三大功能。Voices支持Pro及Premier订阅者录制或上传人声，经语音验证后仅限本人使用；Custom Models可基于用户原创曲库训练最多三个个性化模型；My Taste则面向所有用户，自动学习其音乐偏好。此次更新旨在同时服务专业音乐人与普通创作者，并为与音乐产业合作的下一代模型奠定基础。

产品更新多模态语音

3月24日

10:01

Hugging Face：Blog（RSS）

精选78

全新语音智能体评估框架EVA发布

ServiceNow AI团队在Hugging Face上发布了语音智能体评估框架EVA。该框架通过标准化测试集与多模态指标，系统评估语音助手在对话理解、任务完成及交互自然度等方面的性能，旨在量化衡量智能体在复杂真实场景下的表现，助力研究人员客观比较不同模型，推动技术优化。

智能体 Hugging Face 开源/仓库语音

推荐理由：提供语音代理评估标准，帮助开发者优化模型性能和测试效率。

3月23日

00:00

Mistral AI：News（网页）

Voxtral 发布 40 亿参数文本转语音模型

Voxtral 发布 40 亿参数文本转语音模型 Voxtral TTS，支持英语、法语等 9 种语言的逼真语音生成。该模型仅需 3 秒参考音频即可实现零样本语音克隆，延迟低至 70 毫秒。人工评测显示，其在保持与 ElevenLabs Flash v2.5 相当首音时间的同时，自然度表现更优，与 ElevenLabs v3 质量持平。模型支持情感控制和跨语言语音迁移，适用于企业级语音代理工作流。

智能体模型发布语音

3月19日

00:48

公众号：小米 MiMo

53

Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布

多模态模型发布语音

00:45

公众号：小米 MiMo

37

Xiaomi MiMo-V2-TTS 发布：为 Agent 注入灵魂，从此刻开始发声

多模态模型发布语音

3月9日

11:06

公众号：MiniMax（稀宇科技）

42

MiniMax 发布 OpenClaw "小龙虾"：24 小时持续学习，已开始自主生成内容

MiniMax 推出的 AI 产品 OpenClaw（昵称“小龙虾”）具备 24 小时不间断学习能力，目前已开始自主生成内容（“虾说虾唱”）。该产品尚未公布具体参数或版本号，但强调“全天候学习”作为核心特性。

产品更新语音

3月6日

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Descript 如何实现大规模多语言视频配音

Descript 利用 OpenAI reasoning models 实现大规模多语言视频配音，可在自动本地化大型内容库时保持时间同步与语义准确。

OpenAI 产品更新多模态语音

3月5日

09:01

公众号：阶跃星辰（Step）

54

创作一首新歌只需2秒！阶跃星辰开源 ACE-Step 1.5 收获开发社区好评

开源生态模型发布语音

2月18日

09:20

公众号：蚂蚁百灵（Ling）

37

蚂蚁百灵发布 Ming-flash-omni-2.0 与 Ming-omni-tts 语音模型

百灵多模态团队于两天前发布 Ming-flash-omni-2.0，并基于其语音模块推出新模型 Ming-omni-tts。通过模型规模扩展（scale up），Ming-omni-tts 实现更强的语音生成效果。

模型发布语音

2月11日

20:18

蚂蚁 inclusionAI：GitHub 新仓库

51

inclusionAI/Ming-omni-tts

inclusionAI 发布了 Ming-omni-tts，这是一个能够统一生成语音、音乐和声音的模型。该模型的核心特点是结构简单高效，并实现了对生成内容的精确控制。它通过一个统一的框架处理多种音频模态，简化了传统上需要不同模型分别处理语音、音乐和音效的流程。这一进展为跨模态音频内容的创作与编辑提供了更便捷、可控的工具。

开源生态模型发布语音

11:12

蚂蚁 inclusionAI：HuggingFace 新模型

32

inclusionAI/Ming-omni-tts-tokenizer-12Hz

inclusionAI团队发布了Ming-omni-tts-tokenizer-12Hz开源项目，这是一个面向文本转语音（TTS）的通用分词器。该模型支持12Hz的高采样率，旨在提升语音合成的自然度与表现力。项目基于开源与开放科学的理念推进，致力于让人工智能技术更加普及和易得。

开源生态模型发布语音

11:10

蚂蚁 inclusionAI：HuggingFace 新模型

39

inclusionAI/Ming-omni-tts-0.5B

inclusionAI 发布了 Ming-omni-tts-0.5B，这是一个参数规模为 0.5B（5亿）的文本转语音模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。发布标志着在语音合成领域，一个中等规模、可公开访问的模型正式加入开源生态。

开源生态模型发布语音

10:49

蚂蚁 inclusionAI：HuggingFace 新模型

37

inclusionAI/Ming-omni-tts-16.8B-A3B

inclusionAI发布了开源文本转语音模型Ming-omni-tts-16.8B-A3B，参数量达168亿。该模型采用创新的A3B混合专家架构，在语音自然度、多语言支持和情感表现方面实现显著提升。项目遵循开源开放科学理念，旨在推动人工智能技术的民主化进程。

开源生态模型发布语音

2月4日

00:00

Mistral AI：News（网页）

82

Mistral AI 发布 Voxtral Transcribe 2 系列语音转文本模型及音频游乐场

Mistral AI 发布 Voxtral Transcribe 2 系列两款新一代语音转文本模型。Voxtral Mini Transcribe V2 支持13种语言的批量转录，具备说话人日志、上下文偏置和词级时间戳功能，在 FLEURS 基准测试中词错率约4%，性价比领先。Voxtral Realtime 专为实时应用设计，采用流式架构，延迟可配置至200毫秒以下，支持13种语言，并以 Apache 2.0 协议开源。同时，Mistral Studio 上线了由该系列模型驱动的音频游乐场，供用户即时测试转录功能。

模型发布端侧语音

1月29日

00:00

Qwen：Blog Retrieval（API）

Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源：鲁棒、流式、多语言！

Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源，具备鲁棒性、流式处理与多语言能力。Qwen Studio 同步集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能。

开源/仓库开源生态语音

1月23日

00:00

MiniMax：Blog（网页）

精选

MiniMax Speech 2.8 语音模型

MiniMax 发布新一代语音模型 MiniMax Speech 2.8，通过原生声音标签技术模拟人类口语中的"嗯"、"啊"等填充词及呼吸停顿，显著提升对话自然度。该模型支持10秒样本高保真声音克隆，精准还原音色与语速，同时消除背景噪音与数字伪影，输出录音室级纯净音质。此外，模型优化了跨语言表现，从普通话-日语对开始解决口音渗透问题，实现更接近母语者的发音效果。

模型发布语音

推荐理由：10秒样本克隆真人声线，AI说话带'嗯啊'呼吸声，MiniMax语音模型上新

1月22日

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 系列现已开源：支持语音设计、克隆与生成！

Qwen Studio 功能全面，涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 artifacts 等模块。

开源/仓库语音

12月23日

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 升级：支持语音克隆和语音设计！

Qwen3-TTS 新增语音克隆与语音设计能力，Qwen Studio 集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等综合服务。

产品更新多模态语音

12月17日

08:00

xAI：News（网页）

精选

xAI 发布 Grok Voice Agent API

xAI 开放 Grok Voice Agent API，基于自研语音栈（VAD、tokenizer、音频模型），Big Bench Audio 基准排名第一，首音频延迟低于 1 秒（比竞品快近 5 倍），定价 $0.05/分钟。支持数十种语言自动切换、实时搜索 X 和网页、调用自定义工具，已深度集成特斯拉车机。提供 Ara、Eve 等多种自然声线，支持 [whisper] 等听觉标签，兼容 OpenAI Realtime API 规范。

智能体 xAI 产品更新语音

推荐理由：xAI发布Grok语音Agent API，延迟低于1秒且定价仅为OpenAI一半，已集成至Tesla车载系统

12月11日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-TTS：基于多奖励融合强化学习，实现工业级语音合成

GLM-TTS 采用 GRPO 多奖励强化学习框架，融合字符错误率、相似度、情感及笑声奖励，实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA，情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色，通过 Phoneme-in 混合输入精准控制多音字发音，配合自研 2D-Vocos 声码器提升音质与音域覆盖。

开源生态模型发布语音

推荐理由：智谱开源GLM-TTS，3秒克隆任意音色并支持喜怒哀乐情感表达

12月10日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-ASR-Nano：面向真实世界的高鲁棒性语音识别

智谱发布开源语音识别模型 GLM-ASR-Nano，仅 1.5B 参数，面向真实世界场景优化鲁棒性，已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。

模型发布端侧语音

推荐理由：智谱开源1.5B语音识别模型，端侧可用且针对真实场景优化，适合集成到输入法等产品

12月5日

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 更新！49 种音色 + 10 种语言 + 9 种方言

Qwen3-TTS 发布更新，支持 49 种音色、10 种语言和 9 种方言。Qwen Studio 平台同步提供聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈功能。

产品更新语音

11月25日

00:00

Suno：Blog（网页）

精选56

音乐创作的新篇章 · Suno 联合创始人兼首席执行官 Mikey Shulman · 2025年11月25日 Suno 与华纳音乐集团合作，共同构建交互式音乐的未来公告

Suno宣布与华纳音乐集团达成合作。Suno已拥有近1亿音乐创作者社区，此次合作旨在推出更强大的创作功能、提供与WMG旗下艺术家互动的机会，并基于授权音乐构建新一代Suno模型，其性能将超越v5。未来，部分同意授权的WMG艺术家声音与形象可用于新的AI生成音乐创作体验，为其开辟新收入渠道。同时，歌曲下载功能将调整为仅限付费用户使用，而Suno Studio作为专业工具将保持现有功能并持续更新。

行业动态语音

推荐理由：Suno和华纳的牵手，意味着AI生成音乐终于拿到了正版内容的通行证，从此不用再躲躲藏藏，对音乐创作者和听众都是质变信号。

11月21日

08:00

Hugging Face：Blog（RSS）

精选83

Open ASR 排行榜新增多语言与长格式赛道，揭示模型性能新挑战

Hugging Face 的 Open ASR 排行榜新增多语言和长格式语音识别评估赛道。多语言赛道涵盖8种语言，长格式赛道则测试模型处理连续数分钟语音的能力。新榜单显示，领先模型在多语言任务上的词错误率平均比专用单语模型高约15%，在长格式任务上错误率可能上升超20%，凸显了模型在实际应用中的泛化能力仍面临严峻挑战。

Hugging Face 评测/基准语音

推荐理由：ASR排行榜新增多语言和长形式评估，助力开发者优化语音应用。

11月19日

00:00

Suno：Blog（网页）

音乐的未来已至

Suno 宣布完成 2.5 亿美元 C 轮融资，投后估值 24.5 亿美元，由 Menlo Ventures 领投，NVentures、Lightspeed 等跟投。过去两年近 1 亿用户在平台首次创作音乐，众多专业制作人和词曲作者也已将 Suno 纳入日常工作流。本轮资金将用于开发更精细的专业工具、优化普通创作者体验，并构建创作者与听众共生的社交音乐生态，推动音乐创作全民化。

行业动态语音