全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「语音」清除

3月26日周四

00:02Google GeminiGemini 集成 Lyria 3 Pro，支持生成更长音轨

00:00Suno：Blog（网页）Suno v5.5：更具表现力，更懂你

3月25日周三

23:32Artificial AnalysisInworld、ElevenLabs 与 MiniMax 继续领跑 TTS 排行榜

3月24日周二

10:01Hugging Face：Blog（RSS）78精选全新语音智能体评估框架EVA发布

3月23日周一

00:00Mistral AI：News（网页）Voxtral 发布 40 亿参数文本转语音模型

3月19日周四

00:48公众号：小米 MiMo53Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布

00:45公众号：小米 MiMo37Xiaomi MiMo-V2-TTS 发布：为 Agent 注入灵魂，从此刻开始发声

3月17日周二

00:56Google GeminiGemini 妙用：自定义闹钟铃声

3月9日周一

11:06公众号：MiniMax（稀宇科技）42MiniMax 发布 OpenClaw "小龙虾"：24 小时持续学习，已开始自主生成内容

3月6日周五

08:00OpenAI：官网动态（RSS · 排除企业/客户案例）Descript 如何实现大规模多语言视频配音

3月5日周四

09:01公众号：阶跃星辰（Step）54创作一首新歌只需2秒！阶跃星辰开源 ACE-Step 1.5 收获开发社区好评

2月24日周二

22:39Satya Nadella精选今天，我亲眼见证了 Dragon Copilot 将如何帮助 NHS 的医生们把更多时间花在患者护理上，减少文书工作。 @MFTnhs 的工作是一个有力的例证，展示了临床医生如何利用技术专注于最重要的事情。https://news.microsoft.com/source/emea/features/ai-tool-for-clinicians/

2月18日周三

09:20公众号：蚂蚁百灵（Ling）37蚂蚁百灵发布 Ming-flash-omni-2.0 与 Ming-omni-tts 语音模型

2月11日周三

20:18蚂蚁 inclusionAI：GitHub 新仓库51inclusionAI/Ming-omni-tts

11:12蚂蚁 inclusionAI：HuggingFace 新模型32inclusionAI/Ming-omni-tts-tokenizer-12Hz

11:10蚂蚁 inclusionAI：HuggingFace 新模型39inclusionAI/Ming-omni-tts-0.5B

10:49蚂蚁 inclusionAI：HuggingFace 新模型37inclusionAI/Ming-omni-tts-16.8B-A3B

2月4日周三

00:00Mistral AI：News（网页）82Mistral AI 发布 Voxtral Transcribe 2 系列语音转文本模型及音频游乐场

1月29日周四

00:00Qwen：Blog Retrieval（API）Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源：鲁棒、流式、多语言！

1月23日周五

00:00MiniMax：Blog（网页）精选MiniMax Speech 2.8 语音模型

1月22日周四

00:00Qwen：Blog Retrieval（API）Qwen3-TTS 系列现已开源：支持语音设计、克隆与生成！

12月23日周二

00:00Qwen：Blog Retrieval（API）Qwen3-TTS 升级：支持语音克隆和语音设计！

12月17日周三

08:00xAI：News（网页）精选xAI 发布 Grok Voice Agent API

12月11日周四

00:00智谱：研究（网页内嵌数据）精选GLM-TTS：基于多奖励融合强化学习，实现工业级语音合成

12月10日周三

00:00智谱：研究（网页内嵌数据）精选GLM-ASR-Nano：面向真实世界的高鲁棒性语音识别

12月5日周五

00:00Qwen：Blog Retrieval（API）Qwen3-TTS 更新！49 种音色 + 10 种语言 + 9 种方言

11月25日周二

00:00Suno：Blog（网页）56精选音乐创作的新篇章 · Suno 联合创始人兼首席执行官 Mikey Shulman · 2025年11月25日 Suno 与华纳音乐集团合作，共同构建交互式音乐的未来公告

11月21日周五

08:00Hugging Face：Blog（RSS）83精选Open ASR 排行榜新增多语言与长格式赛道，揭示模型性能新挑战

11月19日周三

00:00Suno：Blog（网页）音乐的未来已至

10月30日周四

00:00MiniMax：Blog（网页）精选MiniMax发布新一代语音模型Speech 2.6

10月24日周五

08:48美团 LongCat：HuggingFace 新模型精选美团开源全模态模型LongCat-Flash-Omni

10月17日周五

11:09美团 LongCat：HuggingFace 新模型meituan-longcat 发布 LongCat-Audio-Codec

9月29日周一

11:23蚂蚁 inclusionAI：GitHub 新仓库51inclusionAI/Ming-UniAudio

11:19蚂蚁 inclusionAI：GitHub 新仓库38inclusionAI/Ming-Freeform-Audio-Edit

11:19蚂蚁 inclusionAI：GitHub 新仓库57精选inclusionAI发布MingTok-Audio：首个统一连续语音分词器

9月25日周四

00:00Suno：Blog（网页）Suno Studio 正式发布

9月19日周五

09:10公众号：小米 MiMo54小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

8月4日周一

08:00OpenRouter：Announcements（RSS）43OpenRouter 应用新增语音输入和 PDF URL 支持

7月17日周四

00:00Mistral AI：News（网页）51Mistral AI 为 Le Chat 推出五项重要更新

7月15日周二

00:00Mistral AI：News（网页）62Mistral AI 发布 Voxtral 开源语音理解模型

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

3月26日

00:02

Google Gemini@GeminiApp

Lyria 3 Pro 正式接入 Gemini，支持生成更长音轨及复杂风格过渡。即日起向 Google AI Plus、Pro 与 Ultra 订阅用户开放。

Google 产品更新多模态语音

00:00

Suno：Blog（网页）

Suno v5.5：更具表现力，更懂你

Suno发布v5.5模型，推出Voices、Custom Models与My Taste三大功能。Voices支持Pro及Premier订阅者录制或上传人声，经语音验证后仅限本人使用；Custom Models可基于用户原创曲库训练最多三个个性化模型；My Taste则面向所有用户，自动学习其音乐偏好。此次更新旨在同时服务专业音乐人与普通创作者，并为与音乐产业合作的下一代模型奠定基础。

产品更新多模态语音

3月25日

23:32

Artificial Analysis@ArtificialAnlys

Inworld、ElevenLabs 与 MiniMax 继续领跑 TTS 排行榜

Inworld、ElevenLabs 与 MiniMax 继续领跑 TTS 排行榜，今年发布的模型包揽前五中的四席。当前领先模型在简单文本上逼真度显著提升，用户偏好差异主要体现在声音风格选择上。评估方法已加强机器人投票过滤，并新增基于95%置信区间的排名范围。具体指标方面，Inworld TTS 1.5 Max 以1,238 Elo分居首，Kokoro 82M v1.0以$0.65/百万字符成为价格最低选项，WaveNet则以每秒419字符领先批处理速度。

评测/基准语音

3月24日

10:01

Hugging Face：Blog（RSS）

精选78

全新语音智能体评估框架EVA发布

ServiceNow AI团队在Hugging Face上发布了语音智能体评估框架EVA。该框架通过标准化测试集与多模态指标，系统评估语音助手在对话理解、任务完成及交互自然度等方面的性能，旨在量化衡量智能体在复杂真实场景下的表现，助力研究人员客观比较不同模型，推动技术优化。

智能体 Hugging Face 开源/仓库语音

推荐理由：提供语音代理评估标准，帮助开发者优化模型性能和测试效率。

3月23日

00:00

Mistral AI：News（网页）

Voxtral 发布 40 亿参数文本转语音模型

Voxtral 发布 40 亿参数文本转语音模型 Voxtral TTS，支持英语、法语等 9 种语言的逼真语音生成。该模型仅需 3 秒参考音频即可实现零样本语音克隆，延迟低至 70 毫秒。人工评测显示，其在保持与 ElevenLabs Flash v2.5 相当首音时间的同时，自然度表现更优，与 ElevenLabs v3 质量持平。模型支持情感控制和跨语言语音迁移，适用于企业级语音代理工作流。

智能体模型发布语音

3月19日

00:48

公众号：小米 MiMo

53

Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布

多模态模型发布语音

00:45

公众号：小米 MiMo

37

Xiaomi MiMo-V2-TTS 发布：为 Agent 注入灵魂，从此刻开始发声

多模态模型发布语音

3月17日

00:56

Google Gemini@GeminiApp

在 Gemini 应用中直接生成个性化闹钟音乐，创建真正能叫醒你的专属铃声。无需专业工具，用 AI 定制专属起床音频，让早晨更容易清醒。

Google 产品更新语音

3月9日

11:06

公众号：MiniMax（稀宇科技）

42

MiniMax 发布 OpenClaw "小龙虾"：24 小时持续学习，已开始自主生成内容

MiniMax 推出的 AI 产品 OpenClaw（昵称“小龙虾”）具备 24 小时不间断学习能力，目前已开始自主生成内容（“虾说虾唱”）。该产品尚未公布具体参数或版本号，但强调“全天候学习”作为核心特性。

产品更新语音

3月6日

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Descript 如何实现大规模多语言视频配音

Descript 利用 OpenAI reasoning models 实现大规模多语言视频配音，可在自动本地化大型内容库时保持时间同步与语义准确。

OpenAI 产品更新多模态语音

3月5日

09:01

公众号：阶跃星辰（Step）

54

创作一首新歌只需2秒！阶跃星辰开源 ACE-Step 1.5 收获开发社区好评

开源生态模型发布语音

2月24日

22:39

Satya Nadella@satyanadella

精选

今天，我亲眼见证了 Dragon Copilot 将如何帮助 NHS 的医生们把更多时间花在患者护理上，减少文书工作。 @MFTnhs 的工作是一个有力的例证，展示了临床医生如何利用技术专注于最重要的事情。https://news.microsoft.com/source/emea/features/ai-tool-for-clinicians/

Microsoft 产品更新语音

推荐理由：微软AI医疗助手落地英国国家医疗体系，临床减负从概念走向实际应用

2月18日

09:20

公众号：蚂蚁百灵（Ling）

37

蚂蚁百灵发布 Ming-flash-omni-2.0 与 Ming-omni-tts 语音模型

百灵多模态团队于两天前发布 Ming-flash-omni-2.0，并基于其语音模块推出新模型 Ming-omni-tts。通过模型规模扩展（scale up），Ming-omni-tts 实现更强的语音生成效果。

模型发布语音

2月11日

20:18

蚂蚁 inclusionAI：GitHub 新仓库

51

inclusionAI/Ming-omni-tts

inclusionAI 发布了 Ming-omni-tts，这是一个能够统一生成语音、音乐和声音的模型。该模型的核心特点是结构简单高效，并实现了对生成内容的精确控制。它通过一个统一的框架处理多种音频模态，简化了传统上需要不同模型分别处理语音、音乐和音效的流程。这一进展为跨模态音频内容的创作与编辑提供了更便捷、可控的工具。

开源生态模型发布语音

11:12

蚂蚁 inclusionAI：HuggingFace 新模型

32

inclusionAI/Ming-omni-tts-tokenizer-12Hz

inclusionAI团队发布了Ming-omni-tts-tokenizer-12Hz开源项目，这是一个面向文本转语音（TTS）的通用分词器。该模型支持12Hz的高采样率，旨在提升语音合成的自然度与表现力。项目基于开源与开放科学的理念推进，致力于让人工智能技术更加普及和易得。

开源生态模型发布语音

11:10

蚂蚁 inclusionAI：HuggingFace 新模型

39

inclusionAI/Ming-omni-tts-0.5B

inclusionAI 发布了 Ming-omni-tts-0.5B，这是一个参数规模为 0.5B（5亿）的文本转语音模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。发布标志着在语音合成领域，一个中等规模、可公开访问的模型正式加入开源生态。

开源生态模型发布语音

10:49

蚂蚁 inclusionAI：HuggingFace 新模型

37

inclusionAI/Ming-omni-tts-16.8B-A3B

inclusionAI发布了开源文本转语音模型Ming-omni-tts-16.8B-A3B，参数量达168亿。该模型采用创新的A3B混合专家架构，在语音自然度、多语言支持和情感表现方面实现显著提升。项目遵循开源开放科学理念，旨在推动人工智能技术的民主化进程。

开源生态模型发布语音

2月4日

00:00

Mistral AI：News（网页）

82

Mistral AI 发布 Voxtral Transcribe 2 系列语音转文本模型及音频游乐场

Mistral AI 发布 Voxtral Transcribe 2 系列两款新一代语音转文本模型。Voxtral Mini Transcribe V2 支持13种语言的批量转录，具备说话人日志、上下文偏置和词级时间戳功能，在 FLEURS 基准测试中词错率约4%，性价比领先。Voxtral Realtime 专为实时应用设计，采用流式架构，延迟可配置至200毫秒以下，支持13种语言，并以 Apache 2.0 协议开源。同时，Mistral Studio 上线了由该系列模型驱动的音频游乐场，供用户即时测试转录功能。

模型发布端侧语音

1月29日

00:00

Qwen：Blog Retrieval（API）

Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源：鲁棒、流式、多语言！

Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源，具备鲁棒性、流式处理与多语言能力。Qwen Studio 同步集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能。

开源/仓库开源生态语音

1月23日

00:00

MiniMax：Blog（网页）

精选

MiniMax Speech 2.8 语音模型

MiniMax 发布新一代语音模型 MiniMax Speech 2.8，通过原生声音标签技术模拟人类口语中的"嗯"、"啊"等填充词及呼吸停顿，显著提升对话自然度。该模型支持10秒样本高保真声音克隆，精准还原音色与语速，同时消除背景噪音与数字伪影，输出录音室级纯净音质。此外，模型优化了跨语言表现，从普通话-日语对开始解决口音渗透问题，实现更接近母语者的发音效果。

模型发布语音

推荐理由：10秒样本克隆真人声线，AI说话带'嗯啊'呼吸声，MiniMax语音模型上新

1月22日

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 系列现已开源：支持语音设计、克隆与生成！

Qwen Studio 功能全面，涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 artifacts 等模块。

开源/仓库语音

12月23日

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 升级：支持语音克隆和语音设计！

Qwen3-TTS 新增语音克隆与语音设计能力，Qwen Studio 集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等综合服务。

产品更新多模态语音

12月17日

08:00

xAI：News（网页）

精选

xAI 发布 Grok Voice Agent API

xAI 开放 Grok Voice Agent API，基于自研语音栈（VAD、tokenizer、音频模型），Big Bench Audio 基准排名第一，首音频延迟低于 1 秒（比竞品快近 5 倍），定价 $0.05/分钟。支持数十种语言自动切换、实时搜索 X 和网页、调用自定义工具，已深度集成特斯拉车机。提供 Ara、Eve 等多种自然声线，支持 [whisper] 等听觉标签，兼容 OpenAI Realtime API 规范。

智能体 xAI 产品更新语音

推荐理由：xAI发布Grok语音Agent API，延迟低于1秒且定价仅为OpenAI一半，已集成至Tesla车载系统

12月11日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-TTS：基于多奖励融合强化学习，实现工业级语音合成

GLM-TTS 采用 GRPO 多奖励强化学习框架，融合字符错误率、相似度、情感及笑声奖励，实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA，情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色，通过 Phoneme-in 混合输入精准控制多音字发音，配合自研 2D-Vocos 声码器提升音质与音域覆盖。

开源生态模型发布语音

推荐理由：智谱开源GLM-TTS，3秒克隆任意音色并支持喜怒哀乐情感表达

12月10日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-ASR-Nano：面向真实世界的高鲁棒性语音识别

智谱发布开源语音识别模型 GLM-ASR-Nano，仅 1.5B 参数，面向真实世界场景优化鲁棒性，已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。

模型发布端侧语音

推荐理由：智谱开源1.5B语音识别模型，端侧可用且针对真实场景优化，适合集成到输入法等产品

12月5日

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 更新！49 种音色 + 10 种语言 + 9 种方言

Qwen3-TTS 发布更新，支持 49 种音色、10 种语言和 9 种方言。Qwen Studio 平台同步提供聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈功能。

产品更新语音

11月25日

00:00

Suno：Blog（网页）

精选56

音乐创作的新篇章 · Suno 联合创始人兼首席执行官 Mikey Shulman · 2025年11月25日 Suno 与华纳音乐集团合作，共同构建交互式音乐的未来公告

Suno宣布与华纳音乐集团达成合作。Suno已拥有近1亿音乐创作者社区，此次合作旨在推出更强大的创作功能、提供与WMG旗下艺术家互动的机会，并基于授权音乐构建新一代Suno模型，其性能将超越v5。未来，部分同意授权的WMG艺术家声音与形象可用于新的AI生成音乐创作体验，为其开辟新收入渠道。同时，歌曲下载功能将调整为仅限付费用户使用，而Suno Studio作为专业工具将保持现有功能并持续更新。

行业动态语音

推荐理由：Suno和华纳的牵手，意味着AI生成音乐终于拿到了正版内容的通行证，从此不用再躲躲藏藏，对音乐创作者和听众都是质变信号。

11月21日

08:00

Hugging Face：Blog（RSS）

精选83

Open ASR 排行榜新增多语言与长格式赛道，揭示模型性能新挑战

Hugging Face 的 Open ASR 排行榜新增多语言和长格式语音识别评估赛道。多语言赛道涵盖8种语言，长格式赛道则测试模型处理连续数分钟语音的能力。新榜单显示，领先模型在多语言任务上的词错误率平均比专用单语模型高约15%，在长格式任务上错误率可能上升超20%，凸显了模型在实际应用中的泛化能力仍面临严峻挑战。

Hugging Face 评测/基准语音

推荐理由：ASR排行榜新增多语言和长形式评估，助力开发者优化语音应用。

11月19日

00:00

Suno：Blog（网页）

音乐的未来已至

Suno 宣布完成 2.5 亿美元 C 轮融资，投后估值 24.5 亿美元，由 Menlo Ventures 领投，NVentures、Lightspeed 等跟投。过去两年近 1 亿用户在平台首次创作音乐，众多专业制作人和词曲作者也已将 Suno 纳入日常工作流。本轮资金将用于开发更精细的专业工具、优化普通创作者体验，并构建创作者与听众共生的社交音乐生态，推动音乐创作全民化。

行业动态语音

10月30日

00:00

MiniMax：Blog（网页）

精选

MiniMax发布新一代语音模型Speech 2.6

MiniMax发布语音模型Speech 2.6，端到端延迟降至250毫秒内，支持实时对话。新增多语言特殊格式解析能力，可自动朗读URL、邮箱、电话、日期及金额，无需预处理。推出Fluent LoRA功能，即使源录音带口音也能保留音色并生成流畅语音，支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。

智能体模型发布语音

推荐理由：MiniMax发布Speech 2.6语音模型，支持Voice Agent场景，实现超低延迟与Fluent LoRA语音克隆优化。

10月24日

08:48

美团 LongCat：HuggingFace 新模型

精选

美团开源全模态模型LongCat-Flash-Omni

美团开源全模态模型LongCat-Flash-Omni，采用5600亿参数MoE架构（激活270亿），支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家，配备轻量级编解码器及分块特征交错机制，通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro，在文档理解、语音识别及GUI控制等任务中达到领先水平。

Hugging Face 多模态模型发布语音

关联讨论 1 条美团 LongCat：HuggingFace 新模型

推荐理由：美团开源 560B 参数多模态模型，27B 激活即可实现实时音视频交互

10月17日

11:09

美团 LongCat：HuggingFace 新模型

meituan-longcat 发布 LongCat-Audio-Codec

meituan-longcat 发布开源项目 LongCat-Audio-Codec，致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在促进音频编解码技术的开放获取，推动行业技术进步与开放生态建设。

Hugging Face 开源生态模型发布语音

9月29日

11:23

蚂蚁 inclusionAI：GitHub 新仓库

51

inclusionAI/Ming-UniAudio

研究团队发布了Ming-UniAudio，这是一个基于统一表示的大语言模型，专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑，实现了多种语音功能的集成。它通过统一的框架，将传统上分离的语音识别、合成和修改任务整合进单一系统，提升了处理效率与协同能力。

开源生态模型发布语音

11:19

蚂蚁 inclusionAI：GitHub 新仓库

38

inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集，用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务，包括语义编辑（自由形式删除、插入、替换）和声学编辑（时间拉伸、音高转换等）。音频样本源自seed-tts eval、LibriTTS等开源数据集，其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度，并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音

11:19

蚂蚁 inclusionAI：GitHub 新仓库

精选57

inclusionAI发布MingTok-Audio：首个统一连续语音分词器

inclusionAI团队推出了MingTok-Audio，这是首个能有效融合语义与声学特征的统一连续语音分词器，适用于语音理解与生成任务。该模型基于纯因果Transformer架构，去除了卷积层以提升效率，并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上，其帧率为50，在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04，SIM为0.96，STOI为0.98，显著优于对比模型。在下游ASR任务中，其在多个方言数据集上取得了更低的错误率，例如在Hunan Minnan数据集上WER低至9.80%。

开源/仓库模型发布语音

推荐理由：蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数，比第二名翻了快一倍，做语音理解和生成的团队值得拿这个当新 baseline 跑一下。

9月25日

00:00

Suno：Blog（网页）

Suno Studio 正式发布

Suno 推出全球首款生成式音频工作站 Suno Studio，将 AI 生成能力融入音乐创作核心。支持即时生成无限 stem 变体（人声、鼓点、合成器等），提供多轨时间线编辑、BPM 和音高调整等专业控制，可导出音频与 MIDI 文件至其他 DAW。兼容从业余爱好者到专业作曲家的各类创作者，桌面版现已向 Premier 用户开放。

产品更新多模态语音

9月19日

09:10

公众号：小米 MiMo

54

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio，被定位为语音开源领域的“LLaMA 时刻”，对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。

多模态模型发布语音

8月4日

08:00

OpenRouter：Announcements（RSS）

43

OpenRouter 应用新增语音输入和 PDF URL 支持

OpenRouter 平台现支持在应用中使用语音输入功能，并允许通过 URL 发送 PDF 文件。该功能适用于平台上的任意模型。

产品更新多模态语音

7月17日

00:00

Mistral AI：News（网页）

51

Mistral AI 为 Le Chat 推出五项重要更新

Mistral AI 为 Le Chat 推出五项重要更新：Deep Research（预览版）模式可快速生成结构化研究报告；语音模式启用新 Voxtral 模型实现自然对话；Think 模式由 Magistral 推理模型支持，提供原生多语言推理；Projects 功能可将相关对话组织至独立文件夹；并联合 Black Forest Labs 推出 Le Chat 内的高级图像编辑功能。用户现在可在 chat.mistral.ai 或移动应用中免费试用这些新功能。

产品更新多模态推理语音

7月15日

00:00

Mistral AI：News（网页）

62

Mistral AI 发布 Voxtral 开源语音理解模型

Mistral AI 发布了开源语音理解模型 Voxtral，提供 24B 和 3B 两个参数版本，均基于 Apache 2.0 协议开放。模型支持 32k token 上下文窗口，可处理最长 30 分钟的音频转录或 40 分钟的内容理解。其 API 提供了针对转录优化的 Voxtral Mini Transcribe 版本，在成本和延迟效率上表现突出。根据基准测试，Voxtral 在英语短文本及 Mozilla Common Voice 等多项指标上超越了 OpenAI Whisper 与 ElevenLabs Scribe，实现了同等性能下价格不到同类闭源 API 一半的优势。

开源生态模型发布语音