小米发布 MiMo-V2.5-TTS / ASR 语音大模型:通过自然语言调度声音表现
阅读原文· ithome.com小米发布全链路语音大模型系列MiMo-V2.5,包含TTS(语音合成)与ASR(语音识别)两大核心。TTS系列包含三款模型:基础版内置多款音色并支持精细控制;VoiceDesign版可一句话生成新音色;VoiceClone版能通过少量样本高保真复刻音色。三者均支持通过自然语言指令和音频标签精细调度声音表现,已在小米MiMo开放平台限时免费。ASR模型已正式开源,在中英双语、方言、强噪音及多人对话等复杂场景下的识别性能达到业界领先水平。
IT之家 4 月 24 日消息,小米今日正式发布 MiMo-V2.5-TTS Series 与 MiMo-V2.5-ASR —— 一套面向 Agent 时代的全链路语音模型系列,覆盖识别与合成两大核心能力,让语音的输入与输出都可以被语言自由调度。
IT之家从官方介绍获悉,MiMo-V2.5-TTS Series 包含三款模型,现已登陆小米 MiMo 开放平台,并且限时免费。三者共享统一的风格指令遵循、音频标签控制与文本理解能力,让声音表现可以被语言精细调度,分别覆盖三种典型创作需求:
MiMo-V2.5-TTS:内置多款高质量精品音色,支持语速、情绪、语气等精细化控制,开箱即用,满足多场景表达。
MiMo-V2.5-TTS-VoiceDesign:一句话快速定义并生成全新音色,让音色创作更直观、更高效。
MiMo-V2.5-TTS-VoiceClone:少量样本高保真复刻目标音色,同时保持稳定的风格指令遵循与音频标签控制能力。
MiMo-V2.5-ASR 正式开源。模型在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂真实场景下的语音识别性能达到业界领先水平,为 Agent 提供清晰可靠的语音转写,确保每一次交互都建立在精准的理解之上。
MiMo-V2.5-TTS
精准的风格指令遵循能力
从简短的单句指令,到一整份导演笔记,模型都能稳定理解并遵循,覆盖情绪、语气、语速、发声方式、语言风格等多个维度。指令不必写成结构化参数 —— 像给演员说戏一样把想要的感觉描述出来,模型就会落到对应的演绎之中。