MiniMax:Blog(网页)
MiniMax发布新一代语音模型Speech 2.6
阅读原文· minimax.io精选理由
MiniMax发布Speech 2.6语音模型,支持Voice Agent场景,实现超低延迟与Fluent LoRA语音克隆优化。
AI 摘要
MiniMax发布语音模型Speech 2.6,端到端延迟降至250毫秒内,支持实时对话。新增多语言特殊格式解析能力,可自动朗读URL、邮箱、电话、日期及金额,无需预处理。推出Fluent LoRA功能,即使源录音带口音也能保留音色并生成流畅语音,支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。
AI 翻译 · 中文

今天,我们激动地推出 MiniMax Speech 2.6——这是我们的最新语音模型,带来了全面升级,具有超低延迟、增强的格式处理能力,以及在语音智能体场景中更自然、更接近人声的语音体验。
自发布以来,MiniMax Speech 凭借其出色的语音技术和卓越的性价比,已成为全球语音智能领域的核心基础设施之一。
从驱动 ChatGPT 高级语音模式的 LiveKit,到 GitHub 上流行的开源框架 Pipecat,再到 YC 孵化的语音平台 Vapi,都选择了 MiniMax Speech 作为其底层技术引擎。在智能硬件领域,创新产品如 Haivivi Bubble Pal、Fuzozo 和 Rokid Glasses 同样由 MiniMax Speech 驱动,提供自然的语音交互体验。
MiniMax 持续通过技术创新推动新的生产力形态,打破语言和文化的壁垒,带来自然流畅的交互体验,连接世界各地的每一个声音。
1. 超低延迟,响应更迅速:整体交互更流畅
我们对音频生成管线进行了全面优化,实现了端到端延迟低于 250 毫秒——达到行业顶尖水平。在实时对话等对响应时间有严格要求的场景中,音频生成不再成为瓶颈,确保整体交互更加流畅。
听听 Speech 2.6 扮演 AI 客服智能体的表现:
AI 客服
2. 无缝处理特殊格式,更智能:信息传递更流畅
Speech 2.6 现已支持直接转换多语言中的非标准文本格式,包括网址、电子邮箱地址、电话号码、日期和货币金额。无论你是将其与大语言模型配合使用,还是需要在业务中处理动态变化的实体信息,都无需再进行繁琐的文本预处理。输入内容从一开始就能被正确朗读,让信息传递更加流畅。
例如,要正确读出下面的段落,传统TTS需要进行一系列转换:
- +1 415 415 9921 → “加一,四一五,四一五,九九二一”
- $1,234.56 → “一千二百三十四美元五十六美分”
- 192.168.1.1 → “一九二点一六八点一点一”
- 2032-5-6 → “二零三二年五月六日”
- support-vip@technet.com → “support 短横 vip at technet 点 com”
复杂格式段落处理
原文:“你好,Oliver Smith,我是你的智能虚拟助手Max!感谢你的来电。我已找到你的档案。电话号码+1 415 415 9921的未结余额为$1,234.56。关联的IP地址是192.168.1.1。你的下一次付款截止日期是2032-5-6。如有任何疑问,请联系support-vip@technet.com。”
3. 更高的自然度与 Fluent LoRA:让语音表达更流畅
除了进一步增强韵律自然度,Speech 2.6 还引入了 Fluent LoRA。
Speech 2.5 已经提供了便捷、高保真的声音克隆功能,使用户能够保留原始声音的独特特征,例如口音和说话习惯。这一能力满足了实际应用场景中的多样化语音需求。
现在,你在克隆声音时不再需要担心原始素材不够完美。即使是带有口音或不流畅的非母语录音,Fluent LoRA 也能完美复刻声音的音色,同时生成与目标文本匹配的流畅自然语音,让你的语音表达更加清晰有力。
除了视频中展示的英语示例外,该功能支持在模型支持的 40 多种语言中一键实现声音克隆的流畅化。以下是一个日语场景的例子:
原始录音
未使用 Fluent LoRA
Fluent LoRA 优化后
Speech 2.6 现已全面上线。欢迎体验:
MiniMax 开放平台:https://www.minimax.io/platform_overview
MiniMax 音频:https://www.minimax.io/audio
智能与每个人同在。
