MiniMax发布新一代语音模型Speech 2.6

2025-10-30 00:00·246天前

精选理由

MiniMax发布Speech 2.6语音模型，支持Voice Agent场景，实现超低延迟与Fluent LoRA语音克隆优化。

AI 摘要

MiniMax发布语音模型Speech 2.6，端到端延迟降至250毫秒内，支持实时对话。新增多语言特殊格式解析能力，可自动朗读URL、邮箱、电话、日期及金额，无需预处理。推出Fluent LoRA功能，即使源录音带口音也能保留音色并生成流畅语音，支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。

AI 翻译 · 中文

2025.10.30

MiniMax Speech 2.6：终极语音智能体已到来

访问 API

立即试用音频

https://filecdn.minimax.chat/public/f161797a-a16c-457d-ae97-56590263e5b6.png

今天，我们激动地推出 MiniMax Speech 2.6——这是我们的最新语音模型，带来了全面升级，具有超低延迟、增强的格式处理能力，以及在语音智能体场景中更自然、更接近人声的语音体验。

自发布以来，MiniMax Speech 凭借其出色的语音技术和卓越的性价比，已成为全球语音智能领域的核心基础设施之一。

从驱动 ChatGPT 高级语音模式的 LiveKit，到 GitHub 上流行的开源框架 Pipecat，再到 YC 孵化的语音平台 Vapi，都选择了 MiniMax Speech 作为其底层技术引擎。在智能硬件领域，创新产品如 Haivivi Bubble Pal、Fuzozo 和 Rokid Glasses 同样由 MiniMax Speech 驱动，提供自然的语音交互体验。

MiniMax 持续通过技术创新推动新的生产力形态，打破语言和文化的壁垒，带来自然流畅的交互体验，连接世界各地的每一个声音。

1. 超低延迟，响应更迅速：整体交互更流畅

我们对音频生成管线进行了全面优化，实现了端到端延迟低于 250 毫秒——达到行业顶尖水平。在实时对话等对响应时间有严格要求的场景中，音频生成不再成为瓶颈，确保整体交互更加流畅。

听听 Speech 2.6 扮演 AI 客服智能体的表现：

AI 客服

2. 无缝处理特殊格式，更智能：信息传递更流畅

Speech 2.6 现已支持直接转换多语言中的非标准文本格式，包括网址、电子邮箱地址、电话号码、日期和货币金额。无论你是将其与大语言模型配合使用，还是需要在业务中处理动态变化的实体信息，都无需再进行繁琐的文本预处理。输入内容从一开始就能被正确朗读，让信息传递更加流畅。

例如，要正确读出下面的段落，传统TTS需要进行一系列转换：

+1 415 415 9921 → “加一，四一五，四一五，九九二一”
$1,234.56 → “一千二百三十四美元五十六美分”
192.168.1.1 → “一九二点一六八点一点一”
2032-5-6 → “二零三二年五月六日”
support-vip@technet.com → “support 短横 vip at technet 点 com”

复杂格式段落处理

原文：“你好，Oliver Smith，我是你的智能虚拟助手Max！感谢你的来电。我已找到你的档案。电话号码+1 415 415 9921的未结余额为$1,234.56。关联的IP地址是192.168.1.1。你的下一次付款截止日期是2032-5-6。如有任何疑问，请联系support-vip@technet.com。”

3. 更高的自然度与 Fluent LoRA：让语音表达更流畅

除了进一步增强韵律自然度，Speech 2.6 还引入了 Fluent LoRA。

Speech 2.5 已经提供了便捷、高保真的声音克隆功能，使用户能够保留原始声音的独特特征，例如口音和说话习惯。这一能力满足了实际应用场景中的多样化语音需求。

现在，你在克隆声音时不再需要担心原始素材不够完美。即使是带有口音或不流畅的非母语录音，Fluent LoRA 也能完美复刻声音的音色，同时生成与目标文本匹配的流畅自然语音，让你的语音表达更加清晰有力。

除了视频中展示的英语示例外，该功能支持在模型支持的 40 多种语言中一键实现声音克隆的流畅化。以下是一个日语场景的例子：

原始录音

未使用 Fluent LoRA

Fluent LoRA 优化后

Speech 2.6 现已全面上线。欢迎体验：

MiniMax 开放平台：https://www.minimax.io/platform_overview

MiniMax 音频：https://www.minimax.io/audio

智能与每个人同在。

MiniMax：Blog（网页）

精选导出 Markdown