面壁把语音生成压进2B参数,支持30种语言加方言克隆,还附完整技术报告和Apache 2.0开源,做语音产品的可以直接拉代码跑起来了。
面壁智能 OpenBMB 发布 VoxCPM2 技术报告。该模型为最新语音生成模型,拥有 2B 参数,基于超 200 万小时多语言语音数据训练,支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力。技术报告涵盖架构设计、统一序列公式、AudioVAE 高保真语音重建、大规模训练评估,以及零样本和指令跟随 TTS 基准结果。采用 16kHz 语义编码 + 48kHz 波形重建,在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。
🚀 VoxCPM2 技术报告现已可在 arXiv 上获取!
VoxCPM2 是 VoxCPM 系列中最新推出的语音生成模型。该模型基于 20 亿参数构建,并在超过 200 万小时的多语种语音数据上训练,支持 30 种语言和 9 种中文方言,同时具备自然语言语音设计、可控语音克隆以及高保真延续式语音克隆功能。
在这份技术报告中,我们全面概述了以下内容: 🔹 VoxCPM2 的架构 🔹 用于语音生成和控制的统一序列建模方法 🔹 用于高保真语音重建的 AudioVAE 设计 🔹 大规模多语种训练与评估 🔹 零样本和指令跟随 TTS 任务上的基准结果
VoxCPM2 采用 16kHz 语义编码和 48kHz 波形重建,实现了高质量的语音生成,并在公开 TTS 基准上取得了 SOTA 或极具竞争力的表现。
为支持开放研究与开发,我们已根据 Apache 2.0 许可证开源了模型权重、微调代码和推理工具包。
📄 Paper: https://arxiv.org/abs/2606.06928 💻 GitHub: https://github.com/OpenBMB/VoxCPM
我们希望 VoxCPM2 有助于推进开源多语种语音生态的发展。我们始终欢迎反馈、实验与贡献!🔥
#AI #OpenSource #TTS #SpeechAI #VoiceAI #GenerativeAI #MachineLearning