# VoxCPM2 技术报告发布

- 来源：OpenBMB (@OpenBMB)
- 发布时间：2026-06-08 22:30
- AIHOT 分数：75
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq5bpym306fbslt2cnfcangy
- 原文链接：https://x.com/OpenBMB/status/2063991963133903317

## 精选理由

面壁把语音生成压进2B参数，支持30种语言加方言克隆，还附完整技术报告和Apache 2.0开源，做语音产品的可以直接拉代码跑起来了。

## AI 摘要

面壁智能 OpenBMB 发布 VoxCPM2 技术报告。该模型为最新语音生成模型，拥有 2B 参数，基于超 200 万小时多语言语音数据训练，支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力。技术报告涵盖架构设计、统一序列公式、AudioVAE 高保真语音重建、大规模训练评估，以及零样本和指令跟随 TTS 基准结果。采用 16kHz 语义编码 + 48kHz 波形重建，在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。

## 正文

🚀 VoxCPM2 技术报告现已可在 arXiv 上获取！

VoxCPM2 是 VoxCPM 系列中最新推出的语音生成模型。该模型基于 20 亿参数构建，并在超过 200 万小时的多语种语音数据上训练，支持 30 种语言和 9 种中文方言，同时具备自然语言语音设计、可控语音克隆以及高保真延续式语音克隆功能。

在这份技术报告中，我们全面概述了以下内容： 🔹 VoxCPM2 的架构 🔹 用于语音生成和控制的统一序列建模方法 🔹 用于高保真语音重建的 AudioVAE 设计 🔹 大规模多语种训练与评估 🔹 零样本和指令跟随 TTS 任务上的基准结果

VoxCPM2 采用 16kHz 语义编码和 48kHz 波形重建，实现了高质量的语音生成，并在公开 TTS 基准上取得了 SOTA 或极具竞争力的表现。

为支持开放研究与开发，我们已根据 Apache 2.0 许可证开源了模型权重、微调代码和推理工具包。

📄 Paper: https://arxiv.org/abs/2606.06928 💻 GitHub: https://github.com/OpenBMB/VoxCPM

我们希望 VoxCPM2 有助于推进开源多语种语音生态的发展。我们始终欢迎反馈、实验与贡献！🔥

#AI #OpenSource #TTS #SpeechAI #VoiceAI #GenerativeAI #MachineLearning
