dots.tts 技术报告
阅读原文· arxiv.orgdots.tts 在中文 TTS 上把 WER 压到 0.94%,开源且 Apache 2.0 许可,想做语音产品的团队该立刻拉代码试试,单看延迟数据就值了。
dots.tts 是一个 2B 参数的连续自回归 TTS 基座模型,在连续潜在空间中建模语音。其创新包括:多目标训练的 AudioVAE 构建语义结构化连续语音空间;全历史条件的 flow-matching 头保持长程一致性;无奖励自纠正后训练提升鲁棒性和音质。在 Seed-TTS-Eval 上取得最佳平均性能,中文/英文/中文-hard 的 WER 分别为 0.94%/1.30%/6.60%,SIM 分别为 81.0/77.1/79.5。其他基准也达开源 SOTA。基于 CFG 的 MeanFlow 蒸馏实现低延迟推理,输出流首包 85ms,双流 54ms。训练推理代码及检查点已开源。
我们提出了 dots.tts,一个 2B 参数的连续自回归文本到语音(TTS)基础模型,它在连续潜在空间中建模语音。与现有的连续自回归模型相比,我们的关键创新有三点。首先,我们训练了一个具有多目标的 AudioVAE,以构建一个语义结构良好且利于预测的连续语音空间。其次,我们在流匹配头中使用全历史条件,以保持生成过程中的长程一致性并减少漂移。第三,我们对流匹配头应用了无奖励的自纠正后训练,以进一步提高鲁棒性和声学质量。在大规模多语言语料库上训练后,dots.tts 在 Seed-TTS-Eval 上取得了最佳平均性能,在 zh/en/zh-hard 测试集上的词错误率(WER)分别为 0.94%/1.30%/6.60%,相似度(SIM)得分分别为 81.0/77.1/79.5。在其他评测基准上,dots.tts 也持续展现出开源最优性能,表现出强大的生成稳定性、语音克隆能力和情感表达能力。为了实现高效推理,我们进一步应用了 CFG-aware MeanFlow 蒸馏,在输出流式和双流式模式下分别实现了 85/54 ms 的首包延迟,从而实现低延迟语音生成。为了促进可复现的研究和实际部署,我们在 Apache 2.0 许可下发布了训练和推理代码,以及预训练、后训练和 MeanFlow 蒸馏后的检查点。