# dots.tts 技术报告

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-06-05 08:00
- AIHOT 分数：73
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq4k0mcr01psslot5yxg2wpu
- 原文链接：https://arxiv.org/abs/2606.07080

## 精选理由

dots.tts 在中文 TTS 上把 WER 压到 0.94%，开源且 Apache 2.0 许可，想做语音产品的团队该立刻拉代码试试，单看延迟数据就值了。

## AI 摘要

dots.tts 是一个 2B 参数的连续自回归 TTS 基座模型，在连续潜在空间中建模语音。其创新包括：多目标训练的 AudioVAE 构建语义结构化连续语音空间；全历史条件的 flow-matching 头保持长程一致性；无奖励自纠正后训练提升鲁棒性和音质。在 Seed-TTS-Eval 上取得最佳平均性能，中文/英文/中文-hard 的 WER 分别为 0.94%/1.30%/6.60%，SIM 分别为 81.0/77.1/79.5。其他基准也达开源 SOTA。基于 CFG 的 MeanFlow 蒸馏实现低延迟推理，输出流首包 85ms，双流 54ms。训练推理代码及检查点已开源。

## 正文

我们提出了 dots.tts，一个 2B 参数的连续自回归文本到语音（TTS）基础模型，它在连续潜在空间中建模语音。与现有的连续自回归模型相比，我们的关键创新有三点。首先，我们训练了一个具有多目标的 AudioVAE，以构建一个语义结构良好且利于预测的连续语音空间。其次，我们在流匹配头中使用全历史条件，以保持生成过程中的长程一致性并减少漂移。第三，我们对流匹配头应用了无奖励的自纠正后训练，以进一步提高鲁棒性和声学质量。在大规模多语言语料库上训练后，dots.tts 在 Seed-TTS-Eval 上取得了最佳平均性能，在 zh/en/zh-hard 测试集上的词错误率（WER）分别为 0.94%/1.30%/6.60%，相似度（SIM）得分分别为 81.0/77.1/79.5。在其他评测基准上，dots.tts 也持续展现出开源最优性能，表现出强大的生成稳定性、语音克隆能力和情感表达能力。为了实现高效推理，我们进一步应用了 CFG-aware MeanFlow 蒸馏，在输出流式和双流式模式下分别实现了 85/54 ms 的首包延迟，从而实现低延迟语音生成。为了促进可复现的研究和实际部署，我们在 Apache 2.0 许可下发布了训练和推理代码，以及预训练、后训练和 MeanFlow 蒸馏后的检查点。
