LongCat-AudioDiT-1B：高保真波形潜空间扩散式文本转语音模型

2026-03-30 11:25·94天前

精选理由

美团开源 1B 语音克隆模型，Seed 基准超 Seed-TTS，零样本推理可用

AI 摘要

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示，直接在波形潜空间操作，仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题，并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆，说话人相似度（SIM）在 Seed-ZH 达 0.818、Seed-Hard 达 0.797，超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

该来源未收录可展示正文，站内仅提供摘要。

开源生态模型发布语音

阅读原文导出 Markdown

美团 LongCat：HuggingFace 新模型

精选导出 Markdown