美团 LongCat:HuggingFace 新模型
LongCat-AudioDiT-1B:高保真波形潜空间扩散式文本转语音模型
精选理由
美团开源 1B 语音克隆模型,Seed 基准超 Seed-TTS,零样本推理可用
AI 摘要
美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示,直接在波形潜空间操作,仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题,并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆,说话人相似度(SIM)在 Seed-ZH 达 0.818、Seed-Hard 达 0.797,超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文huggingface.co