GLM-TTS：基于多奖励融合强化学习，实现工业级语音合成

2025-12-11 00:00·204天前

精选理由

智谱开源GLM-TTS，3秒克隆任意音色并支持喜怒哀乐情感表达

AI 摘要

GLM-TTS 采用 GRPO 多奖励强化学习框架，融合字符错误率、相似度、情感及笑声奖励，实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA，情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色，通过 Phoneme-in 混合输入精准控制多音字发音，配合自研 2D-Vocos 声码器提升音质与音域覆盖。

该来源未收录可展示正文，站内仅提供摘要。

开源生态模型发布语音

阅读原文导出 Markdown

智谱：研究（网页内嵌数据）

精选导出 Markdown