智谱:研究(网页内嵌数据)
GLM-TTS:基于多奖励融合强化学习,实现工业级语音合成
精选理由
智谱开源GLM-TTS,3秒克隆任意音色并支持喜怒哀乐情感表达
AI 摘要
GLM-TTS 采用 GRPO 多奖励强化学习框架,融合字符错误率、相似度、情感及笑声奖励,实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA,情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色,通过 Phoneme-in 混合输入精准控制多音字发音,配合自研 2D-Vocos 声码器提升音质与音域覆盖。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文zhipuai.cn