ByteDance 通过 BytePlus 推出 Seed Audio 1.0,一个非流式 TTS 模型,可在一次生成中同时输出语音、音乐和音效。支持参考音频引导、图像引导音频,以及语速、音量、音调等精细控制。与传统仅生成语音的 TTS 不同,它更像多模态音频生成模型,一次性完成复杂场景音频。目前仅对企业开放申请,早期反馈音频自然,但缺少对时长的精细控制。
ByteDance通过BytePlus推出了Seed Audio 1.0,一个非流式TTS模型,能在一次生成中同时输出语音、音乐和音效。
它支持参考音频引导、图像引导音频,还能精细控制语速、音量、音调等参数。
和传统只做语音的TTS不同,这更像一个多模态音频生成模型,一次性完成复杂场景的音频内容。
目前只对企业开放申请,早期的反馈提到它生成的音频比较自然,但目前还缺少对时长的精细控制。
这其实是字节在音频生成赛道的一次比较激进的尝试,把语音和背景音效/音乐打包在一个模型里解决。