Berryxia.AI@berryxia

2026-06-30 22:42·2天前

AI 摘要

ByteDance 通过 BytePlus 推出 Seed Audio 1.0，一个非流式 TTS 模型，可在一次生成中同时输出语音、音乐和音效。支持参考音频引导、图像引导音频，以及语速、音量、音调等精细控制。与传统仅生成语音的 TTS 不同，它更像多模态音频生成模型，一次性完成复杂场景音频。目前仅对企业开放申请，早期反馈音频自然，但缺少对时长的精细控制。

ByteDance通过BytePlus推出了Seed Audio 1.0，一个非流式TTS模型，能在一次生成中同时输出语音、音乐和音效。

它支持参考音频引导、图像引导音频，还能精细控制语速、音量、音调等参数。

和传统只做语音的TTS不同，这更像一个多模态音频生成模型，一次性完成复杂场景的音频内容。

目前只对企业开放申请，早期的反馈提到它生成的音频比较自然，但目前还缺少对时长的精细控制。

这其实是字节在音频生成赛道的一次比较激进的尝试，把语音和背景音效/音乐打包在一个模型里解决。

BytePlusMeet Seed Audio 1.0 - Now open for enterprise access application. A pioneering non-streaming TTS model that generates voice, music, and sound effects in a singl...

产品更新多模态语音

在 X 查看原推导出 Markdown

Berryxia.AI@berryxia · X

57导出 Markdown