# ByteDance 推 Seed Audio 1.0：多模态音频生成模型

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-06-30 22:42
- AIHOT 分数：57
- AIHOT 链接：https://aihot.virxact.com/items/cmr0sxvyk04uhslol199eli9c
- 原文链接：https://x.com/berryxia/status/2071967519070622012

## AI 摘要

ByteDance 通过 BytePlus 推出 Seed Audio 1.0，一个非流式 TTS 模型，可在一次生成中同时输出语音、音乐和音效。支持参考音频引导、图像引导音频，以及语速、音量、音调等精细控制。与传统仅生成语音的 TTS 不同，它更像多模态音频生成模型，一次性完成复杂场景音频。目前仅对企业开放申请，早期反馈音频自然，但缺少对时长的精细控制。

## 正文

ByteDance通过BytePlus推出了Seed Audio 1.0，一个非流式TTS模型，能在一次生成中同时输出语音、音乐和音效。

它支持参考音频引导、图像引导音频，还能精细控制语速、音量、音调等参数。

和传统只做语音的TTS不同，这更像一个多模态音频生成模型，一次性完成复杂场景的音频内容。

目前只对企业开放申请，早期的反馈提到它生成的音频比较自然，但目前还缺少对时长的精细控制。

这其实是字节在音频生成赛道的一次比较激进的尝试，把语音和背景音效/音乐打包在一个模型里解决。

### 引用推文

> BytePlus：Meet Seed Audio 1.0 - Now open for enterprise access application. A pioneering non-streaming TTS model that generates voice, music, and sound effects in a singl...
