Orange AI@oran_ge

2026-06-23 13:05·9天前

AI 摘要

豆包音频生成模型 Seed Audio 1.0 发布，区别于传统 TTS（文本转语音）的朗读式合成，该模型能根据想象生成人声、音乐、音效和环境音，并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”，类比香蕉首次将智能赋予图像，认为这是人类首次将智能赋予声音。

声音模型的 Seedance 时刻，终于来了今天我体验到一个全新的声音模型，跟以前所有的声音模型都不一样。以前的声音模型一般叫 TTS（文本转语音），它们只能根据你给的文本来合成语音，它更像是一个朗读机器，而非智能声音模型。但这个新模型，可以根据你的想象，生成一切你所需要的声音，包括人声、音乐、音效、环境音，以及这些声音里所富含的那些不可言说的微妙细节。

它的名字名字叫：豆包音频生成模型 Seed Audio 1.0。在我看来，这就是声音模型的 Seedance 时刻。就像香蕉是人类第一次将智能赋予图像，Seed Audio 是人类第一次将智能赋予声音。接下来，就让我们一起听听它到底有何特别。推特不能发音频，可转至公众号来听

https://mp.weixin.qq.com/s/GGjob8FJW6Xn-sulzc_MLg