豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。
声音模型的 Seedance 时刻,终于来了 今天我体验到一个全新的声音模型,跟以前所有的声音模型都不一样。 以前的声音模型一般叫 TTS(文本转语音),它们只能根据你给的文本来合成语音,它更像是一个朗读机器,而非智能声音模型。 但这个新模型,可以根据你的想象,生成一切你所需要的声音,包括人声、音乐、音效、环境音,以及这些声音里所富含的那些不可言说的微妙细节。
它的名字名字叫:豆包音频生成模型 Seed Audio 1.0。 在我看来,这就是声音模型的 Seedance 时刻。 就像香蕉是人类第一次将智能赋予图像,Seed Audio 是人类第一次将智能赋予声音。 接下来,就让我们一起听听它到底有何特别。 推特不能发音频,可转至公众号来听
https://mp.weixin.qq.com/s/GGjob8FJW6Xn-sulzc_MLg