Miso One这种8B参数、110ms延迟的情感TTS模型,直接把声音克隆和自托管做成了开箱即用,做语音产品的可以马上 clone 一个玩玩,比等 API 爽多了。
Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆(只需短样本),推理延迟仅 110ms。模型权重已开源至 GitHub,无需 API 即可自托管,音频数据不离开本地。API 访问即将推出。演示已上线,可先试听再克隆仓库。
Miso One 已上线:这是一个开源权重的语音模型,旨在听起来像真人朗读,在大多数 TTS 仍然平淡无奇的地方,它拥有真正的温暖感和节奏感。
80亿参数,在 GitHub 上免费提供,支持从短样本进行一次性语音克隆,延迟为110毫秒。
自行托管,你的音频数据永远不会离开你的机器。无需 API,无锁定。
在演示页面中输入任意一行文字,在克隆仓库之前就能听到效果。