Chubby♨️@kimmonismus

精选75

2026-06-04 00:32·29天前

精选理由

Miso One这种8B参数、110ms延迟的情感TTS模型，直接把声音克隆和自托管做成了开箱即用，做语音产品的可以马上 clone 一个玩玩，比等 API 爽多了。

AI 摘要

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆（只需短样本），推理延迟仅 110ms。模型权重已开源至 GitHub，无需 API 即可自托管，音频数据不离开本地。API 访问即将推出。演示已上线，可先试听再克隆仓库。

AI 翻译 · 中文

Miso One 已上线：这是一个开源权重的语音模型，旨在听起来像真人朗读，在大多数 TTS 仍然平淡无奇的地方，它拥有真正的温暖感和节奏感。

80亿参数，在 GitHub 上免费提供，支持从短样本进行一次性语音克隆，延迟为110毫秒。

自行托管，你的音频数据永远不会离开你的机器。无需 API，无锁定。

在演示页面中输入任意一行文字，在克隆仓库之前就能听到效果。

Aoden TeoToday, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-parameter text-to-speech model for highly expres...

开源生态模型发布语音

在 X 查看原推导出 Markdown

Chubby♨️@kimmonismus · X

精选75导出 Markdown