# Miso One 开源语音模型：8B 参数、110ms 延迟、一次语音克隆

- 来源：Chubby♨️ (@kimmonismus)
- 发布时间：2026-06-04 00:32
- AIHOT 分数：75
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpyayd9g03ebslaxqumvlu4w
- 原文链接：https://x.com/kimmonismus/status/2062210845308780639

## 精选理由

Miso One这种8B参数、110ms延迟的情感TTS模型，直接把声音克隆和自托管做成了开箱即用，做语音产品的可以马上 clone 一个玩玩，比等 API 爽多了。

## AI 摘要

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆（只需短样本），推理延迟仅 110ms。模型权重已开源至 GitHub，无需 API 即可自托管，音频数据不离开本地。API 访问即将推出。演示已上线，可先试听再克隆仓库。

## 正文

Miso One 已上线：这是一个开源权重的语音模型，旨在听起来像真人朗读，在大多数 TTS 仍然平淡无奇的地方，它拥有真正的温暖感和节奏感。

80亿参数，在 GitHub 上免费提供，支持从短样本进行一次性语音克隆，延迟为110毫秒。

自行托管，你的音频数据永远不会离开你的机器。无需 API，无锁定。

在演示页面中输入任意一行文字，在克隆仓库之前就能听到效果。

### 引用推文

> Aoden Teo：Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-parameter text-to-speech model for highly expres...