# 今天这个tts有点东西啊！

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-05-06 07:28
- AIHOT 分数：67
- AIHOT 链接：https://aihot.virxact.com/items/cmotb5adq03tislv7yo0fsnhg
- 原文链接：https://x.com/berryxia/status/2051806244730798241

## AI 摘要

Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2，突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话，捕捉情绪、语气与节奏，动态决定回应方式，成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括：支持用自然语言语音指令像指挥大语言模型一样调整声音；同一声音身份可跨100多种语言保持一致性；还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

## 正文

今天这个tts有点东西啊！

所有TTS都在卷"声音有多像人"，
Inworld AI却直接把规则改了：
Realtime TTS-2 是第一个真正"会听"的实时语音模型。

它不只是说，
它会实时听完整段对话、捕捉情绪、语气、节奏，
然后决定"该怎么说"。

更狠的是：
- 支持自然语言语音指令（像prompt LLM一样指挥声音）
- 同一个声音身份横跨100+语言，切换不换人
- 还能用一段文字描述就生成全新声音，保存后直接复用

这已经不是"语音输出"，
而是"会倾听、会共情、会适配"的实时对话伙伴。

过去语音AI听起来再真，也总像在背台词。
现在，它终于开始"像一个真正注意你的人"那样说话了。

试用链接👉 https://inworld.ai/tts

### 引用推文

> Inworld AI：Introducing Realtime TTS-2, a new generation of voice model built for realtime conversation. It is the first voice model that hears the conversation, takes natu...
