小互@xiaohu

2026-05-29 09:03·35天前

AI 摘要

ElevenLabs 推出 Dubbing V2，一个端到端的AI配音模型。它突破了传统“转写-翻译-合成”的拼接流程，直接基于原始表演建模声音，从而将说话者的音色、情绪和演绎完整迁移到目标语言中。该模型支持 90 多种语言和口音，支持音频、视频及文本输入。其核心能力包括跨语言音色克隆、情绪演绎保留、输出时长与原片口型同步，以及本地化自然表达。演示视频展示了其在多语种无缝切换、快节奏对白及故事叙述中的应用效果。

ElevenLabs 推出 Dubbing V2

端到端的AI配音模型…

最大的变化：配音不再是"先转写、再翻译、最后合成"三段式拼接，而是模型直接基于原始表演建模声音。

并将音色、情绪、演绎都跟着穿越进每一种语言

也就是说，同一个人开口讲六国语言，听上去还是他本人，连情绪和呼吸节奏都对得上

Dubbing v2 支持 90 多种语言和口音，

原理：它针对原始表演来生成，而不是针对一段转录文本，所以语气、情绪、表达方式会跨语言保留下来，声音克隆全自动，会给原说话人建一个声音模型并应用到所有目标语言，保留身份、音高和语气，不用手动设置。

另外支持音频、视频和文字三种输入

具体能力：

• 音色穿越：不是模仿你的声音，是你的声音直接在另一种语言里说话

• 情绪保真：原片里你笑你叹气你激动，译版照样有

• 同步感知翻译：译文长度匹配原片口型和停顿，不会嘴动完了字幕还在跑

• 措辞本地化：不是字面直译，每种语言用自己的表达方式

• 端到端全自动：传一个视频进去出一份配音，中间没有手工拼接

视频里他们演了三个场景：

MrBeast 风格的荒岛求生在 English/German/French 之间无缝切换

一段财务部门的快节奏对白试连贯性

一个童话故事试表达力

产品更新多模态语音

在 X 查看原推导出 Markdown

小互@xiaohu · X

62导出 Markdown