ElevenLabs 推出 Dubbing V2,一个端到端的AI配音模型。它突破了传统“转写-翻译-合成”的拼接流程,直接基于原始表演建模声音,从而将说话者的音色、情绪和演绎完整迁移到目标语言中。该模型支持 90 多种语言和口音,支持音频、视频及文本输入。其核心能力包括跨语言音色克隆、情绪演绎保留、输出时长与原片口型同步,以及本地化自然表达。演示视频展示了其在多语种无缝切换、快节奏对白及故事叙述中的应用效果。
ElevenLabs 推出 Dubbing V2
端到端的AI配音模型…
最大的变化:配音不再是"先转写、再翻译、最后合成"三段式拼接,而是模型直接基于原始表演建模声音。
并将音色、情绪、演绎都跟着穿越进每一种语言
也就是说,同一个人开口讲六国语言,听上去还是他本人,连情绪和呼吸节奏都对得上
Dubbing v2 支持 90 多种语言和口音,
原理:它针对原始表演来生成,而不是针对一段转录文本,所以语气、情绪、表达方式会跨语言保留下来,声音克隆全自动,会给原说话人建一个声音模型并应用到所有目标语言,保留身份、音高和语气,不用手动设置。
另外支持音频、视频和文字三种输入
具体能力:
• 音色穿越:不是模仿你的声音,是你的声音直接在另一种语言里说话
• 情绪保真:原片里你笑你叹气你激动,译版照样有
• 同步感知翻译:译文长度匹配原片口型和停顿,不会嘴动完了字幕还在跑
• 措辞本地化:不是字面直译,每种语言用自己的表达方式
• 端到端全自动:传一个视频进去出一份配音,中间没有手工拼接