# AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

- 来源：IT之家（RSS）
- 发布时间：2026-05-20 15:43
- AIHOT 分数：67
- AIHOT 链接：https://aihot.virxact.com/items/cmpdrputs06f5slk19ghcrukk
- 原文链接：https://www.ithome.com/0/952/903.htm

## AI 摘要

阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种，输出音频语种从10种增加至29种。通过采用新的流式翻译技术，端到端字均延迟降低至2.8秒，同时支持实时音色克隆以保留说话人原声特征，并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。

## 正文

IT之家 5 月 20 日消息，据通义实验室消息，通义千问团队发布了 Qwen3.5-LiveTranslate-Flash 实时语音翻译模型，该模型在语种覆盖、延迟控制和音色保留等方面实现显著突破，旨在解决跨境直播、跨国会议等场景中的实时同传痛点。

IT之家附官方详细介绍如下：

跨境直播卡顿、跨国会议延迟、AI 配音“机器感”太重…… 实时同传一直卡在“延迟、语种、音色”三大痛点。

Qwen3.5-LiveTranslate-Flash 给出了解决方案：支持 60 种语言的音频输入和文字输出，29 种语言的音频输出，端到端字均延迟低至 2.8 秒，还能保留说话人的原声特征。

核心亮点速览

Qwen3.5-LiveTranslate

输入音频和输出文本语种从 18 种提升至 60 种，输出音频从 10 种提升至 29 种；

语音同传字均延迟降低至 2.8 秒；

支持实时音色克隆，翻译后仍保留说话人原声特征；

内置热词能力，专有名词和行业术语翻译更精准。

Qwen3.5-LiveTranslate 能听懂和翻译 60 种语言，其中 29 种可以实现语音输出。输入音频和输出文本语种从 18 个大幅提升至 60 个，输出音频语向从 10 个提升至 29 个，覆盖更多国家与区域的语言互译组合，满足跨境会议、直播出海、在线课堂、商务谈判等多语同传需求。

引入全新 Readable Unit（可读单元）实时翻译技术，在保证译文可读性与语义连贯的前提下，实现更激进的流式输出。端到端字均延迟降低到 2.8 秒，适用于直播、连麦、发布会等对时延极敏感的场景。

支持 Real-time Voice Cloning（动态跨语言音色克隆）。在同传过程中自动捕捉并复刻说话人音色特征，译文在不同语言间依旧保持“同一个人”的声音质感与情绪表现力。主播、嘉宾、主持人的身份一致性大幅提升，沉浸感拉满。

内置动态热词（Hotword）引擎，最高支持 1000 个自定义词条。对人名、地名、品牌、产品型号、行业术语进行优先识别与优先翻译。支持场景动态配置与实时更新，显著降低技术发布会、医疗 / 法律 / 金融会议、企业内训中“术语翻错、名字听错”的风险。

我们将模型放入高频实战环境，复杂场景依旧稳定发挥：

跨国会议 & 出境旅游

多语混说 / 复杂口音：会议室多语种交替发言、带口音表达，模型精准切分并同步译。

智能硬件落地：搭配千问 AI 眼镜在泰国点餐实测，语音交互 + 实时同传无缝衔接，沟通零障碍。

直播带货 & 影视出海

数字与规格精准翻译：直播连麦中，商品参数、价格、折扣数字翻译准确率极高，带货宣发不断档。

古文 / 文化内容同传：准确理解并翻译古典文言文，语义连贯且保留文化韵味，字幕与配音同步流畅。

视觉消歧辅助

结合多模态理解能力，在语境模糊时自动引入视觉信息辅助判断，大幅降低“一词多义”导致的翻译歧义。

在公开多语言语音翻译基准（FLEURS、CoVoST2）上，Qwen3.5-LiveTranslate-Flash 翻译准确率优于当前主流语音大模型，显著优于前代 Qwen3-LiveTranslate-Flash，在语言覆盖和翻译质量上均实现突破。

凭借可读单元流式策略，Qwen3.5-LiveTranslate-Flash 相比 Qwen3-LiveTranslate-Flash 将首字延迟降低 3.45 秒、字均延迟降低 1.88 秒，最终实现端到端字均延迟 2.8 秒，翻译质量几乎无损。

相比上一代，Qwen3.5-LiveTranslate-Flash 在核心参数与功能上实现了全面进阶，详细对比如下：

Qwen3.5-LiveTranslate 是基于 Qwen3.5-Omni Thinker-Talker 架构打造的翻译大模型。面向同声传译场景，我们采用 chunk-wise 流式输入机制，引入可读单元来控制语音合成粒度，在保证同传体感的同时有效降低时延。此外，借助动态跨语言音色克隆技术，模型在翻译时能够实时识别并模仿说话人的原始音色。

从“能翻译”到“实时同传”，Qwen3.5-LiveTranslate-Flash 用更低延迟、更多语种、更自然音色，为跨境协作、内容出海、智能硬件提供新一代语音基础设施。

立即体验

Blog：https://qwen.ai/blog?id=qwen3.5-livetranslate

Demo：https://omni.qwen.ai/live-translate

阿里云百炼：即将上线
