小互@xiaohu

2026-06-27 17:10·5天前

AI 摘要

阿里通义实验室Wan团队发布Wan Streamer v0.1，首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms，总延迟约550ms，25fps下流式处理单元160ms，分辨率192p。同步生成语音与面部视频，支持全双工打断，取消外部ASR/TTS/动画模块，通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证，未开放使用。

http://x.com/i/article/2070795179813203968

Wan Streamer：一个能跟你实时视频通话的真人 AI

阿里通义实验室 Wan 团队放出 Wan Streamer 模型，一个能跟你实时视频通话的真人 AI。

我们已经习惯了跟 AI 打字、语音聊天。Wan Streamer 往前走了一步，它能跟你视频通话：你这边有摄像头和麦克风，它那边实时生成一张会说话的脸，看着你、回应你。

效果展示：

📹 视频1 · 中文日常通话 -- 在此插入视频。中文 · 暖色室内视频通话：聊刮胡子、在家办公、想看一部特效不错的新动作片。清晰自然男声。

1 · 这是什么：一个模型跑通实时音视频对话

Wan Streamer v0.1 是一个实时音视频交互模型。能实时对话的 AI 现在不少，但能一边看你的脸、一边听你说话、一边开口回应、自己还自带一张会动的脸的，几乎没有。Wan Streamer 把这件事压进了一个模型里。

它在同一个 Transformer 里同时处理语言、音频、视频的输入和输出，做到亚秒级的全双工音视频对话：模型自己算出一段回应大约只要 200 毫秒，加上网络往返后总延迟约 550 毫秒。

为什么值得看：现在能实时对话的系统分两类，一类响应快但只出声音、没有可见的脸（GPT-4o Realtime、豆包、Gemini Live），另一类有脸但靠外部 ASR、语言模型、TTS、动画一串模块拼出来。官方称 Wan Streamer 是唯一用单个端到端 Transformer 同时吐出同步音视频、且总延迟压在 1 秒内的模型。

几个关键数字：

~200 ms - 模型侧响应延迟

~550 ms - 总交互延迟（200ms 模型侧 + 350ms 网络往返）

160 ms - 25fps 下最短的流式处理单元

192p - v0.1 分辨率，端到端设计的概念验证

把总延迟 550ms 拆开看：模型本身只占 200ms，剩下 350ms 是网络往返。也就是说，纯模型的反应速度，比你读到的总延迟更快。

2 · 旧办法为什么慢：一道道接力，每步都在等

旧办法慢，是因为它们是一串独立模型拼起来的流水线：语音先转成文字（ASR），文字喂给语言模型想答案（LLM），答案再合成语音（TTS），最后驱动一张脸动起来（动画渲染）。

音视频输入 → ⏳ASR 识别 → ⏳LLM 想答案 → ⏳TTS 合成语音 → ⏳动画渲染 → 输出

每过一道工序都要等上一道交货，等待时间一段段累加，识别和口型对不齐的误差也一路累积。每个箭头都是一次等待 + 一次误差累积；模块之间靠文字当中转桥；多数系统只出语音，或者把一张脸勉强拼出来，且不报告端到端时延。

Wan Streamer 是端到端单模型：音视频输入 →「一个 Transformer」（感知 · 推理 · 规划 · 生成一起做）→ 同步音视频输出。没有接缝，等待时间坍缩；轮次管理、被打断、长程一致性，作为一个连贯行为一起学出来。

打个比方：端到端像一个人自己听完直接开口；级联像传话游戏，每过一手都慢一拍，还可能把话传错。中间那层把语音/视频先转成文字、再用文字驱动下游--文字就是各模块之间隐藏的中转桥，桥越多越慢、越容易错。Wan Streamer 不要这个中间桥，模态之间直接耦合。

原文给这件事下了一个判断：实时音视频交互不是「多模态理解」加「多模态生成」的简单相加，它本质上是全双工的，所以可流式性是一种建模约束，而不只是上线后的工程优化。建在离线编码器、双向解码器、回合制对话之上的系统，光靠工程调优也补不出真正的低延迟全双工。

小互@xiaohu · X

64导出 Markdown

2026-06-27 17:10·5天前

在 X 看原推· x.com

AI 摘要

http://x.com/i/article/2070795179813203968

Wan Streamer：一个能跟你实时视频通话的真人 AI

阿里通义实验室 Wan 团队放出 Wan Streamer 模型，一个能跟你实时视频通话的真人 AI。

效果展示：

📹 视频1 · 中文日常通话 -- 在此插入视频。中文 · 暖色室内视频通话：聊刮胡子、在家办公、想看一部特效不错的新动作片。清晰自然男声。

Wan Streamer：一个能跟你实时视频通话的真人 AI

1 · 这是什么：一个模型跑通实时音视频对话

2 · 旧办法为什么慢：一道道接力，每步都在等

Wan Streamer：一个能跟你实时视频通话的真人 AI

1 · 这是什么：一个模型跑通实时音视频对话

3 · 核心创新：一个模型从听到说全包了

4 · 怎么做到边听边说、随时能打断

5 · 和别的系统比，快在哪、能做什么

2 · 旧办法为什么慢：一道道接力，每步都在等

3 · 核心创新：一个模型从听到说全包了

4 · 怎么做到边听边说、随时能打断

5 · 和别的系统比，快在哪、能做什么