从单张图像构建实时视频智能体:Runway Characters技术解析
把单张图变成实时对话角色这件事,Runway 做到了 24fps 且 1.75 秒响应。不是预录,是真实时,还带了知识库和工具调用,做虚拟角色产品的可以直接拿来集成。
Runway公司推出“Characters”实时视频智能体,它能将任意单张参考图像(如真人、卡通或幻想生物照片)实时转化为具有自然对话表现力的视频角色。该技术基于其通用世界模型GWM-1,无需微调即可生成每秒24帧的高清视频,并同步口型、表情和头部运动。其核心突破在于通过自回归逐帧生成、流程优化与并行化,实现了每帧仅37毫秒的模型处理时间,以及从用户停止说话到角色开始响应仅1.75秒的服务器端延迟,从而满足了实时交互对话的严苛要求。
Runway 新闻 | 用 Runway Characters 从单张图像构建实时视频智能体
[](https://runwayml.com/) 研究 产品 资源 解决方案 公司
企业销售登录试用 Runway 上传中...
您的视频文件正在上传。当前加载的视频是源文件。 构建 Runway Characters:
从单张图像构建实时对话视频智能体
立即试用
2026 年 5 月 4 日
Runway 研究与工程团队
引言
我们如何构建了一个实时视频智能体,能将任意单张图像——逼真的人像、卡通吉祥物或奇幻生物——转化为完全富有表现力的对话角色,以 24fps 运行,端到端延迟极低。零微调需求。 上传中...
您的视频文件正在上传。当前加载的视频是源文件。
Runway Characters 是一个实时视频智能体,能将单张参考图像转化为完全富有表现力的对话视频角色。它基于我们的通用世界模型 GWM-1,能够以 **24 帧每秒** (fps) 的高清分辨率生成自然的唇形同步、面部表情和头部运动。
Characters 每帧的有效模型推理时间为 **37 毫秒**(超过 24 fps),从用户停止说话到角色开始回复的服务端周转时间为 **1.75 秒**。
这篇文章将介绍 Characters 的独特之处:它能驱动的视觉风格范围之广、我们如何实现实时性,以及围绕该模型构建的产品生态。
01
跨越任意视觉风格的表现力生成
Characters 的输入是一张参考图像。仅此而已。系统直接从图像中提取风格,并立即开始生成以实时音频为条件的对话视频。
以下是 720p 片段,展示了 Characters 如何驱动单张参考图像跨越多种风格——从逼真的人像到卡通、生物和品牌吉祥物——并呈现自然、富有表现力的对话。 上传中...
您的视频文件正在上传。当前加载的视频是源文件。
取消静音 上传中...
您的视频文件正在上传。当前加载的视频是源文件。
取消静音 上传中...
您的视频文件正在上传。当前加载的视频是源文件。
取消静音 上传中...
您的视频文件正在上传。当前加载的视频是源文件。
取消静音 上传中...
您的视频文件正在上传。当前加载的视频是源文件。
取消静音 上传进行中...
您的视频文件正在上传。当前加载的视频即为源文件。
取消静音 上传进行中...
您的视频文件正在上传。当前加载的视频即为源文件。
取消静音 上传进行中...
您的视频文件正在上传。当前加载的视频即为源文件。
取消静音 上传进行中...
您的视频文件正在上传。当前加载的视频即为源文件。
取消静音
02
实现实时化
实时24fps:角色每帧实际模型时间为**37毫秒**,从用户停止说话到角色开始响应的服务端周转时间为**1.75秒**。
在交互式对话循环中以24fps生成高清视频,与离线视频生成是本质上不同的工程问题。离线时,每帧可以花费数秒。而在对话中,每帧的预算只有42毫秒(1/24秒)——这还不包括音频处理、网络传输以及一旦延迟攀升就会消失的“临场感”。在我们的实时会话中,我们实现了每帧实际模型时间**37毫秒**,以及从用户停止说话到角色开始响应(语音智能体+视频管线)的服务端周转时间**1.75秒**。
我们通过GWM-1的自回归逐帧生成实现了这一点:帧是按顺序生成的,并在生成后流式传输到客户端,而不是对整个片段进行迭代去噪。
上传进行中...
您的视频文件正在上传。当前加载的视频即为源文件。
我们之所以能实现实时24fps,是因为重叠机制:扩散Transformer和VAE解码器通过管线拆分并发运行。这使得每次迭代的成本更接近max(扩散时间, 解码时间),而不是扩散时间+解码时间。
每次迭代生成4个像素帧,因此在24fps下,每167毫秒(4/24秒)需要一次迭代。在我们的测量中,扩散需要151毫秒,VAE解码器需要119毫秒;由于解码是重叠的,它基本上从关键路径中消失了。这样算下来,每帧实际模型时间为**37毫秒**(151毫秒 / 4帧),低于41毫秒/帧的实时预算。
如果没有重叠,扩散将消耗167毫秒预算的大部分,解码则会超出预算。而有了重叠,第N-1帧的解码与第N帧的扩散同时运行。
“实时”也体现在用户的端到端体验上:从用户停止说话到角色开始响应的时间。综合计算:1185 毫秒(语音智能体)+ 567 毫秒(视频管线)= 本次会话中 **1.75 秒** 的服务端延迟。客户端↔服务端网络每侧增加 200 毫秒(往返共 400 毫秒),具体取决于连接质量。
进一步降低延迟的最大杠杆在于语音智能体:视频管线已经很快,我们预计随着语音智能体响应时间的改善,整体周转时间将进一步下降。
以下是实现这种实时性能的五项关键模型级与系统级优化:
**去噪时间步蒸馏** Flow Matching 可能需要大量去噪步骤。我们使用分布匹配蒸馏(DMD)来减少步骤/前向传递次数,并结合学生强制(student forcing)与多块生成(multi‑chunk generation)以保障长程稳定性。
**并行化** 我们在多个设备上分片执行推理,主要瓶颈是通信开销。我们将张量并行扩散模型与 VAE 解码器在专用设备上流水线处理,使解码不与 Transformer 架构争抢资源。
**KV 缓存管理** 自回归视频每生成一帧都会增加 KV 缓存。高效的逐出/压缩机制在保持时间一致性的同时不牺牲吞吐量。
**CUDA Graphs** 在某些分辨率下,内核启动开销可能成为主导。我们将前向传播捕获为静态 CUDA Graph 以减少开销,并严格遵守形状/内存约束。
**内核性能** 我们针对硬件调整注意力/矩阵乘法内核以降低延迟和内存流量。CuteDSL Flash Attention 4 与融合 Triton 内核等工具帮助保持关键路径的高效。
---
**03**
**从模型到产品生态**
实现 24fps 的实时角色视频只是故事的一半。要构建一个有用的实时视频智能体,你需要配套的产品表面:将角色锚定在你的领域中的方式,将其连接到真实应用,并将其部署到对话实际发生的地方。
**上传中……**
你的视频文件正在上传。当前加载的视频是源文件。
**静音**
**视觉(摄像头 + 屏幕共享)** 角色可以在会话期间看到你的摄像头或共享屏幕,以支持辅导、演示、游戏和设计反馈等视觉工作流。
**了解更多**
一个角色的声音是其身份和可信度的核心。我们通过文本转语音(根据提示词设计)和即时语音克隆(基于音频样本)让您快速获得“正确的声音”,然后将其分配给您的角色,从而在多个会话中保持一致的语调。
进一步了解
上传中…
您的视频文件正在上传。当前加载的视频是源文件。
取消静音
工具调用
角色可以在会话期间为您执行操作。您定义它们被允许使用的“工具”——从用户界面操作(显示字幕、弹出知识卡、更新游戏状态)到可信的后端 RPC(例如 fetch_order_status 拉取真实的订单状态/预计到达时间),其结果会反馈回对话中。
进一步了解
知识库
附加您自己的文档(文本/Markdown 格式),让角色能够基于您公司和产品的知识(支持文档、常见问题、内部政策、规格说明)来回答,而不是给出泛泛的回复。
进一步了解
上传中…
您的视频文件正在上传。当前加载的视频是源文件。
取消静音
可嵌入的小部件
通过一行代码即可将实时角色嵌入到任何 Web 应用中。该小部件为您处理实时的底层连接,让您能在几分钟内嵌入虚拟形象。
进一步了解
会议集成
将角色带入 Zoom/Google Meet/Teams 的真实会议中,使其能够看到和听到正在发生的事情并实时响应——从团队站会到客户通话,均可适用。
进一步了解
上传中…
您的视频文件正在上传。当前加载的视频是源文件。
取消静音
试试 Characters。和我们一起构建。
Runway Characters 现已通过 Runway API 以及 Runway 网页端和移动端应用提供。如果你热爱实时模型、低延迟系统,并希望在技术前沿交付产品——我们正在招聘。
立即试用加入团队
产品 探索示例 Characters GWM-1 通用世界模型 Robotics SDK Gen-4.5 Aleph Act-Two API
项目 AI Summit 2026 ↗ Studios AI Festival ↗ Gen:48 Academy ↗ 资源 创意合作伙伴计划 Runway Builders
公司 我们的研究 出版物 招贤纳士 关于我们 客户案例 新闻 人才网络 ↗ 安全
开始使用 面向企业 面向教育 登录 定价 帮助中心 ↗ 数据安全 更新日志
连接 媒体 合作伙伴关系 品牌指南 Meetups ↗ Twitter ↗ Instagram ↗ YouTube ↗ Discord ↗
© 2026 Runway AI,Inc. / 使用条款 / 隐私政策 / 加州通知 / 您的隐私选择
行为准则 / 系统状态