从单张图像构建实时视频智能体：Runway Characters技术解析

2026-05-04 00:00·48天前

精选理由

把单张图变成实时对话角色这件事，Runway 做到了 24fps 且 1.75 秒响应。不是预录，是真实时，还带了知识库和工具调用，做虚拟角色产品的可以直接拿来集成。

AI 摘要

Runway公司推出“Characters”实时视频智能体，它能将任意单张参考图像（如真人、卡通或幻想生物照片）实时转化为具有自然对话表现力的视频角色。该技术基于其通用世界模型GWM-1，无需微调即可生成每秒24帧的高清视频，并同步口型、表情和头部运动。其核心突破在于通过自回归逐帧生成、流程优化与并行化，实现了每帧仅37毫秒的模型处理时间，以及从用户停止说话到角色开始响应仅1.75秒的服务器端延迟，从而满足了实时交互对话的严苛要求。

AI 翻译 · 中文

Runway 新闻 | 用 Runway Characters 从单张图像构建实时视频智能体

[](https://runwayml.com/) 研究产品资源解决方案公司

企业销售登录试用 Runway 上传中...

您的视频文件正在上传。当前加载的视频是源文件。构建 Runway Characters：

从单张图像构建实时对话视频智能体

立即试用

2026 年 5 月 4 日

Runway 研究与工程团队

引言

我们如何构建了一个实时视频智能体，能将任意单张图像——逼真的人像、卡通吉祥物或奇幻生物——转化为完全富有表现力的对话角色，以 24fps 运行，端到端延迟极低。零微调需求。上传中...

您的视频文件正在上传。当前加载的视频是源文件。

Runway Characters 是一个实时视频智能体，能将单张参考图像转化为完全富有表现力的对话视频角色。它基于我们的通用世界模型 GWM-1，能够以 **24 帧每秒** (fps) 的高清分辨率生成自然的唇形同步、面部表情和头部运动。

Characters 每帧的有效模型推理时间为 **37 毫秒**（超过 24 fps），从用户停止说话到角色开始回复的服务端周转时间为 **1.75 秒**。

这篇文章将介绍 Characters 的独特之处：它能驱动的视觉风格范围之广、我们如何实现实时性，以及围绕该模型构建的产品生态。

跨越任意视觉风格的表现力生成

Characters 的输入是一张参考图像。仅此而已。系统直接从图像中提取风格，并立即开始生成以实时音频为条件的对话视频。

以下是 720p 片段，展示了 Characters 如何驱动单张参考图像跨越多种风格——从逼真的人像到卡通、生物和品牌吉祥物——并呈现自然、富有表现力的对话。上传中...

您的视频文件正在上传。当前加载的视频是源文件。

取消静音上传中...

您的视频文件正在上传。当前加载的视频是源文件。

取消静音上传中...

您的视频文件正在上传。当前加载的视频是源文件。

取消静音上传中...

您的视频文件正在上传。当前加载的视频是源文件。

取消静音上传中...

您的视频文件正在上传。当前加载的视频是源文件。

取消静音上传进行中...

您的视频文件正在上传。当前加载的视频即为源文件。

取消静音上传进行中...

您的视频文件正在上传。当前加载的视频即为源文件。

取消静音上传进行中...

您的视频文件正在上传。当前加载的视频即为源文件。

取消静音上传进行中...

您的视频文件正在上传。当前加载的视频即为源文件。

取消静音

实现实时化

实时24fps：角色每帧实际模型时间为**37毫秒**，从用户停止说话到角色开始响应的服务端周转时间为**1.75秒**。

在交互式对话循环中以24fps生成高清视频，与离线视频生成是本质上不同的工程问题。离线时，每帧可以花费数秒。而在对话中，每帧的预算只有42毫秒（1/24秒）——这还不包括音频处理、网络传输以及一旦延迟攀升就会消失的“临场感”。在我们的实时会话中，我们实现了每帧实际模型时间**37毫秒**，以及从用户停止说话到角色开始响应（语音智能体+视频管线）的服务端周转时间**1.75秒**。

我们通过GWM-1的自回归逐帧生成实现了这一点：帧是按顺序生成的，并在生成后流式传输到客户端，而不是对整个片段进行迭代去噪。

上传进行中...

您的视频文件正在上传。当前加载的视频即为源文件。

我们之所以能实现实时24fps，是因为重叠机制：扩散Transformer和VAE解码器通过管线拆分并发运行。这使得每次迭代的成本更接近max(扩散时间, 解码时间)，而不是扩散时间+解码时间。

每次迭代生成4个像素帧，因此在24fps下，每167毫秒（4/24秒）需要一次迭代。在我们的测量中，扩散需要151毫秒，VAE解码器需要119毫秒；由于解码是重叠的，它基本上从关键路径中消失了。这样算下来，每帧实际模型时间为**37毫秒**（151毫秒 / 4帧），低于41毫秒/帧的实时预算。

如果没有重叠，扩散将消耗167毫秒预算的大部分，解码则会超出预算。而有了重叠，第N-1帧的解码与第N帧的扩散同时运行。

“实时”也体现在用户的端到端体验上：从用户停止说话到角色开始响应的时间。综合计算：1185 毫秒（语音智能体）+ 567 毫秒（视频管线）= 本次会话中 **1.75 秒** 的服务端延迟。客户端↔服务端网络每侧增加 200 毫秒（往返共 400 毫秒），具体取决于连接质量。

进一步降低延迟的最大杠杆在于语音智能体：视频管线已经很快，我们预计随着语音智能体响应时间的改善，整体周转时间将进一步下降。

以下是实现这种实时性能的五项关键模型级与系统级优化：

**去噪时间步蒸馏** Flow Matching 可能需要大量去噪步骤。我们使用分布匹配蒸馏（DMD）来减少步骤/前向传递次数，并结合学生强制（student forcing）与多块生成（multi‑chunk generation）以保障长程稳定性。

**并行化** 我们在多个设备上分片执行推理，主要瓶颈是通信开销。我们将张量并行扩散模型与 VAE 解码器在专用设备上流水线处理，使解码不与 Transformer 架构争抢资源。

**KV 缓存管理** 自回归视频每生成一帧都会增加 KV 缓存。高效的逐出/压缩机制在保持时间一致性的同时不牺牲吞吐量。

**CUDA Graphs** 在某些分辨率下，内核启动开销可能成为主导。我们将前向传播捕获为静态 CUDA Graph 以减少开销，并严格遵守形状/内存约束。

**内核性能** 我们针对硬件调整注意力/矩阵乘法内核以降低延迟和内存流量。CuteDSL Flash Attention 4 与融合 Triton 内核等工具帮助保持关键路径的高效。

---

**03**

**从模型到产品生态**

实现 24fps 的实时角色视频只是故事的一半。要构建一个有用的实时视频智能体，你需要配套的产品表面：将角色锚定在你的领域中的方式，将其连接到真实应用，并将其部署到对话实际发生的地方。

**上传中……**

你的视频文件正在上传。当前加载的视频是源文件。

**静音**

**视觉（摄像头 + 屏幕共享）** 角色可以在会话期间看到你的摄像头或共享屏幕，以支持辅导、演示、游戏和设计反馈等视觉工作流。

**了解更多**

一个角色的声音是其身份和可信度的核心。我们通过文本转语音（根据提示词设计）和即时语音克隆（基于音频样本）让您快速获得“正确的声音”，然后将其分配给您的角色，从而在多个会话中保持一致的语调。

进一步了解

上传中…

您的视频文件正在上传。当前加载的视频是源文件。

取消静音

工具调用

角色可以在会话期间为您执行操作。您定义它们被允许使用的“工具”——从用户界面操作（显示字幕、弹出知识卡、更新游戏状态）到可信的后端 RPC（例如 fetch_order_status 拉取真实的订单状态/预计到达时间），其结果会反馈回对话中。

进一步了解

知识库

附加您自己的文档（文本/Markdown 格式），让角色能够基于您公司和产品的知识（支持文档、常见问题、内部政策、规格说明）来回答，而不是给出泛泛的回复。

进一步了解

上传中…

您的视频文件正在上传。当前加载的视频是源文件。

取消静音

可嵌入的小部件

通过一行代码即可将实时角色嵌入到任何 Web 应用中。该小部件为您处理实时的底层连接，让您能在几分钟内嵌入虚拟形象。

进一步了解

会议集成

将角色带入 Zoom/Google Meet/Teams 的真实会议中，使其能够看到和听到正在发生的事情并实时响应——从团队站会到客户通话，均可适用。

进一步了解

上传中…

您的视频文件正在上传。当前加载的视频是源文件。

取消静音

试试 Characters。和我们一起构建。

Runway Characters 现已通过 Runway API 以及 Runway 网页端和移动端应用提供。如果你热爱实时模型、低延迟系统，并希望在技术前沿交付产品——我们正在招聘。

立即试用加入团队

产品探索示例 Characters GWM-1 通用世界模型 Robotics SDK Gen-4.5 Aleph Act-Two API

项目 AI Summit 2026 ↗ Studios AI Festival ↗ Gen:48 Academy ↗ 资源创意合作伙伴计划 Runway Builders

公司我们的研究出版物招贤纳士关于我们客户案例新闻人才网络 ↗ 安全

开始使用面向企业面向教育登录定价帮助中心 ↗ 数据安全更新日志

连接媒体合作伙伴关系品牌指南 Meetups ↗ Twitter ↗ Instagram ↗ YouTube ↗ Discord ↗

行为准则 / 系统状态

智能体产品更新视频

Runway：News（网页）

精选80

从单张图像构建实时视频智能体：Runway Characters技术解析

2026-05-04 00:00·48天前

精选理由

AI 摘要

AI 翻译 · 中文

Runway 新闻 | 用 Runway Characters 从单张图像构建实时视频智能体

[](https://runwayml.com/) 研究产品资源解决方案公司

企业销售登录试用 Runway 上传中...

您的视频文件正在上传。当前加载的视频是源文件。构建 Runway Characters：

从单张图像构建实时对话视频智能体

立即试用

2026 年 5 月 4 日

Runway 研究与工程团队

引言

您的视频文件正在上传。当前加载的视频是源文件。

Characters 每帧的有效模型推理时间为 **37 毫秒**（超过 24 fps），从用户停止说话到角色开始回复的服务端周转时间为 **1.75 秒**。

这篇文章将介绍 Characters 的独特之处：它能驱动的视觉风格范围之广、我们如何实现实时性，以及围绕该模型构建的产品生态。

跨越任意视觉风格的表现力生成

Characters 的输入是一张参考图像。仅此而已。系统直接从图像中提取风格，并立即开始生成以实时音频为条件的对话视频。

您的视频文件正在上传。当前加载的视频是源文件。

取消静音上传中...

您的视频文件正在上传。当前加载的视频是源文件。

取消静音上传中...

您的视频文件正在上传。当前加载的视频是源文件。

取消静音上传中...

您的视频文件正在上传。当前加载的视频是源文件。

取消静音上传中...

您的视频文件正在上传。当前加载的视频是源文件。

取消静音上传进行中...

您的视频文件正在上传。当前加载的视频即为源文件。

取消静音上传进行中...

您的视频文件正在上传。当前加载的视频即为源文件。

取消静音上传进行中...

您的视频文件正在上传。当前加载的视频即为源文件。

取消静音上传进行中...

您的视频文件正在上传。当前加载的视频即为源文件。

取消静音

实现实时化

实时24fps：角色每帧实际模型时间为**37毫秒**，从用户停止说话到角色开始响应的服务端周转时间为**1.75秒**。

我们通过GWM-1的自回归逐帧生成实现了这一点：帧是按顺序生成的，并在生成后流式传输到客户端，而不是对整个片段进行迭代去噪。

上传进行中...

您的视频文件正在上传。当前加载的视频即为源文件。

如果没有重叠，扩散将消耗167毫秒预算的大部分，解码则会超出预算。而有了重叠，第N-1帧的解码与第N帧的扩散同时运行。

进一步降低延迟的最大杠杆在于语音智能体：视频管线已经很快，我们预计随着语音智能体响应时间的改善，整体周转时间将进一步下降。

以下是实现这种实时性能的五项关键模型级与系统级优化：

**KV 缓存管理** 自回归视频每生成一帧都会增加 KV 缓存。高效的逐出/压缩机制在保持时间一致性的同时不牺牲吞吐量。

**CUDA Graphs** 在某些分辨率下，内核启动开销可能成为主导。我们将前向传播捕获为静态 CUDA Graph 以减少开销，并严格遵守形状/内存约束。

**内核性能** 我们针对硬件调整注意力/矩阵乘法内核以降低延迟和内存流量。CuteDSL Flash Attention 4 与融合 Triton 内核等工具帮助保持关键路径的高效。

---

**03**

**从模型到产品生态**

**上传中……**

你的视频文件正在上传。当前加载的视频是源文件。

**静音**

**视觉（摄像头 + 屏幕共享）** 角色可以在会话期间看到你的摄像头或共享屏幕，以支持辅导、演示、游戏和设计反馈等视觉工作流。

**了解更多**

进一步了解

上传中…

您的视频文件正在上传。当前加载的视频是源文件。

取消静音

工具调用

进一步了解

知识库

进一步了解

上传中…

您的视频文件正在上传。当前加载的视频是源文件。

取消静音

可嵌入的小部件

通过一行代码即可将实时角色嵌入到任何 Web 应用中。该小部件为您处理实时的底层连接，让您能在几分钟内嵌入虚拟形象。

进一步了解

会议集成

将角色带入 Zoom/Google Meet/Teams 的真实会议中，使其能够看到和听到正在发生的事情并实时响应——从团队站会到客户通话，均可适用。

进一步了解

上传中…

您的视频文件正在上传。当前加载的视频是源文件。

取消静音

试试 Characters。和我们一起构建。

立即试用加入团队

产品探索示例 Characters GWM-1 通用世界模型 Robotics SDK Gen-4.5 Aleph Act-Two API

项目 AI Summit 2026 ↗ Studios AI Festival ↗ Gen:48 Academy ↗ 资源创意合作伙伴计划 Runway Builders

公司我们的研究出版物招贤纳士关于我们客户案例新闻人才网络 ↗ 安全

开始使用面向企业面向教育登录定价帮助中心 ↗ 数据安全更新日志

连接媒体合作伙伴关系品牌指南 Meetups ↗ Twitter ↗ Instagram ↗ YouTube ↗ Discord ↗

行为准则 / 系统状态

智能体产品更新视频

阅读原文runwayml.com