# 快手开源 Kwai Keye-VL-2.0-30B-A3B：面向长视频理解与智能体智能的 MoE 多模态模型

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-06-09 08:00
- AIHOT 分数：70
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq7u3iet01peslepwrtwakhb
- 原文链接：https://arxiv.org/abs/2606.10651

## 精选理由

Keye-VL-2.0 把长视频理解推到 256K 上下文，还用了 DeepSeek 的稀疏注意力，这是目前我能找到的对长短视频最兼顾的多模态模型，做视频 agent 的该看看。

## AI 摘要

快手开源 Kwai Keye-VL-2.0-30B-A3B，一个 MoE 多模态基础模型，激活仅 3B 参数，专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构，实现无损 256K 上下文处理，并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏（MOPD）结合 Context-RL 和 Video-RL，缓解多任务对齐中的灾难性遗忘，原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA，模型权重已开源。

## 正文

我们推出 Kwai Keye-VL-2.0-30B-A3B，这是一个开源的混合专家（MoE）多模态基础模型，旨在推进长视频理解与智能体智能。为了应对小时级视频中固有的超长上下文、信息冗余以及高昂计算成本等挑战，Keye-VL-2.0 首次将 DeepSeek 稀疏注意力（DSA）适配到基于 GQA 的多模态架构上，实现了无损的 256K 上下文处理能力，同时能够捕捉关键帧和长程时间依赖关系。该架构依托于高度优化的训练与推理基础设施，包括可扩展的视频 I/O、异构 ViT-LM 并行以及自定义 DSA 内核，大幅提升了吞吐量并降低了计算开销。此外，为了克服多任务对齐过程中灾难性遗忘的算法困境，我们引入了跨模态多教师在线策略蒸馏（MOPD），并结合了 Context-RL 与 Video-RL。通过将在线策略 rollout 中密集的 token 级教师反馈蒸馏回仅激活 3B 参数的 MoE 主干网络，Keye-VL-2.0 原生支持跨代码、工具和搜索场景的高级智能体协作，并具备多模态自我修正能力。在视频理解、时间定位、推理、STEM 以及智能体基准上的广泛评估表明，Keye-VL-2.0-30B-A3B 在相似规模的模型中达到了最先进的性能，尤其在 TimeLens 上的细粒度时间定位、Video-MME-v2 和 LongVideoBench 上的长视频理解方面表现卓越。我们发布了模型检查点，以加速社区向可扩展且鲁棒的多模态智能体应用迈进。