快手开源 Kwai Keye-VL-2.0-30B-A3B:面向长视频理解与智能体智能的 MoE 多模态模型
阅读原文· arxiv.orgKeye-VL-2.0 把长视频理解推到 256K 上下文,还用了 DeepSeek 的稀疏注意力,这是目前我能找到的对长短视频最兼顾的多模态模型,做视频 agent 的该看看。
快手开源 Kwai Keye-VL-2.0-30B-A3B,一个 MoE 多模态基础模型,激活仅 3B 参数,专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构,实现无损 256K 上下文处理,并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏(MOPD)结合 Context-RL 和 Video-RL,缓解多任务对齐中的灾难性遗忘,原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA,模型权重已开源。
我们推出 Kwai Keye-VL-2.0-30B-A3B,这是一个开源的混合专家(MoE)多模态基础模型,旨在推进长视频理解与智能体智能。为了应对小时级视频中固有的超长上下文、信息冗余以及高昂计算成本等挑战,Keye-VL-2.0 首次将 DeepSeek 稀疏注意力(DSA)适配到基于 GQA 的多模态架构上,实现了无损的 256K 上下文处理能力,同时能够捕捉关键帧和长程时间依赖关系。该架构依托于高度优化的训练与推理基础设施,包括可扩展的视频 I/O、异构 ViT-LM 并行以及自定义 DSA 内核,大幅提升了吞吐量并降低了计算开销。此外,为了克服多任务对齐过程中灾难性遗忘的算法困境,我们引入了跨模态多教师在线策略蒸馏(MOPD),并结合了 Context-RL 与 Video-RL。通过将在线策略 rollout 中密集的 token 级教师反馈蒸馏回仅激活 3B 参数的 MoE 主干网络,Keye-VL-2.0 原生支持跨代码、工具和搜索场景的高级智能体协作,并具备多模态自我修正能力。在视频理解、时间定位、推理、STEM 以及智能体基准上的广泛评估表明,Keye-VL-2.0-30B-A3B 在相似规模的模型中达到了最先进的性能,尤其在 TimeLens 上的细粒度时间定位、Video-MME-v2 和 LongVideoBench 上的长视频理解方面表现卓越。我们发布了模型检查点,以加速社区向可扩展且鲁棒的多模态智能体应用迈进。