# KwaiKeye开源多模态大模型Keye VL 2.0-30B-A3B

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-06-01 17:47
- AIHOT 分数：71
- AIHOT 链接：https://aihot.virxact.com/items/cmpv2xjvl037bsl0z7bv2g2a4
- 原文链接：https://x.com/berryxia/status/2061384182362984530

## AI 摘要

KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B，采用Apache 2.0许可。该模型总参数为30B，但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性：喂入的帧数越多，其准确率反而持续上升。在基准测试中，其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

## 正文

刚刚在Hugging Face刷新模型时，看到KwaiKeye放出了Keye VL 2.0-30B-A3B。

这个多模态模型总参数30B，活跃参数只有3B，Apache 2.0完全开源。

它直接用DeepSeek Sparse Attention实现了256K上下文。

最有意思的是视频理解部分的表现。

你喂给它的帧数越多，模型准确率反而稳步上升。

这和我们以前觉得长视频容易让模型迷失的直觉完全相反。

它在多个长视频基准上已经和Qwen3 VL、Gemini 3 Flash打成平手。

以前大家总觉得多模态模型要么上下文够长，要么理解够深，二者很难兼得。

现在KwaiKeye把稀疏注意力真正落地，把这两件事同时推到一个新水平。

实际效果如何，后面看看真实case册书。

### 引用推文

> Adina Yakup：Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Sparse Attention (probably the first model t...
