KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。
刚刚在Hugging Face刷新模型时,看到KwaiKeye放出了Keye VL 2.0-30B-A3B。
这个多模态模型总参数30B,活跃参数只有3B,Apache 2.0完全开源。
它直接用DeepSeek Sparse Attention实现了256K上下文。
最有意思的是视频理解部分的表现。
你喂给它的帧数越多,模型准确率反而稳步上升。
这和我们以前觉得长视频容易让模型迷失的直觉完全相反。
它在多个长视频基准上已经和Qwen3 VL、Gemini 3 Flash打成平手。
以前大家总觉得多模态模型要么上下文够长,要么理解够深,二者很难兼得。
现在KwaiKeye把稀疏注意力真正落地,把这两件事同时推到一个新水平。
实际效果如何,后面看看真实case册书。