Berryxia.AI@berryxia

2026-06-01 17:47·31天前

AI 摘要

KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B，采用Apache 2.0许可。该模型总参数为30B，但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性：喂入的帧数越多，其准确率反而持续上升。在基准测试中，其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

刚刚在Hugging Face刷新模型时，看到KwaiKeye放出了Keye VL 2.0-30B-A3B。

这个多模态模型总参数30B，活跃参数只有3B，Apache 2.0完全开源。

它直接用DeepSeek Sparse Attention实现了256K上下文。

最有意思的是视频理解部分的表现。

你喂给它的帧数越多，模型准确率反而稳步上升。

这和我们以前觉得长视频容易让模型迷失的直觉完全相反。

它在多个长视频基准上已经和Qwen3 VL、Gemini 3 Flash打成平手。

以前大家总觉得多模态模型要么上下文够长，要么理解够深，二者很难兼得。

现在KwaiKeye把稀疏注意力真正落地，把这两件事同时推到一个新水平。

实际效果如何，后面看看真实case册书。

Adina YakupKeye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Sparse Attention (probably the first model t...

多模态开源生态推理模型发布

在 X 查看原推导出 Markdown

Berryxia.AI@berryxia · X

71导出 Markdown