AI 摘要
面壁智能推出仅1.3B参数的视觉语言模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术,将视觉编码成本降低55%,专为消费级和移动硬件优化,支持高效边缘部署。其在关键多模态和Artificial Analysis基准测试中,性能超越了Gemma4-E2B-it和Qwen3.5-0.8B等更大模型,且仅消耗后者2.5%的token预算。在处理高分辨率图像时,其首token生成时间比Qwen3.5-0.8B快2.2倍,在单张RTX 4090上的token吞吐量约为后者的1.5倍。模型已在Hugging Face、ModelScope等平台开源发布。
前几天在Huggingface看到模型论文了。
面壁智能的MiniCPM-V 4.6 ,竟然只有1.3B的视觉模型。
看Benchmark效果有点强,抽空测试下。
1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. We've leveraged the latest LLaVA-UHD v4 ...