向阳乔木@vista8

2026-05-15 18:05·48天前

AI 摘要

面壁智能推出仅1.3B参数的视觉语言模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，专为消费级和移动硬件优化，支持高效边缘部署。其在关键多模态和Artificial Analysis基准测试中，性能超越了Gemma4-E2B-it和Qwen3.5-0.8B等更大模型，且仅消耗后者2.5%的token预算。在处理高分辨率图像时，其首token生成时间比Qwen3.5-0.8B快2.2倍，在单张RTX 4090上的token吞吐量约为后者的1.5倍。模型已在Hugging Face、ModelScope等平台开源发布。

前几天在Huggingface看到模型论文了。

面壁智能的MiniCPM-V 4.6 ，竟然只有1.3B的视觉模型。

看Benchmark效果有点强，抽空测试下。

OpenBMB1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. We've leveraged the latest LLaVA-UHD v4 ...

多模态模型发布端侧

在 X 查看原推导出 Markdown

向阳乔木@vista8 · X

63导出 Markdown