# Apple押注端侧AI，开源小模型MiniCPM-V 4.6实现高效边缘部署

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-05-12 08:59
- AIHOT 分数：57
- AIHOT 链接：https://aihot.virxact.com/items/cmp1z2neb02r5slbphoqebbf5
- 原文链接：https://x.com/berryxia/status/2054003492835201218

## AI 摘要

推文指出Apple的统一内存架构是端侧AI的理想平台。同时，OpenBMB发布了专为消费级硬件优化的1.3B多模态模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，实现了高效的边缘原生部署。其在多项关键基准测试中超越了更大的模型，且token消耗仅为对比模型的2.5%。在RTX 4090上处理高分辨率图像时，首token延迟仅75.7ms，速度快2.2倍。模型技术亮点包括Intra-ViT早期压缩和混合视觉压缩，有效平衡了分辨率与延迟。其部署友好，支持iOS、Android、HarmonyOS及多种主流推理框架与量化格式，相关资源已在各大平台开源。

## 正文

Apple 一直其实在赌端侧模型的应用！
统一架构内存就是端侧模型的天然温床！

统一内存也就是，内存即显存。
也看到越来越多的优秀端侧模型出现。

OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了，我看完觉得现在小模型在边缘设备上真的越来越能打。

它重点做了高分辨率视觉处理，专门针对消费级硬件和手机优化。

他们用了 LLaVA-UHD v4 的新技术，直接把视觉编码成本砍了 55%，让模型能在普通手机和电脑上原生跑起来，效率高得离谱。

实际测下来，它在几个关键多模态基准上超过了 Gemma4-E2B-it 和Qwen3.5-0.8B，而且用的 token 只有后者的 2.5%。

速度方面也特别能看：在 RTX 4090 上处理 31362 高清图片时，首 token 时间只要 75.7ms，比 Qwen3.5-0.8B 快 2.2 倍，token 吞吐量还高出 1.5 倍左右。

技术上他们玩了 Intra-ViT 早期压缩和混合 4x/16x 视觉压缩，基本把分辨率和延迟的曲线拉平了，想象一下以后手机上直接跑高分辨率视觉任务都不会卡。

对开发者来说也特别友好：iOS、Android、HarmonyOS 部署代码全开源，几步就能跑起来。

消费级 GPU 上就能 fine-tuning，还原生支持 SGLang、vLLM、llama.cpp、Ollama，GGUF、BNB、AWQ、GPTQ 各种量化格式都有，直接就能用。

Hugging Face、GitHub、Modelscope、网页 demo 和 App demo 都放出来了，想玩的同学可以直接去试。

我改天搞个demo看看😂

### 引用推文

> OpenBMB：1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. We've leveraged the latest LLaVA-UHD v4 ...