推文指出Apple的统一内存架构是端侧AI的理想平台。同时,OpenBMB发布了专为消费级硬件优化的1.3B多模态模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术,将视觉编码成本降低55%,实现了高效的边缘原生部署。其在多项关键基准测试中超越了更大的模型,且token消耗仅为对比模型的2.5%。在RTX 4090上处理高分辨率图像时,首token延迟仅75.7ms,速度快2.2倍。模型技术亮点包括Intra-ViT早期压缩和混合视觉压缩,有效平衡了分辨率与延迟。其部署友好,支持iOS、Android、HarmonyOS及多种主流推理框架与量化格式,相关资源已在各大平台开源。
Apple 一直其实在赌端侧模型的应用! 统一架构内存就是端侧模型的天然温床!
统一内存也就是,内存即显存。 也看到越来越多的优秀端侧模型出现。
OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了,我看完觉得现在小模型在边缘设备上真的越来越能打。
它重点做了高分辨率视觉处理,专门针对消费级硬件和手机优化。
他们用了 LLaVA-UHD v4 的新技术,直接把视觉编码成本砍了 55%,让模型能在普通手机和电脑上原生跑起来,效率高得离谱。
实际测下来,它在几个关键多模态基准上超过了 Gemma4-E2B-it 和Qwen3.5-0.8B,而且用的 token 只有后者的 2.5%。
速度方面也特别能看:在 RTX 4090 上处理 31362 高清图片时,首 token 时间只要 75.7ms,比 Qwen3.5-0.8B 快 2.2 倍,token 吞吐量还高出 1.5 倍左右。