Ivan Fioravanti 在 mlx-vlm 项目中成功将阶跃星辰的 Step 3.7 Flash 模型移植到 MLX 框架,实现了视觉理解和文本生成。测试表明,该模型的 4bit 量化版本在 128GB Apple Silicon Mac 上支持 32K 上下文,生成速度超过 53 tokens/s。对截图的分析也准确高效。这意味着高质量的本地多模态 AI 能力可以在个人 Mac 上运行,兼顾了隐私与性能。
我今天刷到Ivan Fioravanti在mlx-vlm项目里的更新。
Step 3.7 Flash模型正式加进去了。
转换到MLX之后,视觉理解和文本生成全部跑通。
这个模型速度特别快。
4bit量化版本在128GB Apple Silicon机器上就能支持32K上下文。
他直接在Mac Studio上测了benchmark,生成速度达到53 tokens/s以上。
拿一张截图让它分析,模型把结构信息、关键元素提取得又快又准。
以前我们总觉得高质量视觉语言任务必须靠云端。
现在它把这种能力真正塞进了个人Mac。
隐私、速度、零额外费用,全都兼顾到位。
本地多模态AI又往前走了一步,真正能落地到日常项目里。