把 198B 的视觉模型塞进一台桌面盒子,还跑通了,这本身就是个小里程碑。更关键的是,这篇实战直接帮你绕开了三个大坑,省下的三小时够你喝杯咖啡慢慢试了。
阶跃星辰发布了Step 3.7 Flash,这是一款198B参数的视觉模型,旨在DGX Spark等桌面设备上运行。用户实测表明,128GB统一内存是运行门槛,模型占用约104GB。部署无需官方专用llama.cpp分支,主线版本即可。在上下文长度上存在权衡:启用视觉功能时,基于q8 KV cache的64K为上限;若要使用最高256K上下文,则需禁用视觉并切换至q4 KV cache,此时模型与缓存共占约114GB内存。该模型是推理模型,思考过程可能消耗大量max_tokens,需注意设置。
一个198B参数的视觉模型,运行在桌面上的一个小机箱里。这就是我们打造 Step 3.7 Flash 的目的。
精彩的拆解分析 @sudoingX — 为大家省去了几个小时的困惑时间 🎉