Unsloth 将 1 万亿参数的 Kimi K2.7 Code 通过动态 2-bit 量化压缩 48% 至 325GB,重要层保持更高精度。在 330GB RAM/VRAM 配置下,推理速度超过 40 tok/s;全精度版本需 610GB。该方案使这一大型 coding 模型能在本地长期运行,支持长程任务、复杂推理和 agent 工作流,且保留了“少过思考”的推理效率优势。
1万亿参数的Kimi K2.7 Code,现在直接被Unsloth塞进了本地能跑,动态2bit量化后只剩325GB,还能跑到40+ tok/s。
Unsloth把这个巨兽模型用Dynamic 2-bit方案压了48%,重要层保持更高精度,其他部分大胆量化。
结果就是330GB的RAM/VRAM就能跑起来,速度还不错。想全精度也可以,但需要610GB。
以前大家觉得这么大的coding模型只能云端用,或者根本跑不动,现在开源社区直接把前沿能力打包成能在自己机器上长期跑的东西。
长程任务、复杂推理、agent工作流,都能本地闭环。
最关键的是这不是简单粗暴的量化,是保留了模型推理效率的优化。
Kimi本来就因为"少过思考"而强,现在本地版还能继承这个优点。