Unsloth 将 1 万亿参数的 Kimi K2.7 Code 通过动态 2-bit 量化压缩 48% 至 325GB,重要层保持更高精度。在 330GB RAM/VRAM 配置下,推理速度超过 40 tok/s;全精度版本需 610GB。该方案使这一大型 coding 模型能在本地长期运行,支持长程任务、复杂推理和 agent 工作流,且保留了“少过思考”的推理效率优势。
You can now run Kimi K2.7 Code locally! 🌘 We shrank the 1T model to 325GB (-48%) via Dynamic 2-bit where important laye...