# Unsloth将Kimi K2.7 Code压缩至325GB本地运行

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-06-15 21:32
- AIHOT 分数：58
- AIHOT 链接：https://aihot.virxact.com/items/cmqfb2rol006ysl4rwbyuwy6n
- 原文链接：https://x.com/berryxia/status/2066514189464822235

## AI 摘要

Unsloth 将 1 万亿参数的 Kimi K2.7 Code 通过动态 2-bit 量化压缩 48% 至 325GB，重要层保持更高精度。在 330GB RAM/VRAM 配置下，推理速度超过 40 tok/s；全精度版本需 610GB。该方案使这一大型 coding 模型能在本地长期运行，支持长程任务、复杂推理和 agent 工作流，且保留了“少过思考”的推理效率优势。

## 正文

1万亿参数的Kimi K2.7 Code，现在直接被Unsloth塞进了本地能跑，动态2bit量化后只剩325GB，还能跑到40+ tok/s。

Unsloth把这个巨兽模型用Dynamic 2-bit方案压了48%，重要层保持更高精度，其他部分大胆量化。

结果就是330GB的RAM/VRAM就能跑起来，速度还不错。想全精度也可以，但需要610GB。

以前大家觉得这么大的coding模型只能云端用，或者根本跑不动，现在开源社区直接把前沿能力打包成能在自己机器上长期跑的东西。

长程任务、复杂推理、agent工作流，都能本地闭环。

最关键的是这不是简单粗暴的量化，是保留了模型推理效率的优化。

Kimi本来就因为"少过思考"而强，现在本地版还能继承这个优点。

### 引用推文

> Unsloth AI：You can now run Kimi K2.7 Code locally! 🌘 We shrank the 1T model to 325GB (-48%) via Dynamic 2-bit where important layers are upcasted. Run at >40 tok/s on 330...
