GLM-5.2 开源模型发布:744B 参数,1M 上下文,可本地运行
阅读原文· unsloth.aiUnsloth 这篇操作指南把 GLM-5.2 从「只能仰望」变成了「可以在自家 256GB Mac 上跑」,动态量化让 744B 参数模型降到了 239GB 磁盘占用,对想上手本地最强开源模型的人,这一步正好踩在从 curiosity 到可用的临界点上。
Z.ai 发布 GLM-5.2,开源 744B 参数(40B 活跃),1M 上下文窗口,性能与 Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro 持平。通过 Unsloth 动态量化,2-bit GGUF 版本内存需求降至 239GB(-84%),1-bit 版降至 217GB(-86%),可运行于 256GB 统一内存 Mac 或 1×24GB GPU+256GB RAM。提供非思考、高、最大三种思考模式。评测显示动态 1-bit 准确率约 76.2%,2-bit 约 82%。
GLM-5.2 是 Z.ai 推出的全新开源模型,在长程编程、推理和智能体任务上均达到 SOTA 水平。该模型拥有 744B 参数、40B 活跃参数以及 1M 上下文窗口,现已可通过 Unsloth Dynamic GGUF 在本地运行。在 Artificial Analysis 及众多其他基准测试中,GLM-5.2 是目前最强的开源模型,性能与 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 持平。
完整模型需要 1.51TB 磁盘空间,而 Unsloth Dynamic 2-bit GGUF 通过将重要层提升至 8 或 16 位,将其缩减至 239GB(体积减小 84%)。Dynamic 1-bit 进一步降至 217GB(减小 86%)。感谢 Z.ai 在首日便向 Unsloth 开放了访问权限。GLM-5.2-GGUF
运行 GLM-5.2 教程量化结果
⚙️ 使用指南
2-bit 动态量化版本 UD-IQ2_M 占用 239GB 磁盘空间——可直接装入 256GB 统一内存的 Mac,并在 1×24GB GPU 搭配 256GB RAM 且开启 MoE 卸载的情况下良好运行。1-bit 量化版本可装入 223GB 的 RAM,8-bit 版本则需要 810GB 的 RAM。
表:推理硬件需求(单位 = 总内存:RAM + VRAM,或统一内存)
223 GB
245 GB
290–360 GB
372–475 GB
570 GB
810 GB
为获得最佳性能,请确保您可用的总内存(含 VRAM 和系统 RAM)留出充足的余量,超过量化后的模型文件大小。
最后更新于 6 小时前
这对你有帮助吗?