GLM-5.2 开源模型发布：744B 参数，1M 上下文，可本地运行

2026-06-23 07:56·9天前·TechTechTech

精选理由

Unsloth 这篇操作指南把 GLM-5.2 从「只能仰望」变成了「可以在自家 256GB Mac 上跑」，动态量化让 744B 参数模型降到了 239GB 磁盘占用，对想上手本地最强开源模型的人，这一步正好踩在从 curiosity 到可用的临界点上。

AI 摘要

Z.ai 发布 GLM-5.2，开源 744B 参数（40B 活跃），1M 上下文窗口，性能与 Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro 持平。通过 Unsloth 动态量化，2-bit GGUF 版本内存需求降至 239GB（-84%），1-bit 版降至 217GB（-86%），可运行于 256GB 统一内存 Mac 或 1×24GB GPU+256GB RAM。提供非思考、高、最大三种思考模式。评测显示动态 1-bit 准确率约 76.2%，2-bit 约 82%。

AI 翻译 · 中文

完整的文档索引请参见 llms.txt。此页面也提供 Markdown 格式。

GLM-5.2 是 Z.ai 推出的全新开源模型，在长程编程、推理和智能体任务上均达到 SOTA 水平。该模型拥有 744B 参数、40B 活跃参数以及 1M 上下文窗口，现已可通过 Unsloth Dynamic GGUF 在本地运行。在 Artificial Analysis 及众多其他基准测试中，GLM-5.2 是目前最强的开源模型，性能与 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 持平。

完整模型需要 1.51TB 磁盘空间，而 Unsloth Dynamic 2-bit GGUF 通过将重要层提升至 8 或 16 位，将其缩减至 239GB（体积减小 84%）。Dynamic 1-bit 进一步降至 217GB（减小 86%）。感谢 Z.ai 在首日便向 Unsloth 开放了访问权限。GLM-5.2-GGUF

运行 GLM-5.2 教程量化结果

⚙️ 使用指南

2-bit 动态量化版本 UD-IQ2_M 占用 239GB 磁盘空间——可直接装入 256GB 统一内存的 Mac，并在 1×24GB GPU 搭配 256GB RAM 且开启 MoE 卸载的情况下良好运行。1-bit 量化版本可装入 223GB 的 RAM，8-bit 版本则需要 810GB 的 RAM。

表：推理硬件需求（单位 = 总内存：RAM + VRAM，或统一内存）

1-bit

2-bit

3-bit

4-bit

5-bit

8-bit

223 GB

245 GB

290–360 GB

372–475 GB

570 GB

810 GB

为获得最佳性能，请确保您可用的总内存（含 VRAM 和系统 RAM）留出充足的余量，超过量化后的模型文件大小。

上一篇 QwQ-32B 下一篇 DiffusionGemma

最后更新于 6 小时前

这对你有帮助吗？

Hacker News 热门（buzzing.cc 中文翻译）

精选84导出 Markdown