Unsloth 将 GLM-5.2 压缩为 1-bit GGUF 量化版本,在 Mac Studio M3 Ultra(256GB RAM)上以约 21.6 tok/s 本地运行。与 Claude 4.8 Opus、GPT-5.5 使用相同提示进行创意输出(HTML/设计效果)对比,1-bit 版本表现不逊色,甚至更丰富、“更有想法”。GLM-5.2 本身以创意和长上下文见长,极端量化后仍保持较强表现,验证了开源模型在极端优化后正快速缩小与闭源前沿模型在实际可用性上的差距,尤其适合本地部署。
这下让真的可以让很多人都闭嘴了! Unsloth把GLM-5.2压缩到1-bit后。
本地跑起来居然还能和Claude Opus、GPT-5.5正面比创意输出。
他们用Mac Studio M3 Ultra 256GB RAM跑1-bit版本,速度还能到21 tok/s左右。
在同一个prompt下生成的HTML/设计效果,看起来甚至比闭源模型更丰富、更"有想法"。
这已经不是简单的量化了,而是把一个原本需要海量显存的超大模型,硬生生塞进了消费级硬件还能打。
GLM-5.2本身就以创意和长上下文见长,现在连极致量化后都还能保持较强的表现,确实有点超出预期。
这也再次验证了一个趋势:开源模型在极端优化后,正在快速缩小和闭源前沿模型在实际可用性上的差距,尤其是在本地部署和特定任务上。
大内存的本子这下真的太香了,Qwen 3.7 这些模型又该迭代版了。