本文梳理了本地大模型推理的主流格式。GGUF是llama.cpp推出的单文件格式,集成头文件、元数据和权重,加载快且支持灵活的K-quants量化(2-8bit),兼容llama.cpp等工具,适合CPU与低配设备跨平台使用。MLX是Apple为M系列芯片优化的框架,采用目录结构,在Mac上利用统一内存架构实现高效加载与处理,支持4bit量化,为Mac用户提供最佳体验。其他如PyTorch/Safetensors是训练分享标配,ONNX侧重跨框架部署。建议Mac用户优先MLX,跨平台或低配选GGUF,训练分享用Safetensors。
一次将大模型的格式搞清楚!盘它! 很多朋友都在讨论大模型的这么多格式,到底有啥区别?
于是想一篇把 GGUF、MLX 这些本地大模型格式弄清楚。
简单说,GGUF 是 llama.cpp 团队搞出来的单文件格式,现在已经是本地推理最主流的选择。
以前 GGML 已经基本淘汰了,现在一个 .gguf 文件就把 header、元数据和所有 tensor 全装进去,加载特别快,还支持各种 K-quants 量化,从 2bit 到 8bit 都能灵活混用。
llama.cpp、Ollama、LM Studio 这些工具基本都靠它跑,Hugging Face 上也一大堆现成的 GGUF 版本。
MLX 则是 Apple 专门为 M 系列芯片优化的框架,mlx-lm 是它的 LLM 版本。
模型格式不是单个文件,而是一个目录,里面有 config、tokenizer 和权重(常见 .npz 或 safetensors)。
它在 Mac 上跑得特别爽,因为用了统一内存架构,加载和上下文处理都稳,转换时还能直接做 4bit 量化或者混合精度。