Berryxia.AI@berryxia

2026-05-11 20:26·52天前

AI 摘要

本文梳理了本地大模型推理的主流格式。GGUF是llama.cpp推出的单文件格式，集成头文件、元数据和权重，加载快且支持灵活的K-quants量化（2-8bit），兼容llama.cpp等工具，适合CPU与低配设备跨平台使用。MLX是Apple为M系列芯片优化的框架，采用目录结构，在Mac上利用统一内存架构实现高效加载与处理，支持4bit量化，为Mac用户提供最佳体验。其他如PyTorch/Safetensors是训练分享标配，ONNX侧重跨框架部署。建议Mac用户优先MLX，跨平台或低配选GGUF，训练分享用Safetensors。

一次将大模型的格式搞清楚！盘它！很多朋友都在讨论大模型的这么多格式，到底有啥区别？

于是想一篇把 GGUF、MLX 这些本地大模型格式弄清楚。

简单说，GGUF 是 llama.cpp 团队搞出来的单文件格式，现在已经是本地推理最主流的选择。

以前 GGML 已经基本淘汰了，现在一个 .gguf 文件就把 header、元数据和所有 tensor 全装进去，加载特别快，还支持各种 K-quants 量化，从 2bit 到 8bit 都能灵活混用。

llama.cpp、Ollama、LM Studio 这些工具基本都靠它跑，Hugging Face 上也一大堆现成的 GGUF 版本。

MLX 则是 Apple 专门为 M 系列芯片优化的框架，mlx-lm 是它的 LLM 版本。

模型格式不是单个文件，而是一个目录，里面有 config、tokenizer 和权重（常见 .npz 或 safetensors）。

它在 Mac 上跑得特别爽，因为用了统一内存架构，加载和上下文处理都稳，转换时还能直接做 4bit 量化或者混合精度。

还有一些其他非主流核心格式比如：

PyTorch / Safetensors 是训练和分享的标配，ONNX 适合跨框架部署，TensorRT 则是 NVIDIA 极致性能专用。

最有意思的是：GGUF 单文件、量化最灵活、跨平台强，特别适合 CPU 和低配设备。 MLX 在 Mac 上速度和微调体验最好。

Safetensors 体积大但分享方便；

ONNX 更偏生产部署。

预训练阶段其实都不直接用这些格式，大模型训练完都是 PyTorch/Safetensors 的 checkpoint，后续转换时再做量化（PTQ），GGUF 和 MLX 就是在这一步把量化玩得最溜。

总的来说，本地 Mac 用户优先 MLX，跨平台或低配设备就选 GGUF，训练分享还是 Safetensors 最稳。

对想自己折腾本地 LLM 的同学来说，可以看看对比图。

教程/实践端侧部署/工程

在 X 查看原推

Berryxia.AI@berryxia · X

57导出 Markdown