OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化,但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练(QAT)方案,允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型,无需转换为 BF16 而牺牲性能。实测显示,经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%,在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署,保持 MXFP4 格式的推理速度与内存优势。