CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始,推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro,基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型,掌握微调技能市场价值高,企业常愿支付高额费用定制个性化模型。
刚刷到CJ Zafir 发了一条关于 fine-tuning 小模型的帖子,看下来觉得这波建议特别实在。
他直接说,如果你也喜欢玩开源模型 fine-tuning,那先听听这些:
从 1B、2B、4B、8B 这些小模型开始练手,别一上来就冲 27B 以上。
云 GPU 用 Google Colab Pro 就够了,A100 80GB 一小时才 0.6 美元左右,小模型完全够用。
数据集自己造,用 Codex 5.5 先规划,再配 DeepSeek v4 Pro 生成每一行数据。
底座模型推荐 Unsloth 的 instruct 版本,Hugging Face 上直接拉,fine-tuning 笔记也用他们的做参考,直接丢给 Codex 让它帮你改成你想要的配置。
他建议花一天时间把这些东西过一遍:SFT、RL 训练(GRPO、DPO、PPO 这些)、LoRA / QLoRA、量化类型、本地推理引擎(llama.cpp)、KV cache 和 prompt cache。
他说就直接上手吧,Claude、Codex、ChatGPT 都能给你设计第一步的完整计划。