NousResearch/tinker-nemogym
NousResearch 发布了 tinker-nemogym,这是一个强化学习训练器,它将 NVIDIA NeMo-Gym 环境与 Thinking Machines Tinker 托管的 LoRA 训练桥接起来。该工具的核心架构包含一个进程内的 FastAPI 垫片,它模拟 nemo-gym 的 SimpleResponsesAPIModel,并将每个补全请求通过 tinker.SamplingClient 路由。关键特性包括支持零停机权重更新的热交换采样器、采用 GRPO 优势函数、动态代理发现、精度间隙诊断以及完整的 Wandb 集成。项目已针对 Llama-3.1-8B-Instruct 和 Nemotron-Nano-30B 模型在 Tinker 云上进行了实时验证,并提供了多个端到端测试脚本。用户可通过设置 TINKER_API_KEY 并运行脚本快速开始使用。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文github.com