NousResearch/tinker-nemogym

2026-04-21 23:20·60天前·NousResearch

AI 摘要

NousResearch 发布了 tinker-nemogym，这是一个强化学习训练器，它将 NVIDIA NeMo-Gym 环境与 Thinking Machines Tinker 托管的 LoRA 训练桥接起来。该工具的核心架构包含一个进程内的 FastAPI 垫片，它模拟 nemo-gym 的 SimpleResponsesAPIModel，并将每个补全请求通过 tinker.SamplingClient 路由。关键特性包括支持零停机权重更新的热交换采样器、采用 GRPO 优势函数、动态代理发现、精度间隙诊断以及完整的 Wandb 集成。项目已针对 Llama-3.1-8B-Instruct 和 Nemotron-Nano-30B 模型在 Tinker 云上进行了实时验证，并提供了多个端到端测试脚本。用户可通过设置 TINKER_API_KEY 并运行脚本快速开始使用。

该来源未收录可展示正文，站内仅提供摘要。

智能体开源/仓库数据/训练

阅读原文

Nous Research：GitHub 新仓库

处理中

NousResearch/tinker-nemogym

2026-04-21 23:20·60天前·NousResearch

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文github.com

智能体开源/仓库数据/训练