OpenAI 终于开源了,这是 GPT-2 之后第一次放开权重,120B 和 20B 两个尺寸直接对标 Llama 和 Qwen 的开源生态。虽然游戏 benchmark 排名不算惊艳,但信号本身比分数重要得多,所有基于开源模型做产品的团队都得重新评估选型。
[Lmgame Bench] 🔥 OpenAI 刚刚发布了两款开放权重的推理模型:gpt-oss-120B(约1170亿参数)和 gpt-oss-20B(约210亿参数),它们是自 GPT-2 以来首批开放权重的 OpenAI 模型。 我们在 Lmgame Bench 中对两者进行了测试,涵盖4款互动游戏: 🧱 推箱子 | 🟦 俄罗斯方块 | 🔢 2048 | 🍬 糖果传奇 以下是它们的排名(满分25分): → gpt-oss-120b → 第12名 → gpt-oss-20b → 第13名
[Lmgame Bench] 🔥 OpenAI 刚刚发布了两个开放权重的推理模型:gpt-oss-120B(约 117B)和 gpt-oss-20B(约 21B),这是自 GPT-2 以来 OpenAI 首批开放权重的模型。
我们在 Lmgame Bench 上对这两个模型进行了测试,涉及 4 款互动游戏: 🧱 推箱子 | 🟦 俄罗斯方块 | 🔢 2048 | 🍬 糖果传奇
以下是它们的排名(共 25 名): → gpt-oss-120b → 第 12 名 → gpt-oss-20b → 第 13 名