# OpenAI开源推理模型性能评测出炉

- 来源：Hao AI Lab (@haoailab)
- 发布时间：2025-08-07 05:04
- AIHOT 分数：81
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmnxjn85o00h0sl9oz3hg57qx
- 原文链接：https://x.com/haoailab/status/1953200510653350281

## 精选理由

OpenAI 终于开源了，这是 GPT-2 之后第一次放开权重，120B 和 20B 两个尺寸直接对标 Llama 和 Qwen 的开源生态。虽然游戏 benchmark 排名不算惊艳，但信号本身比分数重要得多，所有基于开源模型做产品的团队都得重新评估选型。

## AI 摘要

[Lmgame Bench] 🔥 OpenAI 刚刚发布了两款开放权重的推理模型：gpt-oss-120B（约1170亿参数）和 gpt-oss-20B（约210亿参数），它们是自 GPT-2 以来首批开放权重的 OpenAI 模型。

我们在 Lmgame Bench 中对两者进行了测试，涵盖4款互动游戏：
🧱 推箱子 | 🟦 俄罗斯方块 | 🔢 2048 | 🍬 糖果传奇

以下是它们的排名（满分25分）：
→ gpt-oss-120b → 第12名
→ gpt-oss-20b → 第13名

## 正文

[Lmgame Bench] 🔥 OpenAI 刚刚发布了两个开放权重的推理模型：gpt-oss-120B（约 117B）和 gpt-oss-20B（约 21B），这是自 GPT-2 以来 OpenAI 首批开放权重的模型。

我们在 Lmgame Bench 上对这两个模型进行了测试，涉及 4 款互动游戏： 🧱 推箱子 | 🟦 俄罗斯方块 | 🔢 2048 | 🍬 糖果传奇

以下是它们的排名（共 25 名）： → gpt-oss-120b → 第 12 名 → gpt-oss-20b → 第 13 名