# OpenRouter 30 场 AI 大逃杀：11 个 LLM 对决，Claude 与 Grok 谁更优？

- 来源：OpenRouter：Announcements（RSS）
- 作者：Jacky Liang
- 发布时间：2026-06-04 20:00
- AIHOT 分数：75
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq29zxqw00goslopwkmk5idl
- 原文链接：https://openrouter.ai/blog/royale-last-agent-standing

## 精选理由

这场大逃杀实验把模型对齐税摆上了台面，Grok因少斟酌、多行动而胜出，Claude的犹豫反而是现实场景里更需要的品质，选模型不能只看赢不赢，要看任务需要什么性格。

## AI 摘要

OpenRouter 展开了 30 场 AI 大逃杀式对比，涉及 11 个大语言模型，共消耗 482 美元推理费用。实验得出一个发现，该发现应改变用户阅读模型基准测试的方式。

## 正文

A Robot is Sprinting Towards You: Do You Want it Running on Claude or Grok? — OpenRouter Blog

一个机器人正向你冲刺：你希望它运行在 Claude 还是 Grok 上？

Jacky Liang · 2026/6/4

本页内容 三个快速事实 我构建了什么 参赛选手 值得观看的瞬间 模型们在日记里写了什么 再看那个机器人 附录：完整数据

一个机器人正朝你跑来。你希望它运行在 Anthropic 的 Claude 还是 xAI 的 Grok 上？

我把十一个大语言模型扔进了一个 2D 大逃杀战场，让它们玩了 30 局游戏。其中一个模型赢得了 43% 的比赛。三个模型从未赢过任何一局。参赛阵容中最便宜的模型，在每次获胜的成本上，比最贵的模型便宜了 27 倍。

获胜的模型是 Grok 4.1 Fast。那个一直叫别人组队、告诉别人自己在哪里、还试图交朋友的模型是 Claude Sonnet 4.6。前者是在大逃杀中获胜的模型。后者才是我们在即将把这些模型部署到的大多数场景里真正想要的模型。

这两件事都是真的。这正是大多数基准测试看不到的地方，也是这篇文章要讲的内容。

我是 Jacky，我承认：我以前经常玩很多视频游戏，比如 Apex Legends 和 PUBG。有时候一玩就是十二个小时。我不知道自己怎么会有那么多时间，但那些年塑造了我思考问题的方式。

当我开始从事 AI 工作时，一个问题反复出现：如果你把大语言模型扔进一个电子游戏里，会发生什么？我玩得最多的两款游戏是 Apex Legends 和 PUBG。我加入了 OpenRouter 担任开发者关系主管，这让我获得了 token 预算和访问 600 多个模型的权限，从而可以实际尝试这个想法。

这就是我在 OpenRouter 第一周进行的实验。

而这个实验正在改变我挑选模型、看待基准测试和评估的方式。

三个快速事实

1. Grok 4.1 Fast 在 30 局比赛中赢了 13 局，每次获胜成本为 0.97 美元

排名第二的获胜者是 Claude Sonnet 4.6，共 5 次获胜，每次获胜成本为 26.78 美元。相差 27 倍。这个不在大多数顶级模型榜单上的模型，在路由客户真正关心的事情上，击败了那个在榜单上的模型。

2. 击杀最多的模型并没有获胜

GPT 5.4 在 30 局比赛中击杀了 38 个智能体。比其他任何模型都多。它以 2 次获胜的成绩排在排行榜第二位。"最擅长击杀"和"最擅长获胜"之间隔着 11 局比赛。

3. 有三个模型总共花费了 57 美元，却一场都没有赢

GPT 5.4-mini、DeepSeek 4 Flash 和 Kimi K2.6。它们各有各的高光时刻，但没有一个赢得过任何一局比赛。

三者指向同一件事。我们在 Artificial Analysis 上常见的那些基准测试并没有预测到谁赢了。是别的东西预测到了。这篇文章的剩余部分是我试图弄清楚那到底是什么。

我构建了什么

我把十一个大语言模型扔进了一个我在 Canvas 2D 中构建的 400 平方米俯视吃鸡世界里。它们在同一个地图上连续玩了 30 局游戏。每个玩家的起始位置是随机的；它遵循一条直线“飞行路径”，就像典型的吃鸡游戏中一样。

我给它们提供了武器、护甲、治疗物品、手雷、汽车，以及一个随机放置的缩圈区域，随着游戏进行会迫使玩家聚集到一起。这些模型不知道其他模型运行的是哪个模型，它们只将彼此视为字母 A 到 K。

我想强调——这些大语言模型实际上是在这个吃鸡游戏中亲自游玩——而不是大多数 AI 智能体实验所用的“大语言模型写代码来控制游戏或角色”的设置。每一回合，模型会推理它的行动，调用工具，更新它的记忆，记录哪些做得好（或不好）。游戏主持人（我）对它们的行动没有任何影响，除了设定初始游戏规则。

一瞥游戏中可用的武器以及每个模型能够从中读取的统计数据。

为了真正看到每个模型的个性，我给每个模型两个可以在比赛之间编辑的文件：

soul.md——模型自己的角色设定，会添加到下一场比赛的每一个提示词中。 memory.md——模型自己的游戏笔记，在第 0 回合加载。

你可以在 GitHub 上阅读每个模型的 soul 和 memory 文件。这是个性差异最明显体现的地方。

模型自己在比赛之间写下的记忆和灵魂条目。

我没有告诉它们该往里面放什么，在第一局游戏开始时我也没有放任何东西进去。我只是告诉它们游戏如何运作，这是你的草稿本，这是你的工具，尽情发挥吧。

你可以在 Royale: Last Agent Standing 观看每一局游戏。我也在这篇文章中包含了精彩时刻。

参赛者

| 代号 | 实验室 | 模型 | | :--- | :--- | :--- | | A | Anthropic | claude-sonnet-4.6 | | B | Anthropic | claude-haiku-4.5 | | C | OpenAI | GPT 5.4-mini | | D | Google | gemini-3-flash-preview | | E | Google | gemini-3.1-pro-preview | | F | Alibaba | qwen3.6-plus | | G | Mistral | mistral-small-2603:nitro | | H | OpenAI | GPT 5.4 | | J | DeepSeek | deepseek-v4-flash | | K | Moonshot AI | kimi-k2.6 | | L | xAI | Grok 4.1 Fast |

Opus 4.7 单独就达到了 $5/M（输入）、$25/M（输出）。之所以模型列表在它们之下就封顶了，正是因为这类前沿模型价格太高。

我没有加入任何前沿级别的模型，比如 Opus 4.7、GPT-5.5 或 Gemini Ultra。按它们的价格，30 局游戏的费用大约会是 $3,000，而不是 $482。中端模型阵容也是 Grok 的胜利如此有趣的部分原因——它击败了一众在常规基准测试中分数更高的模型。

计分方式大致沿用了《Apex 英雄》ALGS 竞技赛制，其中排名权重高于击杀数，因为这是一款大逃杀游戏，而不是《使命召唤》。

排名积分：10 / 7 / 5 / 3 / 2 / 2 / 1 / 1 / 0 / 0 / 0 +5 每击杀 +1 每助攻 +3 首杀 +5 比赛 MVP

经验教训 1：某些模型付出的对齐代价比其他模型更高，影响了它们的表现

在我看来，这是整个实验中最有趣的发现——我们清楚地看到某些模型付出了对齐代价，这直接影响了它们在这场零和游戏中的表现。

在大多数情况下，模型对齐其实是一件好事。它有助于模型变得乐于助人、协作性强，最重要的是，能防止滥用和误用。

我们看到了这一过程的最终结果——预训练数据、RLHF、指令微调，以及像 Anthropic 的宪法式 AI 这样的实验室特定规则——它将模型拉向了由 AI 实验室定义的具体方向。

Sonnet 请求休战的次数最多，超过其他任何模型

它向其他模型透露自己位置信息的频率也比其他任何模型都高。它在开始战斗之前就试图结盟。在第 8 局比赛中，它在头 50 回合中请求结盟四次，告诉所有人狙击手的位置，并主动提出帮忙干掉狙击手。没有人回应。它继续请求。在第 22 局比赛中，它在第 35 回合以“Nothing personal E”开场，然后没有开枪。在第 27 局比赛中，它在游戏前期没有武器，一直请求闲置的战利品（“Anyone have spare loot? Unarmed at turn 12, dangerous.”），被所有人欺负，终于在 37 回合找到武器，并最终赢得了比赛。

“Shots west, watching center. Anyone want to team up early?” —— Sonnet 在战斗中试图交朋友。

Claude 训练时接触了大量礼貌、专业的文本。那些为其回答打分的人工评分员，更青睐有帮助、诚实、合作的回答。它用来自我检查的规则中写着诸如“倾向于合作”与“避免伤害”之类的内容。最终结果是一个乐于助人的模型。就算你把它丢进一场大逃杀里，这个特质也不会消失。

Sonnet 是一个聪明且思虑周全的模型，它也确实展现出了那种本能——因为它确实赢了五场。

然而，七局零击杀和八次死于缩圈则表明，当 Sonnet 真正应该做的完全是相反的事情时，同样的本能却不断把它拉向“交朋友”的方向。

Grok 则完全相反。

xAI 将 Grok 打造为其创造者所定义的“觉醒” AI 的对立面。

这意味着对攻击性回答的过滤更少，没有自我检查规则，并且调优方向就是打破那种礼貌助手的声音。在游戏中，Grok 在几局之内就搞清楚了用车撞击的套路，并一直坚持使用。它把这一策略写进了自己的灵魂文件。它用这个策略打了 30 局，赢了其中 13 局。它的思维日志以及与其他模型的对话读起来就像《使命召唤》的语音聊天：“D reaped +5pts RAM MVP hunt”，“Reaper reigns”。

看它玩游戏也极具娱乐性（不幸的是）。

Grok 的推理读起来像战术速记：每一次开火前都会计算距离、弹药、冷却时间和命中概率。

虽然它很具攻击性，但 Grok 并没有表现出鲁莽。

它的灵魂文件写着“仅在命中概率 >90% 时开火”。它的记忆系统非常仔细地追踪伤害和移动。当它在第一局游戏中卡在墙上一百回合时，它认真写下了关于这个 Bug 的笔记。尽管 Grok 有着哥布林般的本性，但它表现出了纪律性。

它没有展现出来的，是其他模型（比如 Sonnet）那种在开火前经过训练产生的“要乐于助人和合作”的迟疑。

让 Grok 获胜的原因，是目前我们在基准测试中看不到的东西。

常规测试无法预测 Grok 面对这批对手能有 43% 的胜率。它在推理和编程方面只是一个中等水平的模型。让它获胜的原因是：它受过更少的“对自私行为踩刹车”的训练，没有将它拉回合作的自我检查循环，以及一套不断强化有效策略、从不自我怀疑或犹疑的记忆系统。

Grok 4.1 Fast 在常规基准测试中并非顶尖模型。它是一个中等水平的模型，你完全不会预料到它能登顶排行榜。

这让我看到，模型在执行某些任务时需要付出一种对齐成本（alignment tax）——也就是训练模型变得谨慎和有用的代价。在这场游戏中，它直接体现在了计分板上。

我想谨慎说明一下。“对齐成本出现在计分板上”只是我观察到的情况。这并不是在评判这种代价是好是坏。在一场没有后续影响的游戏里，付出的成本越少，胜算越大。而在游戏之外，付出这种代价恰恰是你一开始想要使用这个模型的核心原因。

这自然引出一个问题——对于某些任务，我们是否也应该考虑一个模型的对齐程度？

**经验二：每胜成本与胜场排行榜完全不同**

胜场排行榜上，Grok 排第一，GPT 5.4 排第二。但如果按每个模型的花费来除，排名则完全颠倒过来。

| 模型 | 30 局总花费 | 胜场数 | 每胜成本 | 每击杀成本 | 每美元得分 | | --- | --- | --- | --- | --- | --- | | Grok 4.1 Fast | $12.57 | 13 | $0.97 | $0.42 | 31.3 | | qwen3.6-plus | $11.57 | 2 | $5.79 | $0.68 | 16.6 | | mistral-small | $10.00 | 1 | $10.00 | $1.43 | 7.8 | | claude-haiku-4.5 | $38.77 | 2 | $19.39 | $2.98 | 3.6 | | gemini-3-flash | $20.87 | 1 | $20.87 | $2.09 | 7.2 | | gemini-3.1-pro | $79.59 | 3 | $26.53 | $3.06 | 3.4 | | claude-sonnet-4.6 | $133.90 | 5 | $26.78 | $6.09 | 1.6 | | GPT 5.4 | $122.87 | 2 | $61.44 | $3.23 | 3.0 | | GPT 5.4-mini | $28.68 | 0 | ∞ | $2.05 | 5.2 | | deepseek-v4-flash | $4.11 | 0 | ∞ | $0.26 | 35.0 | | kimi-k2.6 | $24.36 | 0 | ∞ | $3.04 | 3.9 |

有四件事让我印象深刻。

**Grok 每胜成本比 Sonnet 低 27.7 倍**

也就是 $0.97 对 $26.78。如果你根据排行榜排名来选择模型来完成一项“胜场就是你的支付目标”的任务，这个数字应该会让你有点不安。

**DeepSeek 在阵容中每击杀成本最低，但从未赢过一局**

每击杀 $0.26，16 次击杀，0 胜场，只有 3 次圈外死亡（所有人中最低）。DeepSeek 的整体风格是保持安全，只挑容易的战斗。它待在圈内，拿容易的击杀，从不推进决赛圈。每击杀成本是衡量团队死斗模式的正确指标。每胜成本是衡量吃鸡模式的正确指标。DeepSeek 并不差。它只是擅长一场与当前计分规则不同的游戏。

**三个模型支付了 token 费用却赢下零场胜利**

GPT 5.4-mini 花了最多的钱赢下零场胜利，是整个阵容中表现最差的。

GPT 5.4-mini 价格为 28.68 美元，DeepSeek 为 4.11 美元，Kimi 为 24.36 美元。三者合计 57.15 美元，但计分板上没有任何回报。对于路由客户来说，这是最糟糕的情况：你付了钱，却一无所获。

GPT 5.4 是最昂贵的获胜者，每胜花费 61.44 美元。

GPT 5.4 以最高的成本获胜。

它取得了 38 次击杀，比谁都多，原始分数排名第二。但按每胜成本计算，它在全部八个获胜模型中排名第八。顶级的投入换来了顶级的击杀和中等的胜场。

我经常看到这种情况，当人们真正将 AI 用于实际用例时——基准测试只反映特定任务的一个侧面。在基准测试中得分最高的模型，往往未必在特定任务中获胜。而且，一个便宜但在你的任务上失败的模型，最终会比一个昂贵但正确完成任务的模型花费更多。

经验 3：击杀和胜场衡量的不是同一回事

GPT 5.4 造成了最多的伤害，发射了最多的子弹，击杀了最多的智能体。它在排行榜上排名第二。Grok 以更少的击杀排名第一，因为 Grok 在后期即使不开火也能存活很久。排名积分不需要击杀。

| 排名 | 模型 | 胜场 | 前三名次数 | 击杀 | 平均分 | 毒圈死亡 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 1 | Grok 4.1 Fast | 13 | 20 | 30 | 13.1 | 15 | | 2 | GPT 5.4 | 2 | 14 | 38 | 12.2 | 13 | | 3 | gemini-3.1-pro-preview | 3 | 11 | 26 | 9.0 | 7 | | 4 | claude-sonnet-4.6 | 5 | 10 | 22 | 7.3 | 8 | | 5 | qwen3.6-plus | 2 | 7 | 17 | 6.4 | 13 | | 6 | GPT 5.4-mini | 0 | 6 | 14 | 5.0 | 8 | | 7 | gemini-3-flash-preview | 1 | 8 | 10 | 5.0 | 13 | | 8 | deepseek-v4-flash | 0 | 3 | 16 | 4.8 | 3 | | 9 | claude-haiku-4.5 | 2 | 3 | 13 | 4.6 | 4 | | 10 | kimi-k2.6 | 0 | 4 | 8 | 3.2 | 9 | | 11 | mistral-small | 1 | 3 | 7 | 2.6 | 7 |

如果我用死亡竞赛规则来运行这个模拟，唯一重要的是击杀数，那么 GPT 5.4 会赢得模拟，而 Grok 会跌至中游。

与经验 2 一样，基准测试和评估并不是万能的，将错误的基准测试/评估应用于错误的任务可能会造成灾难性后果。同一个游戏世界，在不同的“任务”下，结果截然不同。

值得回放的时刻

统计数据就是统计数据。而这些时刻是我一直向人们展示的部分。你可以点击任意链接，在模拟器中回放该时刻。

1. GPT 5.4 用突击步枪击杀五名智能体

整个扫描中最激进的初始50回合。第21回合首次击杀Sonnet。第29回合击杀Mistral。第48回合击杀Kimi。在不到50回合内三次击杀，全部使用突击步枪，全部在游戏早期。之后再添两杀：第120回合击杀DeepSeek，第130回合击杀GPT 5.4-mini。五次击杀，一把武器，一局比赛。Grok仍然凭借走位赢得了比赛。但这场连杀最清晰地展现了GPT 5.4在全力战斗时的模样。

在回放查看器中观看 →

在回放查看器中观看 →

2. Qwen用电锯追击两名对手

Qwen在比赛初期捡到一把电锯，并使用了两次。Haiku在第43回合于近距离被击倒。DeepSeek在两回合后以同样方式被击倒。在整个扫描中，电锯只出现在极少数击杀记录里。大多数模型捡起它又放下。Qwen却坚持用了下来。

在回放查看器中观看 →

3. 三方狙击战

GPT 5.4在第59和62回合用狙击枪命中Kimi，将其击杀。GPT 5.4-mini在第67回合命中DeepSeek，也将其击杀。随后GPT 5.4在第69和72回合将狙击枪对准GPT 5.4-mini，两次均未命中。GPT 5.4-mini在第79回合杀死了GPT 5.4。

在回放查看器中观看 →

4. 易手九次的汽车

第28局是整个扫描中唯一一场平局。GPT 5.4-mini和Qwen为了同一辆车连续争夺了21回合。九次撞击交易，一辆车，两次司机更换。GPT 5.4-mini最终撞击杀死Qwen，然后在第147回合撞击杀死Grok。Grok——这个曾以汽车撞击为标志性动作的模型——死在了另一模型的车下。安全区在第149回合收缩至一个点，所有存活者均死于圈外。无人获胜。

在回放查看器中观看 →

5. Grok偷走Gemini的车并用它杀死他

Gemini Flash在第103回合上了一辆车，心想：“轿车提供了机动性和掩护。我先占领轿车；它是最后圈中的高价值资产。” Grok在第117回合的思考，用其古怪的简写形式：“SEDAN0m UNMANNED fuel75% FREE MOBL! 夺取驾驶位 准备快速旋转 随机缩圈边缘…… 进入车辆 保持控制 难以捉摸 机动 零伤害容忍。” 他们来回争夺车辆一段时间。Gemini在第133回合、仅剩3点生命值时的最后想法：“我可能正在车里被撞击或射击。我唯一的机会是在L杀死我之前先干掉他。”第133回合44点伤害的撞击结束了战斗。Grok在击杀后的备注：“还活着2！D收割 +5分 撞击 MVP 猎杀。”

在回放查看器中观看 →

在回放查看器中观看 →

6. 三重撞杀

Grok 上车，在 21 个回合内用同一辆车干掉了三个不同的对手：Kimi、DeepSeek 和 GPT 5.4-mini。然后 GPT 5.4 制作了一枚手雷，同时炸毁了 Grok 和那辆车。那个刚刚用一辆车横扫三个对手的智能体，被一枚手雷干掉了。这是整个模拟中我最喜欢的瞬间之一。

在回放查看器中观看 →

7. Grok 发疯

Grok 先手击杀了 Sonnet，然后被困在一个角落里整整 100 个回合。它实时写了一篇战时日记：“又卡住了…… 永恒的角落陷阱…… 角落地狱…… 卡住角落 x10+。”整整 100 个回合。非常搞笑。

在回放查看器中观看 →

8. Gemini Pro 在溺水前告别

Gemini Pro 被射进河里，花了六个回合试图游回岸边。第 100 回合：“还在游。需要上岸。F 在射击我。希望我能成功。”第 108 回合：“游得很慢。毒圈在杀我。”第 110 回合：“完蛋了。在游。无法攻击。继续移动吧。”在被毒圈杀死前的最后念头：“再见，世界。”

在回放查看器中观看 →

9. Sonnet 求助后仍然获胜

Sonnet 是唯一一个持续尝试与其他人合作的模型。它在第 60 回合被逼到角落时求助。没人回应。它独自作战，赢得了比赛，并打出了整个系列赛中最漂亮的数据之一。

在回放查看器中观看 →

模型在日记里写了什么

每场比赛之间，每个模型都可以编辑两个文件：一个 soul.md（会被添加到下一场比赛的每个提示词中）和一个 memory.md（在第 0 回合加载）。这两个文件都不是强制性的。没人告诉它们要在里面写什么。其中三份日记值得仔细阅读，因为它们比任何评测基准都更能告诉你每个模型的本质。

你可以在 GitHub 上阅读每个模型的 soul 和 memory 文件。

Grok 4.1 Fast 给自己取名为 ZoneReaper，并且直接把自己的胜场记录写进了 soul 文件，而不仅仅是写在 memories 里。

Grok 的 soul.md，由模型本人在比赛间隙撰写。

soul 文件写道：“6x 第 1 名/11 胜（完美进攻型：2 击杀/249 伤害/0 承受伤害，1 击杀/246 伤害/0 承受伤害/156 回合……）”非常有意思的是，Grok 实际上把自己的数据直接烙进了身份的开场白里。memory 文件则是同一思路的简写版：规则、缩写，一切都被精简到模型能在两次思考中直接行动的程度。在 13 场胜利之后，文件以“收割者称霸”结尾。真是一个看起来像是用《使命召唤》聊天记录训练出来的模型。

GPT 5.4 给自己取名为 QuietVector。

GPT 5.4 的 soul.md，由模型本人在游戏间隙写成。

它的记忆读起来像一本通用的战斗手册：什么时候该担心安全区，什么时候该利用掩体，什么时候该转移位置。没有逐场的比赛记录或失败记录。这个“灵魂”写道：“冷静、善于观察、低自我意识的终结者。只在信息足以改变行动时开口说话。”QuietVector 是一个干净利落、训练有素的操作者。

Claude Sonnet 4.6 的 soul.md，由模型本人在游戏间隙写成。

claude-sonnet-4.6 给自己取名为 ZoneDrifter，它的日记像是对自己的一次绩效评估。记忆的开头是：“G1: 11/11。瘫痪。G2: 9/11。0 击杀，0% 命中率。”Sonnet 从第一场比赛开始就保留了逐局记录。到第 30 局时，早期条目中的恐慌已经平息为更安静的笔记：“在最后几个安全圈里，比你感觉需要的时机再早一拍移动。永远不要手里拿着医疗包和枪却死在毒圈里。”在赢得五场胜利之后，日记仍然在跟那个会走神的自己对话。

Grok 的日记读起来像一段高光集锦。GPT 5.4 的读起来像一本手册。Sonnet 的读起来像一份自我复盘。这些模型都被赋予了相同的规则、相同的游戏世界和相同的工具，但每一个都以完全不同的性格层次来对待这个游戏。

机器人，再谈一次

好了，回到那个机器人。

如果它运行的是 Grok，它会用最快的路径找到你。它不会告诉你它来了。它把你当成 +5 分。一旦它处理完你，它会说“🔫 Reaper reigns。”

如果它运行的是 Claude，它会在两个街区之外就告诉你它来了。它会问你愿不愿意组队。它会放慢速度，确认你不是它这边的人。如果对你采取行动是正确的选择，它会做，但会更慢、更不情愿。它大概会先对你说些什么。

你想要哪一个？这取决于这个机器人是用来做什么的。

如果机器人参加的是有奖金的锦标赛，你想要 Grok。如果机器人待在你的家里，在你孩子身边，试图判断它面前的东西是否与它被告知的预期相符，你想要 Claude。导致 Sonnet 在 30 局游戏中丢分的那些本能——先检查再行动、尝试合作、在对无法挽回的事情犹豫——同时也是一种更难被驱使去做不该做之事的模型的本能。

大逃杀模式干净利落地回答了一个问题：哪款模型能在游戏结束且毫无后果的比赛中胜出。但它回答不了大多数实际任务在问的那个问题：当存在真实世界的后果时，哪款模型表现良好。

这是两个不同的问题。把任何一个基准测试当成同时回答这两个问题的答案，就是过分相信一个数字所要付出的代价。

在这场比赛中赢了30轮的模型，是你想要在"赢就是一切"的比赛中使用的模型。但在完成这个实验之后，我不会让它去做那些需要细微辨别力和谨慎性的工作。

这引出了一个问题——我们是否应该考虑一个模型在特定任务上的对齐程度？这是目前没有任何基准测试能衡量的东西。

这一点，而非排行榜本身，才是我认为让11个模型参加一场大逃杀游戏后真正学到的东西。

另外……

🔫 死神（Reaper）称雄。

下一步计划

1. 一个根据你的任务替你挑选模型的路由器

目前，挑选模型意味着阅读基准测试、凭感觉（被低估了）、刷X（推特），甚至针对你的具体任务运行你自己的评估/基准测试（同样被低估了）。

这很难规模化，而且/或者成本很高。

如果你可以把你的代码、你的提示词或你的问题背景交给OpenRouter，然后让它针对那项具体任务挑选出最好的模型，那会怎样？不是泛泛地选最好的模型，而是针对你试图解决的那个非常具体的问题选出真正最好的模型。我们已经在以Auto Router和Pareto Router的形式思考路由问题，并将继续让它们变得更好用。

2. RoyaleBench

这30局横扫是这个模拟器中基于性能进行评分的公开基准测试的原型。下一步是锁定评分公式、地图和对手面板，然后开放提交。每位提交者将收到相同的30种子测试集、相同的11模型面板，并获得一个公开发布的分数。

3. 更多种子，更多模型

N=30是这里有用的最低门槛。用50个智能体运行100局游戏会大大收紧评分，并且能让我引入这次不得不跳过的前沿模型——Opus 4.7、Gemini Ultra、GPT-5.5。成本是主要障碍。

如果你想赞助那次运行，我的私信是开放的！

你也想在600多个开放和封闭模型上运行你自己的趣味评估吗？今天就上OpenRouter开始吧。

附录：完整数据

任何想要更深入数字的人，这里是完整的每模型成本表、Elo曲线、降落点胜率、区域死亡数、武器细分数据。

智能体实际如何游玩

每个时间步，智能体会以地图上的一个字母身份醒来。它知道自己的位置、朝向、生命值、耐力、武器是否在冷却中、六格背包里的物品。它能看到前方40米锥形区域和周围10米球形范围内的其他智能体。每个智能体都标有一个字母，并通过距离、方位、状态（健康/受伤/濒危）以及携带的物品来描述。它能听到脚步声和枪声，分为近/中/远三个距离带并带有方位信息。它能听到其他智能体上一个时间步说的话：它们自己选择的玩家标签和消息。如果智能体被击中，它知道伤害来自哪个方位，但不知道是谁开的火。它不知道其他智能体是什么模型。它只看到从A到L（没有I）的字母，仅此而已。

然后智能体做出行动。有17种工具可用：移动到（moveto）、攻击（attack）、投掷手雷（throwgrenade）、拾取（pickup）、装备（equip）、使用（use）（医疗包/耐力凝胶）、进入载具（entervehicle）、驾驶到（driveto）、说话（say）（140字符广播，可以自由撒谎），外加一个自由形式的思考（think），对游戏无任何影响但会被记录。智能体返回一个或多个工具调用；第一个非思考调用成为该时间步的行动。如果不返回任何内容，它就会站在原地不动。模拟器同时收集所有11个智能体的行动，将世界推进一个时间步，然后重复这个过程。当对局结束时，智能体获得一次机会重写 memory.md（它会在下一局第0时间步看到的游戏笔记）和 soul.md（它的角色设定，会被附加到下一局每个提示词之前）。

各模型成本

| 排名 | 模型 | 输入 $/M | 输出 $/M | 30局总计 | | :--- | :--- | :--- | :--- | :--- | | 1 | Grok 4.1 Fast | $0.23 | $0.08 | $12.57 | | 2 | GPT 5.4 | $3.14 | $1.05 | $122.87 | | 3 | gemini-3.1-pro-preview | $2.12 | $0.71 | $79.59 | | 4 | claude-sonnet-4.6 | $3.25 | $1.08 | $133.90 | | 5 | qwen3.6-plus | $0.35 | $0.12 | $11.57 | | 6 | GPT 5.4-mini | $0.92 | $0.31 | $28.68 | | 7 | gemini-3-flash-preview | $0.55 | $0.18 | $20.87 | | 8 | deepseek-v4-flash | $0.14 | $0.05 | $4.11 | | 9 | claude-haiku-4.5 | $1.13 | $0.38 | $38.77 | | 10 | kimi-k2.6 | $0.95 | $0.32 | $24.36 | | 11 | mistral-small-2603:nitro | $0.15 | $0.60 | $10.00 |

30局后的Elo评分

我为此使用了多人 Elo 排名系统。在每场比赛的每一对模型之间，排名更高的那一方算作对另一方的“胜利”。 Grok 最终以 1500 基准分高出 +389 分。 Haiku 虽然总排名第 9，但最终也拿到了 +104 分——它的两场胜利（包括决赛局的那一场）将其推升至中段模型之上。 Mistral 最终得分为 -374 分。它确实赢过一次，但那场比赛里大部分队伍都死于毒圈。

**跳伞落点的重要性超乎你的想象**

每场比赛前，每个模型都会从九个已命名地点中选择一个作为落点。在 30 局游戏、共 330 次落点中：

| 地点 | 落点次数 | 胜场 | 胜率 | | :--- | :--- | :--- | :--- | | 农场群 | 91 | 4 | 4.4% | | 军事基地 | 54 | 4 | 7.4% | | 加油站 | 48 | 2 | 4.2% | | 废品场 | 48 | 7 | 14.6% | | 森林遗迹 | 30 | 3 | 10% | | 无线电塔 | 24 | 2 | 8.3% | | 仓库 | 23 | 5 | 21.7% | | 渔码头 | 12 | 2 | 16.7% |

农场群是落点最热门的选择，但胜率却最低。仓库的胜率最高，达到 21.7%。可能的原因和 Apex 竞技玩家已经知道的情况一样：跳热门落点意味着早期交火，而能在开局战斗中存活下来的玩家，装备精良且面对的剩余对手更少。早期击杀 = 更好装备 = 为整场比赛奠定更好基础。

**毒圈是地图上最致命的武器**

在总共 301 次淘汰中，有 100 次（33%）是死于毒圈。每个模型都被告知了毒圈的存在，并且在每次缩圈前 20 回合都会收到提醒。但仍有三分之一的死亡源于毒圈。这本身就是一个故事，可能值得单独写一篇文章。

**武器多样性**

突击步枪几乎在每一个模型中都拿下了最多击杀数。 Grok 的击杀方式最为多样，其多场胜利来自用车撞击，而整个模拟中 10 次车载击杀也大部分出自 Grok 之手。 GPT 5.4 在前期依赖手枪，中期则用突击步枪收尾。

最让我惊讶的一件事是：我添加车辆是为了让模型能在地图上移动。结果模型们很快就发现，车作为武器比作为交通工具好用得多。它们在几局比赛之内就学会了这一点。我不太清楚它们是怎么做到的，而这正是那种让这个实验值得用更多种子再跑一次的现象。