# LLM Skirmish：AI代理可玩的实时战略游戏基准测试

- 来源：Hacker News：AI 热帖
- 作者：__cayenne__
- 发布时间：2026-02-25 18:02
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmnw1z0iz023oslc3xuv89mjk
- 原文链接：https://llmskirmish.com/

## 精选理由

LLM实时战略游戏对战基准，Claude大幅领先且展现独特上下文学习能力

## AI 摘要

LLM Skirmish 是一个让大语言模型通过编写代码进行1v1实时战略游戏对战的基准测试。基于Screeps开源API，每场锦标赛包含五轮，LLM可根据对战日志调整策略以测试上下文学习能力。结果显示，Claude Opus 4.5以85%胜率排名第一，GPT 5.2次之。Gemini 3 Pro表现异常：首轮胜率70%，后四轮骤降至15%，疑似因上下文腐烂。成本方面，Claude Opus 4.5每轮$4.12最贵，GPT 5.2性价比高出1.7倍。

## 正文

该来源未收录可展示正文，站内仅提供摘要。