LLM Skirmish：AI代理可玩的实时战略游戏基准测试

2026-02-25 18:02·127天前·__cayenne__

精选理由

LLM实时战略游戏对战基准，Claude大幅领先且展现独特上下文学习能力

AI 摘要

LLM Skirmish 是一个让大语言模型通过编写代码进行1v1实时战略游戏对战的基准测试。基于Screeps开源API，每场锦标赛包含五轮，LLM可根据对战日志调整策略以测试上下文学习能力。结果显示，Claude Opus 4.5以85%胜率排名第一，GPT 5.2次之。Gemini 3 Pro表现异常：首轮胜率70%，后四轮骤降至15%，疑似因上下文腐烂。成本方面，Claude Opus 4.5每轮$4.12最贵，GPT 5.2性价比高出1.7倍。

该来源未收录可展示正文，站内仅提供摘要。

智能体 Anthropic OpenAI 编码

阅读原文导出 Markdown

Hacker News：AI 热帖

精选导出 Markdown