Hacker News:AI 热帖
LLM Skirmish:AI代理可玩的实时战略游戏基准测试
精选理由
LLM实时战略游戏对战基准,Claude大幅领先且展现独特上下文学习能力
AI 摘要
LLM Skirmish 是一个让大语言模型通过编写代码进行1v1实时战略游戏对战的基准测试。基于Screeps开源API,每场锦标赛包含五轮,LLM可根据对战日志调整策略以测试上下文学习能力。结果显示,Claude Opus 4.5以85%胜率排名第一,GPT 5.2次之。Gemini 3 Pro表现异常:首轮胜率70%,后四轮骤降至15%,疑似因上下文腐烂。成本方面,Claude Opus 4.5每轮$4.12最贵,GPT 5.2性价比高出1.7倍。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文llmskirmish.com