Atomic Bot发布基于本地模型Qwen 35B的真实任务对比视频,显示OpenClaw在任务完成时间(12分01秒)和token效率上优于Hermes Agent(33分01秒)。OpenClaw创始人@steipete转发结果并强调性能策略见效。Hermes联创@Teknium反驳基准不科学,指出单次运行、模型随机性等问题,并引用公开质量基准及真实用户数据证明Hermes领先,如用户日token量已达OpenClaw的2.5倍。双方各执己见,凸显了AI代理评估标准的争议。
Atomic Bot 发布的基于本地模型 Qwen 35B真实任务视频对比,引发 OpenClaw 和 Hermes Agent 两位大佬辩论
OpenClaw 创始人 @steipete 转发了这个抓取 GitHub 仓库(OpenClaw & Hermes)的 star 历史、分析增长 spike 原因,并构建实时浏览器仪表盘的任务。
视频实测结果 · OpenClaw:12分01秒,203k tokens。直接调用GitHub API、处理分页、拉取star-history JSON、发现安全事件、修复SVG与HTML,最终输出干净仪表盘(还写了bash脚本)。 · Hermes Agent:33分01秒,257k tokens。采用并行工具调用(API+搜索+浏览器),遇Google限流自动切换DuckDuckGo,抓取文章、标注关键事件,最终也完成仪表盘(写了SKILL.md)。
Hermes 联创 @Teknium 直接反击称此基准不科学。 · 单次运行、无重复测试、无总 tokens/TPS 报告。 · Qwen 35B是"最随机长度"的模型之一,易循环,单次结果波动大。 · Hermes 在所有公开质量基准(尤其是开源模型)上全面领先,附 Wildclawbench(InternLM)截图:同等速度下 Hermes 结果显著更好。 · 真实用户数据:Hermes 上线后,OpenClaw token throughput 急剧下降;Hermes 3天内接近并超越,目前接近 2.5x OpenClaw 的日 token 量,用户用脚投票。还附 WolfBench 证据(Hermes 在真实任务中优于 Claude & OpenClaw)。