meng shao@shao__meng

2026-05-17 08:48·47天前

AI 摘要

Atomic Bot发布基于本地模型Qwen 35B的真实任务对比视频，显示OpenClaw在任务完成时间（12分01秒）和token效率上优于Hermes Agent（33分01秒）。OpenClaw创始人@steipete转发结果并强调性能策略见效。Hermes联创@Teknium反驳基准不科学，指出单次运行、模型随机性等问题，并引用公开质量基准及真实用户数据证明Hermes领先，如用户日token量已达OpenClaw的2.5倍。双方各执己见，凸显了AI代理评估标准的争议。

Atomic Bot 发布的基于本地模型 Qwen 35B真实任务视频对比，引发 OpenClaw 和 Hermes Agent 两位大佬辩论

OpenClaw 创始人 @steipete 转发了这个抓取 GitHub 仓库（OpenClaw & Hermes）的 star 历史、分析增长 spike 原因，并构建实时浏览器仪表盘的任务。

视频实测结果 · OpenClaw：12分01秒，203k tokens。直接调用GitHub API、处理分页、拉取star-history JSON、发现安全事件、修复SVG与HTML，最终输出干净仪表盘（还写了bash脚本）。 · Hermes Agent：33分01秒，257k tokens。采用并行工具调用（API+搜索+浏览器），遇Google限流自动切换DuckDuckGo，抓取文章、标注关键事件，最终也完成仪表盘（写了SKILL.md）。

Hermes 联创 @Teknium 直接反击称此基准不科学。 · 单次运行、无重复测试、无总 tokens/TPS 报告。 · Qwen 35B是"最随机长度"的模型之一，易循环，单次结果波动大。 · Hermes 在所有公开质量基准（尤其是开源模型）上全面领先，附 Wildclawbench（InternLM）截图：同等速度下 Hermes 结果显著更好。 · 真实用户数据：Hermes 上线后，OpenClaw token throughput 急剧下降；Hermes 3天内接近并超越，目前接近 2.5x OpenClaw 的日 token 量，用户用脚投票。还附 WolfBench 证据（Hermes 在真实任务中优于 Claude & OpenClaw）。