# PawBench：给通用智能体一把可度量的尺

- 来源：公众号：通义实验室（千问）
- 作者：通义实验室
- 发布时间：2026-06-05 17:54
- AIHOT 分数：70
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq2o71l001imsl6nw5cypu9a
- 原文链接：https://mp.weixin.qq.com/s/Q1fa3KwT63HBOF2fmWKzlg

## 精选理由

PawBench 把 Harness 从‘看不见的手’变成可诊断的变量，好 Harness 能让弱模型以下克上，这份评测对 Agent 框架开发者是一份必读的校验清单。

## AI 摘要

通义实验室推出全新评测基准PawBench v1.0，面向个人助理与通用智能体场景，将底座模型与运行框架Harness纳入同一体系进行交叉评测。评测矩阵包含9个模型与3个Harness（Hermes、OpenClaw、QwenPaw），覆盖150道真实任务共4050个测试单元。结果显示，QwenPaw（76.4分）、OpenClaw（75.4分）、Hermes（70.4分）之间存在显著分差，Harness环境对表现的影响甚至大于模型本身。PawBench还通过切片分析揭示了Harness在产物校验、Skill主动发现和Web搜索默认可用性等方面的关键差距。项目已开源。

## 正文

公众号正文需在微信内阅读，站内仅提供摘要。
