# Cua 和 Snorkel AI 联合发布 Cua-Bench：首个公开 KiCad 任务数据集

- 来源：meng shao (@shao__meng)
- 发布时间：2026-06-16 08:50
- AIHOT 分数：69
- AIHOT 链接：https://aihot.virxact.com/items/cmqfyfyst01udslspugzffkgr
- 原文链接：https://x.com/shao__meng/status/2066684840033026274

## AI 摘要

Cua 与 Snorkel AI 联合发布 Cua-Bench，首个公开数据集聚焦电子设计工具 KiCad，含 25 道由执业电气工程师编写并复核的任务。测试中，GPT-5.5 完全通过 6/25（24%），Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25（20%）。所有成功任务均为局部修改，16 道从零搭建任务全部失败。瓶颈在执行层：导航开销大（~84%）、操作粒度过细（~84%）、视图控制混乱（~76%）、布线未完成（~72%）、自我验证不可靠。步数上限并非主因。根因分布：规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%，全程零 API 错误。

## 正文

Cua 和 Snorkel AI 联合发布「Cua-Bench」：评测 Agent 在专业软件上的 Computer Use 能力
@trycua @SnorkelAI

Cua-Bench 首个公开数据集聚焦 KiCad，一个完整的电子设计自动化工具，25 道任务均由执业电气工程师编写、第二人复核，覆盖从「改一个电容值」到「从零搭建双运放电路」等真实工作场景。
https://cua.ai/cuabench/report
https://snorkel.ai/blog/cua-bench-benchmarking-computer-use-agents-on-professional-software/

首批测试结果
没有一个模型通过四分之一，最强也只有 24% 的完全通过率：
1. GPT-5.5：6 / 25 完全通过，0 / 25 部分通过
2. Claude Sonnet 4.5：5 / 25 完全通过，3 / 25 部分通过
3. Claude Haiku 4.5：5 / 25 完全通过，3 / 25 部分通过

最重要的发现：「编辑现有」与「从零搭建」之间的能力断崖
· 所有完全通过的任务，都是对已有原理图的局部修改（改元件值、换电源端口、调整偏置点等）。
· 16 道从零搭建任务：0 成功。 模型能放元件，但很少完成布线；任务结束时连线往往仍是未完成状态。

瓶颈在执行层：规划多步流程、在复杂 GUI 中定位与操作、自我校验、在步数预算耗尽前保持任务不漂移。

Snorkel 的深度分析进一步指出：步数上限不是主因。 两个失败任务放宽到 500 步仍失败；而所有成功案例都在 150 步内完成。问题出在计划与操作效率，而非单纯「时间不够」

典型失败模式（可复现、可归类）
· 导航开销大（~84%）：首次启动弹窗、误进 PCB 编辑器而非原理图编辑器，恢复就消耗 25-70 步。
· 操作粒度过细（~84%）：每轮只做一个点击 + 大段自我叙述，工程师三步能完成的事拆成十轮。
· 视图控制混乱（~76%）：不用 Home 键 fit，在极端缩放间来回 scroll，元件一出视野就「丢失」。
· 布线未完成（~72%）：16 个因步数耗尽而失败的任务中，没有一个画全所需连线。
· 自我验证不可靠：5 次宣告 DONE 的产出实际未通过验证--Agent 读的是自己「说过什么」，而不是屏幕上的真实状态。典型错误：悬空电阻却声称已连接；输入 2.80kOhm 而非 KiCad 要求的 2.8k；用错芯片参考电压（LT3010 是 0.808V，不是 1.24V）。

根因分布：规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%--且全程零 API 错误，说明 harness 本身没问题，问题在 Agent 如何使用它。

对行业的含义
1. 现有 computer-use benchmark 可能高估了真实能力。 浏览器里「多试几次总能蒙对」的策略，在专业软件上行不通。
2.「会答电路题」≠「能在 KiCad 里做出正确原理图」。 知识与 GUI 执行是两条能力线，当前 frontier 模型在前者尚可、后者明显不足。
3. 长 horizon + 自我校验是下一个瓶颈。 不是缺底层能力，而是缺「如何规划、批量操作、读 UI 状态而非读自己的 narration」的 meta-policy。
4. 评测设计值得借鉴： 专家出题、双人复核、netlist 客观打分、任务难度按人类 ~50 步校准--这是衡量 Agent 能否创造真实经济价值的一个较公平标尺。

### 引用推文

> Cua：1/ Today we're launching Cua-Bench with @SnorkelAI: a benchmark for computer-use agents on professional software, open for any model to run. The benchmark cover...