Cua 与 Snorkel AI 联合发布 Cua-Bench,首个公开数据集聚焦电子设计工具 KiCad,含 25 道由执业电气工程师编写并复核的任务。测试中,GPT-5.5 完全通过 6/25(24%),Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25(20%)。所有成功任务均为局部修改,16 道从零搭建任务全部失败。瓶颈在执行层:导航开销大(~84%)、操作粒度过细(~84%)、视图控制混乱(~76%)、布线未完成(~72%)、自我验证不可靠。步数上限并非主因。根因分布:规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%,全程零 API 错误。
Cua 和 Snorkel AI 联合发布「Cua-Bench」:评测 Agent 在专业软件上的 Computer Use 能力 @trycua @SnorkelAI
Cua-Bench 首个公开数据集聚焦 KiCad,一个完整的电子设计自动化工具,25 道任务均由执业电气工程师编写、第二人复核,覆盖从「改一个电容值」到「从零搭建双运放电路」等真实工作场景。 https://cua.ai/cuabench/report https://snorkel.ai/blog/cua-bench-benchmarking-computer-use-agents-on-professional-software/
首批测试结果 没有一个模型通过四分之一,最强也只有 24% 的完全通过率: 1. GPT-5.5:6 / 25 完全通过,0 / 25 部分通过 2. Claude Sonnet 4.5:5 / 25 完全通过,3 / 25 部分通过 3. Claude Haiku 4.5:5 / 25 完全通过,3 / 25 部分通过