# 微软发布终端原生 Web Agent 框架：Webwright

- 来源：meng shao (@shao__meng)
- 发布时间：2026-05-27 08:44
- AIHOT 分数：71
- AIHOT 链接：https://aihot.virxact.com/items/cmpncxk0u0wg7sl01sv0pq5r4
- 原文链接：https://x.com/shao__meng/status/2059435625552785617

## AI 摘要

微软开源了终端原生Web Agent框架Webwright。其核心创新是“代码即动作”：让大语言模型直接编写可执行的Playwright Python脚本，而非传统的“观察-预测-点击”循环，由此生成的程序可复用。在性能上，基于GPT-5.4在Odysseys长程任务基准上达60.1%，较此前SOTA提升15.6个百分点；基于Claude Opus 4.7在难例上达80.5%，超越GPT-5.4。框架架构极简，核心代码约1000行，并已与Claude Code、OpenAI Codex等集成。用户评论表达了对该工具在浏览器自动化方面相比Playwright能带来巨大提升的期待。

## 正文

微软发布终端原生 Web Agent 框架：Webwright
https://github.com/microsoft/webwright

核心设计：代码即动作
传统网页智能体采用"观察→预测下一步点击→执行"的循环，每一步都依赖 LLM 判断。Webwright 的做法更贴近软件工程师思维：
· 让 LLM 写 Playwright 脚本 -- 把网页操作变成可运行的 Python 程序
· 工作区即状态 -- 脚本、截图、日志保存在本地，浏览器会话可随时重建
· 终端优先 -- 核心循环只有三个模块约 1000 行代码，无隐藏编排层

这种模式产生的"副产物"是可复用的自动化程序，而非一次性交互痕迹。

性能表现：SOTA 水平
· Online-Mind2Web （300 任务）：86.7% （GPT-5.4），同类开源框架中最高
· Odysseys （200 长程任务，平均 76.1 步）：60.1% （GPT-5.4），较此前 SOTA （+15.6pt），较基线 GPT-5.4 （+26.6pt）
· Claude Opus 4.7：84.7% / 难例 80.5%，难例上超越 GPT-5.4

架构极简
Runner （150行） -> Model Endpoint （550行） -> Environment （300行）

· 仅依赖 httpx、pydantic、playwright、typer
· 无多智能体系统、无图引擎、无插件层
· 支持 OpenAI、Anthropic、OpenRouter 后端

产品化与集成
· Claude Code：插件 /plugin install webwright@webwright，支持 /webwright：run 和 /webwright：craft
· OpenAI Codex：插件市场安装，通过 @ webwright 调用
· OpenClaw / Hermes：共享 skills/webwright/ 目录，统一技能规范

关键创新点
· Task2UI 模式 （2026-05-11 新增） -- 任务完成后自动渲染为 HTML 应用，结果可视化且可重用
· 脚本可复用性 -- 即使是 Qwen-3.5-9B 这样的小模型，在预置工具脚本辅助下也能达到 66.2% 的难例完成率
· 可审计性 -- 每次运行都保存轨迹、截图、报告，便于调试和回归

### 引用推文

> Omar Shahine：Need to try this. Hoping for massive boost over Playwright for browser automation. https://github.com/microsoft/webwright