meng shao@shao__meng

2026-05-27 08:44·37天前

AI 摘要

微软开源了终端原生Web Agent框架Webwright。其核心创新是“代码即动作”：让大语言模型直接编写可执行的Playwright Python脚本，而非传统的“观察-预测-点击”循环，由此生成的程序可复用。在性能上，基于GPT-5.4在Odysseys长程任务基准上达60.1%，较此前SOTA提升15.6个百分点；基于Claude Opus 4.7在难例上达80.5%，超越GPT-5.4。框架架构极简，核心代码约1000行，并已与Claude Code、OpenAI Codex等集成。用户评论表达了对该工具在浏览器自动化方面相比Playwright能带来巨大提升的期待。

微软发布终端原生 Web Agent 框架：Webwright https://github.com/microsoft/webwright

核心设计：代码即动作传统网页智能体采用"观察→预测下一步点击→执行"的循环，每一步都依赖 LLM 判断。Webwright 的做法更贴近软件工程师思维： · 让 LLM 写 Playwright 脚本 -- 把网页操作变成可运行的 Python 程序 · 工作区即状态 -- 脚本、截图、日志保存在本地，浏览器会话可随时重建 · 终端优先 -- 核心循环只有三个模块约 1000 行代码，无隐藏编排层

这种模式产生的"副产物"是可复用的自动化程序，而非一次性交互痕迹。

性能表现：SOTA 水平 · Online-Mind2Web （300 任务）：86.7% （GPT-5.4），同类开源框架中最高 · Odysseys （200 长程任务，平均 76.1 步）：60.1% （GPT-5.4），较此前 SOTA （+15.6pt），较基线 GPT-5.4 （+26.6pt） · Claude Opus 4.7：84.7% / 难例 80.5%，难例上超越 GPT-5.4

架构极简 Runner （150行） -> Model Endpoint （550行） -> Environment （300行）

· 仅依赖 httpx、pydantic、playwright、typer · 无多智能体系统、无图引擎、无插件层 · 支持 OpenAI、Anthropic、OpenRouter 后端

产品化与集成 · Claude Code：插件 /plugin install webwright@webwright，支持 /webwright：run 和 /webwright：craft · OpenAI Codex：插件市场安装，通过 @ webwright 调用 · OpenClaw / Hermes：共享 skills/webwright/ 目录，统一技能规范

关键创新点 · Task2UI 模式（2026-05-11 新增） -- 任务完成后自动渲染为 HTML 应用，结果可视化且可重用 · 脚本可复用性 -- 即使是 Qwen-3.5-9B 这样的小模型，在预置工具脚本辅助下也能达到 66.2% 的难例完成率 · 可审计性 -- 每次运行都保存轨迹、截图、报告，便于调试和回归

Omar ShahineNeed to try this. Hoping for massive boost over Playwright for browser automation. https://github.com/microsoft/webwright

智能体 Microsoft 开源/仓库

meng shao@shao__meng · X

71导出 Markdown

2026-05-27 08:44·37天前

在 X 看原推· x.com

AI 摘要

微软发布终端原生 Web Agent 框架：Webwright https://github.com/microsoft/webwright

这种模式产生的"副产物"是可复用的自动化程序，而非一次性交互痕迹。