微软开源了终端原生Web Agent框架Webwright。其核心创新是“代码即动作”:让大语言模型直接编写可执行的Playwright Python脚本,而非传统的“观察-预测-点击”循环,由此生成的程序可复用。在性能上,基于GPT-5.4在Odysseys长程任务基准上达60.1%,较此前SOTA提升15.6个百分点;基于Claude Opus 4.7在难例上达80.5%,超越GPT-5.4。框架架构极简,核心代码约1000行,并已与Claude Code、OpenAI Codex等集成。用户评论表达了对该工具在浏览器自动化方面相比Playwright能带来巨大提升的期待。
微软发布终端原生 Web Agent 框架:Webwright https://github.com/microsoft/webwright
核心设计:代码即动作 传统网页智能体采用"观察→预测下一步点击→执行"的循环,每一步都依赖 LLM 判断。Webwright 的做法更贴近软件工程师思维: · 让 LLM 写 Playwright 脚本 -- 把网页操作变成可运行的 Python 程序 · 工作区即状态 -- 脚本、截图、日志保存在本地,浏览器会话可随时重建 · 终端优先 -- 核心循环只有三个模块约 1000 行代码,无隐藏编排层
这种模式产生的"副产物"是可复用的自动化程序,而非一次性交互痕迹。
性能表现:SOTA 水平 · Online-Mind2Web (300 任务):86.7% (GPT-5.4),同类开源框架中最高 · Odysseys (200 长程任务,平均 76.1 步):60.1% (GPT-5.4),较此前 SOTA (+15.6pt),较基线 GPT-5.4 (+26.6pt) · Claude Opus 4.7:84.7% / 难例 80.5%,难例上超越 GPT-5.4