字节跳动开源的UI-TARS-desktop是一个本地运行的桌面GUI智能体,允许用户通过自然语言指令操控电脑。它通过截屏和视觉模型理解屏幕内容,并精准控制鼠标键盘来操作各类应用,如打开VS Code或浏览网页,全程保障数据隐私。项目支持Windows和macOS,可操作本地或远程电脑及浏览器,并提供了SDK供开发者构建自动化工具。近期发布的v0.3.0版本增强了CLI功能。该项目在GitHub上已获得31.4K星标,增长迅速。
兄弟们! 不要重复造轮子,直接拿这个31.4K Star的开源来干吧!
字节跳动把 UI-TARS-desktop 开源了,看了一眼,这个项目已经上线快一年了!
目前 Star 数已经来到 31.4k,而且增长速度还挺稳。 24 小时增长日榜第一!
这是一个原生的桌面 GUI Agent,你直接装在电脑上就能用自然语言指挥它操作各种应用。
核心就是靠截屏 + 视觉模型看懂当前屏幕,然后精准控制鼠标和键盘。
想象一下,你直接跟它说"帮我打开 VS Code 把自动保存打开",或者"去 GitHub 看下这个 issue",它就能自己截屏、识别界面、点按钮、输入文字,整个过程全在本地跑,数据一点都不往外传,隐私完全自己掌握。
它支持 Windows 和 macOS,还能操作浏览器,既可以控制本地电脑,也支持远程电脑和浏览器模式。
项目里自带 SDK,开发者想基于它搭自己的自动化工具也特别方便。
最近他们更新到 v0.3.0,CLI 命令行版本也更成熟了,带流式输出和时间统计,用起来更顺手。
想玩的同学可以直接去仓库看 quick-start 文档,几步就能跑起来本地操作。