# 字节跳动开源桌面GUI智能体UI-TARS-desktop，获31.4K星标

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-05-10 09:16
- AIHOT 分数：65
- AIHOT 链接：https://aihot.virxact.com/items/cmoz411cv0ewdsllhmuulhvaw
- 原文链接：https://x.com/berryxia/status/2053283074750976383

## AI 摘要

字节跳动开源的UI-TARS-desktop是一个本地运行的桌面GUI智能体，允许用户通过自然语言指令操控电脑。它通过截屏和视觉模型理解屏幕内容，并精准控制鼠标键盘来操作各类应用，如打开VS Code或浏览网页，全程保障数据隐私。项目支持Windows和macOS，可操作本地或远程电脑及浏览器，并提供了SDK供开发者构建自动化工具。近期发布的v0.3.0版本增强了CLI功能。该项目在GitHub上已获得31.4K星标，增长迅速。

## 正文

兄弟们！
不要重复造轮子，直接拿这个31.4K Star的开源来干吧！

字节跳动把 UI-TARS-desktop 开源了，看了一眼，这个项目已经上线快一年了！

目前 Star 数已经来到 31.4k，而且增长速度还挺稳。 24 小时增长日榜第一！

这是一个原生的桌面 GUI Agent，你直接装在电脑上就能用自然语言指挥它操作各种应用。

核心就是靠截屏 + 视觉模型看懂当前屏幕，然后精准控制鼠标和键盘。

想象一下，你直接跟它说"帮我打开 VS Code 把自动保存打开"，或者"去 GitHub 看下这个 issue"，它就能自己截屏、识别界面、点按钮、输入文字，整个过程全在本地跑，数据一点都不往外传，隐私完全自己掌握。

它支持 Windows 和 macOS，还能操作浏览器，既可以控制本地电脑，也支持远程电脑和浏览器模式。

项目里自带 SDK，开发者想基于它搭自己的自动化工具也特别方便。

最近他们更新到 v0.3.0，CLI 命令行版本也更成熟了，带流式输出和时间统计，用起来更顺手。

想玩的同学可以直接去仓库看 quick-start 文档，几步就能跑起来本地操作。

感觉本地桌面 Agent 这条路又多了一个实打实的靠谱选择。

原项目：https://github.com/bytedance/UI-TARS-desktop

想试的同学可以去仓库 star 一下，支持一下。
