小白也能玩转UI-TARS-desktop:手把手教你实现自然语言控制电脑
[【免费下载链接】UI-TARS-desktop
A GUI Agent application based on UI-TARS (Vision-Language Model) that allows you to control your computer using natural language.
项目地址: https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop/?utm_source=gitcode_aigc_v1_t0&index=top&type=card& "【免费下载链接】UI-TARS-desktop"]
1. 这不是科幻电影——你的电脑真能听懂人话了
你有没有试过对着电脑说:“打开微信,给张三发条消息说会议推迟到三点”,然后它就真的照做了?不是语音输入文字,而是理解意图、定位图标、点击操作、输入内容、发送成功——一气呵成。这不是未来,也不是定制开发的黑科技,而是你现在就能在本地跑起来的UI-TARS-desktop。
它不像传统语音助手只做“播放音乐”“设闹钟”这种固定动作,而是真正具备视觉理解+任务规划+系统操作能力的桌面AI代理。背后跑的是轻量但够用的Qwen3-4B-Instruct-2507 模型(经 vLLM 优化),不依赖云端、不上传隐私、不卡顿掉帧——开箱即用,连笔记本都能流畅运行。
这篇文章不讲架构图、不画流程框、不堆术语。我们就当面坐在一起,你打开终端,我一步步告诉你:
怎么确认模型已就绪
怎么点开那个蓝色界面并让它“活过来”
怎么用大白话下指令(比如“把桌面上的‘报告.docx’重命名为‘终稿_2025’”)
遇到没反应/点错了/卡住了,三步快速排查
还送你5个真实好用的指令模板,复制粘贴就能试
你不需要会Python,不需要配CUDA,甚至不用知道vLLM是啥——只要你会用浏览器、会敲几行命令,今天就能让电脑开始“听话”。
2. 确认后台模型已就位:两行命令看明白
UI-TARS-desktop 的聪明劲儿,全靠内置的 Qwen3-4B-Instruct-2507 模型支撑。它不是挂个空壳,而是实打实跑在本地的推理服务。我们先不急着点界面,先花30秒确认它“醒着”。
2.1 进入工作目录,找到它的“心跳日志”
打开终端(Linux/macOS)或命令提示符(Windows WSL),输入:
cd /root/workspace这一步只是走进它待着的房间。别担心路径——镜像已预置好,你直接敲就行。
2.2 查看日志:一眼识别是否启动成功
接着输入:
cat llm.log你会看到类似这样的输出(关键信息已加粗标出):
INFO 03-15 10:22:47 [llm_engine.py:228] Initialized vLLM engine with 1 GPU INFO 03-15 10:22:49 [model_runner.py:156] Loading model 'Qwen3-4B-Instruct-2507'... INFO 03-15 10:22:58 [model_runner.py:172] Model loaded successfully in 8.7s INFO 03-15 10:22:59 [server.py:88] vLLM API server started on http://0.0.0.0:8000看到Model loaded successfully和vLLM API server started就稳了——模型加载完成,服务端口(8000)已就绪。
❌ 如果卡在Loading model...超过20秒,或报错OSError: CUDA out of memory,说明显存不足(可跳到第5节“常见问题”处理)。
注意:日志里出现http://0.0.0.0:8000是正常的,它表示服务监听本机所有IP,前端会自动连接它。
小贴士:这个日志是实时更新的。你可以用
tail -f llm.log命令持续观察后续推理请求是否被接收——当你在界面上输入指令时,这里会立刻刷出新日志行,像心跳一样跳动。
3. 启动前端界面:点开那个蓝色窗口,让它“看见”你的屏幕
模型醒了,现在要让它“睁开眼”。UI-TARS-desktop 的前端是一个 Electron 应用,界面简洁,核心就三块:顶部指令输入框、中间实时屏幕截图预览、底部执行状态栏。
3.1 一键启动:不用 npm install,不用 build
在同一个终端里(不用退出上一步),直接运行:
npm start几秒后,一个标题为“UI-TARS-desktop”的蓝色窗口就会弹出来——这就是你的AI代理操作台。
为什么不用
yarn或pnpm?镜像已预装 Node.js 和 npm,并全局配置好依赖,npm start是最直通的启动方式,小白零门槛。
3.2 界面初识:三秒看懂每个区域是干啥的
- 顶部输入框(带麦克风图标):你说话或打字的地方。支持中文,越像日常说话越好,比如“帮我关掉所有 Chrome 标签页”。
- 中央大图区域:它正在实时抓取你当前桌面的画面(每2秒刷新一次)。这是它“看”的依据——没有这张图,它就不知道微信图标在哪。
- 底部状态栏(绿色/黄色/红色指示灯):
- 绿色:一切正常,等待指令
- 黄色:正在思考/截图/调用工具(别急,它在忙)
- ❌红色:出错了(看右下角小字提示,常见如“截图失败”“权限拒绝”)
3.3 首次使用必做:授予权限,让它能“动手”
刚启动时,系统可能会弹出两个关键授权请求(macOS/Linux 表现为系统对话框,Windows WSL 需额外配置):
- 屏幕录制权限:必须开启!否则它看不到你的桌面,所有指令都无效。
- 辅助功能权限(Accessibility):必须开启!否则它无法模拟鼠标点击、键盘输入等操作。
怎么检查是否开启?
- macOS:
系统设置 > 隐私与安全性 > 屏幕录制&辅助功能→ 确保Electron或UI-TARS-desktop在列表中且勾选。- Linux(Wayland):需手动启用
xdg-desktop-portal,镜像已预配,通常无需操作。- Windows WSL:推荐使用原生 Windows 版本,WSL 图形支持有限,首次建议跳过。
授权完成后,状态栏变绿,中央截图开始动态刷新——恭喜,你的AI代理已“睁眼+伸手”,随时待命。
4. 开始第一次对话:从“你好”到“打开计算器”,5分钟搞定
别被“Agent”“VLM”这些词吓住。对 UI-TARS-desktop 来说,最好的指令就是你平时会对朋友说的话。我们分三步走:先试最简单的,再试带操作的,最后来个组合技。
4.1 第一课:打招呼测试——确认它“听得见、想得清”
在顶部输入框里,输入(或语音转文字):
你好,你能看到我的桌面吗?按下回车或点右侧箭头按钮。
预期效果:
- 状态栏短暂变黄 → 变绿
- 中央截图下方出现一行小字回复:“是的,我看到了您的桌面。当前有 3 个窗口:Chrome、VS Code、终端。”(具体窗口名依你实际环境而定)
- 没有报错,没有卡死,就是成功!
为什么这步重要?它同时验证了:
① 文本理解(Qwen3 模型能解析问候语)
② 视觉感知(它真截到了图,并数出了窗口)
③ 基础反馈(文字回复通道畅通)
4.2 第二课:动手操作——让电脑自己“点一下”
试试这个经典指令:
打开计算器预期效果:
- 状态栏变黄约3~5秒(它在分析截图找“计算器”图标 → 规划点击坐标 → 执行鼠标操作)
- 你的系统计算器窗口瞬间弹出!
- 底部显示:“已为您打开计算器应用。”
背后发生了什么?
它不是靠预设路径启动(比如硬编码/usr/bin/gnome-calculator),而是:
- 看截图 → 发现左下角“开始菜单”图标(或 macOS Dock 上的计算器图标)
- 计算出那个图标的中心坐标(X, Y)
- 发送一次精准的鼠标点击事件
- 等待窗口出现,确认成功
这就是真正的GUI Agent——不依赖代码路径,只依赖“所见即所得”。
4.3 第三课:组合任务——一句话干完三件事
进阶指令来了,试试这个:
新建一个文本文档,文件名叫“今日待办”,在里面写上“1. 回复客户邮件 2. 整理会议纪要”,然后保存到桌面预期效果:
- 状态栏黄→绿
- 桌面上立刻多出一个名为
今日待办.txt的文件 - 双击打开,内容正是你指定的两行文字
它拆解了整个任务链:
① 找到“文件资源管理器”(或 Finder)→ 打开桌面
② 右键空白处 → 选择“新建文本文档”
③ 重命名文件为“今日待办”
④ 双击打开 → 输入文字 → Ctrl+S 保存
你只说了一句话,它完成了至少5个系统级操作。这才是自然语言控制的价值——把人的意图,直接翻译成机器的动作序列。
5. 实用技巧与避坑指南:让体验丝滑不翻车
再强大的工具,用法不对也会卡壳。这节全是来自真实踩坑的“血泪经验”,专治新手高频问题。
5.1 指令怎么写才更准?记住这3个原则
| 原则 | 错误示范 | 正确示范 | 为什么 |
|---|---|---|---|
| 说清楚“对象” | “打开它” | “打开桌面上的‘项目计划.xlsx’” | 它不认识“它”,但认识文件名和位置 |
| 避免模糊动词 | “弄一下”“搞个” | “把截图保存为 PNG”“把这段文字复制到剪贴板” | “弄”没有明确动作,模型无法映射到具体API |
| 一次只聚焦一个目标 | “打开微信,发消息,查天气,关机” | 分三次输入:“打开微信” → “给李四发‘明天会议改期’” → “查北京今天天气” | 多任务易混淆优先级,单步成功率超95% |
亲测好用的5个万能模板(复制即用):
在 Chrome 中打开 [网址](例:在 Chrome 中打开 https://csdn.net)搜索 [关键词] 并打开第一个结果(例:搜索 “UI-TARS-desktop 教程” 并打开第一个结果)把 [文件名] 从 [源路径] 移动到 [目标路径](例:把 ‘发票.pdf’ 从 ‘下载’ 移动到 ‘文档/财务’)调整当前窗口大小为 1200x800 像素(精确控制布局)截取当前屏幕,保存为 ‘截图_[日期]’ 到桌面(自动生成带时间戳的文件名)
5.2 遇到问题?三步快速自救
| 现象 | 第一步自查 | 第二步操作 | 第三步终极方案 |
|---|---|---|---|
| 界面黑屏/无截图 | 检查状态栏是否红?右下角提示“截图失败”? | 关闭其他录屏软件(OBS、腾讯会议等),重启 UI-TARS-desktop | 终端执行pkill -f screenshot清理残留进程 |
| 指令没反应(状态栏不变色) | 输入框是否为空?是否按了回车? | 点击输入框右侧的麦克风图标,说一句“你好”,测试语音通道 | 终端运行npm run dev查看详细错误日志 |
| 点了但没执行(如图标没点开) | 截图里是否真有那个图标?它可能被遮挡或缩在角落 | 把目标窗口拖到屏幕中央,放大显示,再试一次 | 在指令前加请仔细看这张图,然后...强化视觉注意力 |
特别提醒:如果频繁遇到“找不到图标”,大概率是分辨率太高(如4K屏)导致截图细节模糊。临时解决方案:在系统设置中将缩放比例调至100%,或在指令中明确说“在左上角第三个图标”。
6. 总结:你已经掌握了下一代人机交互的钥匙
回看一下,你刚刚完成了什么:
🔹 在5分钟内,让一台普通电脑拥有了“看”“听”“想”“做”的完整能力;
🔹 不写一行代码,不装一个插件,只靠两行命令和一句大白话,就指挥它完成了文件操作、应用启动、网页浏览等真实任务;
🔹 还拿到了一套经过验证的指令写作心法和问题排查清单。
UI-TARS-desktop 的意义,从来不是替代程序员,而是把专业能力平民化。设计师不用学脚本就能批量重命名素材;运营不用求技术就能自动生成日报图表;学生不用记快捷键就能高效整理文献——自然语言,正成为最平权的操作系统。
下一步,你可以:
→ 尝试更复杂的指令,比如“对比桌面上两个Excel文件的A列数据差异”;
→ 把常用指令保存为快捷按钮(查看镜像文档的Custom Commands章节);
→ 或者,打开/root/workspace/src/main/ipcRoutes/agent.ts,看看它是如何把你的“一句话”变成一串系统调用的——好奇心,永远是最好的老师。
你已经跨过了那道门槛。现在,你的电脑,真的开始听你的话了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。