手把手教你部署Open-AutoGLM,轻松实现AI控机
你有没有想过,让AI替你点开微信、搜索关键词、填写验证码、甚至关注博主?不是靠预设脚本,而是用一句“打开小红书搜美食”就自动完成整套操作——屏幕识别、意图理解、动作规划、点击执行,一气呵成。这不是科幻,是今天就能跑起来的现实。Open-AutoGLM 就是这样一款由智谱开源的手机端 AI Agent 框架,它把大模型能力真正“落地”到指尖:不写代码、不配规则、不学语法,只说人话,手机就动。
它不是另一个聊天机器人,而是一个能“看见”你手机屏幕、“听懂”你自然语言、“动手”完成任务的数字分身。本文将带你从零开始,避开所有坑,完整走通本地控制端 + 云端模型的协作链路。全程无需显卡,不用下载20GB模型,一台普通电脑+一部安卓手机,30分钟内让AI开始帮你刷APP。
1. 先搞懂它到底能做什么
1.1 它不是自动化脚本,而是真·AI助理
很多人第一反应是:“这不就是Auto.js或Tasker?”关键区别在于理解力和泛化力:
- 传统脚本:必须提前录制坐标、写死ID、适配每个APP版本。换一个界面布局,整个流程就崩。
- Open-AutoGLM:用视觉语言模型(VLM)实时分析当前屏幕截图,像人一样“看懂”按钮在哪、文字是什么、当前处于什么页面;再用大模型推理“用户这句话想干什么”,最后生成并执行ADB指令序列。
举个真实例子:
你说:“在淘宝里找iPhone 15 Pro壳,筛选销量最高的前3个,把价格和店铺名发给我。”
它会:
截图识别淘宝首页 → 点击搜索框 → 输入“iPhone 15 Pro壳” → 点击搜索 → 识别“销量”排序按钮并点击 → 向下滑动 → 截图识别前3个商品区域 → 提取价格文本和店铺名 → 整理成文字返回给你。
整个过程没有一行硬编码的坐标,全靠模型“看”和“想”。
1.2 核心能力三件套
| 能力模块 | 实现方式 | 你得到什么 |
|---|---|---|
| 屏幕感知 | 每次操作前自动截屏,送入视觉语言模型(如AutoGLM-Phone-9B)分析界面元素、文字、状态栏、导航栏 | 不用关心APP结构,AI自己认得清按钮、输入框、列表项 |
| 意图规划 | 大模型解析你的自然语言指令,拆解为多步原子操作(点击/滑动/输入/长按),并判断执行顺序与条件分支 | “先登录再搜索”“如果弹出权限框就点允许”这类逻辑自动处理 |
| 安全执行 | 所有ADB操作经本地代理转发,敏感动作(如输入密码、访问相册)默认暂停并提示人工接管;支持WiFi/USB双模连接 | 既放得开手脚,又守得住底线,不怕误点误删 |
注意:它不越狱、不Root、不安装后台服务。所有控制都基于Android官方调试协议(ADB),权限清晰可控,断开连接即完全退出。
2. 准备工作:三步搞定硬件与环境
2.1 你的设备清单(极简版)
- 一台电脑:Windows 或 macOS(无需Linux,也无需GPU)
- 一部安卓手机:Android 7.0 及以上(主流品牌均可,小米、华为、OPPO、vivo、三星都实测通过)
- 一根数据线(USB-C或Micro-USB,推荐原装或6A快充线,稳定性远高于杂牌线)
- 网络:电脑能上网(调用云端API),手机与电脑在同一WiFi下(可选,USB直连更稳)
不需要:NVIDIA显卡、Docker、Kubernetes、Python高级知识。只要你会用命令行输入几条指令,就能跑起来。
2.2 安装ADB:手机与电脑的“翻译官”
ADB(Android Debug Bridge)是Android官方提供的调试工具,Open-AutoGLM正是通过它向手机发指令。安装只需3分钟:
Windows 用户
- 去官网下载平台工具:https://developer.android.com/tools/releases/platform-tools
- 解压到任意文件夹,例如
C:\platform-tools - 配置环境变量:
Win + R→ 输入sysdm.cpl→ “高级” → “环境变量”- 在“系统变量”中找到
Path→ “编辑” → “新建” → 粘贴C:\platform-tools
- 打开新终端(CMD或PowerShell),输入:
若显示类似adb versionAndroid Debug Bridge version 1.0.41,说明安装成功。
macOS 用户
- 下载平台工具并解压,假设路径为
~/Downloads/platform-tools - 打开终端,运行:
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc - 验证:
adb version
2.3 手机端设置:打开“控制大门”
这是最容易卡住的一步,但只需按顺序操作,一次成功:
开启开发者模式
- 进入
设置 → 关于手机 → 版本号 - 连续点击“版本号”7次,直到弹出“您现在处于开发者模式”提示
- 进入
开启USB调试
- 返回设置,进入
开发者选项(若没出现,可在设置顶部搜索“开发者”) - 找到并启用USB调试
- 小米/Redmi用户额外注意:向下滚动,务必同时开启USB调试(安全设置)和USB安装
- 返回设置,进入
安装ADB Keyboard(解决无法输入文字问题)
- 电脑下载APK:https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
- 用数据线连接手机,将APK拖入手机并安装(或用手机浏览器直接下载安装)
- 安装完成后,进入
设置 → 语言与输入法 → 虚拟键盘,将默认输入法切换为ADB Keyboard
验证是否成功:手机连电脑后,在终端输入
adb devices,若看到一串设备ID(如8a9b2c1d device),且状态为device,说明连接已就绪。
3. 部署控制端:5分钟拉起本地代理
3.1 克隆代码并安装依赖
打开终端(Windows用CMD/PowerShell,macOS用Terminal),执行:
# 1. 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 推荐使用清华源加速安装(国内用户必选) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt # 3. 安装 phone_agent 包(关键!否则后续API调用会报错) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .成功标志:无红色报错,最后一行显示Successfully installed ...。
小贴士:如果你遇到
pydantic版本冲突,可单独升级:pip install pydantic --upgrade
3.2 连接你的手机(USB or WiFi)
USB直连(推荐新手首选,最稳定)
- 用数据线连接手机与电脑
- 确保手机弹出“允许USB调试吗?”提示,勾选“始终允许”,点确定
- 终端运行:
记下输出的第一列设备ID(如adb devices8a9b2c1d),后面要用。
WiFi远程连接(适合不想插线的场景)
需先用USB连一次来初始化:
# 1. USB连接后,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB线,确保手机与电脑在同一WiFi # 3. 查看手机IP:设置 → 关于手机 → 状态信息 → IP地址(通常是192.168.x.x) adb connect 192.168.1.100:5555 # 把192.168.1.100换成你手机的真实IP再次运行adb devices,应看到192.168.1.100:5555 device。
4. 接入云端模型:零显存跑9B大模型
Open-AutoGLM本身不包含大模型,它是一个“指挥中枢”。你需要接入一个已部署好的视觉语言模型服务。强烈推荐使用第三方API方案——免部署、免维护、效果稳定,且完全免费额度够日常使用。
4.1 两种主流选择(任选其一)
| 平台 | 申请方式 | API Key位置 | 推荐理由 |
|---|---|---|---|
| ModelScope(魔搭) | 注册账号 → 进入 个人中心 → Access Token → 创建并复制Token | --apikey "your-ms-token" | 中文优化好,AutoGLM-Phone-9B官方托管于此,延迟低,响应快 |
| 智谱BigModel | 注册账号 → 进入 API管理 → 创建API Key | --apikey "your-zhipu-key" | 支持更多模型变体,企业级稳定性,文档最全 |
两个平台新用户均有充足免费额度(ModelScope每日万次,智谱首月赠送200万Token),足够测试几十次完整流程。
4.2 一条命令启动AI助理
确保你已在上一步获取了API Key,并记下了设备ID(如8a9b2c1d),现在执行:
# 使用 ModelScope(推荐) python main.py \ --device-id 8a9b2c1d \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --apikey "your-modelscope-access-token-here" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"# 使用 智谱BigModel python main.py \ --device-id 8a9b2c1d \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey "your-zhipu-api-key-here" \ "打开小红书搜‘北京周末咖啡馆’,保存前3个笔记封面"参数说明:
--device-id:adb devices输出的设备ID,USB连接时填ID,WiFi连接时填IP:5555--base-url:固定值,别手误--model:ModelScope填ZhipuAI/AutoGLM-Phone-9B,智谱填autoglm-phone- 最后引号内的字符串:你的自然语言指令,越具体越好(比如加上APP名、关键词、数量要求)
成功标志:终端开始滚动日志,显示📸 Capturing screenshot...→Analyzing screen with VLM...→Planning action steps...→🖱 Executing: tap at (x,y)→ 最终输出任务结果。
5. 实战案例:三分钟完成一个真实任务
我们来跑一个完整闭环:在京东APP中搜索“机械键盘”,进入第一个商品页,截图并保存到电脑。
5.1 操作前准备
- 确保手机已安装京东APP(未登录也可,AI会处理弹窗)
- 手机主屏幕不要有遮挡(如悬浮球、录屏提示),避免干扰截图
5.2 执行指令
python main.py \ --device-id 8a9b2c1d \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --apikey "your-token" \ "打开京东APP,搜索‘机械键盘’,点击第一个商品,截图并保存到电脑"5.3 你将看到什么(真实日志节选)
📸 Capturing screenshot... (saved as ./screenshots/20240520_142211.png) Sending to VLM: analyzing UI elements, text, and state... Generated plan: 1. Tap on search bar (detected at [280, 120]) 2. Input text "机械键盘" 3. Tap search button (detected at [920, 120]) 4. Scroll down slightly 5. Tap first product card (detected at [540, 420]) 6. Wait for page load (detecting '加入购物车' button) 7. Take final screenshot 🖱 Executing step 1: tap at (280, 120) ⌨ Inputting "机械键盘" via ADB Keyboard... 🖱 Executing step 2: tap at (920, 120) Task completed. Final screenshot saved to ./screenshots/final_20240520_142345.png截图自动保存在项目根目录
./screenshots/下,你可以直接打开查看效果。整个过程约45秒,完全无人干预。
6. 常见问题与避坑指南(血泪总结)
6.1 “屏幕被标记为敏感屏幕”错误
这是新手最高频报错,典型提示:
“屏幕被标记为敏感屏幕(黑屏),这可能是由于应用正在加载中或设备安全设置导致的。”
根本原因:部分国产手机(尤其小米、华为)在APP启动瞬间或权限弹窗时,会主动屏蔽ADB截屏,防止录屏窃密。
三步解决法:
- 换线:立即换一根原装或6A数据线(亲测解决80%案例)
- 关掉“USB调试安全设置”外的干扰项:
- 小米:关闭
设置 → 更多设置 → 隐私保护 → 隐私水印、USB调试(安全设置)保持开启 - 华为:关闭
设置 → 安全 → 更多安全设置 → 隐私空间、USB调试保持开启
- 小米:关闭
- 加等待时间:在指令末尾加一句“请等待3秒再开始”,给APP充分加载时间:
"打开淘宝,等待3秒,然后搜索‘蓝牙耳机’"
6.2 ADB连接不稳定(频繁掉线)
- WiFi连接:优先改用USB直连,WiFi受路由器信道、距离、干扰影响大
- USB连接:检查手机是否处于“文件传输”模式(而非仅充电),部分手机需手动切换
- 终极方案:在
main.py同级目录创建config.yaml,添加重试配置:adb: retry_times: 3 retry_delay: 2.0
6.3 模型返回乱码或无响应
- 检查API Key是否复制完整(前后有空格?大小写?)
- 检查
--base-url末尾是否有/v1(ModelScope必须有,智谱不能有) - 检查网络:能否在浏览器打开
https://api-inference.modelscope.cn?若不能,请换DNS(如114.114.114.114)
7. 进阶玩法:不只是“点一点”
Open-AutoGLM 的潜力远不止于单次指令。掌握以下技巧,让它真正成为你的生产力杠杆:
7.1 批量任务:用Python API串联多个操作
不必每次敲命令,用脚本批量处理:
from phone_agent.main import run_agent # 定义一连串指令 tasks = [ "打开微博,搜索‘AI新闻’,保存前5条热搜标题", "打开高德地图,搜索‘最近的充电桩’,截图列表页", "打开知乎,搜索‘大模型入门’,收藏第一个回答" ] for i, task in enumerate(tasks, 1): print(f"\n--- 执行任务 {i} ---") result = run_agent( device_id="8a9b2c1d", base_url="https://api-inference.modelscope.cn/v1", model="ZhipuAI/AutoGLM-Phone-9B", apikey="your-token", instruction=task, timeout=120 ) print("结果:", result[:200] + "..." if len(result) > 200 else result)7.2 自定义动作:在关键节点插入人工确认
对金融、支付类操作,强制加入确认环节:
python main.py \ --device-id 8a9b2c1d \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --apikey "your-token" \ --confirm-before "支付|转账|提现" \ "打开支付宝,向张三转账100元"当AI识别到“支付”字样,会暂停并打印:检测到敏感操作【支付】,请手动确认(回车继续,Ctrl+C退出)
7.3 远程监控:把手机画面实时投到电脑
配合scrcpy工具,边看边调:
# 安装 scrcpy(Mac: brew install scrcpy;Windows: 下载exe) scrcpy --window-title "AI Control Panel" --stay-awake启动后,手机屏幕实时镜像到电脑窗口,你能亲眼看到AI每一步操作,调试效率翻倍。
8. 总结:你已经拥有了一个AI数字分身
回顾这一路,我们没碰过一行模型代码,没配过一个CUDA环境,没下载一个GB的权重文件。只是装了ADB、开了调试、连了手机、复制了API Key,然后——用一句大白话,就让AI开始替你操作手机。
这不是玩具,而是生产力范式的迁移:
🔹 从此,重复性手机操作(比价、填表、打卡、信息收集)交给AI;
🔹 你的时间,只聚焦在真正需要判断、创意和决策的部分;
🔹 每一次“打开APP搜XX”,都在训练你与AI协作的新肌肉记忆。
下一步,试试这些指令:
- “把微信里昨天收到的所有PDF文件,转发到邮箱xxx@xx.com”
- “在闲鱼搜索‘二手MacBook’,筛选价格低于5000的,截图前3个商品页”
- “打开Keep,开始30分钟燃脂训练,音量调至60%”
你会发现,那个曾经需要你手指划动、眼睛紧盯、大脑记忆步骤的手机世界,正悄然变成一个只需开口说话的语音操作系统。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。