手把手教你部署Open-AutoGLM，轻松实现AI控机-开发者社区

手把手教你部署Open-AutoGLM，轻松实现AI控机

你有没有想过，让AI替你点开微信、搜索关键词、填写验证码、甚至关注博主？不是靠预设脚本，而是用一句“打开小红书搜美食”就自动完成整套操作——屏幕识别、意图理解、动作规划、点击执行，一气呵成。这不是科幻，是今天就能跑起来的现实。Open-AutoGLM 就是这样一款由智谱开源的手机端 AI Agent 框架，它把大模型能力真正“落地”到指尖：不写代码、不配规则、不学语法，只说人话，手机就动。

它不是另一个聊天机器人，而是一个能“看见”你手机屏幕、“听懂”你自然语言、“动手”完成任务的数字分身。本文将带你从零开始，避开所有坑，完整走通本地控制端 + 云端模型的协作链路。全程无需显卡，不用下载20GB模型，一台普通电脑+一部安卓手机，30分钟内让AI开始帮你刷APP。

1. 先搞懂它到底能做什么

1.1 它不是自动化脚本，而是真·AI助理

很多人第一反应是：“这不就是Auto.js或Tasker？”关键区别在于理解力和泛化力：

传统脚本：必须提前录制坐标、写死ID、适配每个APP版本。换一个界面布局，整个流程就崩。
Open-AutoGLM：用视觉语言模型（VLM）实时分析当前屏幕截图，像人一样“看懂”按钮在哪、文字是什么、当前处于什么页面；再用大模型推理“用户这句话想干什么”，最后生成并执行ADB指令序列。

举个真实例子：
你说：“在淘宝里找iPhone 15 Pro壳，筛选销量最高的前3个，把价格和店铺名发给我。”
它会：
截图识别淘宝首页 → 点击搜索框 → 输入“iPhone 15 Pro壳” → 点击搜索 → 识别“销量”排序按钮并点击 → 向下滑动 → 截图识别前3个商品区域 → 提取价格文本和店铺名 → 整理成文字返回给你。

整个过程没有一行硬编码的坐标，全靠模型“看”和“想”。

1.2 核心能力三件套

能力模块	实现方式	你得到什么
屏幕感知	每次操作前自动截屏，送入视觉语言模型（如AutoGLM-Phone-9B）分析界面元素、文字、状态栏、导航栏	不用关心APP结构，AI自己认得清按钮、输入框、列表项
意图规划	大模型解析你的自然语言指令，拆解为多步原子操作（点击/滑动/输入/长按），并判断执行顺序与条件分支	“先登录再搜索”“如果弹出权限框就点允许”这类逻辑自动处理
安全执行	所有ADB操作经本地代理转发，敏感动作（如输入密码、访问相册）默认暂停并提示人工接管；支持WiFi/USB双模连接	既放得开手脚，又守得住底线，不怕误点误删

注意：它不越狱、不Root、不安装后台服务。所有控制都基于Android官方调试协议（ADB），权限清晰可控，断开连接即完全退出。

2. 准备工作：三步搞定硬件与环境

2.1 你的设备清单（极简版）

一台电脑：Windows 或 macOS（无需Linux，也无需GPU）
一部安卓手机：Android 7.0 及以上（主流品牌均可，小米、华为、OPPO、vivo、三星都实测通过）
一根数据线（USB-C或Micro-USB，推荐原装或6A快充线，稳定性远高于杂牌线）
网络：电脑能上网（调用云端API），手机与电脑在同一WiFi下（可选，USB直连更稳）

不需要：NVIDIA显卡、Docker、Kubernetes、Python高级知识。只要你会用命令行输入几条指令，就能跑起来。

2.2 安装ADB：手机与电脑的“翻译官”

ADB（Android Debug Bridge）是Android官方提供的调试工具，Open-AutoGLM正是通过它向手机发指令。安装只需3分钟：

Windows 用户

去官网下载平台工具：https://developer.android.com/tools/releases/platform-tools
解压到任意文件夹，例如C:\platform-tools
配置环境变量：
- Win + R→ 输入sysdm.cpl→ “高级” → “环境变量”
- 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\platform-tools
打开新终端（CMD或PowerShell），输入：
```
adb version
```
若显示类似Android Debug Bridge version 1.0.41，说明安装成功。

macOS 用户

下载平台工具并解压，假设路径为~/Downloads/platform-tools

打开终端，运行：

echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

验证：
```
adb version
```

2.3 手机端设置：打开“控制大门”

这是最容易卡住的一步，但只需按顺序操作，一次成功：

开启开发者模式
- 进入设置 → 关于手机 → 版本号
- 连续点击“版本号”7次，直到弹出“您现在处于开发者模式”提示
开启USB调试
- 返回设置，进入开发者选项（若没出现，可在设置顶部搜索“开发者”）
- 找到并启用USB调试
- 小米/Redmi用户额外注意：向下滚动，务必同时开启USB调试（安全设置）和USB安装
安装ADB Keyboard（解决无法输入文字问题）
- 电脑下载APK：https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
- 用数据线连接手机，将APK拖入手机并安装（或用手机浏览器直接下载安装）
- 安装完成后，进入设置 → 语言与输入法 → 虚拟键盘，将默认输入法切换为ADB Keyboard

验证是否成功：手机连电脑后，在终端输入adb devices，若看到一串设备ID（如8a9b2c1d device），且状态为device，说明连接已就绪。

3. 部署控制端：5分钟拉起本地代理

3.1 克隆代码并安装依赖

打开终端（Windows用CMD/PowerShell，macOS用Terminal），执行：

# 1. 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 推荐使用清华源加速安装（国内用户必选） pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt # 3. 安装 phone_agent 包（关键！否则后续API调用会报错） pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .

成功标志：无红色报错，最后一行显示Successfully installed ...。

小贴士：如果你遇到pydantic版本冲突，可单独升级：pip install pydantic --upgrade

3.2 连接你的手机（USB or WiFi）

USB直连（推荐新手首选，最稳定）

用数据线连接手机与电脑
确保手机弹出“允许USB调试吗？”提示，勾选“始终允许”，点确定
终端运行：
```
adb devices
```
记下输出的第一列设备ID（如8a9b2c1d），后面要用。

WiFi远程连接（适合不想插线的场景）

需先用USB连一次来初始化：

# 1. USB连接后，开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB线，确保手机与电脑在同一WiFi # 3. 查看手机IP：设置 → 关于手机 → 状态信息 → IP地址（通常是192.168.x.x） adb connect 192.168.1.100:5555 # 把192.168.1.100换成你手机的真实IP

再次运行adb devices，应看到192.168.1.100:5555 device。

4. 接入云端模型：零显存跑9B大模型

Open-AutoGLM本身不包含大模型，它是一个“指挥中枢”。你需要接入一个已部署好的视觉语言模型服务。强烈推荐使用第三方API方案——免部署、免维护、效果稳定，且完全免费额度够日常使用。

4.1 两种主流选择（任选其一）

平台	申请方式	API Key位置	推荐理由
ModelScope（魔搭）	注册账号 → 进入个人中心 → Access Token → 创建并复制Token	`--apikey "your-ms-token"`	中文优化好，AutoGLM-Phone-9B官方托管于此，延迟低，响应快
智谱BigModel	注册账号 → 进入 API管理 → 创建API Key	`--apikey "your-zhipu-key"`	支持更多模型变体，企业级稳定性，文档最全

两个平台新用户均有充足免费额度（ModelScope每日万次，智谱首月赠送200万Token），足够测试几十次完整流程。

4.2 一条命令启动AI助理

确保你已在上一步获取了API Key，并记下了设备ID（如8a9b2c1d），现在执行：

# 使用 ModelScope（推荐） python main.py \ --device-id 8a9b2c1d \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --apikey "your-modelscope-access-token-here" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

# 使用 智谱BigModel python main.py \ --device-id 8a9b2c1d \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey "your-zhipu-api-key-here" \ "打开小红书搜‘北京周末咖啡馆’，保存前3个笔记封面"

参数说明：

--device-id：adb devices输出的设备ID，USB连接时填ID，WiFi连接时填IP:5555
--base-url：固定值，别手误
--model：ModelScope填ZhipuAI/AutoGLM-Phone-9B，智谱填autoglm-phone
最后引号内的字符串：你的自然语言指令，越具体越好（比如加上APP名、关键词、数量要求）

成功标志：终端开始滚动日志，显示📸 Capturing screenshot...→Analyzing screen with VLM...→Planning action steps...→🖱 Executing: tap at (x,y)→ 最终输出任务结果。

5. 实战案例：三分钟完成一个真实任务

我们来跑一个完整闭环：在京东APP中搜索“机械键盘”，进入第一个商品页，截图并保存到电脑。

5.1 操作前准备

确保手机已安装京东APP（未登录也可，AI会处理弹窗）
手机主屏幕不要有遮挡（如悬浮球、录屏提示），避免干扰截图

5.2 执行指令

python main.py \ --device-id 8a9b2c1d \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --apikey "your-token" \ "打开京东APP，搜索‘机械键盘’，点击第一个商品，截图并保存到电脑"

5.3 你将看到什么（真实日志节选）

📸 Capturing screenshot... (saved as ./screenshots/20240520_142211.png) Sending to VLM: analyzing UI elements, text, and state... Generated plan: 1. Tap on search bar (detected at [280, 120]) 2. Input text "机械键盘" 3. Tap search button (detected at [920, 120]) 4. Scroll down slightly 5. Tap first product card (detected at [540, 420]) 6. Wait for page load (detecting '加入购物车' button) 7. Take final screenshot 🖱 Executing step 1: tap at (280, 120) ⌨ Inputting "机械键盘" via ADB Keyboard... 🖱 Executing step 2: tap at (920, 120) Task completed. Final screenshot saved to ./screenshots/final_20240520_142345.png

截图自动保存在项目根目录./screenshots/下，你可以直接打开查看效果。整个过程约45秒，完全无人干预。

6. 常见问题与避坑指南（血泪总结）

6.1 “屏幕被标记为敏感屏幕”错误

这是新手最高频报错，典型提示：

“屏幕被标记为敏感屏幕（黑屏），这可能是由于应用正在加载中或设备安全设置导致的。”

根本原因：部分国产手机（尤其小米、华为）在APP启动瞬间或权限弹窗时，会主动屏蔽ADB截屏，防止录屏窃密。

三步解决法：

换线：立即换一根原装或6A数据线（亲测解决80%案例）
关掉“USB调试安全设置”外的干扰项：
- 小米：关闭设置 → 更多设置 → 隐私保护 → 隐私水印、USB调试（安全设置）保持开启
- 华为：关闭设置 → 安全 → 更多安全设置 → 隐私空间、USB调试保持开启
加等待时间：在指令末尾加一句“请等待3秒再开始”，给APP充分加载时间：
"打开淘宝，等待3秒，然后搜索‘蓝牙耳机’"

6.2 ADB连接不稳定（频繁掉线）

WiFi连接：优先改用USB直连，WiFi受路由器信道、距离、干扰影响大
USB连接：检查手机是否处于“文件传输”模式（而非仅充电），部分手机需手动切换
终极方案：在main.py同级目录创建config.yaml，添加重试配置：
```
adb: retry_times: 3 retry_delay: 2.0
```

6.3 模型返回乱码或无响应

检查API Key是否复制完整（前后有空格？大小写？）
检查--base-url末尾是否有/v1（ModelScope必须有，智谱不能有）
检查网络：能否在浏览器打开https://api-inference.modelscope.cn？若不能，请换DNS（如114.114.114.114）

7. 进阶玩法：不只是“点一点”

Open-AutoGLM 的潜力远不止于单次指令。掌握以下技巧，让它真正成为你的生产力杠杆：

7.1 批量任务：用Python API串联多个操作

不必每次敲命令，用脚本批量处理：

from phone_agent.main import run_agent # 定义一连串指令 tasks = [ "打开微博，搜索‘AI新闻’，保存前5条热搜标题", "打开高德地图，搜索‘最近的充电桩’，截图列表页", "打开知乎，搜索‘大模型入门’，收藏第一个回答" ] for i, task in enumerate(tasks, 1): print(f"\n--- 执行任务 {i} ---") result = run_agent( device_id="8a9b2c1d", base_url="https://api-inference.modelscope.cn/v1", model="ZhipuAI/AutoGLM-Phone-9B", apikey="your-token", instruction=task, timeout=120 ) print("结果:", result[:200] + "..." if len(result) > 200 else result)

7.2 自定义动作：在关键节点插入人工确认

对金融、支付类操作，强制加入确认环节：

python main.py \ --device-id 8a9b2c1d \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --apikey "your-token" \ --confirm-before "支付|转账|提现" \ "打开支付宝，向张三转账100元"

当AI识别到“支付”字样，会暂停并打印：
检测到敏感操作【支付】，请手动确认（回车继续，Ctrl+C退出）

7.3 远程监控：把手机画面实时投到电脑

配合scrcpy工具，边看边调：

# 安装 scrcpy（Mac: brew install scrcpy；Windows: 下载exe） scrcpy --window-title "AI Control Panel" --stay-awake

启动后，手机屏幕实时镜像到电脑窗口，你能亲眼看到AI每一步操作，调试效率翻倍。

8. 总结：你已经拥有了一个AI数字分身

回顾这一路，我们没碰过一行模型代码，没配过一个CUDA环境，没下载一个GB的权重文件。只是装了ADB、开了调试、连了手机、复制了API Key，然后——用一句大白话，就让AI开始替你操作手机。

这不是玩具，而是生产力范式的迁移：
🔹 从此，重复性手机操作（比价、填表、打卡、信息收集）交给AI；
🔹 你的时间，只聚焦在真正需要判断、创意和决策的部分；
🔹 每一次“打开APP搜XX”，都在训练你与AI协作的新肌肉记忆。

下一步，试试这些指令：

“把微信里昨天收到的所有PDF文件，转发到邮箱xxx@xx.com”
“在闲鱼搜索‘二手MacBook’，筛选价格低于5000的，截图前3个商品页”
“打开Keep，开始30分钟燃脂训练，音量调至60%”

你会发现，那个曾经需要你手指划动、眼睛紧盯、大脑记忆步骤的手机世界，正悄然变成一个只需开口说话的语音操作系统。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手把手教你部署Open-AutoGLM，轻松实现AI控机