零基础也能用!Open-AutoGLM手机Agent保姆级教程
你有没有想过,让AI替你点外卖、刷小红书、关注博主、查快递——全程不用碰手机?不是语音助手那种“帮你打开App”,而是真正像人一样:看懂屏幕、点击按钮、输入文字、滑动页面、处理弹窗……直到任务完成。
Open-AutoGLM 就是这样一个能“动手”的AI。它不是概念Demo,不是实验室玩具,而是一个已开源、可本地部署、真机实测可用的手机端智能体(Phone Agent)。更关键的是:它不要求你会写代码、不强制配GPU服务器、不需要调试模型参数——只要你会连WiFi、会开开发者模式,就能跑起来。
本文就是为你写的“零门槛实战指南”。不讲大模型原理,不堆技术术语,只说清楚三件事:
怎么把你的安卓手机变成AI可操作的终端
怎么在自己电脑上启动这个“手机大脑”
怎么用一句大白话,让它替你干完一整套操作
全程手把手,截图级细节,连ADB环境变量怎么加都给你标好路径。哪怕你昨天刚学会用微信,今天也能让AI替你搜美食、订电影票、回消息。
1. 先搞明白:它到底能干什么?(不是“语音唤醒”,是“真动手”)
Open-AutoGLM 的核心能力,一句话概括:用自然语言指挥手机,AI自动看、想、点、输、滑、确认,全流程闭环执行。
它和你用过的所有AI都不一样:
- ❌ 不是 Siri 或小爱同学:它们只能调用系统API,无法操作第三方App界面;
- ❌ 不是手机厂商的“AI助手”:那些大多只支持自家生态内有限功能;
- Open-AutoGLM 是真正的“视觉+动作”双模态Agent:它先用视觉模型“看”你手机屏幕长什么样,再规划“下一步该点哪”,最后通过ADB命令“动手”执行。
1.1 它能做的真实任务(已实测通过)
| 任务类型 | 你输入的指令示例 | AI实际做了什么 |
|---|---|---|
| 应用启动与搜索 | “打开小红书,搜‘上海咖啡探店’” | 自动解锁→启动小红书→识别首页搜索框→点击→输入文字→点击搜索→滚动浏览结果 |
| 社交互动 | “打开抖音,搜索抖音号dycwo11nt61d,进入主页并关注” | 启动抖音→点搜索栏→输入ID→点进主页→识别“关注”按钮→点击确认 |
| 生活服务 | “打开美团,搜‘附近2公里内的川菜馆’,选评分最高的那家,看营业时间” | 启动美团→定位→搜索→列表排序→点击第一名→解析详情页文字→提取营业时间 |
| 信息查询 | “打开支付宝,查我的余额” | 启动支付宝→识别首页“余额”入口→点击→等待加载→读取数字并返回结果 |
注意:所有操作都在你自己的手机上完成,AI不上传截图、不保存记录、不联网抓取数据——它只是“帮你点”,而不是“替你登录”。
1.2 它为什么能做到?三个关键设计(小白版解释)
- 看得懂屏幕:内置轻量级视觉语言模型(基于GLM-4.5V优化),不是OCR识别文字,而是理解整个界面布局——知道哪个是按钮、哪个是输入框、哪个是广告横幅。
- 想得清步骤:把你的自然语言指令拆解成“原子动作链”,比如“搜美食”=【打开App】→【找搜索图标】→【点它】→【输关键词】→【点搜索】→【等结果】。
- 动得了真机:通过ADB(Android Debug Bridge)这条“手机控制总线”,发送真实点击、滑动、输入命令,就像你用手指操作一样,系统完全感知不到这是AI在点。
这三点合在一起,才构成了一个“能动手”的Agent。而Open-AutoGLM,是目前唯一把这三者打包开源、且对新手足够友好的方案。
2. 准备工作:30分钟搞定全部环境(Windows/macOS通用)
别被“ADB”“视觉模型”吓到。这一节只做四件事:
① 让电脑认识你的手机
② 让手机允许电脑控制它
③ 给电脑装好控制工具
④ 下载并安装AI代理代码
每一步都有明确路径、错误提示和绕过方案。我们按顺序来。
2.1 第一步:让电脑“看见”你的手机(ADB连接)
ADB 是安卓系统的官方调试工具,就像手机的“USB网线协议”。你需要它,但不用懂原理——只要让它正常工作就行。
Windows 用户操作流程
- 下载 ADB 工具包:去 Android SDK Platform-Tools 官网 下载最新版(zip格式)
- 解压到固定位置:比如
C:\adb(路径别带中文、空格) - 添加到系统环境变量:
- 按
Win + R→ 输入sysdm.cpl→ 回车 - 点击“高级” → “环境变量” → 在“系统变量”里找到
Path→ “编辑” - 点“新建”,粘贴你刚才的路径:
C:\adb - 点“确定”保存
- 按
- 验证是否成功:
- 打开命令提示符(CMD)或 PowerShell
- 输入
adb version,如果显示类似Android Debug Bridge version 1.0.41,就成功了!
macOS 用户操作流程
- 下载 ADB 工具包:同上,下载 zip
- 解压到用户目录:比如
~/Downloads/platform-tools - 临时添加路径(推荐):
(每次新开终端都要运行一次;如需永久生效,把这行加到export PATH=$PATH:~/Downloads/platform-tools~/.zshrc文件末尾) - 验证:终端输入
adb version,有版本号即成功。
小贴士:如果
adb devices显示unauthorized,说明手机还没授权——跳到下一节“手机端设置”,授权后重试。
2.2 第二步:手机端设置(3分钟,必须做)
这是最关键的一步。不做完,AI永远点不了你的屏幕。
🔧 设置步骤(所有安卓手机通用)
- 开启开发者模式:
- 进入「设置」→「关于手机」→ 连续点击「版本号」7次 → 弹出“您现在是开发者!”
- 开启USB调试:
- 返回「设置」→「系统」→「开发者选项」→ 找到「USB调试」→ 开关打开
- 安装 ADB Keyboard(解决中文输入问题):
- 去 GitHub 搜索
adb-keyboard,下载最新.apk文件(如adb-keyboard-v1.0.0.apk) - 用手机浏览器打开下载链接,或通过USB传到手机安装
- 安装后,进入「设置」→「语言与输入法」→「当前输入法」→ 切换为
ADB Keyboard
- 去 GitHub 搜索
注意:部分国产手机(华为、小米)可能额外要求关闭“MIUI优化”“纯净模式”或开启“USB安装未知应用”。遇到安装失败,搜索“你的手机型号 + 安装未知来源APK”即可。
2.3 第三步:连接手机(USB or WiFi,任选其一)
🔌 USB 连接(最稳,新手首选)
- 用原装数据线连接手机和电脑
- 手机弹出“允许USB调试吗?”→ 勾选“始终允许”,点“确定”
- 电脑终端输入:
如果看到一串字母数字(如adb devicesZY223456789 device),说明连接成功
WiFi 连接(免线,适合长期使用)
- 先用USB连一次,执行:
adb tcpip 5555 - 断开USB,确保手机和电脑在同一WiFi下
- 查看手机IP:设置 → 关于手机 → 状态 → IP地址(如
192.168.1.105) - 电脑终端输入:
显示adb connect 192.168.1.105:5555connected to 192.168.1.105:5555即成功
如果WiFi连接失败,立刻切回USB——这不是你的问题,是WiFi信号抖动导致的ADB断连,非常常见。
2.4 第四步:下载并安装 Open-AutoGLM 控制端
这一步,你只是“下载代码+装依赖”,不涉及模型下载、不编译、不训练。
# 1. 克隆仓库(复制粘贴执行) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染主Python) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(耐心等1-2分钟) pip install -r requirements.txt pip install -e .成功标志:没有红色报错,最后一行是
Successfully installed ...
❌ 常见报错ERROR: Could not find a version that satisfies...:升级pip再试python -m pip install --upgrade pip
3. 启动AI:一行命令,让它开始干活
现在,你的电脑能连手机、手机允许被控、代码也装好了——只剩最后一步:告诉AI“你想让它做什么”。
Open-AutoGLM 提供两种启动方式,新手强烈推荐第一种。
3.1 方式一:命令行直接运行(最简单,5秒启动)
确保你在Open-AutoGLM目录下,执行:
python main.py \ --device-id "ZY223456789" \ --base-url "http://your-server-ip:8800/v1" \ "打开小红书,搜'杭州龙井茶'"参数说明(请务必替换):
--device-id:从adb devices命令看到的设备ID(如ZY223456789)--base-url:你部署的云服务地址(如果你用的是CSDN星图镜像或自建vLLM服务,填对应IP和端口)- 最后引号里的内容:你的自然语言指令,越具体越好(建议先从“打开XX App”开始)
实测效果:执行后,你会看到终端实时打印日志:
[INFO] 截图已获取 → [INFO] 视觉模型正在分析 → [INFO] 识别到‘搜索’图标 → [INFO] 执行点击 → [INFO] 输入‘杭州龙井茶’ → [INFO] 任务完成
同时,你的手机屏幕会真实地动起来!
3.2 方式二:Python API 调用(适合集成进自己的脚本)
如果你以后想把它嵌入自动化流程,可以用代码方式控制:
from phone_agent.main import run_agent # 一行代码启动任务 result = run_agent( device_id="ZY223456789", base_url="http://your-server-ip:8800/v1", instruction="打开微博,搜'今日热榜',截图前三条" ) print("执行结果:", result["status"]) # success / failed print("耗时:", result["duration"], "秒")提示:
run_agent返回结构化结果,包含操作步骤、截图路径、错误原因,方便你做日志记录或失败重试。
4. 实战演练:手把手带你完成第一个任务(从零到结果)
我们来走一遍完整闭环:让你的AI替你打开小红书,搜索“北京胡同咖啡”,并截图结果页。
4.1 前置检查清单(动手前确认)
- [ ] 电脑已安装ADB且
adb version正常 - [ ] 手机已开启开发者模式 & USB调试 & ADB Keyboard
- [ ]
adb devices显示device(不是unauthorized或offline) - [ ] Open-AutoGLM 代码已下载并
pip install -e .成功 - [ ] 你已有可用的模型服务地址(如CSDN星图镜像提供的
http://xxx.xxx.xxx.xxx:8800/v1)
4.2 执行命令(复制粘贴即可)
python main.py \ --device-id "ZY223456789" \ --base-url "http://116.205.187.42:8800/v1" \ "打开小红书,搜索'北京胡同咖啡',截图当前页面"替换说明:
ZY223456789→ 改成你自己的设备ID116.205.187.42:8800→ 改成你实际的服务地址(CSDN星图镜像用户可直接用,无需自建)
4.3 你会看到什么?(真实过程还原)
| 时间点 | 终端日志 | 手机屏幕变化 |
|---|---|---|
| 0s | [INFO] 正在截取当前屏幕... | 手机自动亮屏、解锁(如已锁屏) |
| 2s | [INFO] 视觉模型识别到:小红书App图标(左上角) | 屏幕点击小红书图标,启动App |
| 5s | [INFO] 检测到首页搜索框,准备点击 | 点击顶部搜索栏 |
| 7s | [INFO] 输入文字:北京胡同咖啡 | 屏幕弹出键盘,自动输入文字 |
| 9s | [INFO] 识别到‘搜索’按钮,执行点击 | 点击放大镜图标,进入结果页 |
| 12s | [INFO] 截图已保存至 ./screenshots/20250405_142211.png | 屏幕静止,截图完成 |
任务结束。你可以在项目根目录下的screenshots/文件夹里,找到这张AI为你截的图。
5. 常见问题与解决方案(都是踩坑总结)
我们整理了新手90%会遇到的问题,按优先级排序:
5.1 连接类问题
| 现象 | 原因 | 解决方案 |
|---|---|---|
adb devices显示unauthorized | 手机未授权调试 | 拔掉USB,重新插,手机弹窗点“允许”并勾选“始终允许” |
adb devices显示offline | ADB服务异常 | 终端执行adb kill-server && adb start-server |
WiFi连接后adb shell报错closed | 手机休眠或WiFi断连 | 在手机「开发者选项」中开启「保持WLAN连接」和「不锁定屏幕」 |
5.2 操作类问题
| 现象 | 原因 | 解决方案 |
|---|---|---|
| AI一直卡在“正在截图”,无后续 | 手机屏幕太暗/息屏/锁屏 | 确保手机常亮、已解锁、亮度调高 |
| AI点了错误位置(如点到广告) | 界面元素识别混淆 | 在指令中加限定词:“点击顶部搜索框,不是广告横幅” |
| 中文输入失败,显示乱码 | ADB Keyboard未启用或失效 | 进入手机「语言与输入法」,手动切换为ADB Keyboard |
5.3 模型服务类问题(CSDN星图用户重点关注)
| 现象 | 原因 | 解决方案 |
|---|---|---|
Connection refused错误 | 服务未启动或端口未映射 | 登录CSDN星图镜像控制台,确认容器状态为“运行中”,端口8800已暴露 |
| 指令执行超时(>60秒) | 模型响应慢或显存不足 | 在镜像配置中增加GPU资源,或改用autoglm-phone-3b轻量版模型 |
| 返回结果为空或乱码 | API路径错误 | 确认--base-url末尾是/v1,不是/api/v1或/ |
终极建议:首次测试,务必用USB连接 + 最简指令(如“打开微信”),成功后再尝试复杂任务。稳比快重要十倍。
6. 进阶玩法:让AI更懂你(3个实用技巧)
当你跑通第一个任务,就可以试试这些提升体验的技巧:
6.1 技巧一:用“上下文指令”减少重复操作
AI支持连续对话。比如你刚让AI打开小红书,接着输入:
“点进第一条笔记,下滑三屏,截图”
它会记住当前在小红书界面,不会重新启动App——省去重复识别时间。
6.2 技巧二:指定操作区域,提升准确率
如果界面元素太多,可以加空间描述:
“在屏幕右下角点击‘+’号,不是左上角那个”
视觉模型能理解“右下角”“顶部居中”等空间关系,大幅降低误点概率。
6.3 技巧三:人工接管敏感操作(安全兜底)
遇到登录、支付、短信验证码等场景,AI会自动暂停,并在终端提示:
[PAUSE] 检测到登录弹窗,请手动输入验证码,完成后输入 'continue' 继续你只需在终端敲continue,AI就继续执行——既保证自动化,又守住安全底线。
7. 总结:你已经掌握了下一代手机交互的钥匙
回顾一下,你刚刚完成了什么:
🔹 把一台普通安卓手机,变成了AI可理解、可操作的智能终端;
🔹 在自己电脑上,用5行命令启动了一个能“看、想、点、输、滑”的多模态Agent;
🔹 让AI替你完成了一整套真实任务,从启动App到截图结果,全程无人工干预;
🔹 掌握了连接、调试、排错、优化的全套实操经验,不再是纸上谈兵。
Open-AutoGLM 的意义,从来不只是“又一个开源模型”。它是第一次,把“手机操作权”真正交还给用户——不是靠厂商预设的快捷指令,不是靠云端黑盒API,而是用开放、透明、可验证的方式,让你亲眼看见AI如何一步步完成任务。
它不承诺取代你,而是成为你手指的延伸、眼睛的补充、记忆的备份。点外卖时少等30秒,查快递时不用翻5个App,追热点时一键生成图文——这些微小的节省,终将汇聚成一种新的使用习惯。
而你现在,已经站在了这个习惯的起点。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。