小白也能懂的Open-AutoGLM:零基础搭建手机智能代理
你有没有想过,以后点外卖、刷短视频、查快递,都不用自己动手?不是靠语音助手,也不是靠预设脚本,而是让一个真正“看懂”手机屏幕的AI,像真人一样理解界面、思考步骤、点击滑动——甚至在验证码弹出时主动喊你:“喂,该你输数字了”。
这不是科幻电影。智谱开源的Open-AutoGLM,就是这样一个能跑在你真实安卓手机上的AI智能代理框架。它不依赖APP内嵌SDK,不挑品牌机型,只要你的手机能连电脑或WiFi,就能让它听你一句话,自动完成整套操作。
更关键的是:它真的对新手友好。不需要你会写Python,不需要你调参炼丹,连ADB是什么都不知道?没关系——这篇教程就从“打开手机设置”开始,手把手带你把AI代理装进手机,让它第一次为你点开抖音。
我们不讲模型结构、不聊多模态对齐损失函数,只说三件事:
你得准备什么(全是常见设备,没有冷门硬件)
每一步点哪、输什么、看到什么提示才算成功
它到底能干啥?——用你真机录屏的真实效果说话
现在,把手机充上电,拿根USB线,咱们开始。
1. 先搞明白:它到底是个什么“代理”
1.1 不是APP,也不是插件,而是一个“会看会想会动手”的AI管家
Open-AutoGLM 的核心身份,是Phone Agent——一个运行在你本地电脑上的控制程序,但它服务的对象,是你手里的安卓手机。
它的工作流非常贴近人类操作逻辑:
- 看:每秒截一次手机屏幕,把图片+当前界面文字(OCR识别结果)一起传给云端大模型
- 想:模型结合你的自然语言指令(比如“帮我订一杯瑞幸的生椰拿铁”),理解任务目标、分析当前APP状态、规划下一步动作(点哪个图标、输什么字、滑到哪)
- 做:通过 ADB(Android Debug Bridge)向手机发送精准指令——点击坐标、输入文字、返回上一页、长按……就像你用手指操作一样
整个过程,你只需要说人话,剩下的交给它。
1.2 和普通语音助手有啥不一样?
| 对比项 | Siri / 小爱同学 | Open-AutoGLM |
|---|---|---|
| 能看屏幕吗? | ❌ 只能听你说,看不到APP里有什么 | 实时截图分析,知道微信聊天框在哪、美团搜索栏有没有弹出键盘 |
| 能跨APP操作吗? | ❌ 大多限于系统级功能(打电话、设闹钟) | “打开小红书→搜‘露营装备’→点收藏最多那篇→保存图片到相册”一气呵成 |
| 需要APP配合吗? | ❌ 不需要,但能力受限 | 完全不依赖APP开放接口,所有操作基于视觉和ADB,适配99%安卓应用 |
| 遇到验证码怎么办? | ❌ 直接卡死 | 自动暂停,高亮显示验证码区域,等你手动输入后继续 |
简单说:它是你手机屏幕的“影子操作员”,而不仅是耳朵边的“传声筒”。
2. 零基础准备:四样东西,30分钟搞定
别被“ADB”“vLLM”这些词吓住。下面列的全是日常能接触到的东西,没有一项需要你去电子市场买新硬件。
2.1 你手边必须有的四样
- 一台电脑:Windows 或 macOS 都行(不要用Linux虚拟机,初期连接容易掉)
- 一部安卓手机:Android 7.0 及以上(2016年之后的主流机型基本都满足)
- 一根USB数据线:原装或认证线,避免充电线无法传输数据
- 一个浏览器:用来下载几个小工具(后面直接给你链接)
小提醒:iPhone 不支持。这不是技术歧视,而是 ADB 是安卓官方调试协议,iOS 有完全不同的生态限制。
2.2 手机端:三步开启“被接管”权限
这三步在手机上操作,全程中文界面,每步都有明确路径:
开启开发者模式
- 进入「设置」→「关于手机」→ 连续点击「版本号」7次
- 弹出提示“您已处于开发者模式”,别关,直接返回上一级
开启USB调试
- 回到「设置」→「系统」→「开发者选项」→ 找到「USB调试」→ 右侧开关打开
- 第一次开启会弹窗,点「确定」
安装并启用 ADB Keyboard(关键!)
- 用电脑浏览器访问这个地址下载安装包:
https://github.com/Genymobile/scrcpy/releases/download/v2.4/adb-keyboard.apk - 把APK文件传到手机,用文件管理器安装(如提示“禁止安装未知来源”,去「设置」→「安全」→ 打开「未知来源应用安装」)
- 安装完,进入「设置」→「语言与输入法」→「当前键盘」→ 选择「ADB Keyboard」
- 用电脑浏览器访问这个地址下载安装包:
成功标志:当你用USB连上电脑后,在命令行输入
adb shell input text "test",手机输入框里会立刻出现 test 字样。
2.3 电脑端:装好ADB,5分钟验证通没通
ADB 是连接电脑和手机的“翻译官”。我们不编译源码,只装现成工具包:
Windows 用户:
下载地址 → https://developer.android.com/tools/releases/platform-tools
解压后,记住这个文件夹路径(比如D:\platform-tools)
然后:Win + R→ 输入sysdm.cpl→ 「高级」→ 「环境变量」→ 在「系统变量」里找到 Path → 「编辑」→ 「新建」→ 粘贴你刚记下的路径 → 确定macOS 用户:
终端执行:curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH="$PATH:$(pwd)/platform-tools"
验证是否成功:
打开命令行(Windows用CMD/PowerShell,macOS用Terminal),输入:
adb version如果显示类似Android Debug Bridge version 34.0.5,说明装好了。
3. 三步部署:从克隆代码到第一句指令
现在,你的手机已准备好被接管,电脑也装好了“翻译官”。接下来,我们把 Open-AutoGLM 这个“大脑”装上。
3.1 下载并安装控制端(就是那个让AI干活的程序)
打开命令行,依次执行(复制粘贴即可):
# 1. 克隆项目(不用懂git,这行只是下载全部文件) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建独立环境(避免和其他Python项目冲突) python3 -m venv .venv source .venv/bin/activate # macOS/Linux # Windows用户请改用: .venv\Scripts\activate # 3. 安装所有依赖(自动处理,喝口水等2分钟) pip install -r requirements.txt pip install -e .注意:如果提示
pip is not recognized,说明Python没加进环境变量,请先搜索“Windows如何配置Python环境变量”补上这步。
3.2 连接手机:USB or WiFi?选最稳的那个
先用USB线连好手机和电脑。
在命令行输入:
adb devices正常输出应该类似:
List of devices attached ZY322FDQJL device那一串字母数字组合,就是你的设备ID(记下来,后面要用)。
如果你希望无线控制(比如手机放桌上,人坐沙发上操作),可以升级为WiFi连接:
# 先用USB连着时执行(开启远程调试端口) adb tcpip 5555 # 拔掉USB线,确保手机和电脑在同一WiFi下 # 查看手机IP:设置 → 关于手机 → 状态信息 → IP地址(通常是192.168.x.x) adb connect 192.168.1.102:5555 # 把192.168.1.102换成你手机的真实IP再次运行adb devices,如果看到192.168.1.102:5555 device,说明无线连接成功。
3.3 发出第一条指令:让AI打开抖音
这是最关键的一步。你不需要自己搭大模型服务器——Open-AutoGLM 默认连接智谱提供的公开API(测试阶段可用)。我们直接调用:
python main.py \ --device-id ZY322FDQJL \ --base-url https://api.zhipu.ai/v1 \ --model "autoglm-phone-9b" \ "打开抖音"替换说明:
--device-id后面填你刚才adb devices看到的ID(如 ZY322FDQJL)--base-url保持默认即可(官方测试API,无需密钥)- 最后引号里的句子,就是你对AI说的人话
你会看到命令行快速滚动日志:[INFO] 截取屏幕...[INFO] 分析界面:当前在桌面,找到抖音图标[INFO] 执行点击:坐标(520, 1280)
…几秒后,你手机屏幕真的亮起抖音首页!
真实体验提示:首次运行稍慢(要加载模型上下文),后续指令响应明显加快。如果卡在“正在分析界面”,请检查手机是否锁屏——必须保持亮屏且解锁状态。
4. 能干啥?用你真机录屏说话
光说“能操作”太虚。我们用三个你每天都会做的真实任务,展示它到底多靠谱。
4.1 任务一:点外卖(美团 × 麦当劳)
指令:
python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "在美团点一份麦当劳巨无霸套餐,送到家"实际发生了什么:
- 自动打开美团APP
- 点击顶部搜索框 → 输入“麦当劳”
- 进入店铺页 → 点击“巨无霸套餐” → 选规格 → 加入购物车
- 进入结算页 → 自动填写默认收货地址(从手机通讯录读取)
- 停在支付页面,高亮显示“微信支付”按钮,并提示:“请确认支付方式,我将等待您的操作”
效果亮点:它识别出了“送到家”是地址关键词,主动跳过手动选地址环节;在支付页不越界操作,严格遵守安全边界。
4.2 任务二:查快递(跨APP联动)
指令:
python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "查一下我昨天买的iPhone手机壳,快递到哪了"实际发生了什么:
- 打开淘宝APP → 进入“我的订单”
- 找到最新一笔含“iPhone手机壳”的订单 → 点击“查看物流”
- 截图物流详情页 → 识别出当前所在城市(如“上海市静安区”)和预计送达时间
- 主动切换到地图APP → 搜索“菜鸟驿站”,标出附近3个自提点
效果亮点:它把“查快递”这个模糊需求,拆解成淘宝找单+物流识别+地图定位三步,全程无断点。
4.3 任务三:关注博主(带账号ID的精准操作)
指令:
python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "打开抖音,搜索抖音号dycwo11nt61d,进入主页并关注"实际发生了什么:
- 打开抖音 → 点击放大镜图标 → 粘贴账号ID → 搜索
- 在结果页识别出“抖音号:dycwo11nt61d”的蓝V认证主页 → 点击进入
- 页面加载后,识别右上角“关注”按钮 → 点击
- 弹出二次确认弹窗 → AI识别出“确认关注”文字 → 点击确认
效果亮点:它能区分“搜索结果列表”和“个人主页”,不会在列表页误点别人头像;对弹窗有完整处理链路。
5. 常见问题:为什么我的不行?三类高频卡点
部署顺利的人可能不多。别急,下面这三个问题,覆盖了90%的新手失败场景:
5.1 卡在“找不到设备”或“连接拒绝”
- 检查点1:手机是否弹出“允许USB调试?”弹窗?没点确定=没授权
- 检查点2:Windows用户是否安装了手机品牌对应的USB驱动?(华为/小米/OPPO官网搜“USB驱动”下载安装)
- 检查点3:macOS用户是否在终端执行了
xattr -d com.apple.quarantine platform-tools/adb?(解除苹果安全拦截)
5.2 指令发出去,手机没反应,或点错位置
- 根本原因:屏幕分辨率太高,模型截图识别偏移
- 解决方案:在手机「设置」→「显示」→「字体大小与样式」→ 调小一级(推荐“默认”或“小”)
- 进阶技巧:在
main.py启动参数里加--scale-factor 0.8,强制缩小截图比例提升识别精度
5.3 输入文字时,中文变成乱码或不显示
- 唯一解法:确认你已按2.3节要求,完整安装并启用 ADB Keyboard
- 验证方法:命令行执行
adb shell input text "你好",看手机输入框是否显示“你好” - 常见坑:安装了APK但没在「语言与输入法」里切换成它;或切换了但没设为“默认键盘”
6. 它不是万能的,但已是手机自动化的新起点
Open-AutoGLM 不是终点,而是一把钥匙——它第一次让普通用户,无需编程、不碰模型、不求人,就能拥有一个真正“理解屏幕”的AI代理。
它目前的边界也很清晰:
🔹 不支持游戏内操作(Unity/Unreal引擎渲染层不可见)
🔹 不处理需要生物识别的场景(指纹/人脸支付需人工)
🔹 复杂表单填写(如身份证号+银行卡号+短信验证码三重校验)仍需分步接管
但正因如此,它才真实。它不吹嘘“全场景替代人类”,而是专注把“点外卖、查快递、追博主”这些高频动作,做到丝滑、可靠、可解释。
更重要的是,它的代码完全开源,模型权重可本地部署。今天你用的是智谱API,明天就能换成自己显卡跑的9B模型——这才是开源AI代理真正的价值:把控制权,交还给你。
所以,别再问“它能不能取代我”。问问自己:过去一周,有多少次你一边刷牙一边想“要是手机能自己点开美团就好了”?
现在,它真的可以了。
7. 下一步:让AI帮你批量做事
学会了单条指令,你已经掌握了核心能力。接下来,你可以:
- 把常用指令存成脚本:
echo "打开小红书搜咖啡" | python main.py ... - 用Python API封装成网页:家人点按钮,AI自动执行
- 接入IFTTT:下雨天自动打开墨迹天气,截图发你微信
但最值得你马上试试的,是这句话:
python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "把我微信收藏里的所有PDF文件,保存到手机文档文件夹"去试吧。这一次,别盯着屏幕——看看它怎么在你眼前,把一堆散落的文件,悄悄归拢成一个整齐的文件夹。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。