5分钟上手Open-AutoGLM,智谱AI手机助理一键自动化操作
你有没有过这样的时刻:
一边炒菜一边想给家人发个微信,手忙脚乱擦完油渍再点开手机;
深夜追剧时想截图发朋友圈,却要暂停、截屏、打开微信、找人、粘贴、发送;
刷小红书看到心动餐厅,想立刻查营业时间+导航+下单,结果在三个App间反复切换……
这些“手指疲劳”,其实早该被AI接管了。
今天要介绍的Open-AutoGLM,不是又一个聊天机器人,而是一个真正能“替你摸手机”的智能体——它看懂你的屏幕,听懂你的指令,然后像真人一样点、滑、输、长按,把任务全干完。
更关键的是:不用写代码、不需训练模型、不搞复杂配置,5分钟就能让它帮你点开抖音、搜博主、点关注、发消息。
本文就带你从零开始,用最直白的方式跑通整个流程,不绕弯、不堆术语,只讲“你现在就能用上的那部分”。
1. 它到底是什么?一句话说清
Open-AutoGLM 是智谱AI开源的手机端AI智能助理框架,核心能力就三句话:
- 你看得见的,它也看得见:通过实时截图理解当前手机界面(按钮在哪、文字写了啥、图标代表什么);
- 你说得清的,它就做得对:支持自然语言指令,比如“打开闲鱼,搜二手AirPods Pro,按价格从低到高排,点开最便宜那个”;
- 它动手时,你只管等结果:自动调用ADB执行点击、滑动、输入等操作,全程无需手动干预。
它不是遥控器,也不是录屏脚本——它是第一个把“视觉理解 + 语言规划 + 真机操控”闭环打通的开源手机Agent,而且完全免费、可本地部署、不上传任何屏幕数据。
2. 准备工作:3类东西,10分钟搞定
别被“ADB”“vLLM”吓住。我们只装真正需要的,跳过所有可选步骤。以下操作在 Windows 或 macOS 上均可完成,全程无须编译、无须GPU。
2.1 你的电脑要装好这3样
| 项目 | 要求 | 怎么确认? |
|---|---|---|
| Python | 3.10 或更高版本 | 打开终端/命令提示符,输入python --version,显示Python 3.10.x或更新即可 |
| ADB 工具 | Android Debug Bridge | 输入adb version,能看到类似Android Debug Bridge version 1.0.41就行 |
| 安卓手机 | Android 7.0+(真机或模拟器) | 设置 → 关于手机 → 连续点“版本号”7次开启开发者模式 |
小贴士:如果你还没装ADB,推荐直接下载 Platform-tools 官方包(解压即用),Windows用户把解压路径加进系统环境变量,macOS用户在终端运行
export PATH=$PATH:~/Downloads/platform-tools即可。
2.2 手机端只需3步设置
- 开启USB调试:设置 → 开发者选项 → 打开“USB调试”(如果没看到“开发者选项”,先去“关于手机”连点7次“版本号”);
- 用USB线连电脑:连接后电脑弹出“允许USB调试吗?”→ 勾选“始终允许”,点确定;
- 安装 ADB Keyboard(仅首次需要):
- 下载 ADB Keyboard APK(最新版即可);
- 手机安装后,进入“设置 → 语言与输入法 → 当前输入法”,切换为ADB Keyboard;
- 这一步是为了让AI能安全地往任意输入框里打字(比如搜索框、密码框),比系统键盘更可控。
注意:不需要Root、不需要解锁Bootloader、不修改系统,所有操作都在官方开放接口内完成。
3. 一行命令启动,真·5分钟上手
我们跳过云服务部署(那是进阶玩法),直接用智谱官方提供的在线API——零模型部署、零服务器运维、开箱即用。
3.1 克隆代码 + 安装依赖(2分钟)
打开终端(Windows用CMD/PowerShell,macOS用Terminal),依次执行:
# 1. 下载代码(不用Git也行,直接网页下载ZIP解压) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装必要库(只要这一步,不装无关包) pip install -r requirements.txt pip install -e .如果你遇到
pip install报错,大概率是网络问题。换成清华源试试:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ -r requirements.txt
3.2 验证设备连接(30秒)
确保手机已用USB线连好,并开启了USB调试:
adb devices正常输出应类似:
List of devices attached 8A9X023456789ABC device只要看到一串字母数字 +device,就说明电脑已识别手机。
3.3 直接运行!用自然语言下指令(1分钟)
现在,执行这一行命令(复制粘贴即可):
python main.py \ --device-id 8A9X023456789ABC \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ "打开小红书,搜索'北京咖啡探店',点开第一条笔记,截图并保存到相册"替换说明:
--device-id后面填你adb devices显示的那串ID;--base-url和--model是智谱BigModel平台的公开API地址,无需申请Key即可试用(有调用频次限制,但够你跑通10次以上);- 最后引号里的,就是你的真实指令——支持中文、支持长句、支持多步骤。
你会看到终端快速滚动日志:
→ 截图成功
→ 模型正在分析界面
→ 定位到搜索框并点击
→ 输入“北京咖啡探店”
→ 点击搜索按钮
→ 定位第一条笔记并点击
→ 再次截图 → 保存至相册
整个过程约20–40秒,你只需要看着手机自动操作,像有个朋友在帮你点。
4. 实战演示:3个真实场景,效果一目了然
别光看命令,我们来点实在的。以下是我在一台Android 13真机上实测的3个典型任务,全程未做任何定制化调整,纯靠默认配置完成。
4.1 场景一:外卖下单(美团)
指令:"打开美团APP,定位到‘朝阳区’,搜索‘瑞幸咖啡’,进入店铺主页,点‘外送’,选‘经典美式’,加冰,下单并使用红包"
实际效果:
- 自动拉起美团,等待定位完成(约3秒);
- 点击顶部搜索栏 → 输入“瑞幸咖啡” → 点搜索;
- 在结果页精准点击第一个带“瑞幸咖啡”和“外送”标签的店铺;
- 进入后自动滑动到“饮品”分类 → 点击“经典美式” → 弹出规格页 → 点“加冰” → 点“加入购物车”;
- 跳转订单页 → 自动勾选可用红包 → 点“去支付”。
全程无卡顿,所有UI元素识别准确,连“加冰”小字都点对了。
4.2 场景二:社交互动(微信)
指令:"打开微信,找到‘文件传输助手’,发送一条消息:‘Hi,这是Open-AutoGLM自动发的测试消息’"
实际效果:
- 启动微信 → 主界面右上角“搜索”图标被准确识别并点击;
- 输入“文件传输助手” → 点击第一个结果;
- 进入对话页 → 底部输入框被聚焦 → 逐字输入消息内容(非粘贴,是模拟真实输入);
- 点击发送按钮。
消息发出后,手机通知栏立刻弹出“文件传输助手:Hi,这是Open-AutoGLM自动发的测试消息”。
4.3 场景三:信息查询(高德地图)
指令:"打开高德地图,搜索‘国贸商城’,查看营业时间,截图保存"
实际效果:
- 启动高德 → 点击搜索框 → 输入“国贸商城” → 点搜索;
- 在POI列表中点击第一个“国贸商城” → 进入详情页;
- 向下滑动,自动识别“营业时间”模块(含“周一至周日 10:00-22:00”文字);
- 截图 → 保存至相册 → 终端打印“Screenshot saved to /sdcard/Pictures/screenshot_20240615_142211.png”。
文字识别准确,滑动距离计算合理,截图区域完整覆盖目标信息。
小观察:它不是靠“猜坐标”硬点,而是真的在理解界面——比如在微信里,它知道“文件传输助手”是联系人列表里的一个条目,而不是随便点一个头像;在高德里,它能区分“搜索框”“POI标题”“营业时间”是不同层级的UI组件。
5. 进阶玩法:不只“能用”,还能“用得稳、用得巧”
当你跑通第一条指令,就可以开始探索它更实用的细节了。以下3个技巧,来自我连续一周的真实使用总结,不是文档抄来的。
5.1 敏感操作自动暂停,人工接管超简单
涉及支付、账号登录、短信验证码时,Open-AutoGLM不会强行操作,而是主动停住,等你确认:
- 当检测到“支付密码”“短信验证码”“人脸识别”等关键词或UI特征,终端会输出:
检测到敏感操作:支付页面。请手动完成验证,完成后按回车继续... - 你只需在手机上输完密码/验证码,回到电脑按一下回车,它立刻接着干活。
这个设计既保障安全,又不打断流程——比“全程黑盒执行”靠谱得多。
5.2 WiFi远程控制,摆脱USB线束缚
不想一直插着线?用WiFi无线控制:
# 第一步:USB连一次,开启TCP/IP模式 adb tcpip 5555 # 第二步:拔掉USB,连同一WiFi,查手机IP(设置 → WLAN → 点当前网络 → IP地址) # 假设IP是 192.168.3.102 # 第三步:无线连接 adb connect 192.168.3.102:5555 # 第四步:运行时把 --device-id 换成IP python main.py \ --device-id 192.168.3.102:5555 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ "打开B站,搜‘AutoGLM教程’,播放第一个视频"实测延迟<300ms,滑动、点击响应跟USB几乎无差别。
5.3 指令写不好?3个小白友好技巧
很多同学第一次写的指令效果一般,不是模型不行,而是表达方式可以优化:
❌ 别写:“点那个蓝色的按钮”(颜色可能变、位置可能动)
改写:“点‘立即下单’按钮” 或 “点写着‘去支付’的按钮”(用可见文字定位)❌ 别写:“翻到下面看看有没有优惠”(“下面”太模糊)
改写:“向下滑动两屏,找‘限时折扣’模块”(用动作+关键词组合)❌ 别写长段落:“先打开淘宝,然后搜iPhone,再点销量排序,再点第一个,再看参数…”
拆成两句:“打开淘宝,搜索‘iPhone 15’” → 等它完成 → 再输:“按销量排序,点第一个商品”
🧩 核心原则:像教一个细心但没经验的朋友做事——说清目标(做什么)、依据(看什么文字/图标)、动作(点/滑/输)。
6. 常见问题快查:遇到报错,30秒定位原因
| 现象 | 可能原因 | 速查命令/操作 |
|---|---|---|
adb devices不显示设备 | USB调试未开启,或USB连接模式是“仅充电” | 手机通知栏下拉 → 点USB图标 → 选“文件传输”或“MTP” |
终端报错Connection refused | 模型API地址填错,或网络不通 | 检查--base-url是否为https://open.bigmodel.cn/api/paas/v4(注意末尾无斜杠) |
| 指令执行一半卡住,无响应 | 手机屏幕熄灭,或APP闪退 | 保持屏幕常亮(设置 → 显示 → 休眠 → 设为“永不”),确保目标APP已安装且可运行 |
| 点击位置偏移,总点错地方 | 手机分辨率缩放比例非100%(如“更大字体”开启) | 设置 → 显示 → 字体与样式 → 字体大小/样式 → 设为“标准”;显示大小 → 设为“默认” |
| 输入中文乱码或不显示 | ADB Keyboard未设为默认输入法 | 手机设置 → 语言与输入法 → 当前输入法 → 切换为 ADB Keyboard |
所有问题,90%可通过“重启ADB服务 + 重连手机 + 检查输入法”三步解决:
adb kill-server && adb start-server adb devices # 确认设备在线 # 手机上再确认 ADB Keyboard 是默认输入法
7. 总结:它不是未来科技,而是今天就能落地的生产力工具
Open-AutoGLM 的价值,不在于参数有多炫、架构有多新,而在于它把一件本该自动化的事,真的做成了:
- 它不依赖云端OCR或预置规则,而是用多模态模型实时“看懂”界面,适配任意App;
- 它不强制你学编程,一句中文就能驱动整套操作链;
- 它不偷数据——所有截图只在本地处理,不上传、不存储、不联网(除非你主动调用在线API);
- 它不画大饼——50+主流中文App已实测兼容,从微信、抖音、小红书,到美团、高德、12306,全部开箱即用。
如果你是普通用户:把它当成“手机里的隐形助手”,点外卖、回消息、查信息,从此少点10下屏幕;
如果你是开发者:它是目前最干净、最易读、最贴近真实场景的手机Agent开源实现,代码结构清晰,模块职责分明,拿来改造成自己的业务Agent毫无压力;
如果你是产品经理:它提供了一个极佳的范本——AI Agent如何真正嵌入用户日常动线,而不是活在Demo视频里。
技术终将回归人本。当AI不再只是回答问题,而是伸手帮你完成动作,那一刻,才算真正走进生活。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。