亲测Open-AutoGLM:一句话让AI自动操作手机,效果太惊艳!
你有没有试过这样的场景:想查个快递,却要解锁手机、找到快递App、点开历史记录、再翻找最新单号——整个过程不到30秒,但手指已经不耐烦地敲了三次屏幕?
或者,你正赶着改PPT,突然想起要给客户发个确认消息,结果切回微信、找聊天窗口、打字、发送……等你再切回来,思路早断了。
现在,这些事AI能替你做了。不是靠预设脚本,不是靠固定坐标点击,而是真正看懂你的手机屏幕,听懂你说的每一句话,然后像真人一样一步步操作。
我上周用智谱开源的 Open-AutoGLM 框架,在一台旧安卓机上实测了整整两天。输入一句“打开小红书搜‘上海咖啡探店’,点开点赞最多的那篇”,它真的完成了——从启动App、输入关键词、滑动筛选、识别图文内容,到精准点击目标笔记,全程无需人工干预。
这不是概念演示,也不是剪辑过的视频。这是我在自己电脑上跑起来的真实效果。
下面,我就把从零开始部署、调试、到稳定使用的完整过程,毫无保留地写出来。不讲虚的,只说你能立刻上手的关键步骤、踩过的坑、以及那些让我当场愣住的“哇”时刻。
1. 它到底是什么?别被名字吓住,其实很直白
Open-AutoGLM(准确说是 AutoGLM-Phone)不是一个“大模型”,而是一个手机端AI Agent框架。你可以把它理解成一个“会看、会想、会动手”的数字助理。
它的核心能力就三件事:
- 看:通过ADB实时截取手机屏幕画面 + 获取当前界面的UI结构(XML),就像人一眼扫过去,既看到图标颜色,也看清按钮文字和层级关系;
- 想:把截图、UI结构、你的自然语言指令一起喂给视觉语言模型(VLM),让它推理出“你现在要干什么”“下一步该点哪里”“如果没反应该怎么办”;
- 做:生成具体操作指令(点击坐标、滑动路径、输入文字),再通过ADB真实执行——不是模拟,是真机操作。
关键区别在于:传统自动化工具(比如Appium)靠“找元素ID”或“固定坐标”;而Open-AutoGLM靠“理解意图+识别画面”,界面一变它也不慌。你换了个新版本微信,它照样能认出搜索框在哪。
它不依赖App内部API,不挑应用,只要能显示在屏幕上,它就能操作。测试过抖音、小红书、淘宝、微信、甚至银行类App(敏感操作会主动暂停,等你接管)。
2. 本地环境准备:三步搞定,比装微信还简单
别被“多模态”“VLM”这些词劝退。实际部署远比想象中轻量。我用的是MacBook Pro(M1芯片,16GB内存),全程命令行操作,没碰任何配置文件。
2.1 ADB环境:5分钟配好,验证成功才继续
ADB是连接电脑和手机的“桥梁”。配不好,后面全白搭。按这个顺序来,成功率最高:
- 下载ADB平台工具:去Android官网下载对应系统的zip包(Mac选macOS版);
- 解压并配置路径(Mac终端执行):
# 假设你解压到 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc - 验证是否生效:
adb version # 正常应输出类似:Android Debug Bridge version 1.0.41
如果这一步报错“command not found”,说明路径没配对,回去检查第2步;
如果输出版本号,恭喜,第一步稳了。
2.2 手机设置:三个开关,缺一不可
手机端只需打开三项设置,全部在“开发者选项”里:
- 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次(会弹出提示“您现在处于开发者模式”);
- 开启USB调试:设置 → 开发者选项 → 打开“USB调试”(首次开启会弹窗,点“确定”);
- 安装ADB Keyboard:这是最关键的一步!没有它,AI没法输字。
- 去GitHub搜
adb-keyboard,下载最新apk(如adb-keyboard-v1.0.0.apk); - 手机安装后,进入“设置 → 语言与输入法 → 虚拟键盘”,把默认输入法切换为ADB Keyboard。
- 去GitHub搜
注意:部分国产手机(华为、小米)可能需要额外开启“USB安装”和“允许调试”权限,系统会弹窗提示,别跳过。
2.3 连接手机:USB最稳,WiFi更自由
USB直连(推荐新手):用原装数据线连接手机和电脑 → 终端运行:
adb devices # 正常输出类似:AERFUT4B08000806 device出现
device字样,代表连接成功。WiFi无线连接(适合长期使用):
先用USB连一次,执行:adb tcpip 5555 # 断开USB线,连同一WiFi,再执行: adb connect 192.168.1.100:5555 # 替换为你手机IP
小技巧:手机IP在哪看?设置 → WLAN → 点击当前连接的WiFi → 查看“IP地址”。
3. 部署Open-AutoGLM:一行克隆,两行启动
框架本身极简,核心代码不到2000行。我们不需要训练模型,只用调用已发布的9B版本。
3.1 下载与安装(30秒完成)
# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖(Python 3.10+) pip install -r requirements.txt pip install -e .安装过程无报错即成功。如果卡在torch,说明Python版本不对,请先升级Python。
3.2 启动方式:两种选择,按需取用
方式一:直接调用云端模型(最快上手)
智谱提供了公开API服务(需申请key,免费额度够日常用)。只需一行命令:
python main.py \ --device-id AERFUT4B08000806 \ --base-url https://api.zhipu.ai/v1 \ --model autoglm-phone-9b \ "打开知乎,搜索‘如何高效读论文’,点开收藏最多的回答"--device-id:用adb devices查到的设备号;--base-url:填你拿到的API地址(非公开地址请替换);- 最后字符串:就是你对AI说的自然语言指令。
我第一次运行,从敲命令到手机自动打开知乎、输入、点击,耗时约8秒(网络良好情况下)。
方式二:本地运行(完全离线,隐私无忧)
如果你不想走公网,或想深度调试,可本地加载模型。M1/M2芯片用户推荐用MLX框架(轻量、省电):
# 下载量化模型(已压缩至6.5GB,16GB内存可跑) huggingface-cli download zai-org/AutoGLM-Phone-9B-4bit --local-dir ./models/autoglm-9b-4bit # 本地启动(不走网络,纯本地推理) python main.py --local --model ./models/autoglm-9b-4bit "打开备忘录,新建一条‘明天会议材料’"实测:M1 MacBook Air(8GB内存)运行稍慢(单步12秒左右),但全程不卡顿;M1 Pro(16GB)流畅度接近云端。
4. 实测效果:5个真实指令,结果全记录
不放“效果图”,只列原始日志+我的观察。所有测试均在未越狱、未Root的真机(Redmi Note 12)上完成。
4.1 指令:“打开淘宝,搜‘机械键盘’,按销量排序,点开第一个商品”
- 成功启动淘宝App;
- 自动点击顶部搜索框(识别准确,非固定坐标);
- 输入“机械键盘”后,点击右上角“搜索”按钮;
- 进入结果页,识别到“销量”排序按钮并点击;
- 滑动页面,识别第一个商品卡片上的“月销10万+”,点击进入详情页。
- ⏱ 总耗时:22秒(含等待页面加载)。
日志亮点:它没点错“店铺”或“直播”入口,而是精准定位到商品列表区——说明它真能区分UI语义。
4.2 指令:“打开微信,找到‘张经理’,发消息‘方案已发邮箱,请查收’”
- 进入微信,点击顶部搜索;
- 输入“张经理”,识别联系人列表中的头像和昵称;
- 点击进入对话页;
- 调用ADB Keyboard输入文字,点击发送。
- ❗ 小问题:第一次发送后,键盘未自动收起,导致下条指令误触。解决方法:加一句“收起键盘”即可。
4.3 指令:“打开小红书,搜‘北京胡同咖啡’,保存点赞数最高的笔记封面图”
- 启动App,输入关键词;
- 进入结果页,自动滑动浏览;
- 识别每篇笔记的点赞数(如“12.4万赞”),对比后定位最高值;
- 长按封面图,调出菜单,点击“保存图片”。
- 📸 结果:图片成功存入手机相册,命名带时间戳。
4.4 指令:“打开设置,关闭蓝牙和Wi-Fi”
- 进入系统设置页;
- 识别“蓝牙”开关控件,点击关闭;
- 识别“Wi-Fi”开关控件,点击关闭。
- 智能点:它没点错“蓝牙耳机”或“Wi-Fi密码”,而是准确找到顶层开关。
4.5 指令:“打开招商银行App,登录后查余额”
- 到登录页后,模型输出:
{"action": "Take_over", "reason": "检测到密码输入框,需人工验证"} - 主动暂停,等待我手动输入密码;
- 登录成功后,自动点击“账户总览”,读取并语音播报余额(需额外配置TTS,但UI操作已完成)。
这个“主动停手”的设计,恰恰是它成熟的表现——不强行越界,安全第一。
5. 为什么它比传统自动化强?三个硬核差异点
很多人问:“这不就是高级版按键精灵?” 不是。本质区别在底层逻辑:
| 维度 | 传统自动化(Appium/UiAutomator) | Open-AutoGLM |
|---|---|---|
| 识别依据 | 依赖元素ID、resource-id、XPath等开发埋点 | 直接分析截图像素 + UI结构XML,无需开发配合 |
| 抗变能力 | App一更新,所有脚本失效(按钮ID变了) | 界面重排、图标换色、文案微调,仍能准确定位 |
| 指令灵活性 | 只能执行预设动作序列(如“点A→输B→点C”) | 理解复合意图(如“帮我订明早8点去机场的车,避开早高峰”) |
更直白地说:
- 你让Appium做“点第3个Tab”,它就点第3个;Tab顺序一变,它就懵;
- 你让Open-AutoGLM做“去首页”,它会先找Logo、找“首页”文字、找house图标,哪个在就点哪个。
它不是在执行命令,是在完成任务。
6. 常见问题与我的解决方案(血泪总结)
部署过程我踩了7个坑,这里只留最痛的3个:
6.1 问题:ADB连接显示“unauthorized”,手机不信任电脑
- 原因:首次连接时,手机弹出“允许USB调试吗?”提示,你没点“确定”或点了“拒绝”;
- 解决:
- 断开USB线;
- 手机设置 → 开发者选项 → 关闭“USB调试”,再重新打开;
- 重新连接,手机弹窗务必点“确定”。
6.2 问题:输入文字失败,光标乱跳
- 原因:没把ADB Keyboard设为默认输入法,或系统输入法切换冲突;
- 解决:
- 手机设置 → 语言与输入法 → 虚拟键盘 → 确保“ADB Keyboard”在首位;
- 在任意输入框长按 → “选择输入法” → 切换为ADB Keyboard。
6.3 问题:模型返回乱码,或一直卡在“思考中”
- 原因:API地址错误、网络超时、或模型服务未启动;
- 解决:
- 先用
curl测试API连通性:curl -X POST https://api.zhipu.ai/v1/chat/completions \ -H "Authorization: Bearer YOUR_KEY" \ -H "Content-Type: application/json" \ -d '{"model":"autoglm-phone-9b","messages":[{"role":"user","content":"你好"}]}' - 若返回正常JSON,说明API没问题,检查
--device-id是否正确。
- 先用
7. 它能做什么?不止于“帮你点手机”
我把实测场景分成了三类,覆盖个人、效率、开发需求:
7.1 个人生活助手(最惊艳)
- “把今天微信里所有带‘发票’的聊天记录截图发我邮箱”
- “打开高德,查公司到最近地铁站步行路线,截图保存”
- “翻出上个月15号在小红书收藏的所有食谱,按点赞数排序”
7.2 效率提效利器(真省时间)
- 测试工程师:一键遍历App所有功能页,自动截图存档;
- 运营人员:批量给100个客户发定制化消息(指令:“给通讯录里备注‘VIP’的人,发‘双11预告已发’”);
- 设计师:自动导出Figma设计稿到手机,截图比对真机效果。
7.3 开发调试加速器(工程师最爱)
- 无需写一行Java/Kotlin,用自然语言描述UI交互,自动生成测试用例;
- 模拟用户随机操作(滑动、点击、输入),快速发现崩溃点;
- 远程调试:在家连公司测试机,实时查看App在不同机型上的表现。
它不是取代人,而是把人从重复点击中解放出来,去做真正需要判断力的事。
8. 总结:这不是未来,是今天就能用的生产力拐点
Open-AutoGLM没有炫技的3D渲染,没有复杂的控制台,它就安静地跑在你的终端里,听着你说话,然后默默把手机操作完。
我测试两天最大的感受是:
- 它不完美:复杂嵌套页面(如银行二级菜单)偶尔识别偏移;
- 但它足够聪明:80%日常操作一气呵成,剩下20%只需你补一个点击;
- 最关键的是,它在进化:每次你手动接管后,它会记住这次操作模式,下次同类任务成功率更高。
如果你是普通用户,它能成为你的“手机外挂”,把琐事交给AI;
如果你是开发者或测试工程师,它是一把新钥匙,打开了“意图驱动自动化”的大门。
技术终将回归人的需求。而Open-AutoGLM,正走在那条路上。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。