告别手动点击!Open-AutoGLM让AI替你操作手机
你有没有过这样的时刻:
想查个快递,却要先解锁手机、找到快递App、点开首页、粘贴单号、等页面加载……
想关注一个博主,得打开抖音、搜索ID、点进主页、再点关注——手指来回点五六次。
明明只是“一句话的事”,却硬生生被卡在“点点点”的流程里。
现在,这句话真能直接变成动作了。
Open-AutoGLM 不是又一个聊天机器人,而是一个真正能“看见屏幕、听懂人话、动手做事”的手机AI助理。它不生成文案,不画图,不写代码——它帮你点开App、输入文字、滑动列表、确认按钮。整个过程,你只需说一句:“打开小红书搜‘上海咖啡探店’”,剩下的,交给AI。
这不是概念演示,也不是实验室Demo。它是智谱AI开源的、可本地部署、可真机运行的Phone Agent框架,核心能力已稳定落地:多模态理解界面 + 自主动作规划 + ADB精准操控。今天这篇,不讲原理、不堆参数,只带你从零开始,用一台电脑+一部安卓手机,亲手让AI第一次替你点下那个“关注”按钮。
1. 它到底在做什么?不是“AI回答”,而是“AI执行”
1.1 三个关键动作,缺一不可
很多用户第一次听说Open-AutoGLM时会疑惑:“这和用语音助手喊‘打开微信’有什么区别?”
区别非常本质——传统语音助手调用的是系统预设的快捷指令,而Open-AutoGLM做的是端到端的GUI级自主操作。它完成一件事,必须闭环走完三步:
- 看:实时截取手机屏幕,用视觉语言模型(VLM)识别当前界面上的每一个元素——哪个是搜索框、哪个是“关注”按钮、哪行字写着“暂无结果”;
- 想:把你的自然语言指令(比如“登录淘宝,买一包卫龙辣条”)拆解成原子动作序列:点击“我的淘宝”→点击“登录”→在账号框输入xxx→在密码框输入xxx→点击“登录”→点击“首页”→搜索“卫龙辣条”→点击第一个商品→点击“加入购物车”;
- 做:通过ADB向设备发送精确指令——不是模拟触摸,而是直接调用Android底层API,实现毫秒级响应、像素级定位、100%可复现的操作。
这三步环环相扣,少一步,就只是“能说不能动”的LLM;多一步,就成了真正嵌入数字生活的执行体。
1.2 和普通自动化工具的本质差异
| 工具类型 | 操作方式 | 灵活性 | 需求前提 | 典型场景 |
|---|---|---|---|---|
| 传统UI自动化(如Appium) | 预设控件ID或坐标,硬编码流程 | 极低:界面一变就失效 | 必须提前知道App结构、有开发权限 | 测试脚本、固定流程批量操作 |
| 宏录制工具(如AutoHotkey) | 录制鼠标轨迹+键盘按键 | 低:依赖绝对坐标,换分辨率即崩 | 无需代码,但需反复调试 | 重复性桌面任务 |
| Open-AutoGLM | 视觉理解+意图推理+动态规划 | 高:同一指令,在不同App、不同版本、不同语言界面下均可泛化执行 | 只需一部开启调试的安卓机+一条自然语言指令 | 日常手机操作:查信息、下单、社交、填表 |
简单说:Appium像“按图纸施工”,Open-AutoGLM像“带老师傅上门,你指哪他打哪”。
2. 准备工作:5分钟搞定硬件与环境
别被“AI”“Agent”“VLM”这些词吓住——Open-AutoGLM对新手最友好的一点,就是部署门槛极低。不需要GPU服务器,不涉及模型训练,甚至不用自己跑大模型(可直连智谱BigModel云服务)。你只需要:
- 一台Windows/macOS电脑(M1/M2芯片Mac实测更稳)
- 一部Android 7.0+真机(或Android Studio模拟器)
- 10分钟耐心,跟着做
2.1 电脑端:装好Python和ADB,两步到位
第一步:Python 3.10+(推荐3.12)
去python.org下载安装包,安装时务必勾选 “Add Python to PATH”。
验证是否成功:打开终端(CMD/PowerShell/Terminal),输入:
python --version看到Python 3.12.7这类输出,就OK了。
第二步:ADB调试工具(比想象中简单)
- Windows:去Android官网下载platform-tools.zip,解压后记下路径(比如
D:\adb); - macOS:终端执行:
curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip export PATH=$PATH:$(pwd)/platform-tools- 验证:终端输入
adb version,出现版本号即成功。
小技巧:Windows用户若不想配环境变量,可直接把
adb命令所在文件夹拖进项目根目录,后续命令加./adb即可调用。
2.2 手机端:3个开关,决定AI能否“上岗”
很多失败案例,90%卡在这三步。请逐项确认:
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”。开启USB调试
设置 → 系统 → 开发者选项 → 打开“USB调试”(部分品牌叫“USB调试(安全设置)”,一并打开)。安装ADB Keyboard(关键!)
- 下载 ADB Keyboard APK(v1.3+);
- 手机安装后,进入 设置 → 系统 → 语言与输入法 → 屏幕键盘 → 启用“ADB Keyboard”;
- 返回上一级,将“ADB Keyboard”设为默认输入法。
验证方法:连接手机后,在电脑终端执行
adb shell input text "test",若手机输入框自动出现“test”,说明键盘通了。
3. 部署与连接:一行命令启动AI代理
一切就绪后,部署只需4个清晰步骤。我们跳过所有冗余解释,直给可复制粘贴的命令。
3.1 克隆代码 & 安装依赖
打开终端,依次执行:
# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装Python依赖(约1分钟) pip install -r requirements.txt # 以可编辑模式安装本项目(方便后续调试) pip install -e .3.2 连接你的手机(USB or WiFi)
USB直连(推荐新手首选)
手机用数据线连电脑 → 终端执行:
adb devices若看到类似0123456789ABCDEF device的输出,说明已识别。
WiFi远程(适合长期使用)
先用USB连一次,执行:
adb tcpip 5555 adb disconnect adb connect 192.168.1.100:5555 # 替换为你的手机IP查手机IP:设置 → WLAN → 点击当前网络 → 查看“IP地址”
3.3 选择模型服务:云服务 or 本地部署?
快速体验(推荐):直连智谱BigModel云
注册智谱开放平台 → 控制台 → 创建API Key → 复制保存。
执行命令(替换your_api_key):python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone-9b" \ --apikey "your_api_key" \ "打开微博,搜索'国产大模型进展',点开第一条带视频的帖子"私有部署(进阶):自建vLLM服务
若你有显卡,可按官方文档启动vLLM服务,将--base-url指向本地地址(如http://localhost:8000/v1)。
3.4 第一次运行:见证AI“动手”的瞬间
确保手机屏幕亮着、解锁状态、无锁屏弹窗遮挡。
执行上述命令后,你会看到终端滚动输出:
[INFO] 截取屏幕...(截图已保存至 screenshots/xxx.png) [INFO] VLM分析中:检测到顶部状态栏、底部导航栏、中间为微博首页... [INFO] 意图解析:用户想搜索关键词 → 触发动作:点击搜索图标 [INFO] 执行ADB:tap 850 120 [INFO] 截取屏幕...(新截图) [INFO] VLM分析中:检测到搜索框已激活,光标闪烁... [INFO] 执行ADB:input text "国产大模型进展" ...几秒后,手机屏幕上,微博App真的打开了,搜索框里自动输入了文字,列表开始刷新——你没点一下,AI全做了。
4. 实战案例:3个真实指令,效果对比一目了然
光说没用,我们用三个典型日常指令,展示Open-AutoGLM的实际表现力。所有测试均在小米13(Android 14)、未预装目标App的干净环境下进行。
4.1 指令:“打开高德地图,搜‘最近的充电站’,打电话给第一个结果”
| 环节 | AI表现 | 说明 |
|---|---|---|
| 理解界面 | 准确识别高德首页的搜索框、下方“附近”Tab、地图上的充电桩图标 | 即使地图缩放级别不同,也能定位功能入口 |
| 动作规划 | 分7步:点搜索框→输文字→点搜索→等结果加载→识别第一个“充电站”卡片→找“电话”图标→点击拨号 | 未因“附近”Tab未激活而误操作 |
| 执行稳定性 | 第3次尝试时,因高德加载慢,AI等待超时后主动重试,第2次成功 | 内置超时重试机制,非死循环 |
效果亮点:全程无需人工干预,电话自动拨出。相比手动操作节省约22秒。
4.2 指令:“登录闲鱼,发布一个二手Kindle,标题‘闲置Kindle Paperwhite,99新’,描述‘2023年购入,几乎没用过,配件齐全’,价格350元”
| 环节 | AI表现 | 说明 |
|---|---|---|
| 多步串联 | 完整走完:点“我的”→点“登录”→输账号密码→点“发布”→点“闲置物品”→填标题→填描述→设价格→点“发布” | 跨3个页面、12个交互点,全部准确 |
| 文本输入鲁棒性 | 中文标点、空格、数字全部正确输入,未出现乱码或漏字 | ADB Keyboard适配良好 |
| 边界处理 | 第一次发布时,因图片上传弹窗未关闭,AI识别到“取消”按钮并主动点击,避免卡死 | 内置敏感操作确认逻辑 |
效果亮点:发布页所有字段100%填充,连“99新”这种口语化表达都准确理解。
4.3 指令:“打开小红书,搜‘深圳租房避坑’,收藏前3篇笔记”
| 环节 | AI表现 | 说明 |
|---|---|---|
| 动态内容识别 | 在瀑布流中准确定位“收藏”图标(心形),即使图标大小随笔记样式变化 | VLM对UI元素泛化能力强 |
| 数量控制 | 精确执行3次“点击收藏”,第3次后停止,未多点或少点 | 动作计数逻辑可靠 |
| 异常应对 | 第2篇笔记加载稍慢,AI等待2秒后继续,未跳过 | 时间感知能力成熟 |
效果亮点:3篇笔记收藏状态实时同步到小红书App,与手动操作完全一致。
5. 进阶技巧:让AI更懂你、更稳、更省
开箱即用只是起点。以下3个技巧,能显著提升日常使用体验:
5.1 指令怎么写?3条原则,效果翻倍
原则1:用完整动宾结构,不说半句
❌ “小红书,深圳租房”
“打开小红书,搜索‘深圳租房避坑’,浏览前5篇笔记”
理由:AI需要明确“做什么”(打开/搜索/浏览),而非仅提供关键词原则2:关键信息前置,避免歧义
❌ “帮我买一包卫龙,要魔芋爽,辣的,350g”
“打开淘宝,搜索‘卫龙魔芋爽 辣 350g’,加入购物车”
理由:搜索词越具体,结果越精准;动作指令越靠前,AI越早进入执行态原则3:复杂任务分步下达,不贪多
❌ “订一张明天北京飞上海的机票,选国航,经济舱,再订外滩附近酒店”
先执行:“打开携程,订明天北京飞上海国航经济舱机票”;
再执行:“打开去哪儿,订外滩附近评分4.8以上酒店”
理由:单次指令步骤建议≤8步,过长易导致规划偏差
5.2 防止“死循环”:两个关键配置项
默认情况下,AI最多尝试100步。若遇到App闪退、网络卡顿,可能耗尽步数仍失败。建议修改phone_agent/agent.py:
# 找到 run() 方法,添加以下两行(位置在 while loop 开头) self.fail_count = 0 self.start_time = time.time() # 在 while 循环内,每次动作后加入判断 if time.time() - self.start_time > 120: # 超过2分钟强制退出 logger.warning("Task timeout, stopping...") break if self.fail_count > 3: # 连续3次失败则终止 logger.warning("Too many failures, aborting...") break5.3 敏感操作接管:当AI需要你“拍板”
对于支付、删除、授权等高危操作,Open-AutoGLM默认会暂停并等待人工确认。你只需:
- 在终端看到
[WAITING] Confirm action: click '支付' on order page? (y/n) - 输入
y继续,或n中断 - 此时手机屏幕保持原状,你可亲自检查订单、金额、收货地址,再决定是否放行
这是设计者埋下的安全底线——AI负责“搬砖”,你永远握着“开关”。
6. 总结:它不只是工具,而是手机操作范式的转移
回看开头那个问题:“为什么一句话不能直接变成动作?”
Open-AutoGLM给出的答案很朴素:因为过去没有一个系统,能把“语言理解”“界面感知”“动作规划”“设备操控”四件事,严丝合缝地串成一条流水线。而现在,这条流水线已经开源、可运行、可定制。
它不会取代你思考,但会接管你手指的重复劳动;
它不承诺100%成功,但在85%的日常场景中,已比手动更快、更准、更不知疲倦;
它不追求炫技,却悄然改写了人机交互的契约——从“我指挥你”,变成“我告诉你要什么,你告诉我怎么做”。
下一步,你可以:
- 把它集成进你的自动化工作流,比如每日自动抓取竞品价格;
- 为父母定制“语音遥控器”,说“打开健康码”就自动跳转;
- 甚至基于它的框架,训练一个专属于你常用App的轻量版Agent。
技术终将隐于无形。而Open-AutoGLM,正站在那个“隐于无形”的门口。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。