手机AI Agent入门:Open-AutoGLM快速实践指南
你有没有想过,让手机自己“动手”完成任务?不是语音助手念一遍结果,而是真正点开App、输入关键词、滑动页面、点击关注——像真人一样操作。Open-AutoGLM 就是这样一个能“看见屏幕、理解意图、自动执行”的手机端AI Agent框架。它不依赖预设脚本,不靠固定UI路径,而是用视觉语言模型实时理解当前界面,再通过ADB精准操控设备。一句话说:你动嘴,它动手。
本文不是理论推演,也不是概念科普,而是一份面向新手的实操手册。从零开始,带你用一台普通安卓手机+一台本地电脑,在1小时内跑通第一个自然语言指令:“打开小红书搜美食”。全程无需GPU、不编译内核、不改系统设置,只要你会连USB线、会输几行命令,就能亲手让AI接管你的手机。
我们不讲“多模态对齐”或“动作规划tokenization”,只聚焦三件事:
怎么让电脑认出你的手机
怎么让AI看懂屏幕画面
怎么用一句话让它开始干活
现在,把手机充上电,拿出数据线,我们开始。
1. 先搞明白:它到底在做什么
Open-AutoGLM 不是另一个聊天机器人,而是一个带手的AI助理。它的核心能力由三层组成,每一层都对应一个真实可验证的动作:
1.1 屏幕感知层:AI在“看”
它不是靠猜测App结构,而是真的“看”截图。每次执行前,系统会通过ADB截取当前手机屏幕(PNG格式),送入视觉语言模型(VLM)进行分析。模型能识别按钮文字、输入框位置、列表项内容,甚至判断“这个红色按钮是不是‘立即购买’”。
举个例子:当你输入“点开微信里的文件传输助手”,AI会先截图→发现底部导航栏有“微信”图标→点击进入→再截图→识别顶部搜索框→输入“文件传输助手”→点击头像→完成。每一步都基于真实画面反馈,不是硬编码路径。
1.2 意图解析层:AI在“听懂”
它理解的是自然语言,不是API参数。你说“帮我订明天下午3点去首都机场的高铁”,它能拆解出:
- 时间:“明天下午3点” → 转为具体日期时间戳
- 地点:“首都机场” → 匹配高铁路线中的“北京首都国际机场站”
- 动作:“订高铁” → 触发12306 App启动+车次筛选逻辑
这种理解不依赖关键词匹配,而是语义级推理——这也是它能处理“把这张截图里的发票金额填到Excel第三行”这类复杂指令的原因。
1.3 执行控制层:AI在“动手”
所有操作都通过ADB(Android Debug Bridge)完成,这是安卓官方调试协议,无需Root、不越狱、不安装特殊驱动。它能:
- 点击坐标(
adb shell input tap x y) - 滑动屏幕(
adb shell input swipe) - 输入文字(配合ADB Keyboard实现真机键盘输入)
- 截图保存(
adb shell screencap)
关键在于:这些命令不是预设好的,而是AI根据当前画面动态生成的。如果按钮位置变了,它会重新计算坐标;如果弹窗遮挡了目标,它会先点掉弹窗再继续。
这三层能力合起来,就构成了一个能“观察-思考-行动”的闭环。而你要做的,只是确保它能看见屏幕、能连上手机、能调用模型。
2. 准备工作:三步让电脑和手机“握手”
别被“ADB”“VLM”吓到。这一节只做三件事:让电脑装好工具、让手机允许被控制、让两者建立稳定连接。全程无技术黑话,只有明确动作。
2.1 在电脑上装好ADB(5分钟)
ADB是安卓设备和电脑通信的“翻译官”。无论你用Windows还是Mac,只需三步:
Windows用户:
- 去官网下载平台工具包:https://developer.android.com/tools/releases/platform-tools
- 解压到任意文件夹,比如
C:\platform-tools - 配置环境变量:
- 按
Win + R输入sysdm.cpl→ “高级” → “环境变量” - 在“系统变量”里找到
Path→ “编辑” → “新建” → 粘贴你解压的路径(如C:\platform-tools)
- 按
- 打开新命令行窗口,输入
adb version,看到版本号即成功
Mac用户:
- 下载后解压到
~/Downloads/platform-tools - 打开终端,运行:
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc- 输入
adb version验证
注意:一定要开新命令行窗口!旧窗口不会读取刚配置的环境变量。
2.2 在手机上开启“允许被操控”权限(3分钟)
这不是越狱,只是开启安卓标准调试功能。不同品牌路径略有差异,但本质相同:
开启开发者模式:
- 进入
设置 → 关于手机 → 版本号 - 连续点击7次“版本号”,直到弹出“您已处于开发者模式”
- 进入
开启USB调试:
- 返回设置,进入
开发者选项(可能在设置顶部搜索框直接搜到) - 找到并开启
USB调试 - 小米/华为/OPPO等品牌额外注意:
- 小米:必须同时开启
USB调试(安全设置)和USB安装 - 华为:开启
仅充电模式下允许ADB调试 - OPPO/vivo:关闭
USB调试安全警告(首次连接时勾选“始终允许”)
- 小米:必须同时开启
- 返回设置,进入
安装ADB Keyboard(解决输入问题):
- 电脑下载APK:https://github.com/senzhk/ADBKeyBoard/releases/download/1.0/ADBKeyboard.apk
- 用数据线连接手机,将APK拖入手机存储
- 在手机文件管理器中点击安装(若提示“禁止安装未知来源”,需在
设置 → 安全 → 未知来源应用中允许该文件管理器) - 安装后,进入
设置 → 语言与输入法 → 当前输入法,切换为ADB Keyboard
验证是否成功:手机连电脑后,在命令行输入
adb devices,若显示一串字母数字(如8A9X1F2C device),说明连接成功。若显示unauthorized,请在手机弹窗点“允许”。
2.3 连接方式选择:USB or WiFi?
- USB连接:最稳定,推荐新手首选。插上线,
adb devices有响应即可。 - WiFi连接:适合远程调试,但需先用USB初始化:
adb tcpip 5555 # 让手机监听5555端口 adb connect 192.168.1.100:5555 # 替换为手机实际IP(在手机Wi-Fi设置里查看)小技巧:手机IP通常和电脑在同一网段(如电脑是
192.168.1.5,手机就是192.168.1.100)。不确定时,用手机连同一WiFi,再查IP。
3. 部署控制端:三行命令搞定
Open-AutoGLM 的控制端代码轻量简洁,不需要部署服务器,所有AI推理都调用云端模型服务(免费额度足够试用)。你只需在本地电脑运行控制程序。
3.1 下载并安装控制端
打开命令行,依次执行:
# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装Python依赖(推荐用清华镜像加速) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt # 安装phone_agent包(支持本地调用) pip install -e .验证:运行
python -c "import phone_agent; print('OK')",无报错即成功。
3.2 选择模型服务(零GPU方案)
Open-AutoGLM 支持两种模型接入方式,新手强烈推荐第三方API,原因很实在:
- 不需要显卡(免去vLLM部署的24GB显存门槛)
- 不用下载20GB模型文件
- 免费额度够跑几十次完整流程
目前支持两个主流平台:
| 平台 | 注册地址 | API Key获取路径 | 推荐模型 |
|---|---|---|---|
| 智谱BigModel | https://open.bigmodel.cn | 登录 → “API密钥” → 创建新密钥 | autoglm-phone |
| ModelScope(魔搭) | https://modelscope.cn | 登录 → “个人中心” → “API密钥” | ZhipuAI/AutoGLM-Phone-9B |
获取API Key后,务必复制保存——它只显示一次,丢失需重新生成。
3.3 运行第一个指令:让AI动起来
回到Open-AutoGLM目录,执行以下命令(以ModelScope为例):
python main.py \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey "your-modelscope-api-key-here" \ "打开小红书搜索美食"参数说明:
--base-url:模型服务的API入口(智谱用https://open.bigmodel.cn/api/paas/v4)--model:模型标识名(注意大小写和斜杠)--apikey:你刚复制的密钥- 最后字符串:你的自然语言指令(引号必须保留)
⏱ 首次运行会自动下载依赖和缓存,耗时约1-2分钟。之后每次执行都在10秒内响应。
你会看到什么?
- 终端输出类似:
[INFO] 截取屏幕...→...已发送至模型→...生成动作:点击坐标(520, 180)→...执行ADB命令 - 手机屏幕实时变化:自动点亮、解锁(若锁屏)、打开小红书、点击搜索框、输入“美食”、点击搜索
- 成功后终端显示:
任务完成:打开小红书搜索美食
这就是AI Agent的完整闭环:你看得见每一步,也掌控得了全过程。
4. 实战进阶:从“能用”到“好用”
跑通第一条指令只是起点。这一节教你三个关键技巧,让Open-AutoGLM真正融入日常使用。
4.1 指令怎么写才更准?(小白友好版)
AI不是搜索引擎,它需要清晰、具体、带上下文的指令。避免模糊表达:
| ❌ 不推荐 | 推荐 | 为什么 |
|---|---|---|
| “帮我买东西” | “打开淘宝,搜索‘无线蓝牙耳机’,按销量排序,点击第一个商品,加入购物车” | 明确App、动作、对象、条件 |
| “查天气” | “打开墨迹天气App,定位到北京市朝阳区,查看未来24小时降水概率” | 指定App、位置、数据维度 |
| “回消息” | “打开微信,进入‘家人’群,发送文字‘今晚回家吃饭’” | 指定App、会话、内容 |
小技巧:第一次用某个App时,先手动走一遍流程,再把关键步骤写成指令。AI会学习你的操作习惯。
4.2 遇到问题怎么办?(高频问题直给答案)
当执行卡住或报错,先看这三点:
问题1:终端报错Connection refused或timeout
→ 检查--base-url是否拼写正确(尤其注意末尾/v1)
→ 检查API Key是否复制完整(开头结尾空格会导致失败)
→ 智谱用户确认是否开通了autoglm-phone模型权限(在控制台“模型权限”中勾选)
问题2:手机没反应,或点击错位置
→ 确认ADB Keyboard已设为默认输入法(设置里检查)
→ 检查手机是否开启了“开发者选项”里的USB调试(不是“USB调试(安全设置)”)
→ 尝试重启ADB服务:adb kill-server && adb start-server
问题3:屏幕截图是黑的,提示“敏感屏幕”
→ 这是安卓系统对支付类App(支付宝、银行)的保护机制
→ AI会自动暂停,并在终端提示:“检测到敏感界面,请手动操作或切换App”
→ 你只需切出该App,再运行指令即可(设计上就是为安全兜底)
4.3 远程控制:不在电脑前也能用
想用手机控制另一台手机?完全可行。只需把控制端部署在树莓派或云服务器上,然后:
- 用WiFi连接目标手机(见2.3节)
- 在服务器上运行指令,
--device-id改为手机IP(如192.168.1.100:5555) - 通过SSH或Web终端下发指令
实际案例:有人把Open-AutoGLM部署在家庭NAS上,每天早上7点自动打开喜马拉雅播放新闻,全程无人值守。
5. 它能做什么?真实场景清单
别只停留在“搜美食”。Open-AutoGLM 的能力边界,取决于你敢不敢想。以下是已验证的实用场景,全部来自真实用户反馈:
5.1 日常效率类
信息聚合:
“打开知乎、小红书、微博,分别搜索‘2024最新iPhone评测’,把前三条标题和链接整理成TXT发到邮箱”
→ AI自动切换App、截图、OCR提取文字、汇总生成文件批量操作:
“打开微信通讯录,把所有备注含‘客户’的人,添加到‘销售跟进’分组”
→ AI识别联系人列表、逐个点击、勾选分组(需提前创建好分组)
5.2 内容创作类
跨平台发布:
“把相册里最新一张照片,同步发布到小红书(加标题‘今日咖啡’)、微博(加话题#咖啡日记#)、朋友圈(可见范围‘仅朋友’)”
→ AI自动调用各App分享功能,适配不同文案格式数据录入:
“打开钉钉,进入‘项目日报’表单,把截图里的销售额数字(位置:右下角红框)填入‘今日营收’字段”
→ AI识别截图坐标、OCR提取数字、精准填入表单
5.3 生活服务类
智能导购:
“打开京东,搜索‘降噪耳机’,筛选价格500-1000元、好评率>98%,把前五款的型号、价格、核心参数做成表格”
→ AI理解筛选条件、遍历商品页、结构化提取数据出行辅助:
“打开高德地图,输入起点‘公司’、终点‘首都机场’,选择‘地铁’方案,截图路线图并保存到相册”
→ AI自动填写地址、点击选项、截图保存
关键洞察:所有场景都遵循一个规律——把重复性、规则明确、多步骤的手动操作,交给AI执行。它不创造新价值,但把人从机械劳动中彻底解放。
6. 总结:你的手机,从此多了一个“数字分身”
Open-AutoGLM 不是玩具,而是一个正在成型的生产力范式。它证明了一件事:AI Agent的价值,不在于多聪明,而在于多可靠;不在于多全能,而在于多专注。
回顾这一路,你已经:
让电脑认出了手机(ADB连接)
让AI看懂了屏幕(VLM截图分析)
让一句话变成了真实操作(自然语言→ADB命令)
解决了真实问题(从搜美食到批量录入)
下一步,你可以:
🔹 尝试更复杂的指令,比如“对比美团和大众点评上同一家餐厅的评分,取平均值发微信给张三”
🔹 把常用指令写成Shell脚本,一键执行(./order_food.sh)
🔹 结合IFTTT或Node-RED,实现“手机收到短信→自动打开App回复”
技术永远在进化,但核心逻辑不变:把确定性的流程交给机器,把创造性的思考留给人。你的手机,从此不再只是信息终端,而是一个能听、能看、能动手的数字分身。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。