小白也能用!Open-AutoGLM手机AI代理实战入门指南
1. 这不是科幻,是今天就能上手的手机AI助手
你有没有过这样的时刻:
- 想在小红书搜“最近爆火的咖啡店”,但手指划了三页还没找到;
- 点外卖时反复对比五家店的满减规则,最后放弃手动计算;
- 给长辈发微信教他们点视频号,结果语音通话里说了八遍“点右下角那个小方块”……
现在,这些事不用再做了。
智谱AI开源的Open-AutoGLM,不是概念演示,不是实验室玩具——它是一个真正能“看懂屏幕、听懂人话、动手操作”的手机端AI代理。你只需要说一句:“打开抖音,搜‘AI教程’,点开播放量最高的那个视频,点赞并转发给文件传输助手”,它就能全程自动完成。
更关键的是:不需要写代码、不需调参、不需GPU服务器。一台普通电脑+一部安卓手机,30分钟内就能跑起来。本文就是为你写的“零门槛实战指南”,从连不上设备的焦虑,到第一次看到AI自己点开APP、输入搜索词、滑动页面——全部步骤拆解到最细,连ADB报错提示都给你标好怎么查。
我们不讲“多模态对齐”“规划器架构”这类词,只说:
你的手机能不能用?
第一步该点哪里?
命令输错一个字会卡在哪?
遇到“连接失败”到底该重插线,还是改IP?
接下来,咱们就当面装、当场试、当场成功。
2. 先搞清楚:它到底能帮你做什么?
Open-AutoGLM 的核心能力,可以用一句话概括:
它把你的手机,变成一个能“看”、能“想”、能“做”的数字分身。
不是简单的语音唤醒+固定指令(比如“打开微信”),而是真正的任务级理解与执行。来看几个真实可复现的场景:
“帮我订明天上午10点从北京南站到上海虹桥的高铁,选二等座,用支付宝支付”
→ 自动打开12306 → 输入出发/到达站 → 选择日期车次 → 填写乘客信息 → 跳转支付宝完成支付“在美团上找离我500米内评分4.8以上、人均100元以内的粤菜馆,打电话预约今晚7点两人位”
→ 打开美团 → 定位 → 筛选条件 → 解析商家列表 → 点击第一个 → 拨打预约电话(调用系统拨号)“把微信收藏里标题含‘Python装饰器’的笔记,复制文字发到WPS新建文档,加粗标题,保存为‘装饰器速查表.docx’”
→ 进入微信收藏 → 搜索关键词 → 提取文本 → 启动WPS → 新建文档 → 粘贴+格式化 → 保存文件
这些不是Demo视频里的剪辑效果,而是基于真实ADB控制+视觉语言模型(VLM)的端到端流程。它会:
🔹 实时截图分析当前界面(按钮在哪、文字是什么、滚动条位置)
🔹 把你的自然语言拆解成动作序列(先点A,再输B,再滑C)
🔹 在每一步后重新截图验证结果,确保没点错
🔹 遇到验证码、登录弹窗、敏感操作(如支付)时主动暂停,等你人工确认
换句话说:它像一个耐心、细致、永不疲倦的“手机操作员”,而你只需要用说话的方式下指令。
3. 硬件和环境:三步确认,避免90%的失败
很多新手卡在第一步,不是技术问题,而是设备状态没理清。我们用“三步确认法”,快速排除隐患:
3.1 手机必须满足这3个硬性条件
- Android 7.0及以上(Android 10+更稳,旧机型建议升级系统)
- 已开启开发者选项(设置 → 关于手机 → 连续点击“版本号”7次)
- USB调试已打开(设置 → 开发者选项 → USB调试 → 打钩)
特别注意:部分品牌(华为、小米、OPPO)有额外限制:
- 华为:需在“开发者选项”中关闭“仅充电模式下允许ADB调试”
- 小米:需在“开发者选项”中开启“USB安装”和“USB调试(安全设置)”
- OPPO/vivo:需在“开发者选项”中开启“OEM解锁”(无需刷机,只是开关)
3.2 电脑只需装两样东西(无脑操作)
| 工具 | 安装方式 | 验证命令 | 正常输出示例 |
|---|---|---|---|
| Python 3.10+ | 官网下载安装包,勾选“Add Python to PATH” | python --version | Python 3.10.12 |
| ADB工具 | 下载platform-tools解压到任意文件夹 | adb version | Android Debug Bridge version 1.0.41 |
小技巧:Windows用户安装ADB后,若adb devices报“不是内部命令”,请按以下顺序检查:
- 解压后的文件夹路径不能含中文或空格(如
D:\adb\可,D:\我的工具\adb\不可) - 系统环境变量PATH中是否添加了该路径(Win+R →
sysdm.cpl→ 高级 → 环境变量 → 系统变量 → Path → 新建 → 粘贴路径) - 重启命令行窗口(重要!新环境变量不会生效于已打开的窗口)
3.3 连接方式选哪个?看你的实际场景
| 场景 | 推荐方式 | 操作要点 | 优势 | 劣势 |
|---|---|---|---|---|
| 首次调试/不稳定网络 | USB线直连 | 手机用原装数据线连接电脑,开启USB调试 | 延迟最低,成功率最高 | 需一直插线 |
| 日常使用/多设备管理 | WiFi无线连接 | 先USB连一次执行adb tcpip 5555,再断开USB,运行adb connect 192.168.x.x:5555 | 解放USB口,支持远程控制 | 首次配置稍复杂,WiFi信号差时易掉线 |
记住一个万能检测命令:
adb devices正常应返回类似:
List of devices attached ZY2234567890 device如果显示unauthorized,请在手机弹出的授权框中点“允许”;
如果显示为空,说明USB驱动未识别(换线/换USB口/重装驱动);
如果显示offline,说明ADB服务异常(重启手机或运行adb kill-server && adb start-server)。
4. 三分钟部署:从克隆代码到第一次成功执行
所有操作均在命令行(Windows PowerShell / macOS Terminal)中完成,无需IDE、无需配置服务器。
4.1 下载与安装(30秒)
# 1. 克隆代码(国内用户推荐用镜像加速) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖(自动处理PyTorch、vLLM等) pip install -r requirements.txt pip install -e .验证安装:运行python -c "import phone_agent; print('安装成功')",无报错即成功。
4.2 连接你的手机(关键!)
确保手机已通过USB或WiFi连接,并被adb devices识别。
获取设备ID(用于后续命令):
# 查看已连接设备 adb devices # 输出示例:ZY2234567890 device → 这串字母数字就是你的设备ID4.3 选择模型服务(三种方式,任选其一)
方式一:直接用智谱官方API(最快,免部署)
- 访问 智谱AI平台 注册账号
- 进入“API Key管理”,创建新Key
- 执行命令(替换
YOUR_API_KEY):
python main.py \ --device-id ZY2234567890 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --api-key YOUR_API_KEY \ "打开小红书,搜索'AI办公技巧',关注作者"方式二:用魔搭ModelScope(免费,适合体验)
- 访问 ModelScope AutoGLM-Phone-9B页面
- 登录后点击“在线API”,复制Token
- 执行命令(替换
YOUR_TOKEN):
python main.py \ --device-id ZY2234567890 \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --api-key YOUR_TOKEN \ "打开高德地图,搜索公司地址,导航到那里"方式三:本地部署(进阶,需显卡)
仅限有NVIDIA GPU(显存≥12GB)用户,新手跳过此步,先用方式一验证流程。
# 启动本地模型服务(需提前安装vLLM) python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 # 服务启动后,在另一终端运行 python main.py \ --device-id ZY2234567890 \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ "打开淘宝,搜索iPhone 15,按销量排序,截图前三名商品"4.4 第一次成功执行(见证时刻)
运行任意一条上述命令后,你会看到:
- 控制台输出
Capturing screen...(正在截图) - 手机屏幕短暂闪烁(ADB截屏)
- 控制台打印
Analyzing screen with model...(模型分析中) - 几秒后,手机自动执行操作:点亮屏幕 → 解锁(如需)→ 打开APP → 点击搜索框 → 输入文字 → 点击搜索
恭喜!你已成功启动手机AI代理。
此时不要动手机,让它自主完成。第一次可能稍慢(模型加载+网络延迟),但后续指令响应会明显加快。
5. 实战技巧:让AI更听话的5个关键细节
刚上手时,你会发现AI有时“理解偏差”。这不是模型不行,而是自然语言指令需要一点“表达技巧”。以下是经过实测验证的实用心法:
5.1 指令要具体,拒绝模糊词
❌ 不好:“帮我看看外卖”
好:“打开美团外卖,进入首页,点击‘附近’,筛选‘好评优先’,截图前3家店的招牌菜”
原因:AI无法推断“看看”指什么动作(打开?截图?下单?),也无法确定“外卖”是APP还是网页。
5.2 涉及输入时,明确内容格式
❌ 不好:“搜索一个餐厅”
好:“在大众点评搜索框输入‘川菜’,点击搜索按钮”
原因:模型需精确知道输入什么文字,否则可能随机填“test”或留空。
5.3 多步骤任务,用“并”“然后”连接
❌ 不好:“订高铁票,再点外卖”(AI可能只做第一步)
好:“打开12306,查询明天北京到上海的高铁,选择G101次,提交订单;然后打开美团外卖,搜索‘轻食’,下单一份沙拉”
原因:分号或“然后”明确划分任务边界,避免执行中断。
5.4 遇到弹窗,主动声明接管意愿
好:“打开微信,登录账号(等待我输入验证码),然后给文件传输助手发消息‘测试完成’”
Open-AutoGLM内置人工接管机制:当检测到验证码、权限申请、登录弹窗时,会暂停并提示“等待人工操作”,你完成输入后,它自动继续。
5.5 截图类指令,指定清晰目标
❌ 不好:“截图”
好:“截取当前屏幕,保存为‘小红书搜索结果.png’” 或 “截取微信聊天窗口中最新3条消息区域”
原因:默认截图全屏,但AI可结合OCR识别区域,加限定词能提升精准度。
6. 常见问题速查表(附解决方案)
| 问题现象 | 可能原因 | 一行解决命令/操作 |
|---|---|---|
adb devices显示空 | USB驱动未识别 | 换原装数据线;Windows设备管理器中卸载“Android ADB Interface”,右键更新驱动 |
运行main.py报错ModuleNotFoundError: No module named 'vllm' | 未安装vLLM(仅方式三需要) | pip install vllm(CUDA版本需匹配,详见vLLM官网) |
| 模型返回乱码或超时 | API Key无效或网络不通 | 检查Key是否复制完整;用浏览器访问--base-url看能否打开(如https://open.bigmodel.cn/api/paas/v4) |
| AI点错位置,或找不到按钮 | 手机分辨率过高/界面缩放异常 | 设置 → 显示 → 缩放与字体 → 设为“默认”;或在main.py中添加参数--scale-factor 1.0 |
| 执行到一半卡住不动 | ADB连接中断或手机休眠 | 运行adb shell input keyevent 26(唤醒屏幕);检查USB线是否松动;WiFi连接时确保同网段 |
终极排查口诀:先看adb,再查网络,最后看指令。90%的问题根源都在设备连接层,而非模型本身。
7. 总结:你的手机,从此多了一个“数字同事”
Open-AutoGLM 不是又一个“炫技型”开源项目,而是一个真正降低AI使用门槛的工程实践:
- 它把复杂的多模态推理、GUI自动化、安全管控,封装成一条命令;
- 它不强迫你成为Linux专家、ADB高手或大模型调优师;
- 它让你第一次用自然语言指挥手机时,感受到的不是技术距离,而是“原来真的可以”。
你现在完全可以:
🔹 周一早上用它批量回复微信工作群消息
🔹 周三下午让它自动整理10个电商链接的价格对比表
🔹 周末教父母一句“打开抖音,搜广场舞教学”,代替半小时语音指导
技术的价值,从来不在参数有多炫,而在它是否让普通人多了一种解决问题的新方式。Open-AutoGLM 正在做的,就是这件事。
下一步,你可以:
- 尝试更复杂的指令(如“对比京东/拼多多/淘宝同款商品价格,生成表格发邮箱”)
- 用Python API集成到自己的脚本中(参考文档中的
ADBConnection示例) - 加入社区讨论如何适配iOS(目前仅安卓,但原理相通)
真正的AI助理,不该是藏在论文里的概念,而该是你桌面上那个随时待命、越用越懂你的伙伴。现在,这个伙伴已经站在你手机屏幕背后,等你一声令下。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。