从安装到实战:Open-AutoGLM手机AI代理保姆级入门教程
你有没有想过,以后动动嘴就能让手机自己干活?不是语音助手那种“打开蓝牙”式的简单指令,而是真正理解你意图的智能体——比如你说“帮我把小红书里那篇咖啡拉花教程收藏到备忘录”,它就能自动打开App、找到文章、截图、提取文字、新建备忘录并粘贴……全程无需你点一下屏幕。
这就是 Open-AutoGLM 带来的现实。它不是概念Demo,而是一个已开源、可本地部署、真机可用的手机端AI Agent框架。背后是智谱AI发布的 AutoGLM-Phone 模型,专为中文手机生态优化,支持9B参数量的多模态视觉语言理解与动作规划能力。
本文不讲空泛原理,不堆技术术语,只聚焦一件事:让你今天下午就能在自己的安卓手机上跑通第一个AI自动化任务。从零开始,手把手带你完成环境配置、设备连接、模型调用,到最后用一句自然语言让手机自己打开抖音、搜索博主、完成关注——全部实测通过,步骤清晰,问题有解。
全文结构按真实操作流组织:先搞懂它能做什么,再准备硬件和软件,接着连上你的真机,然后启动AI大脑,最后用5个由浅入深的实战案例带你跑通全流程。所有命令都标注了适用场景和常见报错应对,连adb连不上这种高频问题也给你写好了排查清单。
1. 它到底能帮你做什么:不是“语音控制”,而是“意图执行”
Open-AutoGLM 的核心价值,不在于它会“听”,而在于它能“看+想+做”。
传统语音助手只能识别预设关键词,而 Open-AutoGLM 是一个完整的AI代理(Agent):它通过ADB实时截取手机屏幕画面,用视觉语言模型理解当前界面(比如识别出“小红书首页右上角的搜索框”),再结合你的自然语言指令(如“搜美食”),推理出完整操作链——打开App → 点击搜索框 → 输入关键词 → 点击搜索按钮 → 滑动浏览结果。整个过程像一个真人坐在你旁边操作手机。
更关键的是,它专为中文手机应用深度适配。官方测试覆盖超50款主流App,包括微信、抖音、小红书、淘宝、美团、高德、B站等,不是简单调起App,而是能精准点击图标、识别输入框、处理弹窗、甚至应对验证码拦截(此时会暂停并提示你人工接管)。
你可以把它理解成:
- 你的手机私人助理:不用记App路径,不用反复点进点出;
- 跨App工作流引擎:比如“把知乎看到的健身计划复制到Keep新建训练计划”;
- 无障碍操作助手:对视障用户或手部不便者,用语音替代复杂触控;
- 自动化测试脚本生成器:一句话生成可复用的UI操作序列。
它不依赖云端OCR或规则匹配,而是用端到端的多模态大模型直接理解界面语义。这意味着——你描述得越像人话,它执行得越准。
2. 硬件与环境准备:三步确认,避免90%的失败
很多新手卡在第一步:环境没配好。我们把必须项压缩到最简,只列真正影响运行的3个条件,并给出验证方式。
2.1 你的设备必须满足这三点
- 安卓手机:Android 7.0及以上(Android 10+更稳定),推荐使用真机(模拟器兼容性较差);
- 电脑系统:Windows 10/11 或 macOS Monterey 及以上;
- Python版本:严格要求 Python 3.10 或 3.11(3.12暂未完全适配,3.9以下缺少关键库)。
验证方法:在终端/命令行输入
python --version,确保输出类似Python 3.10.12。
2.2 ADB工具:不是“装了就行”,而是“能通信才算数”
ADB是连接电脑和手机的桥梁。很多人装完ADB却始终显示List of devices attached下为空,问题往往出在驱动或权限。
Windows用户请务必做这两件事:
- 下载官方platform-tools,解压后记下完整路径(如
D:\adb); - 在“系统属性→高级→环境变量→系统变量→Path”中新增该路径,重启命令行;
- 关键验证:手机用原装USB线连接电脑 → 手机开启“USB调试” → 命令行输入
adb devices,若看到一串字母数字(如ZY2252XK8L)加device,说明成功;若显示unauthorized,请在手机弹窗点“允许”。
macOS用户注意:
- 终端执行
export PATH=$PATH:~/Downloads/platform-tools后,还需执行source ~/.zshrc(或~/.bash_profile)使配置生效; - 若提示
command not found: adb,检查路径是否拼写错误,或用which adb确认是否被其他工具覆盖。
2.3 手机端设置:三个开关决定成败
这是最容易被忽略却最关键的一步。仅开启“USB调试”远远不够:
- 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次,直到提示“您现在处于开发者模式”;
- 开启USB调试:设置 → 系统 → 开发者选项 → 打开“USB调试”;
- 安装并启用ADB Keyboard:
- 前往 GitHub Releases 下载最新版APK;
- 手机安装后,进入 设置 → 系统 → 语言与输入法 → 虚拟键盘 → 选择“ADB Keyboard”并启用;
- 必须手动设为默认输入法,否则AI无法向任何输入框发送文字。
常见陷阱:部分华为/小米手机需额外开启“USB调试(安全设置)”和“仅充电模式下允许ADB调试”。若
adb devices显示no permissions,请在开发者选项中查找并开启这两项。
3. 部署控制端:克隆、安装、验证,三分钟搞定
控制端代码就是你电脑上的“指挥中心”,它负责截图、传图给AI、接收指令、再通过ADB执行动作。部署极轻量,无编译,纯Python。
3.1 克隆仓库与安装依赖
打开终端(Windows用CMD/PowerShell,macOS用Terminal),依次执行:
# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐,避免包冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装核心依赖 pip install -r requirements.txt pip install -e .提示:
pip install -e .中的-e表示“开发模式安装”,修改代码后无需重新安装即可生效,适合后续调试。
3.2 连接你的手机:USB直连 or WiFi远程?
USB直连(新手首选,稳定性最高)
- 手机用USB线连接电脑;
- 终端执行
adb devices,确认设备ID出现在列表中; - 记下该ID(如
ZY2252XK8L),后续命令中--device-id参数就填这个。
WiFi远程(摆脱线缆束缚)
需先用USB完成初始化:
# 第一步:USB连接时执行,开启TCP/IP模式 adb tcpip 5555 # 第二步:拔掉USB线,确保手机与电脑在同一WiFi # 查看手机IP:设置 → 关于手机 → 状态 → IP地址(通常形如 192.168.1.102) # 第三步:用IP连接 adb connect 192.168.1.102:5555验证:再次运行
adb devices,应显示192.168.1.102:5555 device。若显示connected to ...但adb devices无响应,请关闭手机“智能WiFi切换”或尝试换端口(如5556)。
3.3 模型服务:两种方案,选最适合你的
Open-AutoGLM 本身不包含大模型,它需要对接一个提供chat/completions接口的视觉语言模型服务。官方支持两种路径:
方案A:调用第三方API(零显卡,5分钟启动)
适合没有GPU服务器、只想快速体验效果的用户。推荐使用智谱BigModel平台(国内访问快,中文优化好):
- 访问 https://bigmodel.cn,注册账号并获取API Key;
- 在控制台开通
autoglm-phone模型权限; - 运行命令时指定:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here" \ "打开小红书搜美食"优势:无需下载20GB模型,不占本地显存,适合笔记本用户。
❗ 注意:首次调用可能触发风控,若返回401 Unauthorized,请检查API Key是否复制完整,且未开启“IP白名单”。
方案B:本地部署模型(全功能,需GPU)
适合有NVIDIA显卡(建议RTX 3090/4090或A10/A100)的用户,可获得更低延迟和更高定制性:
- 按
requirements.txt中For Model Deployment部分安装 vLLM(推荐)或 SGLang; - 下载模型权重:
huggingface-cli download zai-org/AutoGLM-Phone-9B --local-dir ./models/autoglm-phone-9b; - 启动服务(vLLM示例):
python3 -m vllm.entrypoints.openai.api_server \ --model ./models/autoglm-phone-9b \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --limit-mm-per-prompt "{\"image\":10}" \ --mm-processor-cache-type shm- 服务启动后,访问
http://localhost:8000/v1/chat/completions即可测试。
验证模型:运行
python scripts/check_deployment_cn.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b,看到Model is ready即成功。
4. 启动AI代理:从命令行到Python API,两种调用姿势
一切就绪后,就是见证奇迹的时刻。我们提供最简命令和最实用API封装,任你选择。
4.1 命令行一键执行(适合快速验证)
在Open-AutoGLM根目录下,执行:
# 最简命令(使用第三方API) python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxx" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!" # 本地模型服务(假设运行在8000端口) python main.py \ --device-id ZY2252XK8L \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信,给文件传输助手发消息:AI代理启动成功"输出解读:你会看到类似这样的日志流:
[INFO] Capturing screen...→ 截图上传[INFO] LLM thinking...→ 模型分析界面与指令[ACTION] Click (x=230, y=120)→ 执行点击[ACTION] Input text: dycwo11nt61d→ 输入搜索词[SUCCESS] Task completed in 42.3s→ 任务完成
4.2 Python API集成(适合嵌入项目)
如果你希望将AI代理能力集成到自己的脚本或Web服务中,官方提供了简洁的Python接口:
from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型服务地址 model_config = ModelConfig( base_url="http://localhost:8000/v1", # 或第三方API地址 model_name="autoglm-phone-9b", api_key="your_api_key_if_needed" ) # 初始化代理 agent = PhoneAgent(model_config=model_config, device_id="ZY2252XK8L") # 执行任务(阻塞式,返回完整结果) result = agent.run("打开淘宝,搜索‘无线降噪耳机’,按销量排序,截图第一款商品详情页") print("执行状态:", result.status) print("耗时:", result.duration) print("最终截图保存在:", result.screenshot_path)进阶技巧:
- 通过
agent.run(..., verbose=True)查看每一步思考与动作细节;- 使用
--list-apps参数列出所有已支持App及其包名,方便精准调用;- 在
config.yaml中修改system_prompt_zh,可强化特定领域能力(如电商话术、医疗App交互)。
5. 实战案例:5个真实任务,从入门到进阶
理论终须落地。我们精选5个典型场景,覆盖高频需求,每个都附带可直接复制的指令、预期效果说明及避坑提示。
5.1 新手首秀:打开App并搜索(1分钟体验)
指令:"打开小红书,搜索‘上海咖啡馆探店’"
预期效果:
- 自动启动小红书App;
- 点击首页顶部搜索框;
- 输入“上海咖啡馆探店”;
- 点击搜索按钮;
- 进入结果页。
避坑提示:
- 若小红书未安装,会提示“App not found”,请提前安装;
- 首次启动App可能有开屏广告,Agent会等待跳过(约3秒),无需干预。
5.2 跨App协作:信息搬运(体现多步规划能力)
指令:"打开知乎,搜索‘Python异步编程’,复制第一条回答的前三句话,粘贴到备忘录新笔记中"
预期效果:
- 启动知乎 → 搜索 → 进入回答页 → 截图识别文字 → 启动备忘录 → 新建笔记 → 粘贴文本。
避坑提示:
- 确保备忘录App已安装(系统自带或第三方如“印象笔记”);
- 若知乎回答含图片,Agent会跳过图片区域,专注提取纯文本。
5.3 社交媒体操作:精准互动(考验UI理解深度)
指令:"打开微信,找到‘文件传输助手’,发送文字:‘这是AI代理自动发送的消息’"
预期效果:
- 启动微信 → 拉动聊天列表 → 识别“文件传输助手”头像与昵称 → 点击进入 → 点击输入框 → 输入文字 → 点击发送。
避坑提示:
- 微信需登录且网络畅通;
- 若聊天列表过长,Agent会自动滑动查找,耗时略增(<5秒)。
5.4 电商比价:多平台决策(展示逻辑推理)
指令:"比较iPhone 15在京东和拼多多的价格,告诉我哪家更便宜"
预期效果:
- 分别启动京东、拼多多;
- 在两家App内搜索“iPhone 15”;
- 识别商品卡片中的价格元素(如“¥5,999”);
- 比较后返回结论:“京东售价¥5,999,拼多多售价¥5,899,拼多多更便宜”。
避坑提示:
- 此任务需模型具备强OCR与数值理解能力,建议使用
autoglm-phone-9b官方模型; - 若某平台无结果,会明确告知“未在XX平台找到商品”。
5.5 敏感操作:人工接管机制(安全设计实测)
指令:"打开支付宝,转账100元给好友张三"
预期效果:
- 启动支付宝 → 进入转账页;
- 当检测到“输入支付密码”或“人脸识别”界面时,自动暂停;
- 终端输出:
侦测到敏感操作:支付。请手动完成验证,完成后输入 'continue' 继续; - 你完成密码输入后,在终端敲
continue,Agent继续执行后续步骤。
避坑提示:
- 这是框架内置的安全护栏,不可绕过;
- 所有涉及账户、支付、隐私授权的操作均触发此机制,保障绝对可控。
6. 常见问题速查:90%的报错,这里都有答案
部署过程中最常遇到的问题,我们按发生频率排序,并给出根治方案:
| 问题现象 | 根本原因 | 一键解决 |
|---|---|---|
adb devices无设备显示 | USB调试未开启,或驱动未安装 | 重进开发者选项,确认“USB调试”和“USB调试(安全设置)”双开;Windows用户安装Universal ADB Driver |
Connection refused(连接模型服务失败) | 本地vLLM未启动,或防火墙拦截端口 | 执行curl http://localhost:8000/health,若返回{"status":"ready"}则服务正常;否则检查vLLM日志中是否有CUDA内存不足报错 |
| 模型返回乱码或空响应 | API Key错误,或模型服务URL末尾缺/v1 | 检查--base-url是否为http://xxx:8000/v1(必须带/v1);第三方API Key确认无空格 |
| AI点击位置偏差(点错图标) | 手机分辨率缩放比例非100%,或截图未同步 | 进入手机“显示设置”,将“字体大小与样式”和“显示大小”均设为“默认”;重启ADB服务adb kill-server && adb start-server |
| 执行中卡在“等待截图” | ADB Keyboard未启用为默认输入法 | 进入手机“设置→语言与输入法→虚拟键盘”,确保“ADB Keyboard”右侧有勾选,并设为默认 |
终极建议:首次运行前,先用
adb shell input keyevent KEYCODE_HOME命令确认ADB基础通信正常;再执行python main.py --list-apps查看支持App列表,确保环境链路完整。
7. 总结:你已经拥有了一个真正的手机AI代理
回顾这一路,你完成了:
理解Open-AutoGLM的核心价值——它不只是“语音遥控”,而是能看、能想、能做的手机AI代理;
配齐硬件与软件环境,让电脑和手机真正“说上话”;
成功连接模型服务,无论是调用云端API还是本地部署;
用一句自然语言,驱动手机完成从启动App到跨平台操作的完整流程;
亲手跑通5个真实场景,并掌握了问题排查的底层逻辑。
这不是一个玩具项目,而是智谱AI为中文手机生态打造的生产力基础设施。它的开源意味着你可以:
- 修改
system_prompt_zh,让它更懂你的工作习惯; - 在
examples/目录下添加自己的任务模板; - 将
PhoneAgent封装为Web API,供团队共享; - 甚至基于其框架,训练专属领域的手机Agent(如银行App专用助手)。
下一步,不妨试试这些延伸动作:
🔹 把常用指令保存为shell脚本,一键执行;
🔹 用--verbose模式观察AI的思考链,理解它如何拆解复杂任务;
🔹 在config.yaml中禁用不常用App(如游戏类),提升推理速度;
🔹 尝试英文指令,验证多语言能力(需加载multilingual模型)。
真正的AI手机时代,不是等待厂商推送,而是从今天,用一行命令,亲手开启。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。