小白也能懂的Open-AutoGLM：零基础搭建手机智能代理-开发者社区

小白也能懂的Open-AutoGLM：零基础搭建手机智能代理

你有没有想过，以后点外卖、刷短视频、查快递，都不用自己动手？不是靠语音助手，也不是靠预设脚本，而是让一个真正“看懂”手机屏幕的AI，像真人一样理解界面、思考步骤、点击滑动——甚至在验证码弹出时主动喊你：“喂，该你输数字了”。

这不是科幻电影。智谱开源的Open-AutoGLM，就是这样一个能跑在你真实安卓手机上的AI智能代理框架。它不依赖APP内嵌SDK，不挑品牌机型，只要你的手机能连电脑或WiFi，就能让它听你一句话，自动完成整套操作。

更关键的是：它真的对新手友好。不需要你会写Python，不需要你调参炼丹，连ADB是什么都不知道？没关系——这篇教程就从“打开手机设置”开始，手把手带你把AI代理装进手机，让它第一次为你点开抖音。

我们不讲模型结构、不聊多模态对齐损失函数，只说三件事：
你得准备什么（全是常见设备，没有冷门硬件）
每一步点哪、输什么、看到什么提示才算成功
它到底能干啥？——用你真机录屏的真实效果说话

现在，把手机充上电，拿根USB线，咱们开始。

1. 先搞明白：它到底是个什么“代理”

1.1 不是APP，也不是插件，而是一个“会看会想会动手”的AI管家

Open-AutoGLM 的核心身份，是Phone Agent——一个运行在你本地电脑上的控制程序，但它服务的对象，是你手里的安卓手机。

它的工作流非常贴近人类操作逻辑：

看：每秒截一次手机屏幕，把图片+当前界面文字（OCR识别结果）一起传给云端大模型
想：模型结合你的自然语言指令（比如“帮我订一杯瑞幸的生椰拿铁”），理解任务目标、分析当前APP状态、规划下一步动作（点哪个图标、输什么字、滑到哪）
做：通过 ADB（Android Debug Bridge）向手机发送精准指令——点击坐标、输入文字、返回上一页、长按……就像你用手指操作一样

整个过程，你只需要说人话，剩下的交给它。

1.2 和普通语音助手有啥不一样？

对比项	Siri / 小爱同学	Open-AutoGLM
能看屏幕吗？	❌ 只能听你说，看不到APP里有什么	实时截图分析，知道微信聊天框在哪、美团搜索栏有没有弹出键盘
能跨APP操作吗？	❌ 大多限于系统级功能（打电话、设闹钟）	“打开小红书→搜‘露营装备’→点收藏最多那篇→保存图片到相册”一气呵成
需要APP配合吗？	❌ 不需要，但能力受限	完全不依赖APP开放接口，所有操作基于视觉和ADB，适配99%安卓应用
遇到验证码怎么办？	❌ 直接卡死	自动暂停，高亮显示验证码区域，等你手动输入后继续

简单说：它是你手机屏幕的“影子操作员”，而不仅是耳朵边的“传声筒”。

2. 零基础准备：四样东西，30分钟搞定

别被“ADB”“vLLM”这些词吓住。下面列的全是日常能接触到的东西，没有一项需要你去电子市场买新硬件。

2.1 你手边必须有的四样

一台电脑：Windows 或 macOS 都行（不要用Linux虚拟机，初期连接容易掉）
一部安卓手机：Android 7.0 及以上（2016年之后的主流机型基本都满足）
一根USB数据线：原装或认证线，避免充电线无法传输数据
一个浏览器：用来下载几个小工具（后面直接给你链接）

小提醒：iPhone 不支持。这不是技术歧视，而是 ADB 是安卓官方调试协议，iOS 有完全不同的生态限制。

2.2 手机端：三步开启“被接管”权限

这三步在手机上操作，全程中文界面，每步都有明确路径：

开启开发者模式
- 进入「设置」→「关于手机」→ 连续点击「版本号」7次
- 弹出提示“您已处于开发者模式”，别关，直接返回上一级
开启USB调试
- 回到「设置」→「系统」→「开发者选项」→ 找到「USB调试」→ 右侧开关打开
- 第一次开启会弹窗，点「确定」
安装并启用 ADB Keyboard（关键！）
- 用电脑浏览器访问这个地址下载安装包：
  https://github.com/Genymobile/scrcpy/releases/download/v2.4/adb-keyboard.apk
- 把APK文件传到手机，用文件管理器安装（如提示“禁止安装未知来源”，去「设置」→「安全」→ 打开「未知来源应用安装」）
- 安装完，进入「设置」→「语言与输入法」→「当前键盘」→ 选择「ADB Keyboard」

成功标志：当你用USB连上电脑后，在命令行输入adb shell input text "test"，手机输入框里会立刻出现 test 字样。

2.3 电脑端：装好ADB，5分钟验证通没通

ADB 是连接电脑和手机的“翻译官”。我们不编译源码，只装现成工具包：

Windows 用户：
下载地址 → https://developer.android.com/tools/releases/platform-tools
解压后，记住这个文件夹路径（比如D:\platform-tools）
然后：
Win + R→ 输入sysdm.cpl→ 「高级」→ 「环境变量」→ 在「系统变量」里找到 Path → 「编辑」→ 「新建」→ 粘贴你刚记下的路径 → 确定

macOS 用户：
终端执行：

curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH="$PATH:$(pwd)/platform-tools"

验证是否成功：
打开命令行（Windows用CMD/PowerShell，macOS用Terminal），输入：

adb version

如果显示类似Android Debug Bridge version 34.0.5，说明装好了。

3. 三步部署：从克隆代码到第一句指令

现在，你的手机已准备好被接管，电脑也装好了“翻译官”。接下来，我们把 Open-AutoGLM 这个“大脑”装上。

3.1 下载并安装控制端（就是那个让AI干活的程序）

打开命令行，依次执行（复制粘贴即可）：

# 1. 克隆项目（不用懂git，这行只是下载全部文件） git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建独立环境（避免和其他Python项目冲突） python3 -m venv .venv source .venv/bin/activate # macOS/Linux # Windows用户请改用： .venv\Scripts\activate # 3. 安装所有依赖（自动处理，喝口水等2分钟） pip install -r requirements.txt pip install -e .

注意：如果提示pip is not recognized，说明Python没加进环境变量，请先搜索“Windows如何配置Python环境变量”补上这步。

3.2 连接手机：USB or WiFi？选最稳的那个

先用USB线连好手机和电脑。
在命令行输入：

adb devices

正常输出应该类似：

List of devices attached ZY322FDQJL device

那一串字母数字组合，就是你的设备ID（记下来，后面要用）。

如果你希望无线控制（比如手机放桌上，人坐沙发上操作），可以升级为WiFi连接：

# 先用USB连着时执行（开启远程调试端口） adb tcpip 5555 # 拔掉USB线，确保手机和电脑在同一WiFi下 # 查看手机IP：设置 → 关于手机 → 状态信息 → IP地址（通常是192.168.x.x） adb connect 192.168.1.102:5555 # 把192.168.1.102换成你手机的真实IP

再次运行adb devices，如果看到192.168.1.102:5555 device，说明无线连接成功。

3.3 发出第一条指令：让AI打开抖音

这是最关键的一步。你不需要自己搭大模型服务器——Open-AutoGLM 默认连接智谱提供的公开API（测试阶段可用）。我们直接调用：

python main.py \ --device-id ZY322FDQJL \ --base-url https://api.zhipu.ai/v1 \ --model "autoglm-phone-9b" \ "打开抖音"

替换说明：

--device-id后面填你刚才adb devices看到的ID（如 ZY322FDQJL）
--base-url保持默认即可（官方测试API，无需密钥）
最后引号里的句子，就是你对AI说的人话

你会看到命令行快速滚动日志：
[INFO] 截取屏幕...
[INFO] 分析界面：当前在桌面，找到抖音图标
[INFO] 执行点击：坐标(520, 1280)
…几秒后，你手机屏幕真的亮起抖音首页！

真实体验提示：首次运行稍慢（要加载模型上下文），后续指令响应明显加快。如果卡在“正在分析界面”，请检查手机是否锁屏——必须保持亮屏且解锁状态。

4. 能干啥？用你真机录屏说话

光说“能操作”太虚。我们用三个你每天都会做的真实任务，展示它到底多靠谱。

4.1 任务一：点外卖（美团 × 麦当劳）

指令：

python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "在美团点一份麦当劳巨无霸套餐，送到家"

实际发生了什么：

自动打开美团APP
点击顶部搜索框 → 输入“麦当劳”
进入店铺页 → 点击“巨无霸套餐” → 选规格 → 加入购物车
进入结算页 → 自动填写默认收货地址（从手机通讯录读取）
停在支付页面，高亮显示“微信支付”按钮，并提示：“请确认支付方式，我将等待您的操作”

效果亮点：它识别出了“送到家”是地址关键词，主动跳过手动选地址环节；在支付页不越界操作，严格遵守安全边界。

4.2 任务二：查快递（跨APP联动）

指令：

python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "查一下我昨天买的iPhone手机壳，快递到哪了"

实际发生了什么：

打开淘宝APP → 进入“我的订单”
找到最新一笔含“iPhone手机壳”的订单 → 点击“查看物流”
截图物流详情页 → 识别出当前所在城市（如“上海市静安区”）和预计送达时间
主动切换到地图APP → 搜索“菜鸟驿站”，标出附近3个自提点

效果亮点：它把“查快递”这个模糊需求，拆解成淘宝找单+物流识别+地图定位三步，全程无断点。

4.3 任务三：关注博主（带账号ID的精准操作）

指令：

python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "打开抖音，搜索抖音号dycwo11nt61d，进入主页并关注"

实际发生了什么：

打开抖音 → 点击放大镜图标 → 粘贴账号ID → 搜索
在结果页识别出“抖音号：dycwo11nt61d”的蓝V认证主页 → 点击进入
页面加载后，识别右上角“关注”按钮 → 点击
弹出二次确认弹窗 → AI识别出“确认关注”文字 → 点击确认

效果亮点：它能区分“搜索结果列表”和“个人主页”，不会在列表页误点别人头像；对弹窗有完整处理链路。

5. 常见问题：为什么我的不行？三类高频卡点

部署顺利的人可能不多。别急，下面这三个问题，覆盖了90%的新手失败场景：

5.1 卡在“找不到设备”或“连接拒绝”

检查点1：手机是否弹出“允许USB调试？”弹窗？没点确定=没授权
检查点2：Windows用户是否安装了手机品牌对应的USB驱动？（华为/小米/OPPO官网搜“USB驱动”下载安装）
检查点3：macOS用户是否在终端执行了xattr -d com.apple.quarantine platform-tools/adb？（解除苹果安全拦截）

5.2 指令发出去，手机没反应，或点错位置

根本原因：屏幕分辨率太高，模型截图识别偏移
解决方案：在手机「设置」→「显示」→「字体大小与样式」→ 调小一级（推荐“默认”或“小”）
进阶技巧：在main.py启动参数里加--scale-factor 0.8，强制缩小截图比例提升识别精度

5.3 输入文字时，中文变成乱码或不显示

唯一解法：确认你已按2.3节要求，完整安装并启用 ADB Keyboard
验证方法：命令行执行adb shell input text "你好"，看手机输入框是否显示“你好”
常见坑：安装了APK但没在「语言与输入法」里切换成它；或切换了但没设为“默认键盘”

6. 它不是万能的，但已是手机自动化的新起点

Open-AutoGLM 不是终点，而是一把钥匙——它第一次让普通用户，无需编程、不碰模型、不求人，就能拥有一个真正“理解屏幕”的AI代理。

它目前的边界也很清晰：
🔹 不支持游戏内操作（Unity/Unreal引擎渲染层不可见）
🔹 不处理需要生物识别的场景（指纹/人脸支付需人工）
🔹 复杂表单填写（如身份证号+银行卡号+短信验证码三重校验）仍需分步接管

但正因如此，它才真实。它不吹嘘“全场景替代人类”，而是专注把“点外卖、查快递、追博主”这些高频动作，做到丝滑、可靠、可解释。

更重要的是，它的代码完全开源，模型权重可本地部署。今天你用的是智谱API，明天就能换成自己显卡跑的9B模型——这才是开源AI代理真正的价值：把控制权，交还给你。

所以，别再问“它能不能取代我”。问问自己：过去一周，有多少次你一边刷牙一边想“要是手机能自己点开美团就好了”？
现在，它真的可以了。

7. 下一步：让AI帮你批量做事

学会了单条指令，你已经掌握了核心能力。接下来，你可以：

把常用指令存成脚本：echo "打开小红书搜咖啡" | python main.py ...
用Python API封装成网页：家人点按钮，AI自动执行
接入IFTTT：下雨天自动打开墨迹天气，截图发你微信

但最值得你马上试试的，是这句话：

python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "把我微信收藏里的所有PDF文件，保存到手机文档文件夹"

去试吧。这一次，别盯着屏幕——看看它怎么在你眼前，把一堆散落的文件，悄悄归拢成一个整齐的文件夹。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

小白也能懂的Open-AutoGLM：零基础搭建手机智能代理