news 2026/5/8 22:11:17

小白也能懂的Open-AutoGLM:零基础搭建手机智能代理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小白也能懂的Open-AutoGLM:零基础搭建手机智能代理

小白也能懂的Open-AutoGLM:零基础搭建手机智能代理

你有没有想过,以后点外卖、刷短视频、查快递,都不用自己动手?不是靠语音助手,也不是靠预设脚本,而是让一个真正“看懂”手机屏幕的AI,像真人一样理解界面、思考步骤、点击滑动——甚至在验证码弹出时主动喊你:“喂,该你输数字了”。

这不是科幻电影。智谱开源的Open-AutoGLM,就是这样一个能跑在你真实安卓手机上的AI智能代理框架。它不依赖APP内嵌SDK,不挑品牌机型,只要你的手机能连电脑或WiFi,就能让它听你一句话,自动完成整套操作。

更关键的是:它真的对新手友好。不需要你会写Python,不需要你调参炼丹,连ADB是什么都不知道?没关系——这篇教程就从“打开手机设置”开始,手把手带你把AI代理装进手机,让它第一次为你点开抖音。

我们不讲模型结构、不聊多模态对齐损失函数,只说三件事:
你得准备什么(全是常见设备,没有冷门硬件)
每一步点哪、输什么、看到什么提示才算成功
它到底能干啥?——用你真机录屏的真实效果说话

现在,把手机充上电,拿根USB线,咱们开始。

1. 先搞明白:它到底是个什么“代理”

1.1 不是APP,也不是插件,而是一个“会看会想会动手”的AI管家

Open-AutoGLM 的核心身份,是Phone Agent——一个运行在你本地电脑上的控制程序,但它服务的对象,是你手里的安卓手机。

它的工作流非常贴近人类操作逻辑:

  • :每秒截一次手机屏幕,把图片+当前界面文字(OCR识别结果)一起传给云端大模型
  • :模型结合你的自然语言指令(比如“帮我订一杯瑞幸的生椰拿铁”),理解任务目标、分析当前APP状态、规划下一步动作(点哪个图标、输什么字、滑到哪)
  • :通过 ADB(Android Debug Bridge)向手机发送精准指令——点击坐标、输入文字、返回上一页、长按……就像你用手指操作一样

整个过程,你只需要说人话,剩下的交给它。

1.2 和普通语音助手有啥不一样?

对比项Siri / 小爱同学Open-AutoGLM
能看屏幕吗?❌ 只能听你说,看不到APP里有什么实时截图分析,知道微信聊天框在哪、美团搜索栏有没有弹出键盘
能跨APP操作吗?❌ 大多限于系统级功能(打电话、设闹钟)“打开小红书→搜‘露营装备’→点收藏最多那篇→保存图片到相册”一气呵成
需要APP配合吗?❌ 不需要,但能力受限完全不依赖APP开放接口,所有操作基于视觉和ADB,适配99%安卓应用
遇到验证码怎么办?❌ 直接卡死自动暂停,高亮显示验证码区域,等你手动输入后继续

简单说:它是你手机屏幕的“影子操作员”,而不仅是耳朵边的“传声筒”。

2. 零基础准备:四样东西,30分钟搞定

别被“ADB”“vLLM”这些词吓住。下面列的全是日常能接触到的东西,没有一项需要你去电子市场买新硬件。

2.1 你手边必须有的四样

  • 一台电脑:Windows 或 macOS 都行(不要用Linux虚拟机,初期连接容易掉)
  • 一部安卓手机:Android 7.0 及以上(2016年之后的主流机型基本都满足)
  • 一根USB数据线:原装或认证线,避免充电线无法传输数据
  • 一个浏览器:用来下载几个小工具(后面直接给你链接)

小提醒:iPhone 不支持。这不是技术歧视,而是 ADB 是安卓官方调试协议,iOS 有完全不同的生态限制。

2.2 手机端:三步开启“被接管”权限

这三步在手机上操作,全程中文界面,每步都有明确路径:

  1. 开启开发者模式

    • 进入「设置」→「关于手机」→ 连续点击「版本号」7次
    • 弹出提示“您已处于开发者模式”,别关,直接返回上一级
  2. 开启USB调试

    • 回到「设置」→「系统」→「开发者选项」→ 找到「USB调试」→ 右侧开关打开
    • 第一次开启会弹窗,点「确定」
  3. 安装并启用 ADB Keyboard(关键!)

    • 用电脑浏览器访问这个地址下载安装包:
      https://github.com/Genymobile/scrcpy/releases/download/v2.4/adb-keyboard.apk
    • 把APK文件传到手机,用文件管理器安装(如提示“禁止安装未知来源”,去「设置」→「安全」→ 打开「未知来源应用安装」)
    • 安装完,进入「设置」→「语言与输入法」→「当前键盘」→ 选择「ADB Keyboard」

成功标志:当你用USB连上电脑后,在命令行输入adb shell input text "test",手机输入框里会立刻出现 test 字样。

2.3 电脑端:装好ADB,5分钟验证通没通

ADB 是连接电脑和手机的“翻译官”。我们不编译源码,只装现成工具包:

  • Windows 用户
    下载地址 → https://developer.android.com/tools/releases/platform-tools
    解压后,记住这个文件夹路径(比如D:\platform-tools
    然后:
    Win + R→ 输入sysdm.cpl→ 「高级」→ 「环境变量」→ 在「系统变量」里找到 Path → 「编辑」→ 「新建」→ 粘贴你刚记下的路径 → 确定

  • macOS 用户
    终端执行:

    curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH="$PATH:$(pwd)/platform-tools"

验证是否成功:
打开命令行(Windows用CMD/PowerShell,macOS用Terminal),输入:

adb version

如果显示类似Android Debug Bridge version 34.0.5,说明装好了。

3. 三步部署:从克隆代码到第一句指令

现在,你的手机已准备好被接管,电脑也装好了“翻译官”。接下来,我们把 Open-AutoGLM 这个“大脑”装上。

3.1 下载并安装控制端(就是那个让AI干活的程序)

打开命令行,依次执行(复制粘贴即可):

# 1. 克隆项目(不用懂git,这行只是下载全部文件) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建独立环境(避免和其他Python项目冲突) python3 -m venv .venv source .venv/bin/activate # macOS/Linux # Windows用户请改用: .venv\Scripts\activate # 3. 安装所有依赖(自动处理,喝口水等2分钟) pip install -r requirements.txt pip install -e .

注意:如果提示pip is not recognized,说明Python没加进环境变量,请先搜索“Windows如何配置Python环境变量”补上这步。

3.2 连接手机:USB or WiFi?选最稳的那个

先用USB线连好手机和电脑。
在命令行输入:

adb devices

正常输出应该类似:

List of devices attached ZY322FDQJL device

那一串字母数字组合,就是你的设备ID(记下来,后面要用)。

如果你希望无线控制(比如手机放桌上,人坐沙发上操作),可以升级为WiFi连接:

# 先用USB连着时执行(开启远程调试端口) adb tcpip 5555 # 拔掉USB线,确保手机和电脑在同一WiFi下 # 查看手机IP:设置 → 关于手机 → 状态信息 → IP地址(通常是192.168.x.x) adb connect 192.168.1.102:5555 # 把192.168.1.102换成你手机的真实IP

再次运行adb devices,如果看到192.168.1.102:5555 device,说明无线连接成功。

3.3 发出第一条指令:让AI打开抖音

这是最关键的一步。你不需要自己搭大模型服务器——Open-AutoGLM 默认连接智谱提供的公开API(测试阶段可用)。我们直接调用:

python main.py \ --device-id ZY322FDQJL \ --base-url https://api.zhipu.ai/v1 \ --model "autoglm-phone-9b" \ "打开抖音"

替换说明:

  • --device-id后面填你刚才adb devices看到的ID(如 ZY322FDQJL)
  • --base-url保持默认即可(官方测试API,无需密钥)
  • 最后引号里的句子,就是你对AI说的人话

你会看到命令行快速滚动日志:
[INFO] 截取屏幕...
[INFO] 分析界面:当前在桌面,找到抖音图标
[INFO] 执行点击:坐标(520, 1280)
…几秒后,你手机屏幕真的亮起抖音首页!

真实体验提示:首次运行稍慢(要加载模型上下文),后续指令响应明显加快。如果卡在“正在分析界面”,请检查手机是否锁屏——必须保持亮屏且解锁状态。

4. 能干啥?用你真机录屏说话

光说“能操作”太虚。我们用三个你每天都会做的真实任务,展示它到底多靠谱。

4.1 任务一:点外卖(美团 × 麦当劳)

指令:

python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "在美团点一份麦当劳巨无霸套餐,送到家"

实际发生了什么:

  1. 自动打开美团APP
  2. 点击顶部搜索框 → 输入“麦当劳”
  3. 进入店铺页 → 点击“巨无霸套餐” → 选规格 → 加入购物车
  4. 进入结算页 → 自动填写默认收货地址(从手机通讯录读取)
  5. 停在支付页面,高亮显示“微信支付”按钮,并提示:“请确认支付方式,我将等待您的操作”

效果亮点:它识别出了“送到家”是地址关键词,主动跳过手动选地址环节;在支付页不越界操作,严格遵守安全边界。

4.2 任务二:查快递(跨APP联动)

指令:

python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "查一下我昨天买的iPhone手机壳,快递到哪了"

实际发生了什么:

  1. 打开淘宝APP → 进入“我的订单”
  2. 找到最新一笔含“iPhone手机壳”的订单 → 点击“查看物流”
  3. 截图物流详情页 → 识别出当前所在城市(如“上海市静安区”)和预计送达时间
  4. 主动切换到地图APP → 搜索“菜鸟驿站”,标出附近3个自提点

效果亮点:它把“查快递”这个模糊需求,拆解成淘宝找单+物流识别+地图定位三步,全程无断点。

4.3 任务三:关注博主(带账号ID的精准操作)

指令:

python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "打开抖音,搜索抖音号dycwo11nt61d,进入主页并关注"

实际发生了什么:

  1. 打开抖音 → 点击放大镜图标 → 粘贴账号ID → 搜索
  2. 在结果页识别出“抖音号:dycwo11nt61d”的蓝V认证主页 → 点击进入
  3. 页面加载后,识别右上角“关注”按钮 → 点击
  4. 弹出二次确认弹窗 → AI识别出“确认关注”文字 → 点击确认

效果亮点:它能区分“搜索结果列表”和“个人主页”,不会在列表页误点别人头像;对弹窗有完整处理链路。

5. 常见问题:为什么我的不行?三类高频卡点

部署顺利的人可能不多。别急,下面这三个问题,覆盖了90%的新手失败场景:

5.1 卡在“找不到设备”或“连接拒绝”

  • 检查点1:手机是否弹出“允许USB调试?”弹窗?没点确定=没授权
  • 检查点2:Windows用户是否安装了手机品牌对应的USB驱动?(华为/小米/OPPO官网搜“USB驱动”下载安装)
  • 检查点3:macOS用户是否在终端执行了xattr -d com.apple.quarantine platform-tools/adb?(解除苹果安全拦截)

5.2 指令发出去,手机没反应,或点错位置

  • 根本原因:屏幕分辨率太高,模型截图识别偏移
  • 解决方案:在手机「设置」→「显示」→「字体大小与样式」→ 调小一级(推荐“默认”或“小”)
  • 进阶技巧:在main.py启动参数里加--scale-factor 0.8,强制缩小截图比例提升识别精度

5.3 输入文字时,中文变成乱码或不显示

  • 唯一解法:确认你已按2.3节要求,完整安装并启用 ADB Keyboard
  • 验证方法:命令行执行adb shell input text "你好",看手机输入框是否显示“你好”
  • 常见坑:安装了APK但没在「语言与输入法」里切换成它;或切换了但没设为“默认键盘”

6. 它不是万能的,但已是手机自动化的新起点

Open-AutoGLM 不是终点,而是一把钥匙——它第一次让普通用户,无需编程、不碰模型、不求人,就能拥有一个真正“理解屏幕”的AI代理。

它目前的边界也很清晰:
🔹 不支持游戏内操作(Unity/Unreal引擎渲染层不可见)
🔹 不处理需要生物识别的场景(指纹/人脸支付需人工)
🔹 复杂表单填写(如身份证号+银行卡号+短信验证码三重校验)仍需分步接管

但正因如此,它才真实。它不吹嘘“全场景替代人类”,而是专注把“点外卖、查快递、追博主”这些高频动作,做到丝滑、可靠、可解释。

更重要的是,它的代码完全开源,模型权重可本地部署。今天你用的是智谱API,明天就能换成自己显卡跑的9B模型——这才是开源AI代理真正的价值:把控制权,交还给你。

所以,别再问“它能不能取代我”。问问自己:过去一周,有多少次你一边刷牙一边想“要是手机能自己点开美团就好了”?
现在,它真的可以了。

7. 下一步:让AI帮你批量做事

学会了单条指令,你已经掌握了核心能力。接下来,你可以:

  • 把常用指令存成脚本:echo "打开小红书搜咖啡" | python main.py ...
  • 用Python API封装成网页:家人点按钮,AI自动执行
  • 接入IFTTT:下雨天自动打开墨迹天气,截图发你微信

但最值得你马上试试的,是这句话:

python main.py --device-id ZY322FDQJL --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "把我微信收藏里的所有PDF文件,保存到手机文档文件夹"

去试吧。这一次,别盯着屏幕——看看它怎么在你眼前,把一堆散落的文件,悄悄归拢成一个整齐的文件夹。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 13:46:17

麦橘超然Flux部署教程:3步完成离线图像生成环境搭建

麦橘超然Flux部署教程:3步完成离线图像生成环境搭建 1. 这不是另一个“点开即用”的AI绘图工具 你可能已经试过十几个在线AI绘画平台——界面花哨、功能齐全,但每次生成都要排队、等加载、看进度条,还动不动就提示“当前模型繁忙”。更别说…

作者头像 李华
网站建设 2026/5/1 16:21:16

从ModelScope获取Sambert模型:托管平台下载与部署指引

从ModelScope获取Sambert模型:托管平台下载与部署指引 1. 开箱即用的多情感中文语音合成体验 你有没有试过把一段文字变成自然、有感情的中文语音?不是那种机械念稿的感觉,而是像真人说话一样有停顿、有语气、有喜怒哀乐——比如读新闻时沉…

作者头像 李华
网站建设 2026/5/1 6:17:48

一键修复老照片划痕,fft npainting lama实测效果惊人

一键修复老照片划痕,FFT NPainting LaMa实测效果惊人 你是否翻出泛黄的老相册,指尖拂过那些布满划痕、霉斑和折痕的黑白影像,却只能叹息——它们曾承载着最鲜活的记忆,如今却模糊得令人心疼?过去修复一张老照片&#…

作者头像 李华
网站建设 2026/5/7 16:02:20

3个高效绘图镜像推荐:Qwen-Image-2512快速上手实战

3个高效绘图镜像推荐:Qwen-Image-2512快速上手实战 1. 为什么你需要一个“开箱即用”的绘图镜像? 你是不是也经历过这样的场景:花半天配环境,结果卡在CUDA版本不兼容;下载了模型权重,却找不到对应的Comfy…

作者头像 李华
网站建设 2026/5/1 3:45:25

为什么Qwen3-0.6B调用失败?API配置问题保姆级排查教程

为什么Qwen3-0.6B调用失败?API配置问题保姆级排查教程 你是不是也遇到过这样的情况:镜像明明跑起来了,Jupyter能打开,模型加载日志显示“loaded successfully”,可一调用就报错——ConnectionError、404 Not Found、4…

作者头像 李华
网站建设 2026/5/6 2:30:24

API接口如何封装?SenseVoiceSmall FastAPI集成案例

API接口如何封装?SenseVoiceSmall FastAPI集成案例 1. 为什么需要把语音模型封装成API? 你可能已经试过用Gradio跑通了SenseVoiceSmall,上传一段音频,几秒后就看到带情感标签的识别结果——开心、掌声、BGM一目了然。但现实场景…

作者头像 李华