news 2026/3/24 19:34:39

零基础也能用!Open-AutoGLM手机Agent保姆级教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
零基础也能用!Open-AutoGLM手机Agent保姆级教程

零基础也能用!Open-AutoGLM手机Agent保姆级教程

你有没有想过,让AI替你点外卖、刷小红书、关注博主、查快递——全程不用碰手机?不是语音助手那种“帮你打开App”,而是真正像人一样:看懂屏幕、点击按钮、输入文字、滑动页面、处理弹窗……直到任务完成。

Open-AutoGLM 就是这样一个能“动手”的AI。它不是概念Demo,不是实验室玩具,而是一个已开源、可本地部署、真机实测可用的手机端智能体(Phone Agent)。更关键的是:它不要求你会写代码、不强制配GPU服务器、不需要调试模型参数——只要你会连WiFi、会开开发者模式,就能跑起来。

本文就是为你写的“零门槛实战指南”。不讲大模型原理,不堆技术术语,只说清楚三件事:
怎么把你的安卓手机变成AI可操作的终端
怎么在自己电脑上启动这个“手机大脑”
怎么用一句大白话,让它替你干完一整套操作

全程手把手,截图级细节,连ADB环境变量怎么加都给你标好路径。哪怕你昨天刚学会用微信,今天也能让AI替你搜美食、订电影票、回消息。


1. 先搞明白:它到底能干什么?(不是“语音唤醒”,是“真动手”)

Open-AutoGLM 的核心能力,一句话概括:用自然语言指挥手机,AI自动看、想、点、输、滑、确认,全流程闭环执行

它和你用过的所有AI都不一样:

  • ❌ 不是 Siri 或小爱同学:它们只能调用系统API,无法操作第三方App界面;
  • ❌ 不是手机厂商的“AI助手”:那些大多只支持自家生态内有限功能;
  • Open-AutoGLM 是真正的“视觉+动作”双模态Agent:它先用视觉模型“看”你手机屏幕长什么样,再规划“下一步该点哪”,最后通过ADB命令“动手”执行。

1.1 它能做的真实任务(已实测通过)

任务类型你输入的指令示例AI实际做了什么
应用启动与搜索“打开小红书,搜‘上海咖啡探店’”自动解锁→启动小红书→识别首页搜索框→点击→输入文字→点击搜索→滚动浏览结果
社交互动“打开抖音,搜索抖音号dycwo11nt61d,进入主页并关注”启动抖音→点搜索栏→输入ID→点进主页→识别“关注”按钮→点击确认
生活服务“打开美团,搜‘附近2公里内的川菜馆’,选评分最高的那家,看营业时间”启动美团→定位→搜索→列表排序→点击第一名→解析详情页文字→提取营业时间
信息查询“打开支付宝,查我的余额”启动支付宝→识别首页“余额”入口→点击→等待加载→读取数字并返回结果

注意:所有操作都在你自己的手机上完成,AI不上传截图、不保存记录、不联网抓取数据——它只是“帮你点”,而不是“替你登录”。

1.2 它为什么能做到?三个关键设计(小白版解释)

  • 看得懂屏幕:内置轻量级视觉语言模型(基于GLM-4.5V优化),不是OCR识别文字,而是理解整个界面布局——知道哪个是按钮、哪个是输入框、哪个是广告横幅。
  • 想得清步骤:把你的自然语言指令拆解成“原子动作链”,比如“搜美食”=【打开App】→【找搜索图标】→【点它】→【输关键词】→【点搜索】→【等结果】。
  • 动得了真机:通过ADB(Android Debug Bridge)这条“手机控制总线”,发送真实点击、滑动、输入命令,就像你用手指操作一样,系统完全感知不到这是AI在点。

这三点合在一起,才构成了一个“能动手”的Agent。而Open-AutoGLM,是目前唯一把这三者打包开源、且对新手足够友好的方案。


2. 准备工作:30分钟搞定全部环境(Windows/macOS通用)

别被“ADB”“视觉模型”吓到。这一节只做四件事:
① 让电脑认识你的手机
② 让手机允许电脑控制它
③ 给电脑装好控制工具
④ 下载并安装AI代理代码

每一步都有明确路径、错误提示和绕过方案。我们按顺序来。

2.1 第一步:让电脑“看见”你的手机(ADB连接)

ADB 是安卓系统的官方调试工具,就像手机的“USB网线协议”。你需要它,但不用懂原理——只要让它正常工作就行。

Windows 用户操作流程
  1. 下载 ADB 工具包:去 Android SDK Platform-Tools 官网 下载最新版(zip格式)
  2. 解压到固定位置:比如C:\adb(路径别带中文、空格)
  3. 添加到系统环境变量
    • Win + R→ 输入sysdm.cpl→ 回车
    • 点击“高级” → “环境变量” → 在“系统变量”里找到Path→ “编辑”
    • 点“新建”,粘贴你刚才的路径:C:\adb
    • 点“确定”保存
  4. 验证是否成功
    • 打开命令提示符(CMD)或 PowerShell
    • 输入adb version,如果显示类似Android Debug Bridge version 1.0.41,就成功了!
macOS 用户操作流程
  1. 下载 ADB 工具包:同上,下载 zip
  2. 解压到用户目录:比如~/Downloads/platform-tools
  3. 临时添加路径(推荐)
    export PATH=$PATH:~/Downloads/platform-tools
    (每次新开终端都要运行一次;如需永久生效,把这行加到~/.zshrc文件末尾)
  4. 验证:终端输入adb version,有版本号即成功。

小贴士:如果adb devices显示unauthorized,说明手机还没授权——跳到下一节“手机端设置”,授权后重试。

2.2 第二步:手机端设置(3分钟,必须做)

这是最关键的一步。不做完,AI永远点不了你的屏幕。

🔧 设置步骤(所有安卓手机通用)
  1. 开启开发者模式
    • 进入「设置」→「关于手机」→ 连续点击「版本号」7次 → 弹出“您现在是开发者!”
  2. 开启USB调试
    • 返回「设置」→「系统」→「开发者选项」→ 找到「USB调试」→ 开关打开
  3. 安装 ADB Keyboard(解决中文输入问题)
    • 去 GitHub 搜索adb-keyboard,下载最新.apk文件(如adb-keyboard-v1.0.0.apk
    • 用手机浏览器打开下载链接,或通过USB传到手机安装
    • 安装后,进入「设置」→「语言与输入法」→「当前输入法」→ 切换为ADB Keyboard

注意:部分国产手机(华为、小米)可能额外要求关闭“MIUI优化”“纯净模式”或开启“USB安装未知应用”。遇到安装失败,搜索“你的手机型号 + 安装未知来源APK”即可。

2.3 第三步:连接手机(USB or WiFi,任选其一)

🔌 USB 连接(最稳,新手首选)
  • 用原装数据线连接手机和电脑
  • 手机弹出“允许USB调试吗?”→ 勾选“始终允许”,点“确定”
  • 电脑终端输入:
    adb devices
    如果看到一串字母数字(如ZY223456789 device),说明连接成功
WiFi 连接(免线,适合长期使用)
  • 先用USB连一次,执行:
    adb tcpip 5555
  • 断开USB,确保手机和电脑在同一WiFi下
  • 查看手机IP:设置 → 关于手机 → 状态 → IP地址(如192.168.1.105
  • 电脑终端输入:
    adb connect 192.168.1.105:5555
    显示connected to 192.168.1.105:5555即成功

如果WiFi连接失败,立刻切回USB——这不是你的问题,是WiFi信号抖动导致的ADB断连,非常常见。

2.4 第四步:下载并安装 Open-AutoGLM 控制端

这一步,你只是“下载代码+装依赖”,不涉及模型下载、不编译、不训练。

# 1. 克隆仓库(复制粘贴执行) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染主Python) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(耐心等1-2分钟) pip install -r requirements.txt pip install -e .

成功标志:没有红色报错,最后一行是Successfully installed ...
❌ 常见报错ERROR: Could not find a version that satisfies...:升级pip再试python -m pip install --upgrade pip


3. 启动AI:一行命令,让它开始干活

现在,你的电脑能连手机、手机允许被控、代码也装好了——只剩最后一步:告诉AI“你想让它做什么”。

Open-AutoGLM 提供两种启动方式,新手强烈推荐第一种

3.1 方式一:命令行直接运行(最简单,5秒启动)

确保你在Open-AutoGLM目录下,执行:

python main.py \ --device-id "ZY223456789" \ --base-url "http://your-server-ip:8800/v1" \ "打开小红书,搜'杭州龙井茶'"

参数说明(请务必替换):

  • --device-id:从adb devices命令看到的设备ID(如ZY223456789
  • --base-url:你部署的云服务地址(如果你用的是CSDN星图镜像或自建vLLM服务,填对应IP和端口)
  • 最后引号里的内容:你的自然语言指令,越具体越好(建议先从“打开XX App”开始)

实测效果:执行后,你会看到终端实时打印日志:
[INFO] 截图已获取 → [INFO] 视觉模型正在分析 → [INFO] 识别到‘搜索’图标 → [INFO] 执行点击 → [INFO] 输入‘杭州龙井茶’ → [INFO] 任务完成
同时,你的手机屏幕会真实地动起来!

3.2 方式二:Python API 调用(适合集成进自己的脚本)

如果你以后想把它嵌入自动化流程,可以用代码方式控制:

from phone_agent.main import run_agent # 一行代码启动任务 result = run_agent( device_id="ZY223456789", base_url="http://your-server-ip:8800/v1", instruction="打开微博,搜'今日热榜',截图前三条" ) print("执行结果:", result["status"]) # success / failed print("耗时:", result["duration"], "秒")

提示:run_agent返回结构化结果,包含操作步骤、截图路径、错误原因,方便你做日志记录或失败重试。


4. 实战演练:手把手带你完成第一个任务(从零到结果)

我们来走一遍完整闭环:让你的AI替你打开小红书,搜索“北京胡同咖啡”,并截图结果页

4.1 前置检查清单(动手前确认)

  • [ ] 电脑已安装ADB且adb version正常
  • [ ] 手机已开启开发者模式 & USB调试 & ADB Keyboard
  • [ ]adb devices显示device(不是unauthorizedoffline
  • [ ] Open-AutoGLM 代码已下载并pip install -e .成功
  • [ ] 你已有可用的模型服务地址(如CSDN星图镜像提供的http://xxx.xxx.xxx.xxx:8800/v1

4.2 执行命令(复制粘贴即可)

python main.py \ --device-id "ZY223456789" \ --base-url "http://116.205.187.42:8800/v1" \ "打开小红书,搜索'北京胡同咖啡',截图当前页面"

替换说明:

  • ZY223456789→ 改成你自己的设备ID
  • 116.205.187.42:8800→ 改成你实际的服务地址(CSDN星图镜像用户可直接用,无需自建)

4.3 你会看到什么?(真实过程还原)

时间点终端日志手机屏幕变化
0s[INFO] 正在截取当前屏幕...手机自动亮屏、解锁(如已锁屏)
2s[INFO] 视觉模型识别到:小红书App图标(左上角)屏幕点击小红书图标,启动App
5s[INFO] 检测到首页搜索框,准备点击点击顶部搜索栏
7s[INFO] 输入文字:北京胡同咖啡屏幕弹出键盘,自动输入文字
9s[INFO] 识别到‘搜索’按钮,执行点击点击放大镜图标,进入结果页
12s[INFO] 截图已保存至 ./screenshots/20250405_142211.png屏幕静止,截图完成

任务结束。你可以在项目根目录下的screenshots/文件夹里,找到这张AI为你截的图。


5. 常见问题与解决方案(都是踩坑总结)

我们整理了新手90%会遇到的问题,按优先级排序:

5.1 连接类问题

现象原因解决方案
adb devices显示unauthorized手机未授权调试拔掉USB,重新插,手机弹窗点“允许”并勾选“始终允许”
adb devices显示offlineADB服务异常终端执行adb kill-server && adb start-server
WiFi连接后adb shell报错closed手机休眠或WiFi断连在手机「开发者选项」中开启「保持WLAN连接」和「不锁定屏幕」

5.2 操作类问题

现象原因解决方案
AI一直卡在“正在截图”,无后续手机屏幕太暗/息屏/锁屏确保手机常亮、已解锁、亮度调高
AI点了错误位置(如点到广告)界面元素识别混淆在指令中加限定词:“点击顶部搜索框,不是广告横幅”
中文输入失败,显示乱码ADB Keyboard未启用或失效进入手机「语言与输入法」,手动切换为ADB Keyboard

5.3 模型服务类问题(CSDN星图用户重点关注)

现象原因解决方案
Connection refused错误服务未启动或端口未映射登录CSDN星图镜像控制台,确认容器状态为“运行中”,端口8800已暴露
指令执行超时(>60秒)模型响应慢或显存不足在镜像配置中增加GPU资源,或改用autoglm-phone-3b轻量版模型
返回结果为空或乱码API路径错误确认--base-url末尾是/v1,不是/api/v1/

终极建议:首次测试,务必用USB连接 + 最简指令(如“打开微信”),成功后再尝试复杂任务。稳比快重要十倍。


6. 进阶玩法:让AI更懂你(3个实用技巧)

当你跑通第一个任务,就可以试试这些提升体验的技巧:

6.1 技巧一:用“上下文指令”减少重复操作

AI支持连续对话。比如你刚让AI打开小红书,接着输入:

“点进第一条笔记,下滑三屏,截图”

它会记住当前在小红书界面,不会重新启动App——省去重复识别时间。

6.2 技巧二:指定操作区域,提升准确率

如果界面元素太多,可以加空间描述:

“在屏幕右下角点击‘+’号,不是左上角那个”

视觉模型能理解“右下角”“顶部居中”等空间关系,大幅降低误点概率。

6.3 技巧三:人工接管敏感操作(安全兜底)

遇到登录、支付、短信验证码等场景,AI会自动暂停,并在终端提示:

[PAUSE] 检测到登录弹窗,请手动输入验证码,完成后输入 'continue' 继续

你只需在终端敲continue,AI就继续执行——既保证自动化,又守住安全底线。


7. 总结:你已经掌握了下一代手机交互的钥匙

回顾一下,你刚刚完成了什么:

🔹 把一台普通安卓手机,变成了AI可理解、可操作的智能终端;
🔹 在自己电脑上,用5行命令启动了一个能“看、想、点、输、滑”的多模态Agent;
🔹 让AI替你完成了一整套真实任务,从启动App到截图结果,全程无人工干预;
🔹 掌握了连接、调试、排错、优化的全套实操经验,不再是纸上谈兵。

Open-AutoGLM 的意义,从来不只是“又一个开源模型”。它是第一次,把“手机操作权”真正交还给用户——不是靠厂商预设的快捷指令,不是靠云端黑盒API,而是用开放、透明、可验证的方式,让你亲眼看见AI如何一步步完成任务。

它不承诺取代你,而是成为你手指的延伸、眼睛的补充、记忆的备份。点外卖时少等30秒,查快递时不用翻5个App,追热点时一键生成图文——这些微小的节省,终将汇聚成一种新的使用习惯。

而你现在,已经站在了这个习惯的起点。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 16:05:52

CMSIS在工业控制中的应用:系统学习指南

以下是对您提供的博文内容进行 深度润色与结构优化后的技术文章 。整体风格更贴近一位资深嵌入式系统工程师在技术社区中的真实分享:语言自然、逻辑层层递进、重点突出实战价值,同时彻底去除AI生成痕迹(如模板化表达、空洞总结、机械分点&a…

作者头像 李华
网站建设 2026/3/15 12:27:38

显存不够怎么办?Live Avatar低显存运行策略

显存不够怎么办?Live Avatar低显存运行策略 1. 为什么你的4090跑不动Live Avatar? 你是不是也遇到过这样的情况:明明买了5张RTX 4090,每张24GB显存,加起来120GB,结果运行Live Avatar时还是报错“CUDA out…

作者头像 李华
网站建设 2026/3/15 21:26:03

Qwen2.5-0.5B最佳实践:开发者推荐部署方案汇总

Qwen2.5-0.5B最佳实践:开发者推荐部署方案汇总 1. 为什么0.5B小模型正在成为边缘AI的“新宠” 你有没有试过在一台没有GPU的老笔记本上跑大模型?卡顿、等待、内存爆满……最后只能关掉网页,默默叹气。但最近,不少开发者朋友悄悄…

作者头像 李华
网站建设 2026/3/16 0:50:22

Llama3-8B远程访问实战:Jupyter与WebUI端口映射配置详解

Llama3-8B远程访问实战:Jupyter与WebUI端口映射配置详解 1. 为什么需要远程访问Llama3-8B? 你刚在本地服务器或云主机上成功部署了 Meta-Llama-3-8B-Instruct,模型加载完成、vLLM服务启动成功、Open WebUI界面也跑起来了——但打开浏览器却…

作者头像 李华
网站建设 2026/3/16 0:50:25

YOLOv10官方镜像上线!支持一键拉取与快速训练任务

YOLOv10官方镜像上线!支持一键拉取与快速训练任务 在工业质检产线中,相机每秒抓拍数十帧PCB图像,系统必须在30毫秒内完成缺陷定位并触发剔除;在智慧园区监控系统里,上百路高清视频流需同步分析人车行为,延…

作者头像 李华
网站建设 2026/3/15 20:00:31

MinerU模型蒸馏尝试:轻量化部署可行性分析

MinerU模型蒸馏尝试:轻量化部署可行性分析 1. 为什么需要轻量化的PDF提取方案 你有没有遇到过这样的场景:手头有一份几十页的学术论文PDF,里面密密麻麻排着三栏文字、嵌套表格、复杂公式和高清插图,而你需要在30分钟内把它整理成…

作者头像 李华