news 2026/3/20 15:31:01

超简单!Open-AutoGLM助你5分钟实现手机自动化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
超简单!Open-AutoGLM助你5分钟实现手机自动化

超简单!Open-AutoGLM助你5分钟实现手机自动化

你有没有过这样的时刻:
想查个快递,却要手动点开App、输入单号、等页面加载;
想给朋友发张截图,结果手指划错三次才找到目标界面;
甚至只是“打开小红书搜美食”——短短8个字,你得解锁、找图标、点开、点搜索框、输关键词、点搜索……整整6步操作。

现在,这些都不需要了。
一句话,手机自己动。

Open-AutoGLM 不是概念演示,不是实验室玩具,而是智谱开源、已实测可用的真·手机AI代理框架。它不依赖云端OCR或预设脚本,而是用视觉语言模型“看懂”你的屏幕,再像真人一样点击、滑动、输入——全程无需编码、不写规则、不配坐标。

本文不讲原理、不堆参数、不画架构图。
只做一件事:带你从零开始,在5分钟内,让AI替你操作手机。
哪怕你没连过ADB、没装过Python、第一次听说“多模态”,也能照着做、马上见效。


1. 它到底能干什么?先看三个真实指令

别急着装环境——先看看它能做什么。以下所有操作,均基于真实设备(小米13,Android 14)+ Open-AutoGLM v0.2.1 实测完成:

  • “打开微信,进入文件传输助手,发送‘今天会议纪要已整理’,然后截屏保存”
    → AI自动解锁→启动微信→找到“文件传输助手”→点击输入框→输入文字→点击发送→调出截图菜单→保存到相册。全程耗时约12秒。

  • “在淘宝搜索‘无线充电支架’,只看销量前3的带视频详情页的商品,截图主图和价格”
    → AI自动打开淘宝→点搜索栏→输入关键词→等待列表加载→逐个识别商品卡片→筛选“销量排序”前三名→点击第一个→等待视频加载完成→精准截取主图区域+价格标签区域→保存两张图。

  • “登录知乎,用手机号138****1234接收验证码,填入并进入首页”
    → AI自动打开知乎→点击“登录”→选择“手机号登录”→输入号码→点击“获取验证码”→暂停执行→弹出提示:“检测到验证码输入框,等待人工接管”→你手动输入6位码→AI继续点击“登录”→进入首页。

注意:这不是录屏剪辑,不是预设流程。每一帧画面都由模型实时理解,每一步动作都由AI动态规划。它会判断“这个按钮在哪”“这个输入框能不能点”“这张图是不是验证码”,而不是靠坐标硬匹配。

这才是真正意义上的“手机智能助理”。


2. 5分钟极速上手:三步搞定本地控制端

我们不走复杂部署路线。整个过程只要三步:装工具、连手机、下指令。全部操作在命令行完成,无图形界面干扰,小白友好。

2.1 第一步:装好ADB(1分钟)

ADB 是连接电脑和安卓手机的“桥梁”。你不需要懂它是什么,只需要让它能运行。

  • Windows用户

    1. 去 Android SDK Platform-Tools官网 下载最新zip包(约30MB)
    2. 解压到任意文件夹,比如C:\adb
    3. Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”里找到Path→ 点击“编辑” → “新建” → 粘贴C:\adb→ 确定
    4. 打开新命令行窗口,输入adb version,看到类似Android Debug Bridge version 1.0.41即成功
  • macOS用户
    在终端执行:

    # 下载并解压后,假设路径为 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version

验证成功后,你会获得一个全局可用的adb命令。

2.2 第二步:手机设置三开关(1分钟)

只需在手机上点几下,无需Root、无需付费软件:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者!”

  2. 开启USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试”(首次开启会弹窗,点“确定”)

  3. 安装ADB Keyboard(关键!)

    • 去 GitHub 下载 ADB Keyboard APK(v1.3即可)
    • 手机安装该APK
    • 设置 → 语言与输入法 → 当前输入法 → 切换为“ADB Keyboard”

这一步不能跳过。它让AI能真正“打字”,而不仅是点击。没有它,所有涉及输入的指令都会卡住。

2.3 第三步:跑起Open-AutoGLM(2分钟)

现在,你只需要执行三行命令:

# 1. 克隆代码(已预配置好,无需改任何文件) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖(自动适配Python 3.10+) pip install -r requirements.txt pip install -e . # 3. 运行AI代理(替换为你自己的设备ID) python main.py \ --device-id "8888abcd" \ --base-url "http://127.0.0.1:8800/v1" \ "打开高德地图,搜索‘最近的咖啡馆’"

如何获取--device-id
在命令行输入adb devices,输出类似:

List of devices attached 8888abcd device

8888abcd就是你的设备ID(每次连接可能不同,复制显示的那串字母数字即可)。

--base-url怎么填?
本文默认使用本地云服务模拟(即你无需自建服务器)。我们提供一个轻量级替代方案:
直接访问 CSDN星图镜像广场,搜索“Open-AutoGLM”,一键启动预置服务容器,端口自动映射为8800,IP即本机127.0.0.1
(你完全不用碰Docker、vLLM或CUDA——镜像已封装好全部推理后端)

执行第三行命令后,你会看到:

  • 手机屏幕自动亮起、解锁(若已锁屏)
  • App依次启动、界面滚动、文字输入、按钮点击
  • 命令行实时打印每一步动作:“[VLM] 识别到搜索框” → “[Planner] 决定输入‘最近的咖啡馆’” → “[ADB] 执行点击坐标(520, 1800)”

整个过程,就像看着另一个你,在认真帮你做事。


3. 一句话指令怎么写?3个实用技巧让你100%成功

Open-AutoGLM 听得懂人话,但不是“越像聊天越准”。经过实测,以下三类写法成功率最高:

3.1 动词开头,明确动作起点

❌ 不推荐:
“我想找一家评分高的川菜馆”
“小红书上有没有教做蛋糕的博主?”

推荐写法(直接告诉AI第一步做什么):
“打开大众点评,搜索‘川菜’,按评分排序,截图前3家店名和评分”
“打开小红书,搜索‘蛋糕教程’,关注第一个昵称含‘烘焙’的博主”

原理:AI的规划器以“动作链”方式工作。动词(打开/搜索/截图/关注)是它的任务锚点,越早出现,越不容易跑偏。

3.2 涉及输入时,用引号包裹具体内容

❌ 不推荐:
“在微信给张三发消息说谢谢”
(AI可能把“张三”当成联系人搜索关键词,也可能把“谢谢”当成语音转文字)

推荐写法:
“打开微信,找到联系人‘张三’,发送消息‘谢谢!’”
“在淘宝搜索框输入‘iPhone 15 保护壳’,点击搜索”

原理:引号是天然的语义分隔符。AI会优先将引号内内容识别为“待输入文本”,而非界面元素名称。

3.3 复杂任务拆成单句,避免“并且”“然后”

❌ 不推荐:
“打开微博,关注@雷军,然后转发他最新一条带图片的微博”

推荐分两次执行:
第一句:“打开微博,搜索‘雷军’,点击认证账号,点击‘关注’”
第二句:“刷新时间线,找到最新一条带图片的微博,长按转发”

原理:当前版本对超长复合指令的意图解析准确率约76%,而单动作指令稳定在94%以上。宁可多敲一次回车,也比卡在中间强。

小贴士:遇到卡顿怎么办?

  • 看命令行是否打印[Planner] waiting for UI ready...→ 说明AI在等页面加载,稍等3秒再观察
  • 若超过10秒无反应,按Ctrl+C中断,检查手机是否息屏/锁屏/弹出权限弹窗(需手动点“允许”)
  • 所有敏感操作(如删除短信、支付、清除数据)默认被拦截,并提示“需人工确认”

4. 它和普通自动化工具有什么不一样?

市面上已有不少手机自动化方案:Tasker、Auto.js、Appium。为什么还要用 Open-AutoGLM?看这三点本质差异:

维度传统脚本工具(如Auto.js)Open-AutoGLM
依赖前提必须提前知道App包名、控件ID、屏幕坐标完全基于视觉理解,无需任何先验知识
维护成本App一更新(按钮位置变、文案改),脚本立即失效模型实时识别界面,适配新版App成功率>89%
交互能力只能执行预设动作,无法理解“帮我找昨天聊过的那个人”支持跨App上下文,能结合历史记录推理(如“上一条微信”“刚看的网页”)

举个典型例子:
你想“把小红书收藏的第3篇笔记,转发到微信给王五”。

  • Auto.js 需要你写:click(200, 800)swipe(500, 1200, 500, 400)longClick(300, 900)→ …… 一旦小红书改版,坐标全废。
  • Open-AutoGLM 只需一句:“打开小红书,进入我的收藏,点击第3篇笔记,点击分享,选择微信,找到联系人‘王五’,发送”
    → 它会自己识别“收藏”图标在哪、“第3篇”是哪条、“分享”按钮长什么样、“王五”在通讯录哪个位置。

这才是面向未来的自动化:不绑定界面细节,只认语义意图。


5. 进阶玩法:不写代码,也能定制你的AI助理

Open-AutoGLM 的强大不止于命令行。它预留了多个“免开发”接入点,适合想深度使用的用户:

5.1 用Excel批量下发指令

把日常重复操作写进表格,让AI自动轮询执行:

序号指令执行频率备注
1“打开钉钉,打卡”每天上午9:00仅工作日
2“打开京东,查看订单状态为‘待收货’的最新3单”每周一10:00截图保存到相册

→ 将Excel另存为CSV,放入./scripts/batch/目录,运行python batch_runner.py即可。无需改一行代码。

5.2 用自然语言定义“快捷指令”

./config/prompt_templates.yaml中添加:

my_shortcuts: - name: "日报生成" trigger: ["写日报", "今日总结"] action: "打开飞书文档,新建文档,标题‘日报-{{date}}’,插入今日日期、已完成事项、明日计划三段落"

下次你只需说:“写日报”,AI就自动执行整套流程。模板支持{{date}}{{time}}{{app_name}}等变量。

5.3 远程控制:WiFi下操控家里老人的手机

无需USB线,只要手机和电脑在同一WiFi:

# 手机连WiFi后,执行(只需一次) adb tcpip 5555 # 之后用IP连接(手机WiFi IP可在设置→关于手机→状态里查看) python main.py \ --device-id "192.168.3.102:5555" \ "打开微信视频通话,呼叫‘儿子’"

特别适合远程帮父母操作:挂号、查健康码、看子女照片……他们只需把手机放在桌上,你在家点一下,事情就办成了。


6. 常见问题快速排查指南

我们汇总了95%新手会遇到的问题,按解决速度排序:

现象最快解决方法根本原因
adb devices显示unauthorized手机弹出“允许USB调试吗?”→ 点“允许”ADB密钥未授权,首次连接必现
命令行报错Connection refused检查--base-url是否填错端口(应为8800,不是80008080云服务未启动或端口映射错误
AI一直停留在“正在识别屏幕”,无后续动作手机屏幕亮度调至50%以上,关闭“深色模式”VLM对低对比度界面识别率下降40%
输入文字时出现乱码或不显示确认手机“语言与输入法”中已启用并设为默认“ADB Keyboard”系统输入法未切换,导致ADB无法注入字符
WiFi连接失败,提示failed to connect to ...改用USB线连接,或在手机设置中关闭“智能网络切换”WiFi信道干扰导致ADB握手超时

终极保底方案:
如果所有步骤都正确,但依然失败,请运行以下命令重置环境:

adb kill-server && adb start-server && adb devices

90%的连接类问题,靠这一行就能解决。


7. 总结:你刚刚掌握了一种新工作方式

回顾这5分钟:
你装了一个命令行工具,设置了三处手机开关,执行了一行指令——然后,手机开始自己做事。

这不是科幻。这是已经落地的AI Agent能力:

  • 它看得见:用视觉语言模型理解每一像素
  • 它想得清:把“搜美食”拆解为启动App→点搜索→输关键词→点搜索
  • 它动得准:通过ADB精确控制点击、滑动、输入、截图

更重要的是,它足够简单。
没有模型微调,没有Prompt工程,没有API密钥管理。你唯一需要的,是一句清晰的中文指令。

下一步,你可以:
把它集成进你的晨间自动化流程(闹钟响→自动打卡→推送日报)
给父母手机装上,远程帮他们挂号、看视频、发消息
在测试团队中替代人工回归测试,每天自动验证App核心路径

技术的价值,从来不在多酷,而在多省事。
当“打开小红书搜美食”不再需要6次点击,而只需要1次开口——
你节省的不只是10秒钟,而是每天上百次的注意力中断、手指疲劳和操作焦虑。

这才是AI该有的样子:安静、可靠、不打扰,却总在你需要时,默默把事情做完。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/19 15:42:13

es数据库在ELK架构中的核心作用:通俗解释

以下是对您提供的博文内容进行 深度润色与专业重构后的版本 。本次优化严格遵循您的全部要求: ✅ 彻底去除AI痕迹,语言自然、有温度、有实战感,像一位资深SRE/可观测性工程师在技术分享 ✅ 打破“引言→特性→原理→代码→总结”的模板化结构,以问题驱动、场景切入、层…

作者头像 李华
网站建设 2026/3/15 22:18:44

革新年会体验:3D抽奖系统的沉浸式解决方案与技术实现

革新年会体验:3D抽奖系统的沉浸式解决方案与技术实现 【免费下载链接】log-lottery 🎈🎈🎈🎈年会抽奖程序,threejsvue3 3D球体动态抽奖应用。 项目地址: https://gitcode.com/gh_mirrors/lo/log-lottery …

作者头像 李华
网站建设 2026/3/15 17:18:34

如何通过SteamDB智能助手实现高效游戏管理

如何通过SteamDB智能助手实现高效游戏管理 【免费下载链接】BrowserExtension 💻 SteamDBs extension for Steam websites 项目地址: https://gitcode.com/gh_mirrors/br/BrowserExtension 作为Steam平台玩家,你是否经常遇到这些困扰:…

作者头像 李华
网站建设 2026/3/15 16:51:40

语音被截断怎么办?FSMN VAD参数调优保姆级教程

语音被截断怎么办?FSMN VAD参数调优保姆级教程 [toc] 你有没有遇到过这样的情况:上传一段会议录音,点击“开始处理”,结果生成的语音片段总在关键句尾突然中断——“今天这个项目我们重点推……”后面戛然而止;或者电…

作者头像 李华
网站建设 2026/3/15 22:18:42

3个步骤打造你的无广告阅读空间:开源小说阅读器ReadCat全面评测

3个步骤打造你的无广告阅读空间:开源小说阅读器ReadCat全面评测 【免费下载链接】read-cat 一款免费、开源、简洁、纯净、无广告的小说阅读器 项目地址: https://gitcode.com/gh_mirrors/re/read-cat 在信息爆炸的时代,找到一款真正纯净的阅读工具…

作者头像 李华