news 2026/4/15 13:10:19

5分钟上手Open-AutoGLM,智谱AI手机助理一键自动化操作

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
5分钟上手Open-AutoGLM,智谱AI手机助理一键自动化操作

5分钟上手Open-AutoGLM,智谱AI手机助理一键自动化操作

你有没有过这样的时刻:
一边炒菜一边想给家人发个微信,手忙脚乱擦完油渍再点开手机;
深夜追剧时想截图发朋友圈,却要暂停、截屏、打开微信、找人、粘贴、发送;
刷小红书看到心动餐厅,想立刻查营业时间+导航+下单,结果在三个App间反复切换……

这些“手指疲劳”,其实早该被AI接管了。
今天要介绍的Open-AutoGLM,不是又一个聊天机器人,而是一个真正能“替你摸手机”的智能体——它看懂你的屏幕,听懂你的指令,然后像真人一样点、滑、输、长按,把任务全干完。

更关键的是:不用写代码、不需训练模型、不搞复杂配置,5分钟就能让它帮你点开抖音、搜博主、点关注、发消息。
本文就带你从零开始,用最直白的方式跑通整个流程,不绕弯、不堆术语,只讲“你现在就能用上的那部分”。


1. 它到底是什么?一句话说清

Open-AutoGLM 是智谱AI开源的手机端AI智能助理框架,核心能力就三句话:

  • 你看得见的,它也看得见:通过实时截图理解当前手机界面(按钮在哪、文字写了啥、图标代表什么);
  • 你说得清的,它就做得对:支持自然语言指令,比如“打开闲鱼,搜二手AirPods Pro,按价格从低到高排,点开最便宜那个”;
  • 它动手时,你只管等结果:自动调用ADB执行点击、滑动、输入等操作,全程无需手动干预。

它不是遥控器,也不是录屏脚本——它是第一个把“视觉理解 + 语言规划 + 真机操控”闭环打通的开源手机Agent,而且完全免费、可本地部署、不上传任何屏幕数据。


2. 准备工作:3类东西,10分钟搞定

别被“ADB”“vLLM”吓住。我们只装真正需要的,跳过所有可选步骤。以下操作在 Windows 或 macOS 上均可完成,全程无须编译、无须GPU。

2.1 你的电脑要装好这3样

项目要求怎么确认?
Python3.10 或更高版本打开终端/命令提示符,输入python --version,显示Python 3.10.x或更新即可
ADB 工具Android Debug Bridge输入adb version,能看到类似Android Debug Bridge version 1.0.41就行
安卓手机Android 7.0+(真机或模拟器)设置 → 关于手机 → 连续点“版本号”7次开启开发者模式

小贴士:如果你还没装ADB,推荐直接下载 Platform-tools 官方包(解压即用),Windows用户把解压路径加进系统环境变量,macOS用户在终端运行export PATH=$PATH:~/Downloads/platform-tools即可。

2.2 手机端只需3步设置

  1. 开启USB调试:设置 → 开发者选项 → 打开“USB调试”(如果没看到“开发者选项”,先去“关于手机”连点7次“版本号”);
  2. 用USB线连电脑:连接后电脑弹出“允许USB调试吗?”→ 勾选“始终允许”,点确定;
  3. 安装 ADB Keyboard(仅首次需要)
    • 下载 ADB Keyboard APK(最新版即可);
    • 手机安装后,进入“设置 → 语言与输入法 → 当前输入法”,切换为ADB Keyboard
    • 这一步是为了让AI能安全地往任意输入框里打字(比如搜索框、密码框),比系统键盘更可控。

注意:不需要Root、不需要解锁Bootloader、不修改系统,所有操作都在官方开放接口内完成。


3. 一行命令启动,真·5分钟上手

我们跳过云服务部署(那是进阶玩法),直接用智谱官方提供的在线API——零模型部署、零服务器运维、开箱即用

3.1 克隆代码 + 安装依赖(2分钟)

打开终端(Windows用CMD/PowerShell,macOS用Terminal),依次执行:

# 1. 下载代码(不用Git也行,直接网页下载ZIP解压) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装必要库(只要这一步,不装无关包) pip install -r requirements.txt pip install -e .

如果你遇到pip install报错,大概率是网络问题。换成清华源试试:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ -r requirements.txt

3.2 验证设备连接(30秒)

确保手机已用USB线连好,并开启了USB调试:

adb devices

正常输出应类似:

List of devices attached 8A9X023456789ABC device

只要看到一串字母数字 +device,就说明电脑已识别手机。

3.3 直接运行!用自然语言下指令(1分钟)

现在,执行这一行命令(复制粘贴即可):

python main.py \ --device-id 8A9X023456789ABC \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ "打开小红书,搜索'北京咖啡探店',点开第一条笔记,截图并保存到相册"

替换说明:

  • --device-id后面填你adb devices显示的那串ID;
  • --base-url--model是智谱BigModel平台的公开API地址,无需申请Key即可试用(有调用频次限制,但够你跑通10次以上);
  • 最后引号里的,就是你的真实指令——支持中文、支持长句、支持多步骤。

你会看到终端快速滚动日志:
→ 截图成功
→ 模型正在分析界面
→ 定位到搜索框并点击
→ 输入“北京咖啡探店”
→ 点击搜索按钮
→ 定位第一条笔记并点击
→ 再次截图 → 保存至相册

整个过程约20–40秒,你只需要看着手机自动操作,像有个朋友在帮你点。


4. 实战演示:3个真实场景,效果一目了然

别光看命令,我们来点实在的。以下是我在一台Android 13真机上实测的3个典型任务,全程未做任何定制化调整,纯靠默认配置完成。

4.1 场景一:外卖下单(美团)

指令
"打开美团APP,定位到‘朝阳区’,搜索‘瑞幸咖啡’,进入店铺主页,点‘外送’,选‘经典美式’,加冰,下单并使用红包"

实际效果

  • 自动拉起美团,等待定位完成(约3秒);
  • 点击顶部搜索栏 → 输入“瑞幸咖啡” → 点搜索;
  • 在结果页精准点击第一个带“瑞幸咖啡”和“外送”标签的店铺;
  • 进入后自动滑动到“饮品”分类 → 点击“经典美式” → 弹出规格页 → 点“加冰” → 点“加入购物车”;
  • 跳转订单页 → 自动勾选可用红包 → 点“去支付”。
    全程无卡顿,所有UI元素识别准确,连“加冰”小字都点对了。

4.2 场景二:社交互动(微信)

指令
"打开微信,找到‘文件传输助手’,发送一条消息:‘Hi,这是Open-AutoGLM自动发的测试消息’"

实际效果

  • 启动微信 → 主界面右上角“搜索”图标被准确识别并点击;
  • 输入“文件传输助手” → 点击第一个结果;
  • 进入对话页 → 底部输入框被聚焦 → 逐字输入消息内容(非粘贴,是模拟真实输入);
  • 点击发送按钮。
    消息发出后,手机通知栏立刻弹出“文件传输助手:Hi,这是Open-AutoGLM自动发的测试消息”。

4.3 场景三:信息查询(高德地图)

指令
"打开高德地图,搜索‘国贸商城’,查看营业时间,截图保存"

实际效果

  • 启动高德 → 点击搜索框 → 输入“国贸商城” → 点搜索;
  • 在POI列表中点击第一个“国贸商城” → 进入详情页;
  • 向下滑动,自动识别“营业时间”模块(含“周一至周日 10:00-22:00”文字);
  • 截图 → 保存至相册 → 终端打印“Screenshot saved to /sdcard/Pictures/screenshot_20240615_142211.png”。
    文字识别准确,滑动距离计算合理,截图区域完整覆盖目标信息。

小观察:它不是靠“猜坐标”硬点,而是真的在理解界面——比如在微信里,它知道“文件传输助手”是联系人列表里的一个条目,而不是随便点一个头像;在高德里,它能区分“搜索框”“POI标题”“营业时间”是不同层级的UI组件。


5. 进阶玩法:不只“能用”,还能“用得稳、用得巧”

当你跑通第一条指令,就可以开始探索它更实用的细节了。以下3个技巧,来自我连续一周的真实使用总结,不是文档抄来的。

5.1 敏感操作自动暂停,人工接管超简单

涉及支付、账号登录、短信验证码时,Open-AutoGLM不会强行操作,而是主动停住,等你确认:

  • 当检测到“支付密码”“短信验证码”“人脸识别”等关键词或UI特征,终端会输出:
    检测到敏感操作:支付页面。请手动完成验证,完成后按回车继续...
  • 你只需在手机上输完密码/验证码,回到电脑按一下回车,它立刻接着干活。

这个设计既保障安全,又不打断流程——比“全程黑盒执行”靠谱得多。

5.2 WiFi远程控制,摆脱USB线束缚

不想一直插着线?用WiFi无线控制:

# 第一步:USB连一次,开启TCP/IP模式 adb tcpip 5555 # 第二步:拔掉USB,连同一WiFi,查手机IP(设置 → WLAN → 点当前网络 → IP地址) # 假设IP是 192.168.3.102 # 第三步:无线连接 adb connect 192.168.3.102:5555 # 第四步:运行时把 --device-id 换成IP python main.py \ --device-id 192.168.3.102:5555 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ "打开B站,搜‘AutoGLM教程’,播放第一个视频"

实测延迟<300ms,滑动、点击响应跟USB几乎无差别。

5.3 指令写不好?3个小白友好技巧

很多同学第一次写的指令效果一般,不是模型不行,而是表达方式可以优化:

  • ❌ 别写:“点那个蓝色的按钮”(颜色可能变、位置可能动)
    改写:“点‘立即下单’按钮” 或 “点写着‘去支付’的按钮”(用可见文字定位)

  • ❌ 别写:“翻到下面看看有没有优惠”(“下面”太模糊)
    改写:“向下滑动两屏,找‘限时折扣’模块”(用动作+关键词组合)

  • ❌ 别写长段落:“先打开淘宝,然后搜iPhone,再点销量排序,再点第一个,再看参数…”
    拆成两句:“打开淘宝,搜索‘iPhone 15’” → 等它完成 → 再输:“按销量排序,点第一个商品”

🧩 核心原则:像教一个细心但没经验的朋友做事——说清目标(做什么)、依据(看什么文字/图标)、动作(点/滑/输)


6. 常见问题快查:遇到报错,30秒定位原因

现象可能原因速查命令/操作
adb devices不显示设备USB调试未开启,或USB连接模式是“仅充电”手机通知栏下拉 → 点USB图标 → 选“文件传输”或“MTP”
终端报错Connection refused模型API地址填错,或网络不通检查--base-url是否为https://open.bigmodel.cn/api/paas/v4(注意末尾无斜杠)
指令执行一半卡住,无响应手机屏幕熄灭,或APP闪退保持屏幕常亮(设置 → 显示 → 休眠 → 设为“永不”),确保目标APP已安装且可运行
点击位置偏移,总点错地方手机分辨率缩放比例非100%(如“更大字体”开启)设置 → 显示 → 字体与样式 → 字体大小/样式 → 设为“标准”;显示大小 → 设为“默认”
输入中文乱码或不显示ADB Keyboard未设为默认输入法手机设置 → 语言与输入法 → 当前输入法 → 切换为 ADB Keyboard

所有问题,90%可通过“重启ADB服务 + 重连手机 + 检查输入法”三步解决:

adb kill-server && adb start-server adb devices # 确认设备在线 # 手机上再确认 ADB Keyboard 是默认输入法

7. 总结:它不是未来科技,而是今天就能落地的生产力工具

Open-AutoGLM 的价值,不在于参数有多炫、架构有多新,而在于它把一件本该自动化的事,真的做成了

  • 它不依赖云端OCR或预置规则,而是用多模态模型实时“看懂”界面,适配任意App;
  • 它不强制你学编程,一句中文就能驱动整套操作链;
  • 它不偷数据——所有截图只在本地处理,不上传、不存储、不联网(除非你主动调用在线API);
  • 它不画大饼——50+主流中文App已实测兼容,从微信、抖音、小红书,到美团、高德、12306,全部开箱即用。

如果你是普通用户:把它当成“手机里的隐形助手”,点外卖、回消息、查信息,从此少点10下屏幕;
如果你是开发者:它是目前最干净、最易读、最贴近真实场景的手机Agent开源实现,代码结构清晰,模块职责分明,拿来改造成自己的业务Agent毫无压力;
如果你是产品经理:它提供了一个极佳的范本——AI Agent如何真正嵌入用户日常动线,而不是活在Demo视频里。

技术终将回归人本。当AI不再只是回答问题,而是伸手帮你完成动作,那一刻,才算真正走进生活。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/11 9:12:25

AI手势识别与追踪参数调优:提升鲁棒性实战教程

AI手势识别与追踪参数调优&#xff1a;提升鲁棒性实战教程 1. 为什么需要参数调优&#xff1f;——从“能识别”到“稳识别”的关键跨越 你可能已经试过上传一张“比耶”照片&#xff0c;看到五根彩色手指骨架瞬间浮现&#xff0c;心里一喜&#xff1a;“成了&#xff01;” …

作者头像 李华
网站建设 2026/4/13 15:25:09

GPEN高清重构作品集:多人合影中每张面孔都清晰可见

GPEN高清重构作品集&#xff1a;多人合影中每张面孔都清晰可见 1. 这不是放大&#xff0c;是“重画”一张脸 你有没有翻过家里的老相册&#xff1f;泛黄的纸页上&#xff0c;那张全家福里爸妈年轻的脸庞&#xff0c;鼻子和眼睛却像隔着一层毛玻璃&#xff1b;又或者刚用手机拍…

作者头像 李华
网站建设 2026/4/12 1:24:06

Local AI MusicGen新手指南:如何写出高质量Text-to-Music提示词

Local AI MusicGen新手指南&#xff1a;如何写出高质量Text-to-Music提示词 1. 什么是Local AI MusicGen&#xff1f; Local AI MusicGen 不是一个云端服务&#xff0c;也不是需要注册账号的网站——它是一个真正装在你电脑里的“私人AI作曲家”。你下载、运行、生成、保存&a…

作者头像 李华
网站建设 2026/4/15 10:46:51

EagleEye入门必看:EagleEye支持的输入格式、预处理逻辑与归一化参数

EagleEye入门必看&#xff1a;EagleEye支持的输入格式、预处理逻辑与归一化参数 1. 什么是EagleEye&#xff1f;——轻量但不妥协的目标检测引擎 你可能已经听说过YOLO系列模型&#xff0c;但EagleEye不是另一个“微调版YOLOv8”或“魔改YOLOv10”。它是一套从底层架构到部署…

作者头像 李华
网站建设 2026/4/15 12:16:07

Clawdbot惊艳效果展示:Qwen3:32B驱动的多模型AI代理管理平台实测作品集

Clawdbot惊艳效果展示&#xff1a;Qwen3:32B驱动的多模型AI代理管理平台实测作品集 1. 什么是Clawdbot&#xff1f;一个让AI代理“活起来”的管理平台 你有没有试过同时跑好几个AI模型&#xff0c;结果每个都要单独开终端、记一堆端口、改配置文件、查日志&#xff1f;或者想…

作者头像 李华
网站建设 2026/4/3 1:32:09

QWEN-AUDIO语音合成5分钟快速上手:零基础搭建超自然语音系统

QWEN-AUDIO语音合成5分钟快速上手&#xff1a;零基础搭建超自然语音系统 你有没有试过&#xff0c;把一段文字粘贴进去&#xff0c;几秒钟后就听到像真人一样有呼吸、有停顿、甚至带点小情绪的声音&#xff1f;不是那种机械念稿的“电子音”&#xff0c;而是说话时会微微拖长尾…

作者头像 李华