5分钟部署Open-AutoGLM,用AI自动操作手机实测体验
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
1. 引言:让AI替你操作手机,真的能实现吗?
你有没有想过,有一天只要对手机说一句“打开小红书,搜一下附近的火锅店”,接下来的一切——解锁、打开App、输入关键词、点击搜索——全都不用手动完成?听起来像科幻电影,但今天,这个功能已经可以通过Open-AutoGLM实现了。
这是由智谱AI开源的一个基于视觉语言模型的手机智能助理框架。它不仅能“看懂”你的屏幕,还能通过自然语言指令自动执行操作。整个过程就像有个AI助手坐在你旁边,替你点来点去。
我亲自试了一下,从部署到跑通第一个任务,不到5分钟。下面我就带你一步步上手,并分享我的真实使用感受。
2. 快速部署:三步搞定控制端
2.1 环境准备
你需要准备以下几样东西:
- 一台运行 Windows 或 macOS 的电脑
- 一部 Android 7.0+ 的手机(或模拟器)
- Python 3.10+
- ADB 工具(Android Debug Bridge)
ADB 是安卓调试桥,用来连接电脑和手机。你可以从 Android 开发者官网 下载 SDK Platform Tools,解压后配置环境变量。
Windows 用户:
- 解压文件夹
Win + R输入sysdm.cpl→ 高级 → 环境变量- 在系统 Path 中添加 ADB 所在路径
- 命令行输入
adb version验证是否成功
macOS 用户:
export PATH=${PATH}:~/Downloads/platform-tools把路径换成你实际的解压位置即可。
2.2 手机设置:开启开发者权限
在手机上做三件事:
开启开发者模式
进入「设置」→「关于手机」→ 连续点击“版本号”7次,直到提示已开启。开启 USB 调试
返回设置主界面 →「开发者选项」→ 勾选“USB 调试”。安装 ADB Keyboard
下载并安装 ADB Keyboard APK。
安装后进入「语言与输入法」→ 将默认输入法切换为 ADB Keyboard。
这是为了让 AI 能输入中文,原生 ADB 不支持中文直接输入。
2.3 部署 Open-AutoGLM 控制端
现在回到电脑,开始部署核心代码:
# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .这一步会安装所有必要的库,包括用于调用模型的客户端、ADB 控制模块等。
3. 连接设备:USB 和 WiFi 两种方式
3.1 使用 USB 连接(推荐新手)
用数据线将手机连上电脑,确保手机弹出“允许调试”的提示时点击“确定”。
然后在终端运行:
adb devices如果看到类似这样的输出,说明连接成功:
List of devices attached 123456789 device3.2 使用 WiFi 无线连接(适合远程控制)
如果你不想一直插着线,可以用 WiFi 连接。
先用 USB 连接,然后执行:
adb tcpip 5555断开 USB 后,找到手机的 IP 地址(一般在「设置 → WLAN」里),再运行:
adb connect 192.168.x.x:5555再次用adb devices检查,应该能看到设备在线。
4. 启动 AI 代理:一句话让AI接管手机
一切就绪后,就可以下达第一条指令了!
假设你已经在云服务器上部署好了 AutoGLM 模型服务(比如通过 vLLM 提供 OpenAI 兼容接口),现在只需运行:
python main.py \ --device-id 123456789 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索抖音号 dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:从adb devices获取的设备ID--base-url:你的模型服务地址--model:模型名称- 最后的字符串:你要给AI的自然语言指令
4.1 实测效果:AI是如何一步步执行的?
我试了上面这条命令,整个过程大概持续了20秒。以下是AI的实际行为记录:
- 识别当前界面:AI先截图,判断当前在桌面。
- 启动抖音:调用
Launch("抖音"),等待应用加载。 - 寻找搜索框:分析界面元素,定位到搜索图标并点击。
- 输入账号名:使用 ADB Keyboard 输入 “dycwo11nt61d”。
- 点击搜索结果:找到目标用户,点击进入主页。
- 点击关注按钮:完成最后一步操作。
- 返回结果:输出
finish(message="已成功关注该用户")。
整个流程完全自动化,中间没有任何人工干预。
4.2 支持的操作类型
AI能理解并执行多种动作,包括:
Launch("微信"):启动应用Tap([500, 300]):点击坐标(归一化0-999)Type("你好"):输入文本Swipe([500,800], [500,200]):滑动Back()/Home():返回或回到桌面Take_over():需要人工介入(如验证码)
这些动作都是通过 Prompt 引导模型输出结构化指令,再由本地程序解析执行。
5. 核心机制揭秘:AI是怎么“看懂”屏幕的?
5.1 多模态理解:图像 + 文本双输入
Open-AutoGLM 使用的是一个视觉语言模型(VLM),它接收两个输入:
- 当前屏幕截图(图像)
- 用户的任务描述 + 上下文信息(文本)
模型会结合这两者做出决策。例如,当你让它“在美团里订一家评分4.5以上的餐厅”,它会:
- 截图当前页面
- 分析界面上哪些是评分标签
- 判断是否满足条件
- 决定是继续浏览还是点击某个店铺
5.2 坐标归一化:适配不同分辨率
不同手机分辨率差异很大,但AI输出的坐标是统一的0-999 归一化坐标系。
比如[500, 500]表示屏幕正中心,无论你是 720p 还是 4K 屏,系统都会自动换算成实际像素位置。
这样做的好处是:
- 模型不需要学习每种分辨率
- 训练数据可以跨设备复用
- 更容易泛化到新机型
5.3 中文输入是如何实现的?
原生 ADB 的input text命令不支持中文。Open-AutoGLM 的解决方案是使用第三方输入法ADB Keyboard。
其原理是:
- 临时切换输入法为 ADB Keyboard
- 通过广播发送 UTF-8 编码的文本
- 自动恢复原来的输入法
所以你在日志中看到的可能是:
[Input] Sending text: "美食推荐" [ADB] am broadcast -a ADB_INPUT_TEXT --es msg "美食推荐"这种方式完美支持中文、emoji 和特殊字符。
6. 安全机制:敏感操作不会乱来
你可能会担心:AI会不会误触支付按钮?能不能随便读取隐私信息?
答案是不会。Open-AutoGLM 设计了多重安全机制。
6.1 敏感页面自动黑屏
当进入支付、密码输入等敏感页面时,Android 系统会阻止截图,返回一张纯黑图片。
AI收到黑屏后,会立即停止自动操作,并输出:
do(action="Take_over", message="检测到支付页面,请手动完成")此时你需要接手操作,完成后按回车继续。
6.2 关键操作需确认
对于一些高风险动作,比如删除文件、退出登录,AI会在执行前添加确认信息:
do(action="Tap", element=[800, 900], message="即将退出登录,确认吗?")你可以自定义回调函数,在终端弹出确认提示:
Sensitive operation: 即将退出登录,确认吗? Confirm? (Y/N):只有你输入 Y,才会真正执行。
7. 实际应用场景:哪些事可以让AI代劳?
7.1 日常生活类
- “打开外卖App,帮我点昨天那份午餐”
- “查一下今天的天气,发给张三”
- “把朋友圈最新一条动态点赞”
这类重复性操作最省时间。
7.2 工作辅助类
- “登录企业微信,把今天的日报发到群里”
- “打开钉钉,查看最近的会议纪要”
- “批量转发公众号文章到客户群”
尤其适合运营、客服等岗位做标准化任务。
7.3 测试与自动化
- UI 自动化测试
- App 功能回归验证
- 数据采集脚本
相比传统自动化工具(如 Appium),Open-AutoGLM 不需要写 XPath 或 ID,直接用自然语言就能驱动,门槛低很多。
8. 常见问题与排查建议
8.1 连接失败怎么办?
常见原因和解决方法:
| 问题 | 可能原因 | 解决方案 |
|---|---|---|
adb devices无设备 | 未开启USB调试 | 检查开发者选项 |
| 显示 unauthorized | 未授权电脑 | 手机端确认调试授权 |
| WiFi连接失败 | 端口未开放 | 确保防火墙放行5555端口 |
8.2 AI乱点或卡住?
可能原因:
- 模型响应延迟过高
- 屏幕未完全加载就执行下一步
- 坐标识别偏差
建议:
- 检查模型服务性能(首token延迟应 < 0.5s)
- 增加等待逻辑(Prompt中加入“等待页面加载完成”)
- 在复杂界面尽量描述清楚目标元素
8.3 中文显示乱码?
一定是 ADB Keyboard 没配好。请检查:
- 是否已安装 APK
- 是否已在输入法设置中启用
- 是否在代码中正确调用了广播机制
9. 总结:这不仅仅是个玩具
经过实测,Open-AutoGLM 绝不只是个技术演示项目。它的设计非常工程化,具备以下几个亮点:
- 真正可用:从部署到运行只需几分钟,文档清晰
- 多模态能力强:能准确理解图文混合界面
- 安全性到位:敏感操作有防护机制
- 扩展性强:模块化设计,支持自定义回调和集成
当然也有局限:
- 推理速度还不够快(每步约2-3秒)
- 对动态动画界面识别偶尔不准
- 目前仅支持安卓
但无论如何,它代表了一个重要方向:未来的操作系统交互,可能不再是手动点击,而是用语言告诉AI你想做什么,剩下的交给它完成。
如果你对 AI Agent、自动化、RPA 或智能助手感兴趣,Open-AutoGLM 是一个绝佳的学习起点。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。