5分钟部署Open-AutoGLM，用AI自动操作手机实测体验-开发者社区

5分钟部署Open-AutoGLM，用AI自动操作手机实测体验

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

1. 引言：让AI替你操作手机，真的能实现吗？

你有没有想过，有一天只要对手机说一句“打开小红书，搜一下附近的火锅店”，接下来的一切——解锁、打开App、输入关键词、点击搜索——全都不用手动完成？听起来像科幻电影，但今天，这个功能已经可以通过Open-AutoGLM实现了。

这是由智谱AI开源的一个基于视觉语言模型的手机智能助理框架。它不仅能“看懂”你的屏幕，还能通过自然语言指令自动执行操作。整个过程就像有个AI助手坐在你旁边，替你点来点去。

我亲自试了一下，从部署到跑通第一个任务，不到5分钟。下面我就带你一步步上手，并分享我的真实使用感受。

2. 快速部署：三步搞定控制端

2.1 环境准备

你需要准备以下几样东西：

一台运行 Windows 或 macOS 的电脑
一部 Android 7.0+ 的手机（或模拟器）
Python 3.10+
ADB 工具（Android Debug Bridge）

ADB 是安卓调试桥，用来连接电脑和手机。你可以从 Android 开发者官网下载 SDK Platform Tools，解压后配置环境变量。

Windows 用户：

解压文件夹
Win + R输入sysdm.cpl→ 高级 → 环境变量
在系统 Path 中添加 ADB 所在路径
命令行输入adb version验证是否成功

macOS 用户：

export PATH=${PATH}:~/Downloads/platform-tools

把路径换成你实际的解压位置即可。

2.2 手机设置：开启开发者权限

在手机上做三件事：

开启开发者模式
进入「设置」→「关于手机」→ 连续点击“版本号”7次，直到提示已开启。
开启 USB 调试
返回设置主界面 →「开发者选项」→ 勾选“USB 调试”。
安装 ADB Keyboard
下载并安装 ADB Keyboard APK。
安装后进入「语言与输入法」→ 将默认输入法切换为 ADB Keyboard。
这是为了让 AI 能输入中文，原生 ADB 不支持中文直接输入。

2.3 部署 Open-AutoGLM 控制端

现在回到电脑，开始部署核心代码：

# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

这一步会安装所有必要的库，包括用于调用模型的客户端、ADB 控制模块等。

3. 连接设备：USB 和 WiFi 两种方式

3.1 使用 USB 连接（推荐新手）

用数据线将手机连上电脑，确保手机弹出“允许调试”的提示时点击“确定”。

然后在终端运行：

adb devices

如果看到类似这样的输出，说明连接成功：

List of devices attached 123456789 device

3.2 使用 WiFi 无线连接（适合远程控制）

如果你不想一直插着线，可以用 WiFi 连接。

先用 USB 连接，然后执行：

adb tcpip 5555

断开 USB 后，找到手机的 IP 地址（一般在「设置 → WLAN」里），再运行：

adb connect 192.168.x.x:5555

再次用adb devices检查，应该能看到设备在线。

4. 启动 AI 代理：一句话让AI接管手机

一切就绪后，就可以下达第一条指令了！

假设你已经在云服务器上部署好了 AutoGLM 模型服务（比如通过 vLLM 提供 OpenAI 兼容接口），现在只需运行：

python main.py \ --device-id 123456789 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音，搜索抖音号 dycwo11nt61d 的博主并关注他！"

参数说明：

--device-id：从adb devices获取的设备ID
--base-url：你的模型服务地址
--model：模型名称
最后的字符串：你要给AI的自然语言指令

4.1 实测效果：AI是如何一步步执行的？

我试了上面这条命令，整个过程大概持续了20秒。以下是AI的实际行为记录：

识别当前界面：AI先截图，判断当前在桌面。
启动抖音：调用Launch("抖音")，等待应用加载。
寻找搜索框：分析界面元素，定位到搜索图标并点击。
输入账号名：使用 ADB Keyboard 输入 “dycwo11nt61d”。
点击搜索结果：找到目标用户，点击进入主页。
点击关注按钮：完成最后一步操作。
返回结果：输出finish(message="已成功关注该用户")。

整个流程完全自动化，中间没有任何人工干预。

4.2 支持的操作类型

AI能理解并执行多种动作，包括：

Launch("微信")：启动应用
Tap([500, 300])：点击坐标（归一化0-999）
Type("你好")：输入文本
Swipe([500,800], [500,200])：滑动
Back()/Home()：返回或回到桌面
Take_over()：需要人工介入（如验证码）

这些动作都是通过 Prompt 引导模型输出结构化指令，再由本地程序解析执行。

5. 核心机制揭秘：AI是怎么“看懂”屏幕的？

5.1 多模态理解：图像 + 文本双输入

Open-AutoGLM 使用的是一个视觉语言模型（VLM），它接收两个输入：

当前屏幕截图（图像）
用户的任务描述 + 上下文信息（文本）

模型会结合这两者做出决策。例如，当你让它“在美团里订一家评分4.5以上的餐厅”，它会：

截图当前页面
分析界面上哪些是评分标签
判断是否满足条件
决定是继续浏览还是点击某个店铺

5.2 坐标归一化：适配不同分辨率

不同手机分辨率差异很大，但AI输出的坐标是统一的0-999 归一化坐标系。

比如[500, 500]表示屏幕正中心，无论你是 720p 还是 4K 屏，系统都会自动换算成实际像素位置。

这样做的好处是：

模型不需要学习每种分辨率
训练数据可以跨设备复用
更容易泛化到新机型

5.3 中文输入是如何实现的？

原生 ADB 的input text命令不支持中文。Open-AutoGLM 的解决方案是使用第三方输入法ADB Keyboard。

其原理是：

临时切换输入法为 ADB Keyboard
通过广播发送 UTF-8 编码的文本
自动恢复原来的输入法

所以你在日志中看到的可能是：

[Input] Sending text: "美食推荐" [ADB] am broadcast -a ADB_INPUT_TEXT --es msg "美食推荐"

这种方式完美支持中文、emoji 和特殊字符。

6. 安全机制：敏感操作不会乱来

你可能会担心：AI会不会误触支付按钮？能不能随便读取隐私信息？

答案是不会。Open-AutoGLM 设计了多重安全机制。

6.1 敏感页面自动黑屏

当进入支付、密码输入等敏感页面时，Android 系统会阻止截图，返回一张纯黑图片。

AI收到黑屏后，会立即停止自动操作，并输出：

do(action="Take_over", message="检测到支付页面，请手动完成")

此时你需要接手操作，完成后按回车继续。

6.2 关键操作需确认

对于一些高风险动作，比如删除文件、退出登录，AI会在执行前添加确认信息：

do(action="Tap", element=[800, 900], message="即将退出登录，确认吗？")

你可以自定义回调函数，在终端弹出确认提示：

Sensitive operation: 即将退出登录，确认吗？ Confirm? (Y/N):

只有你输入 Y，才会真正执行。

7. 实际应用场景：哪些事可以让AI代劳？

7.1 日常生活类

“打开外卖App，帮我点昨天那份午餐”
“查一下今天的天气，发给张三”
“把朋友圈最新一条动态点赞”

这类重复性操作最省时间。

7.2 工作辅助类

“登录企业微信，把今天的日报发到群里”
“打开钉钉，查看最近的会议纪要”
“批量转发公众号文章到客户群”

尤其适合运营、客服等岗位做标准化任务。

7.3 测试与自动化

UI 自动化测试
App 功能回归验证
数据采集脚本

相比传统自动化工具（如 Appium），Open-AutoGLM 不需要写 XPath 或 ID，直接用自然语言就能驱动，门槛低很多。

8. 常见问题与排查建议

8.1 连接失败怎么办？

常见原因和解决方法：

问题	可能原因	解决方案
`adb devices`无设备	未开启USB调试	检查开发者选项
显示 unauthorized	未授权电脑	手机端确认调试授权
WiFi连接失败	端口未开放	确保防火墙放行5555端口

8.2 AI乱点或卡住？

可能原因：

模型响应延迟过高
屏幕未完全加载就执行下一步
坐标识别偏差

建议：

检查模型服务性能（首token延迟应 < 0.5s）
增加等待逻辑（Prompt中加入“等待页面加载完成”）
在复杂界面尽量描述清楚目标元素

8.3 中文显示乱码？

一定是 ADB Keyboard 没配好。请检查：

是否已安装 APK
是否已在输入法设置中启用
是否在代码中正确调用了广播机制

9. 总结：这不仅仅是个玩具

经过实测，Open-AutoGLM 绝不只是个技术演示项目。它的设计非常工程化，具备以下几个亮点：

真正可用：从部署到运行只需几分钟，文档清晰
多模态能力强：能准确理解图文混合界面
安全性到位：敏感操作有防护机制
扩展性强：模块化设计，支持自定义回调和集成

当然也有局限：

推理速度还不够快（每步约2-3秒）
对动态动画界面识别偶尔不准
目前仅支持安卓

但无论如何，它代表了一个重要方向：未来的操作系统交互，可能不再是手动点击，而是用语言告诉AI你想做什么，剩下的交给它完成。

如果你对 AI Agent、自动化、RPA 或智能助手感兴趣，Open-AutoGLM 是一个绝佳的学习起点。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

5分钟部署Open-AutoGLM，用AI自动操作手机实测体验