安卓手机秒变智能体，Open-AutoGLM快速部署教程-开发者社区

安卓手机秒变智能体，Open-AutoGLM快速部署教程

1. 引言：让AI接管你的手机

你有没有想过，只要说一句“打开小红书搜美食”，手机就能自动完成打开App、输入关键词、点击搜索的全过程？这不再是科幻电影的情节，而是通过Open-AutoGLM就能实现的真实能力。

Open-AutoGLM 是由智谱AI开源的一个基于视觉语言模型（VLM）的手机端AI Agent框架。它不仅能“看懂”屏幕内容，还能通过自然语言指令自动操作安卓设备。整个过程无需手动点击，真正实现了“动口不动手”的智能体验。

本文将带你从零开始，一步步在本地电脑上部署 Open-AutoGLM 控制端，并连接真实安卓手机，让你的设备秒变AI智能体。无论你是开发者还是技术爱好者，都能轻松上手。

1.1 你能学到什么？

如何配置ADB环境并连接安卓设备
如何部署Open-AutoGLM控制代码
如何通过命令行或Python API调用AI代理
常见问题排查与实用技巧

1.2 准备工作概览

在正式开始前，请确保你已准备好以下内容：

一台运行Android 7.0+的手机或模拟器
一台Windows或macOS电脑
Python 3.10及以上版本
ADB工具已安装并配置好环境变量
云服务器上的AutoGLM模型服务已启动（本文聚焦客户端部署）

2. 环境准备：搭建基础运行环境

要让Open-AutoGLM正常工作，首先需要在本地电脑上搭建好控制环境。这个环境负责截图、发送指令、执行AI决策，并通过ADB与手机通信。

2.1 操作系统与Python环境

支持的操作系统包括：

Windows 10/11
macOS（Intel或Apple Silicon）

建议使用Python 3.10 或更高版本。你可以通过以下命令检查当前Python版本：

python --version

如果未安装合适版本，推荐使用 Miniconda 或直接下载官方Python安装包进行升级。

创建一个独立的虚拟环境有助于避免依赖冲突：

python -m venv openautoglm-env source openautoglm-env/bin/activate # Linux/macOS # 或 openautoglm-env\Scripts\activate # Windows

2.2 安装ADB工具

ADB（Android Debug Bridge）是连接和控制安卓设备的核心工具。你需要先下载Android SDK Platform Tools：

下载地址：https://developer.android.com/tools/releases/platform-tools

Windows 配置方法

解压下载的压缩包到任意目录（如C:\platform-tools）
按下Win + R输入sysdm.cpl打开系统属性
进入“高级” → “环境变量”
在“系统变量”中找到Path，点击“编辑”
添加平台工具路径（如C:\platform-tools）
打开命令提示符，输入以下命令验证：

adb version

若显示版本信息，则说明配置成功。

macOS 配置方法

打开终端，执行以下命令（假设解压目录为~/Downloads/platform-tools）：

export PATH=${PATH}:~/Downloads/platform-tools

为了永久生效，可将该行添加到 shell 配置文件中（如~/.zshrc或~/.bash_profile）。

3. 手机端设置：开启调试与输入法

为了让AI能够“看到”和“操作”你的手机，必须对设备进行一些关键设置。

3.1 开启开发者模式

进入手机“设置” → “关于手机”，连续点击“版本号”7次，直到提示“您已进入开发者模式”。

3.2 启用USB调试

返回设置主界面，进入“开发者选项”，找到并勾选：

USB调试
无线调试（可选，用于WiFi连接）

注意：不同品牌手机路径略有差异，但功能名称基本一致。

3.3 安装ADB Keyboard（关键步骤）

由于标准ADB不支持中文输入，必须安装第三方输入法ADB Keyboard来实现文本输入。

下载 APK 文件：
- GitHub地址：https://github.com/senzhk/ADBKeyBoard
- 直接下载最新版ADBKeyboard.apk
将APK文件传到手机并安装
设置默认输入法：
- 进入“设置” → “语言与输入法” → “默认键盘”
- 选择ADB Keyboard

这样，AI就能通过广播方式发送中文字符，实现精准输入。

4. 部署Open-AutoGLM控制端

现在我们开始部署核心控制代码。这部分运行在本地电脑上，负责协调AI模型与手机之间的交互。

4.1 克隆项目仓库

打开终端或命令行工具，执行以下命令：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

该项目是智谱AI开源的Phone Agent框架，集成了多模态理解、动作规划与ADB控制能力。

4.2 安装Python依赖

确保已激活虚拟环境后，安装所需依赖：

pip install -r requirements.txt pip install -e .

其中：

requirements.txt包含Pillow、requests、pydantic等基础库
-e .表示以可编辑模式安装phone_agent包，便于后续调试

安装完成后，你可以通过以下命令测试是否安装成功：

python -c "from phone_agent import ADBConnection; print('OK')"

无报错即表示安装成功。

5. 连接设备：USB与WiFi两种方式

Open-AutoGLM支持通过USB线缆或WiFi网络连接安卓设备。推荐初次使用时采用USB连接，稳定性更高。

5.1 USB连接方式

使用数据线将手机连接电脑
手机弹出“允许USB调试？”对话框时，点击“允许”
在终端执行：

adb devices

输出应类似：

List of devices attached ABCDEF1234567890 device

只要状态为device而非unauthorized，说明连接成功。

5.2 WiFi无线连接方式（远程控制）

如果你希望摆脱数据线束缚，可以使用WiFi连接。前提是设备与电脑在同一局域网内。

第一步：通过USB启用TCP/IP模式

adb tcpip 5555

此命令将ADB监听端口设为5555。

第二步：断开USB，使用IP连接

查看手机IP地址（通常在“设置”→“WLAN”中），然后执行：

adb connect 192.168.x.x:5555

例如：

adb connect 192.168.1.100:5555

再次运行adb devices，确认设备在线。

提示：首次必须通过USB开启tcpip，之后即可全程无线操作。

6. 启动AI代理：执行自然语言指令

一切准备就绪，现在让我们真正“唤醒”AI，让它接管手机。

6.1 命令行方式启动

在项目根目录下运行：

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://<云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

参数	说明
`--device-id`	通过`adb devices`获取的设备ID或IP:端口
`--base-url`	云服务器上vLLM服务的OpenAI兼容接口地址
`--model`	模型名称，需与服务端一致
最后字符串	自然语言指令，支持中文

AI会自动执行以下流程：

截图分析当前界面
理解用户意图
规划操作路径（启动App → 输入搜索词 → 点击用户 → 关注）
通过ADB逐条执行
完成后返回结果

6.2 Python API方式调用（适合集成）

如果你想将AI代理嵌入自己的应用，可以直接使用Python API：

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP（可用于后续连接） ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这种方式更适合开发自动化脚本或构建GUI控制面板。

7. 实际效果演示与注意事项

7.1 典型任务示例

你可以尝试以下自然语言指令：

“打开微信，给张三发消息：明天见”
“在美团上搜索附近的川菜馆，按评分排序”
“打开淘宝，把‘机械键盘’加入购物车”
“在B站搜索李永乐老师最新视频并点赞”

AI会根据当前屏幕状态自主决策，比如：

如果不在目标App，先执行“Launch”
如果页面加载慢，自动插入“Wait”
如果误入无关页面，主动点击“Back”

7.2 敏感操作与人工接管

出于安全考虑，系统对以下场景会暂停并请求人工干预：

支付页面（截图黑屏）
登录密码输入
验证码识别
高风险操作（如删除账号）

此时AI会输出：

do(action="Take_over", message="请手动完成登录")

你需要亲自操作完成后，按回车继续。

这种设计既保障了自动化效率，又确保了用户资产安全。

8. 常见问题排查指南

即使严格按照步骤操作，也可能遇到问题。以下是高频问题及解决方案。

8.1 ADB连接失败

现象：adb devices显示unauthorized或无设备

解决方法：

检查手机是否弹出“允许调试”对话框
重新插拔USB线
在开发者选项中关闭再开启“USB调试”

8.2 中文输入乱码或失败

现象：输入文字变成问号或乱码

原因：ADB Keyboard未正确启用

解决方法：

确认已安装ADB Keyboard APK
在“语言与输入法”中将其设为默认输入法
检查是否有其他输入法抢占焦点

8.3 模型无响应或超时

现象：长时间卡住，无任何输出

可能原因：

云服务器防火墙未开放对应端口
vLLM服务未正确启动
显存不足导致推理失败

检查项：

确保--base-url地址可访问（可用浏览器测试）
查看服务端日志是否有错误
确认GPU显存足够加载9B模型

8.4 点击位置不准

原因：坐标归一化误差或界面动态变化

优化建议：

避免在动画过程中下达指令
对于小图标，可在Prompt中增加描述：“点击右下角较小的分享按钮”

9. 总结：开启你的AI手机时代

通过本文的详细指导，你应该已经成功将安卓手机变成了一个能听懂人话、自动操作的AI智能体。Open-AutoGLM的强大之处在于：

无需Root：普通用户也能使用
多模态理解：结合视觉与语言，真正“看懂”界面
自然语言驱动：告别复杂脚本，一句话搞定任务
安全机制完善：敏感操作人工确认，防止误操作

虽然目前还存在推理延迟、跨任务记忆缺失等问题，但作为一款开源项目，它的架构清晰、模块解耦，非常适合二次开发和研究学习。

未来你可以尝试：

将其集成到语音助手
构建自动化测试流水线
开发专属的AI工作流机器人

技术正在变得越来越“无形”。当AI能替你操作手机时，真正的智能生活才刚刚开始。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

安卓手机秒变智能体，Open-AutoGLM快速部署教程