Open-AutoGLM效率翻倍：自动处理重复手机操作-开发者社区

Open-AutoGLM效率翻倍：自动处理重复手机操作

你有没有这样的经历？每天要重复打开同一个App、搜索相同关键词、点击固定按钮，比如刷小红书看美食推荐、在抖音关注新博主、定时查看某个账号动态……这些操作看似简单，但日积月累却消耗了大量时间。

如果能让AI帮你“动手”完成这些操作，你只需要说一句：“打开小红书搜美食”，剩下的全由它自动执行——点开App、输入关键词、滑动浏览、甚至关注账号，是不是听起来像未来科技？但现在，这一切已经可以实现。

今天要介绍的Open-AutoGLM，正是这样一个能真正“替你操作手机”的AI智能助理框架。它不是简单的脚本工具，而是一个具备视觉理解与决策能力的多模态Agent，能够像人一样“看懂屏幕”，再通过自然语言指令驱动设备自动化运行。

本文将带你从零开始了解这个项目的原理、部署方式和实际应用场景，手把手教你如何让AI成为你的“数字分身”。

1. 什么是Open-AutoGLM？

Open-AutoGLM是由智谱开源推出的手机端AI Agent框架，核心组件名为Phone Agent。它的目标很明确：让用户用一句话，就能让AI自动完成复杂的手机操作流程。

比如：

“打开抖音搜索抖音号为dycwo11nt61d的博主并关注他！”
“帮我打开美团，找附近评分4.5以上的火锅店。”
“进入微信，给张三发消息‘今晚聚餐改到7点’。”

这些指令不需要你写代码、设规则，AI会自己分析当前屏幕内容，判断下一步该点击哪里、输入什么文字，并通过ADB（Android Debug Bridge）真实操控你的安卓设备。

核心能力亮点

能力	说明
多模态感知	结合视觉语言模型（VLM），能“读懂”屏幕上显示的文字、图标、布局结构
自然语言驱动	用户只需用中文或英文描述任务，无需编程基础
真实设备控制	基于ADB协议模拟点击、滑动、输入等人类操作行为
智能规划与执行	AI自动拆解任务步骤，动态调整策略应对界面变化
安全机制完善	敏感操作（如支付、登录）支持人工确认，验证码场景可临时接管

更厉害的是，它不仅能在本地运行，还能把模型部署在云端，通过WiFi远程控制手机，真正做到“人在外面，手机在家替你干活”。

2. 技术架构解析：它是怎么做到的？

Open-AutoGLM 的工作流程可以分为四个关键环节：感知 → 理解 → 规划 → 执行。

2.1 屏幕感知：AI也能“看见”手机画面

传统自动化工具依赖固定的UI元素定位（比如ID、坐标），一旦App更新界面就容易失效。而Open-AutoGLM使用视觉语言模型（VLM），直接对手机屏幕截图进行分析。

每次执行操作前，系统会通过ADB获取当前屏幕截图，然后送入模型中处理。模型不仅能识别出“这是一个搜索框”、“那个是返回按钮”，还能结合上下文理解语义，比如：

“这个红色的心形图标，在小红书里通常代表‘点赞’功能。”

这种基于图像的理解方式，极大提升了系统的鲁棒性和泛化能力。

2.2 指令理解：把你说的话变成任务目标

当你输入“打开小红书搜美食”时，AI需要先理解这句话的核心意图。这一步依赖于大模型的语言理解能力。

模型会将自然语言转化为结构化任务描述，例如：

{ "app": "小红书", "action": "搜索", "query": "美食" }

同时还会生成一系列中间目标，如“启动App” → “找到搜索栏” → “输入关键词” → “触发搜索”。

2.3 动作规划：一步步推演该怎么操作

有了任务目标后，AI开始规划具体的操作路径。这个过程类似于下棋：每走一步都要预判结果。

例如，在“输入关键词”阶段，AI会思考：

当前页面是否有输入框？
输入框是否可编辑？
是否需要先点击才能激活？

它会根据屏幕信息做出决策，并选择最合适的动作类型：

tap(x, y)：点击坐标
swipe(start_x, start_y, end_x, end_y)：滑动
type(text)：输入文本
press_back()：返回键

所有动作都通过ADB发送到设备执行。

2.4 安全与容错机制

为了防止误操作，系统内置了多重保护机制：

敏感操作拦截：涉及支付、删除、权限申请等高风险动作时，会暂停并提示用户确认。
人工接管模式：遇到验证码、弹窗广告等情况，可手动干预后再交还控制权。
远程调试支持：可通过WiFi连接设备，方便开发者调试或远程管理。

3. 快速上手：三步搭建你的AI手机助手

现在我们来实战部署Open-AutoGLM，整个过程分为三部分：环境准备、代码部署、启动代理。

3.1 硬件与软件准备

你需要准备以下几样东西：

项目	要求
电脑	Windows 或 macOS，建议Python 3.10+
手机	Android 7.0以上的真实设备或模拟器
ADB工具	用于连接和控制手机
网络	电脑与手机在同一局域网（若使用WiFi连接）

安装ADB工具

Windows用户：

下载Android SDK Platform Tools
解压后，将文件夹路径添加到系统环境变量Path
打开命令行，输入adb version验证是否安装成功

macOS用户：

# 假设platform-tools解压在Downloads目录 export PATH=${PATH}:~/Downloads/platform-tools adb version

3.2 手机端设置

为了让电脑能控制手机，需开启开发者权限：

进入【设置】→【关于手机】→连续点击“版本号”7次，开启开发者模式
返回设置主菜单 →【开发者选项】→勾选“USB调试”
安装 ADB Keyboard APK
- 下载安装后，在【语言与输入法】中将其设为默认输入法
- 这样AI才能向输入框发送文字

3.3 部署控制端代码

接下来在本地电脑下载并安装Open-AutoGLM：

# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

3.4 连接设备

确保手机通过USB线连接电脑，或处于同一WiFi网络下。

USB连接方式

adb devices

如果输出类似：

List of devices attached ABCDEF1234567890 device

说明设备已识别。

WiFi无线连接（推荐）

首次需用USB连接，启用TCP/IP模式：

adb tcpip 5555

断开USB线，用IP地址连接：

adb connect 192.168.x.x:5555

之后即可无线操控，摆脱数据线束缚。

4. 启动AI代理：让它开始替你操作手机

一切准备就绪，现在可以启动AI代理了。

4.1 模型服务部署（云端或本地）

Open-AutoGLM依赖一个支持多模态的大模型服务。你可以选择本地部署或使用云服务器。

以vLLM为例，启动模型服务：

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model zai-org/AutoGLM-Phone-9B \ --port 8000

启动成功后，服务地址为：http://<你的IP>:8000/v1

注意：请确保云服务器防火墙开放对应端口（如8000），否则无法访问。

4.2 命令行运行AI代理

在项目根目录执行：

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://192.168.1.100:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

--device-id：通过adb devices获取的设备ID
--base-url：模型服务的公网IP和端口
最后的字符串：你要下达的自然语言指令

执行过程中，你会看到AI逐步输出思考过程：

[INFO] 正在启动抖音... [INFO] 找到搜索图标，点击坐标(540, 120) [INFO] 输入搜索词：dycwo11nt61d [INFO] 触发搜索，滑动查找目标账号 [INFO] 找到用户“XXX”，正在点击关注按钮... [SUCCESS] 关注成功！

整个过程无需人工干预，完全自动化完成。

4.3 使用Python API集成到项目中

如果你希望将这项能力嵌入自己的应用，也可以使用Python API：

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型连接 model_config = ModelConfig( base_url="http://192.168.1.100:8000/v1", model_name="autoglm-phone-9b" ) # 创建代理实例 agent = PhoneAgent(model_config=model_config) # 执行任务 result = agent.run("打开淘宝搜索无线耳机") print(result)

这种方式适合做批量任务处理、定时自动化脚本等高级用途。

5. 实际应用场景：哪些事可以让AI代劳？

Open-AutoGLM的强大之处在于其通用性。只要是可以通过点击、滑动、输入完成的操作，理论上都能交给AI。

以下是几个典型的应用场景：

5.1 内容创作者：高效运营多个账号

自动发布图文/视频
批量关注同行账号
回复粉丝评论
监控竞品动态

比如你是小红书博主，每天要检查10个对标账号更新情况，现在只需一句“依次打开这10个账号主页，截图最新笔记”，AI就能帮你完成。

5.2 电商从业者：快速比价与选品

自动打开京东、淘宝、拼多多，搜索同一商品
截图价格、评价、销量数据
生成对比报告

节省大量手动切换App、复制粘贴的时间。

5.3 普通用户：简化日常操作

每天早上自动打开健康码、打卡企业微信
定时查看快递进度
自动填写表单信息（配合ADB Keyboard）
替你抢限量商品（需配合精准时机）

5.4 开发者：自动化测试新利器

替代传统UI自动化测试框架
支持跨App流程测试
可读性强的自然语言测试用例

不再需要维护复杂的XPath或ID定位逻辑。

6. 常见问题与解决方案

在实际使用中可能会遇到一些问题，这里列出常见故障及应对方法：

问题	可能原因	解决方案
ADB连接失败	USB调试未开启	检查开发者选项中的“USB调试”是否启用
设备离线	驱动未安装（Windows）	安装手机厂商官方驱动或使用豌豆荚等工具辅助
输入失败	ADB Keyboard未设为默认输入法	进入【设置】→【语言与输入法】中切换
模型无响应	端口未开放或IP错误	检查云服务器防火墙规则，确认`base-url`正确
执行卡住	界面跳转延迟	调整等待超时时间，或增加重试机制
图片上传失败	vLLM参数配置不当	确保`--allowed-local-media-path /`已设置

小贴士：初次使用建议先用USB连接调试，稳定后再切换为WiFi远程模式。

7. 总结：让AI真正“动手”为你服务

Open-AutoGLM不是一个简单的自动化脚本工具，而是一个具有视觉感知、语言理解和行动能力的完整AI Agent系统。它打破了“AI只能动嘴不能动手”的局限，真正实现了“你说我做”的交互体验。

通过本文的介绍，你应该已经了解到：

如何部署Open-AutoGLM并连接手机
如何通过自然语言指令驱动AI完成复杂操作
它在内容创作、电商运营、个人效率提升等方面的实用价值

更重要的是，它是开源的，意味着你可以自由定制、二次开发，打造属于你自己的专属数字助理。

未来，随着多模态模型能力的不断提升，这类“具身智能”式的手机Agent将会越来越普及。也许不久的将来，每个人都会有一个24小时在线的AI助手，替我们处理琐碎事务，释放更多精力去做更有创造力的事。

而现在，你已经迈出了第一步。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Open-AutoGLM效率翻倍：自动处理重复手机操作