Open-AutoGLM效率翻倍:自动处理重复手机操作
你有没有这样的经历?每天要重复打开同一个App、搜索相同关键词、点击固定按钮,比如刷小红书看美食推荐、在抖音关注新博主、定时查看某个账号动态……这些操作看似简单,但日积月累却消耗了大量时间。
如果能让AI帮你“动手”完成这些操作,你只需要说一句:“打开小红书搜美食”,剩下的全由它自动执行——点开App、输入关键词、滑动浏览、甚至关注账号,是不是听起来像未来科技?但现在,这一切已经可以实现。
今天要介绍的Open-AutoGLM,正是这样一个能真正“替你操作手机”的AI智能助理框架。它不是简单的脚本工具,而是一个具备视觉理解与决策能力的多模态Agent,能够像人一样“看懂屏幕”,再通过自然语言指令驱动设备自动化运行。
本文将带你从零开始了解这个项目的原理、部署方式和实际应用场景,手把手教你如何让AI成为你的“数字分身”。
1. 什么是Open-AutoGLM?
Open-AutoGLM是由智谱开源推出的手机端AI Agent框架,核心组件名为Phone Agent。它的目标很明确:让用户用一句话,就能让AI自动完成复杂的手机操作流程。
比如:
- “打开抖音搜索抖音号为dycwo11nt61d的博主并关注他!”
- “帮我打开美团,找附近评分4.5以上的火锅店。”
- “进入微信,给张三发消息‘今晚聚餐改到7点’。”
这些指令不需要你写代码、设规则,AI会自己分析当前屏幕内容,判断下一步该点击哪里、输入什么文字,并通过ADB(Android Debug Bridge)真实操控你的安卓设备。
核心能力亮点
| 能力 | 说明 |
|---|---|
| 多模态感知 | 结合视觉语言模型(VLM),能“读懂”屏幕上显示的文字、图标、布局结构 |
| 自然语言驱动 | 用户只需用中文或英文描述任务,无需编程基础 |
| 真实设备控制 | 基于ADB协议模拟点击、滑动、输入等人类操作行为 |
| 智能规划与执行 | AI自动拆解任务步骤,动态调整策略应对界面变化 |
| 安全机制完善 | 敏感操作(如支付、登录)支持人工确认,验证码场景可临时接管 |
更厉害的是,它不仅能在本地运行,还能把模型部署在云端,通过WiFi远程控制手机,真正做到“人在外面,手机在家替你干活”。
2. 技术架构解析:它是怎么做到的?
Open-AutoGLM 的工作流程可以分为四个关键环节:感知 → 理解 → 规划 → 执行。
2.1 屏幕感知:AI也能“看见”手机画面
传统自动化工具依赖固定的UI元素定位(比如ID、坐标),一旦App更新界面就容易失效。而Open-AutoGLM使用视觉语言模型(VLM),直接对手机屏幕截图进行分析。
每次执行操作前,系统会通过ADB获取当前屏幕截图,然后送入模型中处理。模型不仅能识别出“这是一个搜索框”、“那个是返回按钮”,还能结合上下文理解语义,比如:
“这个红色的心形图标,在小红书里通常代表‘点赞’功能。”
这种基于图像的理解方式,极大提升了系统的鲁棒性和泛化能力。
2.2 指令理解:把你说的话变成任务目标
当你输入“打开小红书搜美食”时,AI需要先理解这句话的核心意图。这一步依赖于大模型的语言理解能力。
模型会将自然语言转化为结构化任务描述,例如:
{ "app": "小红书", "action": "搜索", "query": "美食" }同时还会生成一系列中间目标,如“启动App” → “找到搜索栏” → “输入关键词” → “触发搜索”。
2.3 动作规划:一步步推演该怎么操作
有了任务目标后,AI开始规划具体的操作路径。这个过程类似于下棋:每走一步都要预判结果。
例如,在“输入关键词”阶段,AI会思考:
- 当前页面是否有输入框?
- 输入框是否可编辑?
- 是否需要先点击才能激活?
它会根据屏幕信息做出决策,并选择最合适的动作类型:
tap(x, y):点击坐标swipe(start_x, start_y, end_x, end_y):滑动type(text):输入文本press_back():返回键
所有动作都通过ADB发送到设备执行。
2.4 安全与容错机制
为了防止误操作,系统内置了多重保护机制:
- 敏感操作拦截:涉及支付、删除、权限申请等高风险动作时,会暂停并提示用户确认。
- 人工接管模式:遇到验证码、弹窗广告等情况,可手动干预后再交还控制权。
- 远程调试支持:可通过WiFi连接设备,方便开发者调试或远程管理。
3. 快速上手:三步搭建你的AI手机助手
现在我们来实战部署Open-AutoGLM,整个过程分为三部分:环境准备、代码部署、启动代理。
3.1 硬件与软件准备
你需要准备以下几样东西:
| 项目 | 要求 |
|---|---|
| 电脑 | Windows 或 macOS,建议Python 3.10+ |
| 手机 | Android 7.0以上的真实设备或模拟器 |
| ADB工具 | 用于连接和控制手机 |
| 网络 | 电脑与手机在同一局域网(若使用WiFi连接) |
安装ADB工具
Windows用户:
- 下载Android SDK Platform Tools
- 解压后,将文件夹路径添加到系统环境变量
Path - 打开命令行,输入
adb version验证是否安装成功
macOS用户:
# 假设platform-tools解压在Downloads目录 export PATH=${PATH}:~/Downloads/platform-tools adb version3.2 手机端设置
为了让电脑能控制手机,需开启开发者权限:
- 进入【设置】→【关于手机】→连续点击“版本号”7次,开启开发者模式
- 返回设置主菜单 →【开发者选项】→勾选“USB调试”
- 安装 ADB Keyboard APK
- 下载安装后,在【语言与输入法】中将其设为默认输入法
- 这样AI才能向输入框发送文字
3.3 部署控制端代码
接下来在本地电脑下载并安装Open-AutoGLM:
# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .3.4 连接设备
确保手机通过USB线连接电脑,或处于同一WiFi网络下。
USB连接方式
adb devices如果输出类似:
List of devices attached ABCDEF1234567890 device说明设备已识别。
WiFi无线连接(推荐)
首次需用USB连接,启用TCP/IP模式:
adb tcpip 5555断开USB线,用IP地址连接:
adb connect 192.168.x.x:5555之后即可无线操控,摆脱数据线束缚。
4. 启动AI代理:让它开始替你操作手机
一切准备就绪,现在可以启动AI代理了。
4.1 模型服务部署(云端或本地)
Open-AutoGLM依赖一个支持多模态的大模型服务。你可以选择本地部署或使用云服务器。
以vLLM为例,启动模型服务:
python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model zai-org/AutoGLM-Phone-9B \ --port 8000启动成功后,服务地址为:http://<你的IP>:8000/v1
注意:请确保云服务器防火墙开放对应端口(如8000),否则无法访问。
4.2 命令行运行AI代理
在项目根目录执行:
python main.py \ --device-id ABCDEF1234567890 \ --base-url http://192.168.1.100:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:通过adb devices获取的设备ID--base-url:模型服务的公网IP和端口- 最后的字符串:你要下达的自然语言指令
执行过程中,你会看到AI逐步输出思考过程:
[INFO] 正在启动抖音... [INFO] 找到搜索图标,点击坐标(540, 120) [INFO] 输入搜索词:dycwo11nt61d [INFO] 触发搜索,滑动查找目标账号 [INFO] 找到用户“XXX”,正在点击关注按钮... [SUCCESS] 关注成功!整个过程无需人工干预,完全自动化完成。
4.3 使用Python API集成到项目中
如果你希望将这项能力嵌入自己的应用,也可以使用Python API:
from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型连接 model_config = ModelConfig( base_url="http://192.168.1.100:8000/v1", model_name="autoglm-phone-9b" ) # 创建代理实例 agent = PhoneAgent(model_config=model_config) # 执行任务 result = agent.run("打开淘宝搜索无线耳机") print(result)这种方式适合做批量任务处理、定时自动化脚本等高级用途。
5. 实际应用场景:哪些事可以让AI代劳?
Open-AutoGLM的强大之处在于其通用性。只要是可以通过点击、滑动、输入完成的操作,理论上都能交给AI。
以下是几个典型的应用场景:
5.1 内容创作者:高效运营多个账号
- 自动发布图文/视频
- 批量关注同行账号
- 回复粉丝评论
- 监控竞品动态
比如你是小红书博主,每天要检查10个对标账号更新情况,现在只需一句“依次打开这10个账号主页,截图最新笔记”,AI就能帮你完成。
5.2 电商从业者:快速比价与选品
- 自动打开京东、淘宝、拼多多,搜索同一商品
- 截图价格、评价、销量数据
- 生成对比报告
节省大量手动切换App、复制粘贴的时间。
5.3 普通用户:简化日常操作
- 每天早上自动打开健康码、打卡企业微信
- 定时查看快递进度
- 自动填写表单信息(配合ADB Keyboard)
- 替你抢限量商品(需配合精准时机)
5.4 开发者:自动化测试新利器
- 替代传统UI自动化测试框架
- 支持跨App流程测试
- 可读性强的自然语言测试用例
不再需要维护复杂的XPath或ID定位逻辑。
6. 常见问题与解决方案
在实际使用中可能会遇到一些问题,这里列出常见故障及应对方法:
| 问题 | 可能原因 | 解决方案 |
|---|---|---|
| ADB连接失败 | USB调试未开启 | 检查开发者选项中的“USB调试”是否启用 |
| 设备离线 | 驱动未安装(Windows) | 安装手机厂商官方驱动或使用豌豆荚等工具辅助 |
| 输入失败 | ADB Keyboard未设为默认输入法 | 进入【设置】→【语言与输入法】中切换 |
| 模型无响应 | 端口未开放或IP错误 | 检查云服务器防火墙规则,确认base-url正确 |
| 执行卡住 | 界面跳转延迟 | 调整等待超时时间,或增加重试机制 |
| 图片上传失败 | vLLM参数配置不当 | 确保--allowed-local-media-path /已设置 |
小贴士:初次使用建议先用USB连接调试,稳定后再切换为WiFi远程模式。
7. 总结:让AI真正“动手”为你服务
Open-AutoGLM不是一个简单的自动化脚本工具,而是一个具有视觉感知、语言理解和行动能力的完整AI Agent系统。它打破了“AI只能动嘴不能动手”的局限,真正实现了“你说我做”的交互体验。
通过本文的介绍,你应该已经了解到:
- 如何部署Open-AutoGLM并连接手机
- 如何通过自然语言指令驱动AI完成复杂操作
- 它在内容创作、电商运营、个人效率提升等方面的实用价值
更重要的是,它是开源的,意味着你可以自由定制、二次开发,打造属于你自己的专属数字助理。
未来,随着多模态模型能力的不断提升,这类“具身智能”式的手机Agent将会越来越普及。也许不久的将来,每个人都会有一个24小时在线的AI助手,替我们处理琐碎事务,释放更多精力去做更有创造力的事。
而现在,你已经迈出了第一步。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。