从下载到运行,Open-AutoGLM完整流程视频脚本
1. 简介
Open-AutoGLM 是由智谱AI(ZhipuAI)开源的一款面向手机端的AI Agent框架,基于AutoGLM架构构建,专为自动化操作Android设备而设计。该项目采用Apache-2.0开源协议,支持本地部署、免费商用,核心能力是通过自然语言指令驱动AI完成复杂的手机操作任务。
该系统结合视觉语言模型(VLM)与ADB(Android Debug Bridge)技术,实现“截图→理解→决策→执行”的闭环控制。用户只需输入如“打开小红书搜索美食并点赞前三条内容”这样的自然语言指令,AI即可自动解析意图、识别当前界面元素、规划操作路径,并通过ADB完成点击、滑动、输入等动作。
1.1 核心特性
- 多模态感知:利用视觉语言模型直接分析手机屏幕图像,理解UI布局和语义信息。
- 自然语言驱动:无需编写代码,一句话即可触发复杂任务流程。
- 跨应用协同:支持在多个App之间切换执行,例如从美团点餐后分享至微信朋友圈。
- 安全机制完善:敏感操作(如支付、删除)需人工确认,保障账户安全。
- 灵活部署方式:支持本地vLLM服务、云端API调用及远程WiFi ADB连接。
2. 环境准备与硬件要求
2.1 本地电脑环境配置
要成功运行 Open-AutoGLM 控制端,需确保本地开发环境满足以下条件:
| 项目 | 要求 |
|---|---|
| 操作系统 | Windows 10/11、macOS 10.15+ 或 Linux(Ubuntu 18.04+) |
| Python 版本 | 3.9 及以上(推荐 3.10+) |
| 内存 | 建议 8GB 以上 |
| 存储空间 | 至少 200MB 可用空间用于代码和依赖安装 |
| ADB 工具 | 必须安装并配置环境变量 |
安装 ADB 工具
Windows 用户:
- 下载 Android SDK Platform Tools 并解压。
- 将解压目录添加到系统
PATH环境变量中:- 按
Win + R输入sysdm.cpl - 进入“高级” → “环境变量”
- 在“系统变量”中的
Path添加 ADB 解压路径
- 按
- 打开命令行,执行:
adb version若返回版本号,则表示配置成功。
macOS 用户:
在终端中执行以下命令(假设 platform-tools 解压在 Downloads 目录):
export PATH=${PATH}:~/Downloads/platform-tools可将此行加入.zshrc或.bash_profile实现永久生效。
2.2 Android 设备设置
需要准备一台运行 Android 7.0 或更高版本的真机或模拟器,并完成以下设置:
开启开发者模式
进入「设置」→「关于手机」→ 连续点击“版本号”7次,提示已开启开发者选项。启用 USB 调试
返回设置主界面 →「开发者选项」→ 开启“USB调试”。安装 ADB Keyboard 输入法
- 下载 ADB Keyboard APK 并安装。
- 进入「语言与输入法」设置 → 将默认输入法切换为 ADB Keyboard。
- 此步骤确保 AI 可以通过 ADB 发送文本输入,避免权限问题。
3. 部署 Open-AutoGLM 控制端
3.1 克隆项目与安装依赖
在本地电脑上执行以下命令获取项目源码并安装所需依赖:
# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 推荐使用虚拟环境隔离依赖 python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .注意:
pip install -e .会以可编辑模式安装包,便于后续调试和扩展。
3.2 配置模型服务地址
Open-AutoGLM 本身不包含模型推理能力,需连接一个运行中的大模型服务。支持多种部署方式:
- 本地部署(推荐):使用 vLLM 启动 AutoGLM-Phone-9B 模型
- 云端 API:调用智谱 BigModel、Hugging Face 或 ModelScope 提供的服务
启动本地模型服务(需GPU)
python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 4096 \ --tensor-parallel-size 1启动后,模型服务将在http://localhost:8000/v1提供 OpenAI 兼容接口。
若显存不足,可尝试降低
--max-model-len或使用量化版本。
4. 连接 Android 设备
4.1 使用 ADB 连接设备
确保手机通过 USB 连接到电脑,或处于同一局域网内。
查看设备状态
adb devices正常输出应类似:
List of devices attached emulator-5554 device如果显示unauthorized,请在手机上确认授权弹窗。
WiFi 远程连接(适用于无线调试)
首次需通过 USB 连接启用 TCP/IP 模式:
adb tcpip 5555 adb disconnect adb connect 192.168.x.x:5555其中192.168.x.x为手机 IP 地址(可在 WLAN 设置中查看)。连接成功后可通过无线网络控制设备,方便远程调试。
5. 启动 AI 代理执行任务
5.1 命令行方式运行任务
在项目根目录下执行main.py,传入必要参数:
python main.py \ --device-id YOUR_DEVICE_ID_OR_IP:5555 \ --base-url http://YOUR_SERVER_IP:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
| 参数 | 说明 |
|---|---|
--device-id | ADB设备ID,可通过adb devices获取 |
--base-url | 模型服务地址,本地为http://localhost:8000/v1 |
--model | 模型名称,固定为autoglm-phone-9b |
| 最后字符串 | 自然语言指令,支持中文复杂描述 |
示例指令:“打开微信给文件传输助手发送消息:今天天气不错”
5.2 使用 Python API 调用
对于集成到其他系统的场景,可使用 Python API 方式调用:
from phone_agent.adb import ADBConnection, list_devices from openautoglm import PhoneAgent # 初始化 ADB 连接 conn = ADBConnection() success, msg = conn.connect("192.168.1.100:5555") if not success: raise Exception(f"连接失败: {msg}") # 列出所有连接设备 devices = list_devices() for d in devices: print(f"设备: {d.device_id}, 类型: {d.connection_type}") # 创建 AI Agent 实例 agent = PhoneAgent( device_id="192.168.1.100:5555", base_url="http://192.168.1.100:8000/v1", model="autoglm-phone-9b" ) # 执行任务 result = agent.run("打开小红书搜索‘秋季穿搭’并收藏第一条笔记") print(result)该方式适合嵌入自动化测试平台、企业RPA系统等高级应用场景。
6. 常见问题排查与优化建议
6.1 常见问题及解决方案
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
| ADB 无法识别设备 | 未开启USB调试或驱动异常 | 检查开发者选项,重插数据线,安装官方驱动 |
| 连接被拒绝(Connection Refused) | 服务器防火墙未开放端口 | 放行对应端口(如8000),检查云服务器安全组规则 |
| 模型响应慢或乱码 | 显存不足或 max-model-len 设置不当 | 减小上下文长度,启用量化,升级GPU |
| 文字输入失败 | ADB Keyboard 未设为默认输入法 | 进入系统设置手动切换 |
| ADB 断连频繁 | WiFi信号不稳定 | 改用USB连接,或优化路由器信号 |
6.2 性能优化建议
- 优先使用USB连接:比WiFi更稳定,延迟更低。
- 使用高性能GPU:推荐 NVIDIA RTX 3090 或更高型号,支持BF16加速。
- 启用模型量化:若资源有限,可使用 GPTQ 或 AWQ 量化版本降低显存占用。
- 限制最大步数:通过
--max-steps 20防止AI陷入无限循环。 - 启用交互模式调试:使用
--interactive参数进行多轮对话式调试。
python main.py --interactive \ --device-id YOUR_DEVICE_ID \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b"7. 应用场景与实践价值
7.1 社交媒体自动化运营
自媒体创作者可通过一句指令完成多平台发布任务,如:
“在抖音上传视频《AI如何改变生活》,标题为‘未来已来’,添加话题#人工智能,并@三个好友。”
AI将自动打开抖音、选择相册视频、填写标题、添加标签、@指定账号并发布,大幅提升内容生产效率。
7.2 电商抢购与比价
消费者可设定定时任务实现自动抢购:
“每天上午10点监控京东iPhone 15价格,低于6000元时立即下单并通知我。”
系统将持续截图监控页面变化,识别价格更新,在符合条件时自动点击购买按钮,抢占先机。
7.3 办公自动化
企业员工可让AI处理重复性任务:
“打开钉钉,查找昨天的会议记录,提取关键结论生成PPT大纲并保存到企业网盘。”
整个流程无需人工干预,显著提升办公效率。
7.4 老年人数字助手
子女可远程配置任务帮助父母:
“每天早上8点帮妈妈打开健康码和行程卡,准备好乘车。”
老年人只需语音唤醒助手,AI即可完成所有操作,降低智能设备使用门槛。
7.5 移动应用自动化测试
测试人员可用自然语言编写测试用例:
“测试微博登录功能,输入错误密码3次后是否弹出锁定提示。”
AI将自动生成测试路径并执行,记录每一步结果,极大降低自动化测试门槛。
8. 总结
Open-AutoGLM 作为一款开源的手机端AI Agent框架,融合了视觉语言模型与设备控制能力,实现了真正意义上的“动口不动手”智能交互体验。其核心优势在于:
- 自然语言驱动:无需编程基础,普通用户也能轻松使用;
- 多模态理解能力强:不仅能听懂指令,还能“看懂”屏幕内容;
- 部署灵活:支持本地、云端、远程等多种运行模式;
- 安全性高:敏感操作需人工确认,数据本地处理保障隐私;
- 应用场景广泛:覆盖个人效率、企业办公、老年辅助、自动化测试等多个领域。
随着多模态AI技术的发展,Open-AutoGLM 正在推动人机交互方式的根本变革——从“手动操作App”迈向“用语言指挥设备”,成为下一代移动智能的重要基础设施。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。