从下载到运行，Open-AutoGLM完整流程视频脚本-开发者社区

从下载到运行，Open-AutoGLM完整流程视频脚本

1. 简介

Open-AutoGLM 是由智谱AI（ZhipuAI）开源的一款面向手机端的AI Agent框架，基于AutoGLM架构构建，专为自动化操作Android设备而设计。该项目采用Apache-2.0开源协议，支持本地部署、免费商用，核心能力是通过自然语言指令驱动AI完成复杂的手机操作任务。

该系统结合视觉语言模型（VLM）与ADB（Android Debug Bridge）技术，实现“截图→理解→决策→执行”的闭环控制。用户只需输入如“打开小红书搜索美食并点赞前三条内容”这样的自然语言指令，AI即可自动解析意图、识别当前界面元素、规划操作路径，并通过ADB完成点击、滑动、输入等动作。

1.1 核心特性

多模态感知：利用视觉语言模型直接分析手机屏幕图像，理解UI布局和语义信息。
自然语言驱动：无需编写代码，一句话即可触发复杂任务流程。
跨应用协同：支持在多个App之间切换执行，例如从美团点餐后分享至微信朋友圈。
安全机制完善：敏感操作（如支付、删除）需人工确认，保障账户安全。
灵活部署方式：支持本地vLLM服务、云端API调用及远程WiFi ADB连接。

2. 环境准备与硬件要求

2.1 本地电脑环境配置

要成功运行 Open-AutoGLM 控制端，需确保本地开发环境满足以下条件：

项目	要求
操作系统	Windows 10/11、macOS 10.15+ 或 Linux（Ubuntu 18.04+）
Python 版本	3.9 及以上（推荐 3.10+）
内存	建议 8GB 以上
存储空间	至少 200MB 可用空间用于代码和依赖安装
ADB 工具	必须安装并配置环境变量

安装 ADB 工具

Windows 用户：

下载 Android SDK Platform Tools 并解压。
将解压目录添加到系统PATH环境变量中：
- 按Win + R输入sysdm.cpl
- 进入“高级” → “环境变量”
- 在“系统变量”中的Path添加 ADB 解压路径
打开命令行，执行：

adb version

若返回版本号，则表示配置成功。

macOS 用户：

在终端中执行以下命令（假设 platform-tools 解压在 Downloads 目录）：

export PATH=${PATH}:~/Downloads/platform-tools

可将此行加入.zshrc或.bash_profile实现永久生效。

2.2 Android 设备设置

需要准备一台运行 Android 7.0 或更高版本的真机或模拟器，并完成以下设置：

开启开发者模式
进入「设置」→「关于手机」→ 连续点击“版本号”7次，提示已开启开发者选项。
启用 USB 调试
返回设置主界面 →「开发者选项」→ 开启“USB调试”。
安装 ADB Keyboard 输入法
- 下载 ADB Keyboard APK 并安装。
- 进入「语言与输入法」设置 → 将默认输入法切换为 ADB Keyboard。
- 此步骤确保 AI 可以通过 ADB 发送文本输入，避免权限问题。

3. 部署 Open-AutoGLM 控制端

3.1 克隆项目与安装依赖

在本地电脑上执行以下命令获取项目源码并安装所需依赖：

# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 推荐使用虚拟环境隔离依赖 python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .

注意：pip install -e .会以可编辑模式安装包，便于后续调试和扩展。

3.2 配置模型服务地址

Open-AutoGLM 本身不包含模型推理能力，需连接一个运行中的大模型服务。支持多种部署方式：

本地部署（推荐）：使用 vLLM 启动 AutoGLM-Phone-9B 模型
云端 API：调用智谱 BigModel、Hugging Face 或 ModelScope 提供的服务

启动本地模型服务（需GPU）

python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 4096 \ --tensor-parallel-size 1

启动后，模型服务将在http://localhost:8000/v1提供 OpenAI 兼容接口。

若显存不足，可尝试降低--max-model-len或使用量化版本。

4. 连接 Android 设备

4.1 使用 ADB 连接设备

确保手机通过 USB 连接到电脑，或处于同一局域网内。

查看设备状态

adb devices

正常输出应类似：

List of devices attached emulator-5554 device

如果显示unauthorized，请在手机上确认授权弹窗。

WiFi 远程连接（适用于无线调试）

首次需通过 USB 连接启用 TCP/IP 模式：

adb tcpip 5555 adb disconnect adb connect 192.168.x.x:5555

其中192.168.x.x为手机 IP 地址（可在 WLAN 设置中查看）。连接成功后可通过无线网络控制设备，方便远程调试。

5. 启动 AI 代理执行任务

5.1 命令行方式运行任务

在项目根目录下执行main.py，传入必要参数：

python main.py \ --device-id YOUR_DEVICE_ID_OR_IP:5555 \ --base-url http://YOUR_SERVER_IP:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

参数	说明
`--device-id`	ADB设备ID，可通过`adb devices`获取
`--base-url`	模型服务地址，本地为`http://localhost:8000/v1`
`--model`	模型名称，固定为`autoglm-phone-9b`
最后字符串	自然语言指令，支持中文复杂描述

示例指令：“打开微信给文件传输助手发送消息：今天天气不错”

5.2 使用 Python API 调用

对于集成到其他系统的场景，可使用 Python API 方式调用：

from phone_agent.adb import ADBConnection, list_devices from openautoglm import PhoneAgent # 初始化 ADB 连接 conn = ADBConnection() success, msg = conn.connect("192.168.1.100:5555") if not success: raise Exception(f"连接失败: {msg}") # 列出所有连接设备 devices = list_devices() for d in devices: print(f"设备: {d.device_id}, 类型: {d.connection_type}") # 创建 AI Agent 实例 agent = PhoneAgent( device_id="192.168.1.100:5555", base_url="http://192.168.1.100:8000/v1", model="autoglm-phone-9b" ) # 执行任务 result = agent.run("打开小红书搜索‘秋季穿搭’并收藏第一条笔记") print(result)

该方式适合嵌入自动化测试平台、企业RPA系统等高级应用场景。

6. 常见问题排查与优化建议

6.1 常见问题及解决方案

问题现象	可能原因	解决方案
ADB 无法识别设备	未开启USB调试或驱动异常	检查开发者选项，重插数据线，安装官方驱动
连接被拒绝（Connection Refused）	服务器防火墙未开放端口	放行对应端口（如8000），检查云服务器安全组规则
模型响应慢或乱码	显存不足或 max-model-len 设置不当	减小上下文长度，启用量化，升级GPU
文字输入失败	ADB Keyboard 未设为默认输入法	进入系统设置手动切换
ADB 断连频繁	WiFi信号不稳定	改用USB连接，或优化路由器信号

6.2 性能优化建议

优先使用USB连接：比WiFi更稳定，延迟更低。
使用高性能GPU：推荐 NVIDIA RTX 3090 或更高型号，支持BF16加速。
启用模型量化：若资源有限，可使用 GPTQ 或 AWQ 量化版本降低显存占用。
限制最大步数：通过--max-steps 20防止AI陷入无限循环。
启用交互模式调试：使用--interactive参数进行多轮对话式调试。

python main.py --interactive \ --device-id YOUR_DEVICE_ID \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b"

7. 应用场景与实践价值

7.1 社交媒体自动化运营

自媒体创作者可通过一句指令完成多平台发布任务，如：

“在抖音上传视频《AI如何改变生活》，标题为‘未来已来’，添加话题#人工智能，并@三个好友。”

AI将自动打开抖音、选择相册视频、填写标题、添加标签、@指定账号并发布，大幅提升内容生产效率。

7.2 电商抢购与比价

消费者可设定定时任务实现自动抢购：

“每天上午10点监控京东iPhone 15价格，低于6000元时立即下单并通知我。”

系统将持续截图监控页面变化，识别价格更新，在符合条件时自动点击购买按钮，抢占先机。

7.3 办公自动化

企业员工可让AI处理重复性任务：

“打开钉钉，查找昨天的会议记录，提取关键结论生成PPT大纲并保存到企业网盘。”

整个流程无需人工干预，显著提升办公效率。

7.4 老年人数字助手

子女可远程配置任务帮助父母：

“每天早上8点帮妈妈打开健康码和行程卡，准备好乘车。”

老年人只需语音唤醒助手，AI即可完成所有操作，降低智能设备使用门槛。

7.5 移动应用自动化测试

测试人员可用自然语言编写测试用例：

“测试微博登录功能，输入错误密码3次后是否弹出锁定提示。”

AI将自动生成测试路径并执行，记录每一步结果，极大降低自动化测试门槛。

8. 总结

Open-AutoGLM 作为一款开源的手机端AI Agent框架，融合了视觉语言模型与设备控制能力，实现了真正意义上的“动口不动手”智能交互体验。其核心优势在于：

自然语言驱动：无需编程基础，普通用户也能轻松使用；
多模态理解能力强：不仅能听懂指令，还能“看懂”屏幕内容；
部署灵活：支持本地、云端、远程等多种运行模式；
安全性高：敏感操作需人工确认，数据本地处理保障隐私；
应用场景广泛：覆盖个人效率、企业办公、老年辅助、自动化测试等多个领域。

随着多模态AI技术的发展，Open-AutoGLM 正在推动人机交互方式的根本变革——从“手动操作App”迈向“用语言指挥设备”，成为下一代移动智能的重要基础设施。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

从下载到运行，Open-AutoGLM完整流程视频脚本