如何让AI帮你刷抖音?Open-AutoGLM实战详细步骤
1. 前言:当大模型有了“手”
- 痛点引入:当前主流语音助手(如Siri、小爱同学)功能受限,仅能执行系统级指令,无法深入操作第三方App。例如,“帮我点一杯瑞幸拿铁”这类复杂任务仍需手动完成。
- 技术突破:Open-AutoGLM 是智谱开源的手机端 AI Agent 框架,基于视觉语言模型(VLM),具备“看懂屏幕”和“自动操作”的能力。它不仅能理解自然语言指令,还能通过 ADB 控制设备,实现真正意义上的自动化交互。
- 本文目标:结合 Open-AutoGLM 与智谱 BigModel API,手把手教你如何在普通电脑 + 安卓手机环境下部署 AI 手机代理,实现“打开抖音搜索指定博主并关注”等自动化操作。
Open-AutoGLM仓库地址
我自己的github账号!欢迎交流
2. 技术原理概述
2.1 核心架构解析
Phone Agent 的工作流程是一个闭环系统,包含以下四个关键环节:
- 屏幕感知:通过 ADB 截取手机当前界面,将图像与上下文信息输入视觉语言模型。
- 意图理解与规划:模型分析 UI 元素(按钮、输入框、列表项等),识别可交互控件及其坐标位置,并生成下一步操作决策。
- 动作执行:通过 ADB 发送点击、滑动、输入等指令到设备,模拟真实用户行为。
- 状态反馈与迭代:执行后再次截图上传,形成多轮推理链,直至任务完成。
该机制不依赖预设脚本,而是动态理解界面结构,具备跨应用、跨场景的泛化能力。
2.2 多模态驱动的优势
传统自动化工具(如Auto.js)依赖固定ID或文字匹配,极易因版本更新失效。而 Open-AutoGLM 使用 VLM 实现:
- 视觉理解:即使按钮无明确文本标签,也能通过图标、布局判断其功能。
- 语义对齐:用户说“刷会儿抖音”,模型可自行决定滑动频率与停留时间。
- 容错机制:遇到弹窗、广告等干扰时,能主动识别并跳过。
3. 环境准备与设备连接
3.1 硬件与软件要求
| 类别 | 要求 |
|---|---|
| 本地主机 | Windows / macOS,建议 Python 3.10+ |
| 安卓设备 | Android 7.0+ 真机或模拟器 |
| 网络环境 | 手机与电脑处于同一局域网(WiFi模式) |
| 工具依赖 | ADB、Git、pip |
3.2 ADB 配置指南
ADB(Android Debug Bridge)是控制安卓设备的核心工具。
Windows 配置步骤:
- 下载 Android Platform Tools
- 解压至本地路径(如
C:\platform-tools) - 添加路径到系统环境变量:
Win + R→ 输入sysdm.cpl- “高级” → “环境变量” → 在“系统变量”中编辑
Path - 新增条目:
C:\platform-tools - 验证安装:
adb versionmacOS 配置命令:
export PATH=${PATH}:~/Downloads/platform-tools提示:每次重启终端需重新执行上述命令,建议写入
.zshrc或.bash_profile。
3.3 手机端设置
- 开启开发者模式:
进入“设置” → “关于手机” → 连续点击“版本号”约7次,直到提示“您已进入开发者模式”。
启用 USB 调试:
返回“设置” → “开发者选项” → 开启“USB调试”。
安装 ADB Keyboard:
- 下载 APK 文件:ADBKeyboard.apk
- 安装命令:
bash adb install -r ADBKeyboard.apk - 设置默认输入法:进入“语言与输入法” → 将“ADB Keyboard”设为默认。
作用说明:ADB Keyboard 支持通过命令行输入中文,解决自动化过程中无法调用软键盘的问题。
4. 部署 Open-AutoGLM 控制端
4.1 克隆项目与安装依赖
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐) python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .4.2 获取智谱 API Key
- 访问 智谱 BigModel 平台
- 注册账号并登录
- 进入“API密钥管理”页面,创建新密钥
- 复制保存 API Key(格式为
xxxxxx.yyyyyy.zzzzzz)
优势说明:使用云端 API 模式无需本地 GPU,门槛低,适合初学者;且新用户享有免费额度,性价比高。
5. 设备连接方式详解
5.1 USB 连接(推荐用于调试)
- 使用数据线连接手机与电脑
- 手机弹出“允许USB调试?”对话框 → 点击“允许”
- 查看设备状态:
adb devices输出示例:
List of devices attached ABCDEF1234567890 device若未显示设备,请检查: - 是否开启 USB 调试 - 数据线是否支持传输(部分仅充电线无效) - 是否信任该电脑(首次连接需授权)
5.2 WiFi 远程连接(适用于无线场景)
- 先通过 USB 连接设备
- 启用 TCP/IP 模式:
adb tcpip 5555- 断开 USB,获取手机 IP 地址(可在“设置-网络-WiFi”中查看)
- 连接远程设备:
adb connect 192.168.x.x:5555- 验证连接:
adb devices注意:WiFi 连接稳定性受网络影响较大,建议在信号良好环境下使用。
6. 启动 AI 代理并执行任务
6.1 单次指令运行
使用以下命令直接执行一条自然语言指令:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_apikey_here" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明: ---base-url:智谱 API 接口地址 ---model:指定使用的模型名称 ---apikey:替换为你申请的 API 密钥 - 最后字符串:自然语言任务描述
6.2 交互式模式(推荐探索使用)
进入持续对话模式,可连续下发多个任务:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_apikey_here"运行后会出现提示符:
Enter your task:输入任意任务,例如:
打开小红书搜索“南京旅游攻略”系统将自动截图、分析、规划并执行操作。
7. 常见问题与解决方案
7.1 编码错误(Windows 用户专属)
运行check_deployment_cn.py时可能出现如下报错:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 80原因:Windows 默认编码为 GBK,但项目文件为 UTF-8 编码。
修复方法:修改scripts/check_deployment_cn.py中的文件读取代码:
# 修改前 with open(args.messages_file) as f: messages = json.load(f) # 修改后 with open(args.messages_file, encoding='utf-8') as f: messages = json.load(f)7.2 连接失败排查清单
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
adb devices无输出 | USB调试未开启 | 检查开发者选项 |
显示unauthorized | 未授权电脑 | 手机端确认“允许调试” |
adb connect失败 | 端口未开放或IP错误 | 重试adb tcpip 5555 |
| API 调用超时 | 防火墙拦截 | 检查网络策略或更换网络 |
7.3 敏感操作人工接管机制
为防止误操作(如支付、删除),系统内置安全策略: - 检测到“确认付款”、“删除聊天记录”等高风险操作时,暂停执行并等待人工确认。 - 支持验证码场景中断,由用户手动输入后再继续流程。
8. 实测案例展示
8.1 任务指令:“帮我找一个南京两天一夜旅游攻略”
AI 自动执行流程如下: 1. 打开小红书 App 2. 在搜索框输入“南京 旅游 攻略” 3. 浏览热门笔记,筛选点赞 >1w 的内容 4. 提取 Day1 和 Day2 行程安排 5. 汇总景点、美食、住宿建议 6. 输出结构化结果
最终输出节选:
## 📍 Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙 ### 沿途推荐: - 梧桐大道:秋天梧桐树美景 - 夫子庙:品尝李百蟹蟹黄面、金陵家宴、晚园江南火锅 ## 📍 Day2: 回龙纪念馆 → 古鸡鸣寺 → 玄武湖 → 先锋书店 → 中华门 → 老门东 ...整个过程耗时约 90 秒,完全无需人工干预。
9. 总结
9.1 技术价值总结
Open-AutoGLM 展示了 AI Agent 在移动端的真实潜力: -自然语言驱动:用户只需表达需求,无需学习复杂操作。 -跨应用自动化:打破 App 孤岛,实现服务串联。 -视觉理解能力:适应不同 UI 风格,具备强泛化性。
9.2 实践建议
- 优先使用 API 模式入门:避免本地部署显存不足问题。
- 保持稳定连接:建议初期使用 USB 调试,提升成功率。
- 优化提示词表达:清晰、具体的指令更利于模型理解。
- 关注安全边界:勿在生产环境开启全自动模式,防止误操作。
9.3 未来展望
随着 VLM 模型轻量化发展,此类 Phone Agent 有望集成至手机系统层,成为下一代智能助理的核心形态。开发者也可基于此框架构建定制化自动化工具,应用于测试、客服、内容创作等多个领域。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。