如何让AI帮你刷抖音？Open-AutoGLM实战详细步骤-开发者社区

如何让AI帮你刷抖音？Open-AutoGLM实战详细步骤

1. 前言：当大模型有了“手”

痛点引入：当前主流语音助手（如Siri、小爱同学）功能受限，仅能执行系统级指令，无法深入操作第三方App。例如，“帮我点一杯瑞幸拿铁”这类复杂任务仍需手动完成。
技术突破：Open-AutoGLM 是智谱开源的手机端 AI Agent 框架，基于视觉语言模型（VLM），具备“看懂屏幕”和“自动操作”的能力。它不仅能理解自然语言指令，还能通过 ADB 控制设备，实现真正意义上的自动化交互。
本文目标：结合 Open-AutoGLM 与智谱 BigModel API，手把手教你如何在普通电脑 + 安卓手机环境下部署 AI 手机代理，实现“打开抖音搜索指定博主并关注”等自动化操作。

Open-AutoGLM仓库地址
我自己的github账号！欢迎交流

2. 技术原理概述

2.1 核心架构解析

Phone Agent 的工作流程是一个闭环系统，包含以下四个关键环节：

屏幕感知：通过 ADB 截取手机当前界面，将图像与上下文信息输入视觉语言模型。
意图理解与规划：模型分析 UI 元素（按钮、输入框、列表项等），识别可交互控件及其坐标位置，并生成下一步操作决策。
动作执行：通过 ADB 发送点击、滑动、输入等指令到设备，模拟真实用户行为。
状态反馈与迭代：执行后再次截图上传，形成多轮推理链，直至任务完成。

该机制不依赖预设脚本，而是动态理解界面结构，具备跨应用、跨场景的泛化能力。

2.2 多模态驱动的优势

传统自动化工具（如Auto.js）依赖固定ID或文字匹配，极易因版本更新失效。而 Open-AutoGLM 使用 VLM 实现：

视觉理解：即使按钮无明确文本标签，也能通过图标、布局判断其功能。
语义对齐：用户说“刷会儿抖音”，模型可自行决定滑动频率与停留时间。
容错机制：遇到弹窗、广告等干扰时，能主动识别并跳过。

3. 环境准备与设备连接

3.1 硬件与软件要求

类别	要求
本地主机	Windows / macOS，建议 Python 3.10+
安卓设备	Android 7.0+ 真机或模拟器
网络环境	手机与电脑处于同一局域网（WiFi模式）
工具依赖	ADB、Git、pip

3.2 ADB 配置指南

ADB（Android Debug Bridge）是控制安卓设备的核心工具。

Windows 配置步骤：

下载 Android Platform Tools
解压至本地路径（如C:\platform-tools）
添加路径到系统环境变量：
Win + R→ 输入sysdm.cpl
“高级” → “环境变量” → 在“系统变量”中编辑Path
新增条目：C:\platform-tools
验证安装：

adb version

macOS 配置命令：

export PATH=${PATH}:~/Downloads/platform-tools

提示：每次重启终端需重新执行上述命令，建议写入.zshrc或.bash_profile。

3.3 手机端设置

开启开发者模式：
进入“设置” → “关于手机” → 连续点击“版本号”约7次，直到提示“您已进入开发者模式”。
启用 USB 调试：
返回“设置” → “开发者选项” → 开启“USB调试”。
安装 ADB Keyboard：
下载 APK 文件：ADBKeyboard.apk
安装命令：bash adb install -r ADBKeyboard.apk
设置默认输入法：进入“语言与输入法” → 将“ADB Keyboard”设为默认。

作用说明：ADB Keyboard 支持通过命令行输入中文，解决自动化过程中无法调用软键盘的问题。

4. 部署 Open-AutoGLM 控制端

4.1 克隆项目与安装依赖

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境（推荐） python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .

4.2 获取智谱 API Key

访问智谱 BigModel 平台
注册账号并登录
进入“API密钥管理”页面，创建新密钥
复制保存 API Key（格式为xxxxxx.yyyyyy.zzzzzz）

优势说明：使用云端 API 模式无需本地 GPU，门槛低，适合初学者；且新用户享有免费额度，性价比高。

5. 设备连接方式详解

5.1 USB 连接（推荐用于调试）

使用数据线连接手机与电脑
手机弹出“允许USB调试？”对话框 → 点击“允许”
查看设备状态：

adb devices

输出示例：

List of devices attached ABCDEF1234567890 device

若未显示设备，请检查： - 是否开启 USB 调试 - 数据线是否支持传输（部分仅充电线无效） - 是否信任该电脑（首次连接需授权）

5.2 WiFi 远程连接（适用于无线场景）

先通过 USB 连接设备
启用 TCP/IP 模式：

adb tcpip 5555

断开 USB，获取手机 IP 地址（可在“设置-网络-WiFi”中查看）
连接远程设备：

adb connect 192.168.x.x:5555

验证连接：

adb devices

注意：WiFi 连接稳定性受网络影响较大，建议在信号良好环境下使用。

6. 启动 AI 代理并执行任务

6.1 单次指令运行

使用以下命令直接执行一条自然语言指令：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_apikey_here" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明： ---base-url：智谱 API 接口地址 ---model：指定使用的模型名称 ---apikey：替换为你申请的 API 密钥 - 最后字符串：自然语言任务描述

6.2 交互式模式（推荐探索使用）

进入持续对话模式，可连续下发多个任务：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_apikey_here"

运行后会出现提示符：

Enter your task:

输入任意任务，例如：

打开小红书搜索“南京旅游攻略”

系统将自动截图、分析、规划并执行操作。

7. 常见问题与解决方案

7.1 编码错误（Windows 用户专属）

运行check_deployment_cn.py时可能出现如下报错：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 80

原因：Windows 默认编码为 GBK，但项目文件为 UTF-8 编码。

修复方法：修改scripts/check_deployment_cn.py中的文件读取代码：

# 修改前 with open(args.messages_file) as f: messages = json.load(f) # 修改后 with open(args.messages_file, encoding='utf-8') as f: messages = json.load(f)

7.2 连接失败排查清单

问题现象	可能原因	解决方案
`adb devices`无输出	USB调试未开启	检查开发者选项
显示`unauthorized`	未授权电脑	手机端确认“允许调试”
`adb connect`失败	端口未开放或IP错误	重试`adb tcpip 5555`
API 调用超时	防火墙拦截	检查网络策略或更换网络

7.3 敏感操作人工接管机制

为防止误操作（如支付、删除），系统内置安全策略： - 检测到“确认付款”、“删除聊天记录”等高风险操作时，暂停执行并等待人工确认。 - 支持验证码场景中断，由用户手动输入后再继续流程。

8. 实测案例展示

8.1 任务指令：“帮我找一个南京两天一夜旅游攻略”

AI 自动执行流程如下： 1. 打开小红书 App 2. 在搜索框输入“南京旅游攻略” 3. 浏览热门笔记，筛选点赞 >1w 的内容 4. 提取 Day1 和 Day2 行程安排 5. 汇总景点、美食、住宿建议 6. 输出结构化结果

最终输出节选：

## 📍 Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙 ### 沿途推荐： - 梧桐大道：秋天梧桐树美景 - 夫子庙：品尝李百蟹蟹黄面、金陵家宴、晚园江南火锅 ## 📍 Day2: 回龙纪念馆 → 古鸡鸣寺 → 玄武湖 → 先锋书店 → 中华门 → 老门东 ...

整个过程耗时约 90 秒，完全无需人工干预。

9. 总结

9.1 技术价值总结

Open-AutoGLM 展示了 AI Agent 在移动端的真实潜力： -自然语言驱动：用户只需表达需求，无需学习复杂操作。 -跨应用自动化：打破 App 孤岛，实现服务串联。 -视觉理解能力：适应不同 UI 风格，具备强泛化性。

9.2 实践建议

优先使用 API 模式入门：避免本地部署显存不足问题。
保持稳定连接：建议初期使用 USB 调试，提升成功率。
优化提示词表达：清晰、具体的指令更利于模型理解。
关注安全边界：勿在生产环境开启全自动模式，防止误操作。

9.3 未来展望

随着 VLM 模型轻量化发展，此类 Phone Agent 有望集成至手机系统层，成为下一代智能助理的核心形态。开发者也可基于此框架构建定制化自动化工具，应用于测试、客服、内容创作等多个领域。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

如何让AI帮你刷抖音？Open-AutoGLM实战详细步骤