news 2026/2/11 3:41:45

如何让AI帮你刷抖音?Open-AutoGLM实战详细步骤

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何让AI帮你刷抖音?Open-AutoGLM实战详细步骤

如何让AI帮你刷抖音?Open-AutoGLM实战详细步骤

1. 前言:当大模型有了“手”

  • 痛点引入:当前主流语音助手(如Siri、小爱同学)功能受限,仅能执行系统级指令,无法深入操作第三方App。例如,“帮我点一杯瑞幸拿铁”这类复杂任务仍需手动完成。
  • 技术突破:Open-AutoGLM 是智谱开源的手机端 AI Agent 框架,基于视觉语言模型(VLM),具备“看懂屏幕”和“自动操作”的能力。它不仅能理解自然语言指令,还能通过 ADB 控制设备,实现真正意义上的自动化交互。
  • 本文目标:结合 Open-AutoGLM 与智谱 BigModel API,手把手教你如何在普通电脑 + 安卓手机环境下部署 AI 手机代理,实现“打开抖音搜索指定博主并关注”等自动化操作。

Open-AutoGLM仓库地址
我自己的github账号!欢迎交流


2. 技术原理概述

2.1 核心架构解析

Phone Agent 的工作流程是一个闭环系统,包含以下四个关键环节:

  1. 屏幕感知:通过 ADB 截取手机当前界面,将图像与上下文信息输入视觉语言模型。
  2. 意图理解与规划:模型分析 UI 元素(按钮、输入框、列表项等),识别可交互控件及其坐标位置,并生成下一步操作决策。
  3. 动作执行:通过 ADB 发送点击、滑动、输入等指令到设备,模拟真实用户行为。
  4. 状态反馈与迭代:执行后再次截图上传,形成多轮推理链,直至任务完成。

该机制不依赖预设脚本,而是动态理解界面结构,具备跨应用、跨场景的泛化能力。

2.2 多模态驱动的优势

传统自动化工具(如Auto.js)依赖固定ID或文字匹配,极易因版本更新失效。而 Open-AutoGLM 使用 VLM 实现:

  • 视觉理解:即使按钮无明确文本标签,也能通过图标、布局判断其功能。
  • 语义对齐:用户说“刷会儿抖音”,模型可自行决定滑动频率与停留时间。
  • 容错机制:遇到弹窗、广告等干扰时,能主动识别并跳过。

3. 环境准备与设备连接

3.1 硬件与软件要求

类别要求
本地主机Windows / macOS,建议 Python 3.10+
安卓设备Android 7.0+ 真机或模拟器
网络环境手机与电脑处于同一局域网(WiFi模式)
工具依赖ADB、Git、pip

3.2 ADB 配置指南

ADB(Android Debug Bridge)是控制安卓设备的核心工具。

Windows 配置步骤:
  1. 下载 Android Platform Tools
  2. 解压至本地路径(如C:\platform-tools
  3. 添加路径到系统环境变量:
  4. Win + R→ 输入sysdm.cpl
  5. “高级” → “环境变量” → 在“系统变量”中编辑Path
  6. 新增条目:C:\platform-tools
  7. 验证安装:
adb version
macOS 配置命令:
export PATH=${PATH}:~/Downloads/platform-tools

提示:每次重启终端需重新执行上述命令,建议写入.zshrc.bash_profile

3.3 手机端设置

  1. 开启开发者模式
  2. 进入“设置” → “关于手机” → 连续点击“版本号”约7次,直到提示“您已进入开发者模式”。

  3. 启用 USB 调试

  4. 返回“设置” → “开发者选项” → 开启“USB调试”。

  5. 安装 ADB Keyboard

  6. 下载 APK 文件:ADBKeyboard.apk
  7. 安装命令:bash adb install -r ADBKeyboard.apk
  8. 设置默认输入法:进入“语言与输入法” → 将“ADB Keyboard”设为默认。

作用说明:ADB Keyboard 支持通过命令行输入中文,解决自动化过程中无法调用软键盘的问题。


4. 部署 Open-AutoGLM 控制端

4.1 克隆项目与安装依赖

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐) python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .

4.2 获取智谱 API Key

  1. 访问 智谱 BigModel 平台
  2. 注册账号并登录
  3. 进入“API密钥管理”页面,创建新密钥
  4. 复制保存 API Key(格式为xxxxxx.yyyyyy.zzzzzz

优势说明:使用云端 API 模式无需本地 GPU,门槛低,适合初学者;且新用户享有免费额度,性价比高。


5. 设备连接方式详解

5.1 USB 连接(推荐用于调试)

  1. 使用数据线连接手机与电脑
  2. 手机弹出“允许USB调试?”对话框 → 点击“允许”
  3. 查看设备状态:
adb devices

输出示例:

List of devices attached ABCDEF1234567890 device

若未显示设备,请检查: - 是否开启 USB 调试 - 数据线是否支持传输(部分仅充电线无效) - 是否信任该电脑(首次连接需授权)

5.2 WiFi 远程连接(适用于无线场景)

  1. 先通过 USB 连接设备
  2. 启用 TCP/IP 模式:
adb tcpip 5555
  1. 断开 USB,获取手机 IP 地址(可在“设置-网络-WiFi”中查看)
  2. 连接远程设备:
adb connect 192.168.x.x:5555
  1. 验证连接:
adb devices

注意:WiFi 连接稳定性受网络影响较大,建议在信号良好环境下使用。


6. 启动 AI 代理并执行任务

6.1 单次指令运行

使用以下命令直接执行一条自然语言指令:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_apikey_here" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明: ---base-url:智谱 API 接口地址 ---model:指定使用的模型名称 ---apikey:替换为你申请的 API 密钥 - 最后字符串:自然语言任务描述

6.2 交互式模式(推荐探索使用)

进入持续对话模式,可连续下发多个任务:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_apikey_here"

运行后会出现提示符:

Enter your task:

输入任意任务,例如:

打开小红书搜索“南京旅游攻略”

系统将自动截图、分析、规划并执行操作。


7. 常见问题与解决方案

7.1 编码错误(Windows 用户专属)

运行check_deployment_cn.py时可能出现如下报错:

UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 80

原因:Windows 默认编码为 GBK,但项目文件为 UTF-8 编码。

修复方法:修改scripts/check_deployment_cn.py中的文件读取代码:

# 修改前 with open(args.messages_file) as f: messages = json.load(f) # 修改后 with open(args.messages_file, encoding='utf-8') as f: messages = json.load(f)

7.2 连接失败排查清单

问题现象可能原因解决方案
adb devices无输出USB调试未开启检查开发者选项
显示unauthorized未授权电脑手机端确认“允许调试”
adb connect失败端口未开放或IP错误重试adb tcpip 5555
API 调用超时防火墙拦截检查网络策略或更换网络

7.3 敏感操作人工接管机制

为防止误操作(如支付、删除),系统内置安全策略: - 检测到“确认付款”、“删除聊天记录”等高风险操作时,暂停执行并等待人工确认。 - 支持验证码场景中断,由用户手动输入后再继续流程。


8. 实测案例展示

8.1 任务指令:“帮我找一个南京两天一夜旅游攻略”

AI 自动执行流程如下: 1. 打开小红书 App 2. 在搜索框输入“南京 旅游 攻略” 3. 浏览热门笔记,筛选点赞 >1w 的内容 4. 提取 Day1 和 Day2 行程安排 5. 汇总景点、美食、住宿建议 6. 输出结构化结果

最终输出节选:

## 📍 Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙 ### 沿途推荐: - 梧桐大道:秋天梧桐树美景 - 夫子庙:品尝李百蟹蟹黄面、金陵家宴、晚园江南火锅 ## 📍 Day2: 回龙纪念馆 → 古鸡鸣寺 → 玄武湖 → 先锋书店 → 中华门 → 老门东 ...

整个过程耗时约 90 秒,完全无需人工干预。


9. 总结

9.1 技术价值总结

Open-AutoGLM 展示了 AI Agent 在移动端的真实潜力: -自然语言驱动:用户只需表达需求,无需学习复杂操作。 -跨应用自动化:打破 App 孤岛,实现服务串联。 -视觉理解能力:适应不同 UI 风格,具备强泛化性。

9.2 实践建议

  1. 优先使用 API 模式入门:避免本地部署显存不足问题。
  2. 保持稳定连接:建议初期使用 USB 调试,提升成功率。
  3. 优化提示词表达:清晰、具体的指令更利于模型理解。
  4. 关注安全边界:勿在生产环境开启全自动模式,防止误操作。

9.3 未来展望

随着 VLM 模型轻量化发展,此类 Phone Agent 有望集成至手机系统层,成为下一代智能助理的核心形态。开发者也可基于此框架构建定制化自动化工具,应用于测试、客服、内容创作等多个领域。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/7 14:55:42

IINA播放器:macOS视频播放的终极解决方案

IINA播放器:macOS视频播放的终极解决方案 【免费下载链接】iina 项目地址: https://gitcode.com/gh_mirrors/iin/iina 在macOS系统中寻找完美的视频播放体验?IINA播放器正是您需要的答案。这款基于强大mpv引擎构建的现代播放器,专为苹…

作者头像 李华
网站建设 2026/2/7 21:33:37

YOLOv10推理只需2.1ms!Orin设备实测达180FPS

YOLOv10推理只需2.1ms!Orin设备实测达180FPS 1. 引言:实时目标检测的新标杆 在边缘计算与工业视觉系统日益普及的今天,目标检测模型的推理速度、部署复杂度和精度平衡成为决定项目成败的关键因素。随着 YOLOv10 的发布,这一领域…

作者头像 李华
网站建设 2026/2/9 9:39:41

NVIDIA显卡风扇转速限制彻底解除与精细控制完全指南

NVIDIA显卡风扇转速限制彻底解除与精细控制完全指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/FanControl.R…

作者头像 李华
网站建设 2026/2/5 16:50:56

Engine-Sim 完全指南:零基础打造专属虚拟发动机实验室

Engine-Sim 完全指南:零基础打造专属虚拟发动机实验室 【免费下载链接】engine-sim Combustion engine simulator that generates realistic audio. 项目地址: https://gitcode.com/gh_mirrors/en/engine-sim 想要亲身体验各类发动机的澎湃声浪,却…

作者头像 李华
网站建设 2026/2/4 23:18:20

Barrier:终极跨平台键鼠共享解决方案完整指南

Barrier:终极跨平台键鼠共享解决方案完整指南 【免费下载链接】barrier Open-source KVM software 项目地址: https://gitcode.com/gh_mirrors/ba/barrier 还在为多台电脑需要多套键盘鼠标而烦恼吗?Barrier作为一款功能强大的开源KVM软件&#xf…

作者头像 李华