AutoGLM-Phone实战案例:自动关注抖音号全流程部署详解
1. 什么是AutoGLM-Phone?手机也能有“AI大脑”
你有没有想过,让手机自己完成重复操作?比如刷短视频时看到一个优质博主,想关注却懒得点开搜索、输入ID、点击关注——这些动作,现在可以交给AI来做了。
AutoGLM-Phone不是概念玩具,而是智谱开源的、真正能在安卓设备上跑起来的AI智能助理框架。它把视觉理解、语言推理和自动化控制三者拧成一股绳:一边“看”屏幕,一边“听”你说话,一边“动手”点按滑动。
它的核心能力很实在:
- 看得懂:用多模态模型实时分析手机当前界面截图,识别按钮、文字、图标、输入框;
- 听得懂:把“打开抖音搜dycwo11nt61d并关注”这种日常口语,准确拆解成“启动App→定位搜索框→输入ID→点击头像→点击关注”一连串动作;
- 做得准:通过ADB(Android Debug Bridge)精准模拟触摸、点击、滑动、输入,不依赖Root,不越狱,不装额外插件;
- 守得住:遇到登录页、验证码、权限弹窗等敏感环节,会主动暂停,等你人工确认后再继续——安全不是口号,是默认行为。
它不是另一个“AI写诗”或“AI画画”的玩具项目,而是一个面向真实手机交互场景的工程化Agent系统。你不需要写一行UI自动化脚本,也不用反复调试XPath,只要说人话,它就办事。
2. 整体架构:云端推理 + 端侧执行,分工明确不卡顿
AutoGLM-Phone采用“轻客户端 + 强服务端”的设计,既保障响应速度,又规避了在手机上部署大模型的硬件瓶颈。
整个流程分三步走:
2.1 屏幕感知:每一帧都“看得清”
手机端每秒截一张图(默认500ms间隔),通过ADB快速拉取到本地控制端,再上传至云端服务。这里不传整张高清图,而是自动裁剪关键区域+压缩编码,单次传输控制在200KB以内,4G/WiFi下几乎无感。
2.2 意图理解与动作规划:云上大脑做决策
上传的截图 + 你的自然语言指令(如“关注抖音号dycwo11nt61d”),一起送入云端的autoglm-phone-9b模型。这个9B参数量的视觉语言模型专为手机交互优化过:
- 能区分“搜索框”和“评论输入框”,哪怕它们长得差不多;
- 能识别抖音首页的“放大镜图标”、个人主页的“+关注”按钮、搜索结果页的“用户头像”;
- 不只输出“点击坐标”,而是生成带逻辑链的动作序列:
[打开抖音] → [等待首页加载] → [点击搜索图标] → [等待搜索框出现] → [输入'dycwo11nt61d'] → [点击第一个搜索结果] → [等待个人主页加载] → [点击'关注']。
2.3 自动执行:ADB精准落子,毫秒级响应
控制端拿到动作序列后,不再依赖模型,而是调用本地ADB命令逐条执行:
adb shell input tap x y模拟点击;adb shell input text "dycwo11nt61d"输入文字(需提前设ADB Keyboard为默认输入法);adb shell input swipe模拟滑动;adb shell dumpsys window windows | grep -E 'mCurrentFocus|mFocusedApp'实时校验当前界面状态,确保上一步成功才执行下一步。
整个过程像一位经验丰富的测试工程师在远程操控——稳、准、可中断、可追溯。
3. 本地控制端部署:从零开始配好你的“遥控器”
服务端(云模型)我们假设已由团队或第三方部署完毕(如使用vLLM托管在GPU服务器上),本节聚焦你手边这台Windows/macOS电脑——它就是整个系统的“指挥中心”。
3.1 硬件与基础环境准备
别被“AI”二字吓住,这套系统对本地电脑要求极低:
- 操作系统:Windows 10/11 或 macOS Monterey(12.0)及以上;
- Python版本:强烈建议 Python 3.10(3.11也可,但部分依赖未全面适配3.12);
- 安卓设备:Android 7.0+ 真机(推荐Pixel、小米、华为、OPPO等主流品牌),或Android Studio自带的Pixel模拟器(API 30+);
- ADB工具:这是唯一必须手动安装的底层工具。
ADB安装小贴士
Windows用户直接下载platform-tools解压即可;macOS用户推荐用Homebrew:brew install android-platform-tools。验证是否成功?终端输入adb version,看到类似Android Debug Bridge version 1.0.41就算过关。
3.2 手机端设置:三步打开“被控制权”
很多失败源于手机没设对。请严格按顺序操作:
开启开发者模式
进入「设置」→「关于手机」→连续点击「版本号」7次,直到弹出“您已处于开发者模式”。启用USB调试
返回「设置」→「系统」→「开发者选项」→打开「USB调试」开关。首次开启会弹窗提示,点“确定”。安装并启用ADB Keyboard(关键!)
- 下载ADB Keyboard APK(选最新版);
- 在手机上安装;
- 进入「设置」→「语言与输入法」→「当前输入法」→选择「ADB Keyboard」;
- 为什么必须这步?因为普通输入法无法通过ADB接收文本指令。ADB Keyboard是专为自动化设计的“哑巴键盘”,只认命令,不弹窗、不联想、不纠错。
3.3 克隆代码 & 安装依赖:5分钟搞定控制端
打开终端(Windows用PowerShell或CMD,macOS用Terminal),依次执行:
# 1. 克隆官方仓库(Open-AutoGLM) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含核心phone_agent包) pip install --upgrade pip pip install -r requirements.txt pip install -e .注意:pip install -e .是关键,它把当前目录作为可编辑包安装,后续修改代码能立即生效,适合调试。
4. 设备连接实战:USB直连 or WiFi远程,两种方式全掌握
连接稳定是自动化的生命线。我们提供两种方案,按需选择。
4.1 USB直连:新手首选,稳定不掉线
- 用原装数据线将手机连电脑;
- 手机弹出“允许USB调试吗?”——勾选“始终允许”,点确定;
- 终端执行:
正常应输出类似:adb devices
这串字符就是你的List of devices attached 8A2Y0XXXXXXX devicedevice-id,后面要用。
优势:延迟最低(<100ms)、无需网络、即插即用
❌ 局限:线缆长度限制、不便多设备并行
4.2 WiFi远程连接:摆脱线缆,真·无线操控
适合开发调试或固定办公场景。分两步:
第一步:USB临时授权(只需一次)
手机连USB,执行:
adb tcpip 5555看到restarting in TCP mode port: 5555即成功。
第二步:断开USB,WiFi连接
确保手机和电脑在同一局域网(如都连公司WiFi),查手机IP(设置→关于手机→状态→IP地址),然后:
adb connect 192.168.1.100:5555 # 替换为你手机的真实IP成功后adb devices会显示192.168.1.100:5555 device。
优势:自由移动、支持多设备管理、方便录屏演示
❌ 注意:WiFi信号弱时易断连,建议优先用5GHz频段
5. 启动AI代理:一句指令,全自动执行
万事俱备,现在让AI接管你的抖音。
5.1 命令行一键运行(最简方式)
在Open-AutoGLM项目根目录下,执行:
python main.py \ --device-id 8A2Y0XXXXXXX \ --base-url http://192.168.1.200:8800/v1 \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:从adb devices获取的ID(USB)或IP:端口(WiFi);--base-url:指向你部署的vLLM服务地址(公网IP+端口映射,如Nginx反代后的域名也可);- 最后字符串:你的自然语言指令,支持中文,标点符号不影响理解。
执行后你会看到实时日志:
[INFO] Capturing screenshot...→ 截图上传;[INFO] Sending to model...→ 指令+截图发往云端;[INFO] Planning action: Tap on '搜索' icon→ 模型返回动作;[INFO] Executing: adb shell input tap 520 120→ 本地执行;[INFO] Waiting for next screen...→ 自动校验界面变化。
整个过程约15-30秒,取决于网络和模型响应速度。完成后,手机抖音里已多了一个新关注。
5.2 Python API集成:嵌入你自己的脚本
如果你需要批量处理、加业务逻辑或集成进Web后台,直接调用SDK更灵活:
from phone_agent.adb import ADBConnection, list_devices from phone_agent.agent import PhoneAgent # 1. 连接设备 conn = ADBConnection() success, msg = conn.connect("8A2Y0XXXXXXX") # 或 "192.168.1.100:5555" print(f"连接结果: {msg}") # 2. 初始化AI代理 agent = PhoneAgent( device_id="8A2Y0XXXXXXX", base_url="http://192.168.1.200:8800/v1", model_name="autoglm-phone-9b" ) # 3. 下达指令(支持同步/异步) result = agent.run("关注抖音号dycwo11nt61d") print(f"任务状态: {result.status}") print(f"执行步骤: {len(result.steps)} 步")这段代码可封装成函数,接入定时任务、企业微信机器人,甚至做成内部提效工具。
6. 常见问题排查:省下80%的调试时间
部署中90%的问题集中在连接和权限。对照这份清单快速定位:
| 现象 | 可能原因 | 解决方案 |
|---|---|---|
adb devices显示unauthorized | 手机未点“允许USB调试” | 断开重连,手机弹窗务必点“确定”并勾选“始终允许” |
adb connect IP:5555失败 | 手机未开启TCP/IP或IP错误 | 先adb usb切回USB模式,再adb tcpip 5555,最后查手机IP |
| 指令执行到一半卡住 | 模型未识别到目标元素(如搜索框未加载完) | 在指令末尾加等待提示:“...并等待页面完全加载后再操作” |
| 输入文字乱码/不出现 | ADB Keyboard未设为默认输入法 | 设置→语言与输入法→默认输入法→选ADB Keyboard |
| 云端返回空响应或超时 | vLLM服务未启动或端口未映射 | curl http://192.168.1.200:8800/v1/models测试API连通性 |
| 关注动作失败(点错位置) | 手机分辨率与模型训练尺寸偏差大 | 在main.py中添加--screen-width 1080 --screen-height 2400显式指定 |
终极建议:首次运行,全程开着手机录屏。当AI执行某步失败时,回看录屏+对比日志里的截图,能立刻发现是“模型看错了”,还是“ADB点偏了”,比盲猜高效十倍。
7. 总结:这不是Demo,是可落地的生产力工具
AutoGLM-Phone的价值,不在它能“炫技”生成多酷的视频,而在于它把AI能力真正锚定在了每天高频使用的手机屏幕上。
它解决的不是“能不能”的问题,而是“值不值得做”的问题:
- 对个人用户:省下每天重复操作的3分钟,一年就是18小时;
- 对测试工程师:把回归测试从2小时缩短到8分钟,且100%可复现;
- 对内容运营:批量关注竞品账号、自动点赞评论,释放人力做创意;
- 对无障碍场景:视障用户语音指令即可完成复杂操作,技术有了温度。
这套方案没有黑盒魔法,所有组件开源、所有步骤透明、所有问题可追溯。你不需要成为AI专家,只要懂基本命令行和手机设置,就能把它变成自己的数字分身。
下一步,你可以尝试:
- 把指令换成“给小红书博主@美食探店 发私信:合作咨询”;
- 写个脚本,每天9点自动打开Keep打卡;
- 结合OCR,让AI读取短信验证码并填入登录页。
技术的意义,从来不是让人仰望,而是让人伸手就够得着。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。