news 2026/2/5 4:20:02

手把手教你部署Open-AutoGLM,轻松实现AI控机

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你部署Open-AutoGLM,轻松实现AI控机

手把手教你部署Open-AutoGLM,轻松实现AI控机

你有没有想过,让AI替你点开微信、搜索关键词、填写验证码、甚至关注博主?不是靠预设脚本,而是用一句“打开小红书搜美食”就自动完成整套操作——屏幕识别、意图理解、动作规划、点击执行,一气呵成。这不是科幻,是今天就能跑起来的现实。Open-AutoGLM 就是这样一款由智谱开源的手机端 AI Agent 框架,它把大模型能力真正“落地”到指尖:不写代码、不配规则、不学语法,只说人话,手机就动。

它不是另一个聊天机器人,而是一个能“看见”你手机屏幕、“听懂”你自然语言、“动手”完成任务的数字分身。本文将带你从零开始,避开所有坑,完整走通本地控制端 + 云端模型的协作链路。全程无需显卡,不用下载20GB模型,一台普通电脑+一部安卓手机,30分钟内让AI开始帮你刷APP。

1. 先搞懂它到底能做什么

1.1 它不是自动化脚本,而是真·AI助理

很多人第一反应是:“这不就是Auto.js或Tasker?”关键区别在于理解力泛化力

  • 传统脚本:必须提前录制坐标、写死ID、适配每个APP版本。换一个界面布局,整个流程就崩。
  • Open-AutoGLM:用视觉语言模型(VLM)实时分析当前屏幕截图,像人一样“看懂”按钮在哪、文字是什么、当前处于什么页面;再用大模型推理“用户这句话想干什么”,最后生成并执行ADB指令序列。

举个真实例子:
你说:“在淘宝里找iPhone 15 Pro壳,筛选销量最高的前3个,把价格和店铺名发给我。”
它会:
截图识别淘宝首页 → 点击搜索框 → 输入“iPhone 15 Pro壳” → 点击搜索 → 识别“销量”排序按钮并点击 → 向下滑动 → 截图识别前3个商品区域 → 提取价格文本和店铺名 → 整理成文字返回给你。

整个过程没有一行硬编码的坐标,全靠模型“看”和“想”。

1.2 核心能力三件套

能力模块实现方式你得到什么
屏幕感知每次操作前自动截屏,送入视觉语言模型(如AutoGLM-Phone-9B)分析界面元素、文字、状态栏、导航栏不用关心APP结构,AI自己认得清按钮、输入框、列表项
意图规划大模型解析你的自然语言指令,拆解为多步原子操作(点击/滑动/输入/长按),并判断执行顺序与条件分支“先登录再搜索”“如果弹出权限框就点允许”这类逻辑自动处理
安全执行所有ADB操作经本地代理转发,敏感动作(如输入密码、访问相册)默认暂停并提示人工接管;支持WiFi/USB双模连接既放得开手脚,又守得住底线,不怕误点误删

注意:它不越狱、不Root、不安装后台服务。所有控制都基于Android官方调试协议(ADB),权限清晰可控,断开连接即完全退出。

2. 准备工作:三步搞定硬件与环境

2.1 你的设备清单(极简版)

  • 一台电脑:Windows 或 macOS(无需Linux,也无需GPU)
  • 一部安卓手机:Android 7.0 及以上(主流品牌均可,小米、华为、OPPO、vivo、三星都实测通过)
  • 一根数据线(USB-C或Micro-USB,推荐原装或6A快充线,稳定性远高于杂牌线)
  • 网络:电脑能上网(调用云端API),手机与电脑在同一WiFi下(可选,USB直连更稳)

不需要:NVIDIA显卡、Docker、Kubernetes、Python高级知识。只要你会用命令行输入几条指令,就能跑起来。

2.2 安装ADB:手机与电脑的“翻译官”

ADB(Android Debug Bridge)是Android官方提供的调试工具,Open-AutoGLM正是通过它向手机发指令。安装只需3分钟:

Windows 用户
  1. 去官网下载平台工具:https://developer.android.com/tools/releases/platform-tools
  2. 解压到任意文件夹,例如C:\platform-tools
  3. 配置环境变量:
    • Win + R→ 输入sysdm.cpl→ “高级” → “环境变量”
    • 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\platform-tools
  4. 打开新终端(CMD或PowerShell),输入:
    adb version
    若显示类似Android Debug Bridge version 1.0.41,说明安装成功。
macOS 用户
  1. 下载平台工具并解压,假设路径为~/Downloads/platform-tools
  2. 打开终端,运行:
    echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
  3. 验证:
    adb version

2.3 手机端设置:打开“控制大门”

这是最容易卡住的一步,但只需按顺序操作,一次成功:

  1. 开启开发者模式

    • 进入设置 → 关于手机 → 版本号
    • 连续点击“版本号”7次,直到弹出“您现在处于开发者模式”提示
  2. 开启USB调试

    • 返回设置,进入开发者选项(若没出现,可在设置顶部搜索“开发者”)
    • 找到并启用USB调试
    • 小米/Redmi用户额外注意:向下滚动,务必同时开启USB调试(安全设置)USB安装
  3. 安装ADB Keyboard(解决无法输入文字问题)

    • 电脑下载APK:https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
    • 用数据线连接手机,将APK拖入手机并安装(或用手机浏览器直接下载安装)
    • 安装完成后,进入设置 → 语言与输入法 → 虚拟键盘,将默认输入法切换为ADB Keyboard

验证是否成功:手机连电脑后,在终端输入adb devices,若看到一串设备ID(如8a9b2c1d device),且状态为device,说明连接已就绪。

3. 部署控制端:5分钟拉起本地代理

3.1 克隆代码并安装依赖

打开终端(Windows用CMD/PowerShell,macOS用Terminal),执行:

# 1. 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 推荐使用清华源加速安装(国内用户必选) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt # 3. 安装 phone_agent 包(关键!否则后续API调用会报错) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .

成功标志:无红色报错,最后一行显示Successfully installed ...

小贴士:如果你遇到pydantic版本冲突,可单独升级:pip install pydantic --upgrade

3.2 连接你的手机(USB or WiFi)

USB直连(推荐新手首选,最稳定)
  • 用数据线连接手机与电脑
  • 确保手机弹出“允许USB调试吗?”提示,勾选“始终允许”,点确定
  • 终端运行:
    adb devices
    记下输出的第一列设备ID(如8a9b2c1d),后面要用。
WiFi远程连接(适合不想插线的场景)

需先用USB连一次来初始化:

# 1. USB连接后,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB线,确保手机与电脑在同一WiFi # 3. 查看手机IP:设置 → 关于手机 → 状态信息 → IP地址(通常是192.168.x.x) adb connect 192.168.1.100:5555 # 把192.168.1.100换成你手机的真实IP

再次运行adb devices,应看到192.168.1.100:5555 device

4. 接入云端模型:零显存跑9B大模型

Open-AutoGLM本身不包含大模型,它是一个“指挥中枢”。你需要接入一个已部署好的视觉语言模型服务。强烈推荐使用第三方API方案——免部署、免维护、效果稳定,且完全免费额度够日常使用。

4.1 两种主流选择(任选其一)

平台申请方式API Key位置推荐理由
ModelScope(魔搭)注册账号 → 进入 个人中心 → Access Token → 创建并复制Token--apikey "your-ms-token"中文优化好,AutoGLM-Phone-9B官方托管于此,延迟低,响应快
智谱BigModel注册账号 → 进入 API管理 → 创建API Key--apikey "your-zhipu-key"支持更多模型变体,企业级稳定性,文档最全

两个平台新用户均有充足免费额度(ModelScope每日万次,智谱首月赠送200万Token),足够测试几十次完整流程。

4.2 一条命令启动AI助理

确保你已在上一步获取了API Key,并记下了设备ID(如8a9b2c1d),现在执行:

# 使用 ModelScope(推荐) python main.py \ --device-id 8a9b2c1d \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --apikey "your-modelscope-access-token-here" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
# 使用 智谱BigModel python main.py \ --device-id 8a9b2c1d \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey "your-zhipu-api-key-here" \ "打开小红书搜‘北京周末咖啡馆’,保存前3个笔记封面"

参数说明

  • --device-idadb devices输出的设备ID,USB连接时填ID,WiFi连接时填IP:5555
  • --base-url:固定值,别手误
  • --model:ModelScope填ZhipuAI/AutoGLM-Phone-9B,智谱填autoglm-phone
  • 最后引号内的字符串:你的自然语言指令,越具体越好(比如加上APP名、关键词、数量要求)

成功标志:终端开始滚动日志,显示📸 Capturing screenshot...Analyzing screen with VLM...Planning action steps...🖱 Executing: tap at (x,y)→ 最终输出任务结果。

5. 实战案例:三分钟完成一个真实任务

我们来跑一个完整闭环:在京东APP中搜索“机械键盘”,进入第一个商品页,截图并保存到电脑

5.1 操作前准备

  • 确保手机已安装京东APP(未登录也可,AI会处理弹窗)
  • 手机主屏幕不要有遮挡(如悬浮球、录屏提示),避免干扰截图

5.2 执行指令

python main.py \ --device-id 8a9b2c1d \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --apikey "your-token" \ "打开京东APP,搜索‘机械键盘’,点击第一个商品,截图并保存到电脑"

5.3 你将看到什么(真实日志节选)

📸 Capturing screenshot... (saved as ./screenshots/20240520_142211.png) Sending to VLM: analyzing UI elements, text, and state... Generated plan: 1. Tap on search bar (detected at [280, 120]) 2. Input text "机械键盘" 3. Tap search button (detected at [920, 120]) 4. Scroll down slightly 5. Tap first product card (detected at [540, 420]) 6. Wait for page load (detecting '加入购物车' button) 7. Take final screenshot 🖱 Executing step 1: tap at (280, 120) ⌨ Inputting "机械键盘" via ADB Keyboard... 🖱 Executing step 2: tap at (920, 120) Task completed. Final screenshot saved to ./screenshots/final_20240520_142345.png

截图自动保存在项目根目录./screenshots/下,你可以直接打开查看效果。整个过程约45秒,完全无人干预。

6. 常见问题与避坑指南(血泪总结)

6.1 “屏幕被标记为敏感屏幕”错误

这是新手最高频报错,典型提示:

“屏幕被标记为敏感屏幕(黑屏),这可能是由于应用正在加载中或设备安全设置导致的。”

根本原因:部分国产手机(尤其小米、华为)在APP启动瞬间或权限弹窗时,会主动屏蔽ADB截屏,防止录屏窃密。

三步解决法

  1. 换线:立即换一根原装或6A数据线(亲测解决80%案例)
  2. 关掉“USB调试安全设置”外的干扰项
    • 小米:关闭设置 → 更多设置 → 隐私保护 → 隐私水印USB调试(安全设置)保持开启
    • 华为:关闭设置 → 安全 → 更多安全设置 → 隐私空间USB调试保持开启
  3. 加等待时间:在指令末尾加一句“请等待3秒再开始”,给APP充分加载时间:
    "打开淘宝,等待3秒,然后搜索‘蓝牙耳机’"

6.2 ADB连接不稳定(频繁掉线)

  • WiFi连接:优先改用USB直连,WiFi受路由器信道、距离、干扰影响大
  • USB连接:检查手机是否处于“文件传输”模式(而非仅充电),部分手机需手动切换
  • 终极方案:在main.py同级目录创建config.yaml,添加重试配置:
    adb: retry_times: 3 retry_delay: 2.0

6.3 模型返回乱码或无响应

  • 检查API Key是否复制完整(前后有空格?大小写?)
  • 检查--base-url末尾是否有/v1(ModelScope必须有,智谱不能有)
  • 检查网络:能否在浏览器打开https://api-inference.modelscope.cn?若不能,请换DNS(如114.114.114.114

7. 进阶玩法:不只是“点一点”

Open-AutoGLM 的潜力远不止于单次指令。掌握以下技巧,让它真正成为你的生产力杠杆:

7.1 批量任务:用Python API串联多个操作

不必每次敲命令,用脚本批量处理:

from phone_agent.main import run_agent # 定义一连串指令 tasks = [ "打开微博,搜索‘AI新闻’,保存前5条热搜标题", "打开高德地图,搜索‘最近的充电桩’,截图列表页", "打开知乎,搜索‘大模型入门’,收藏第一个回答" ] for i, task in enumerate(tasks, 1): print(f"\n--- 执行任务 {i} ---") result = run_agent( device_id="8a9b2c1d", base_url="https://api-inference.modelscope.cn/v1", model="ZhipuAI/AutoGLM-Phone-9B", apikey="your-token", instruction=task, timeout=120 ) print("结果:", result[:200] + "..." if len(result) > 200 else result)

7.2 自定义动作:在关键节点插入人工确认

对金融、支付类操作,强制加入确认环节:

python main.py \ --device-id 8a9b2c1d \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --apikey "your-token" \ --confirm-before "支付|转账|提现" \ "打开支付宝,向张三转账100元"

当AI识别到“支付”字样,会暂停并打印:
检测到敏感操作【支付】,请手动确认(回车继续,Ctrl+C退出)

7.3 远程监控:把手机画面实时投到电脑

配合scrcpy工具,边看边调:

# 安装 scrcpy(Mac: brew install scrcpy;Windows: 下载exe) scrcpy --window-title "AI Control Panel" --stay-awake

启动后,手机屏幕实时镜像到电脑窗口,你能亲眼看到AI每一步操作,调试效率翻倍。

8. 总结:你已经拥有了一个AI数字分身

回顾这一路,我们没碰过一行模型代码,没配过一个CUDA环境,没下载一个GB的权重文件。只是装了ADB、开了调试、连了手机、复制了API Key,然后——用一句大白话,就让AI开始替你操作手机。

这不是玩具,而是生产力范式的迁移:
🔹 从此,重复性手机操作(比价、填表、打卡、信息收集)交给AI;
🔹 你的时间,只聚焦在真正需要判断、创意和决策的部分;
🔹 每一次“打开APP搜XX”,都在训练你与AI协作的新肌肉记忆。

下一步,试试这些指令:

  • “把微信里昨天收到的所有PDF文件,转发到邮箱xxx@xx.com”
  • “在闲鱼搜索‘二手MacBook’,筛选价格低于5000的,截图前3个商品页”
  • “打开Keep,开始30分钟燃脂训练,音量调至60%”

你会发现,那个曾经需要你手指划动、眼睛紧盯、大脑记忆步骤的手机世界,正悄然变成一个只需开口说话的语音操作系统。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/3 15:54:27

零基础玩转SDPose-Wholebody:一键部署Gradio界面实现姿态分析

零基础玩转SDPose-Wholebody:一键部署Gradio界面实现姿态分析 你是否试过上传一张照片,几秒钟后就看到人体133个关键点被精准标出?不是简单的骨架线,而是从指尖到脚趾、从面部微表情到脊柱弯曲度的完整全身姿态解析——这不再是实…

作者头像 李华
网站建设 2026/2/3 14:49:00

不用编程!fft npainting lama可视化界面超易用

不用编程!FFT NPainting LaMa可视化界面超易用 1. 这不是代码,是修图神器 你有没有遇到过这样的场景:一张精心拍摄的照片,却被路人、电线杆、水印或者乱入的广告牌破坏了整体美感?想把它修干净,又不想打开…

作者头像 李华
网站建设 2026/2/4 16:42:08

Qwen3-TTS-VoiceDesign效果展示:俄语新闻播报+葡萄牙语旅游导览语音样例

Qwen3-TTS-VoiceDesign效果展示:俄语新闻播报葡萄牙语旅游导览语音样例 1. 这不是普通语音合成,是“声音的即兴创作” 你有没有试过这样一种体验:输入一段文字,再写一句“请用沉稳有力、略带沙哑的男声播报今日国际要闻”&#…

作者头像 李华
网站建设 2026/2/3 16:01:36

ms-swift多机训练:大规模集群部署避坑指南

ms-swift多机训练:大规模集群部署避坑指南 在大模型微调工程实践中,单机训练早已无法满足现代模型规模与数据量的需求。当团队开始将Qwen3-VL、InternVL3.5或DeepSeek-VL2等百亿参数多模态模型投入真实业务场景时,多机分布式训练不再是“可选…

作者头像 李华
网站建设 2026/2/3 14:48:56

终极跨平台同步指南:无缝实现多设备数据一致性的技术方案

终极跨平台同步指南:无缝实现多设备数据一致性的技术方案 【免费下载链接】WeChatPad 强制使用微信平板模式 项目地址: https://gitcode.com/gh_mirrors/we/WeChatPad 在当今多设备时代,跨平台账号同步技术已成为连接手机、平板、电脑等终端的核心…

作者头像 李华