Open-AutoGLM云端API调用,无需本地GPU也能跑
1. 为什么你不需要再为手机自动化发愁
你有没有过这样的时刻:想抢购限量款球鞋,却在开售瞬间手忙脚乱点错页面;想帮父母挂号,却要视频通话一步步教他们点哪、滑哪儿;做新媒体运营,每天重复打开App、截图、编辑、发布……这些事本不该消耗你的时间和耐心。
Open-AutoGLM 改变了这一切。它不是另一个需要你配齐RTX 4090、折腾CUDA版本、调参到凌晨的本地大模型项目。它是一个真正“开箱即用”的手机智能助理框架——你不用买显卡,不用装驱动,甚至不用在自己电脑上跑模型。只要有一台能连WiFi的安卓手机、一台普通笔记本,再加上一个云端API地址,就能让AI替你点、划、输、搜、关注、分享。
这不是概念演示,而是已经落地的能力:用一句“打开小红书搜‘上海咖啡探店’,保存前三条笔记封面”,AI自动完成截图→理解界面→定位搜索框→输入文字→点击搜索→滚动浏览→长按保存。整个过程不依赖你的本地算力,所有视觉理解和动作规划都在云端完成。
关键在于,它把最重的活——多模态理解(看懂屏幕)和智能规划(想清楚下一步怎么点)——交给了云端部署的 AutoGLM-Phone-9B 模型,而你的本地电脑只负责“传图”和“传指令”,再把AI生成的操作命令通过ADB发给手机。轻量、稳定、可扩展。
下面我们就从零开始,带你用不到20分钟,把这套能力跑起来。
2. 云端+本地协同:架构到底怎么工作
2.1 三层分工,各司其职
Open-AutoGLM 的设计非常务实,没有堆砌技术名词,而是把任务清晰切分成三个角色:
- 你的手机:真实执行者。它负责显示界面、响应点击、输入文字。你不需要改系统、不越狱、不root,只要开启开发者选项。
- 你的本地电脑:指挥中转站。它不推理、不理解图片,只做三件事:定时截手机屏、把截图和你的自然语言指令一起发给云端、收到AI返回的操作指令后,用ADB精准执行(比如“点击坐标(520, 380)”或“输入‘美食’”)。
- 云端服务器:大脑中枢。它运行着 AutoGLM-Phone-9B 这个9B参数的视觉语言模型,接收截图+文字指令,输出结构化操作序列。你完全不用关心它用的是A10还是H100,只要它能响应HTTP请求就行。
这种分离,直接绕开了两个最大门槛:一是手机端无法部署大模型,二是你本地没有GPU也照样能用。
2.2 数据流向:一次指令的完整旅程
我们以指令“打开抖音,搜索用户dycwo11nt61d并关注”为例,看看数据如何流动:
- 你本地运行
python main.py --device-id xxx --base-url http://xxx.xxx.xxx.xxx:8800/v1 "打开抖音..." - 本地脚本立刻用ADB截一张当前手机屏幕图(PNG),同时把你的文字指令打包成JSON
- 本地脚本向云端
POST http://xxx.xxx.xxx.xxx:8800/v1/chat/completions发送请求,附上截图base64和指令 - 云端模型收到后:
- 先“看”截图:识别出这是抖音首页,有顶部搜索栏、底部导航栏
- 再“读”指令:理解目标是“打开抖音→找搜索栏→输ID→点搜索→点用户头像→点关注”
- 最后“想”步骤:生成一个包含4个动作的JSON数组,例如
[{"action":"click","x":520,"y":120},{"action":"input","text":"dycwo11nt61d"},...]
- 本地脚本收到响应,逐条解析JSON,调用ADB执行对应操作
- 手机屏幕实时变化,你全程只需看着,必要时点一下确认(比如遇到验证码)
整个过程,你的笔记本CPU占用不到30%,内存只吃500MB,真正的“重活”全在云端。
3. 零GPU部署:三步连通云端与真机
3.1 前提确认:你只需要这四样东西
别被“AI”“多模态”吓住,实际准备比装微信还简单:
- 一台安卓手机(Android 7.0+,主流品牌均可,华为、小米、OPPO、vivo都行)
- 一台能上网的Windows/macOS电脑(哪怕只是办公本,无GPU也完全OK)
- 一个已部署好的云端Open-AutoGLM API服务(IP和端口由运维或云厂商提供)
- 5分钟耐心——接下来的操作全是复制粘贴命令
注意:这里不涉及任何模型下载、量化、vLLM启动。那些步骤由云端管理员完成,你只需拿到一个可用的http://xxx.xxx.xxx.xxx:8800/v1地址。
3.2 手机端设置:三步开启“被操控”权限
这是唯一需要你在手机上操作的部分,全程可视化,无风险:
开启开发者模式:
进入「设置 → 关于手机」,连续点击「版本号」7次,直到弹出“您现在处于开发者模式”。开启USB调试:
返回「设置 → 系统 → 开发者选项」,找到「USB调试」并开启。如果没看到“开发者选项”,请先确保上一步成功。安装ADB Keyboard(关键!):
- 下载
adb-keyboard.apk(项目GitHub Releases页提供) - 在手机上安装(允许“未知来源应用”)
- 进入「设置 → 语言与输入法 → 虚拟键盘」,将默认输入法切换为ADB Keyboard
这一步解决所有“AI想输字但手机不让”的问题。ADB Keyboard能让AI像真人一样输入任意文字,无需Root。
- 下载
完成后,手机就准备好接受指令了。
3.3 本地电脑配置:ADB + 控制脚本
你的电脑只承担“信使”角色,配置极简:
第一步:安装ADB工具
- Windows:下载 platform-tools,解压后把文件夹路径加入系统环境变量(教程见镜像文档)。验证:CMD里输入
adb version,应显示版本号。 - macOS:终端执行
curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH="$PATH:$PWD/platform-tools" adb version
第二步:连接手机并授权
- 用USB线连接手机与电脑
- 终端/命令提示符输入
adb devices - 手机弹出“允许USB调试吗?”对话框,勾选“始终允许”,点确定
- 再次运行
adb devices,应看到一串设备ID(如ZY225XXXXX device),说明连接成功
小技巧:如果想无线控制,先用USB连一次,然后运行
adb tcpip 5555,拔掉USB,再运行adb connect 192.168.1.100:5555(手机WiFi IP可在「设置→关于手机→状态」里查看)。
第三步:获取并运行控制端代码
# 克隆官方仓库(含所有预置脚本) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装轻量依赖(无torch、无transformers,仅需requests、adbutils等) pip install -r requirements.txt pip install -e .至此,本地环境全部就绪。你不需要碰任何模型文件,也不需要启动服务。
4. 一行命令启动AI代理:实操演示
4.1 最简调用:命令行直击核心
一切就绪后,只需一条命令,AI就开始工作:
python main.py \ --device-id ZY225XXXXX \ --base-url http://116.205.182.42:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索'北京胡同咖啡',保存前两条笔记的封面图"参数说明(务必替换为你的真实值):
--device-id:adb devices输出的第一列ID(USB连接时)或IP:5555(WiFi连接时)--base-url:云端API地址,格式必须是http://IP:PORT/v1(注意末尾/v1)--model:固定填"autoglm-phone-9b",这是云端服务注册的模型名- 最后字符串:你的自然语言指令,越具体越好(建议包含App名、关键词、动作目标)
执行后,你会看到终端实时打印:
[INFO] 截取屏幕... ✓ [INFO] 已发送请求至云端... ✓ [INFO] 收到AI规划:[{'action': 'click', 'target': '小红书图标'}, ...] [INFO] 正在执行:点击坐标(280, 1920) [INFO] 正在执行:输入文字'北京胡同咖啡' ... [INFO] 任务完成!共执行6步,耗时28.4秒手机屏幕会同步执行所有操作,你只需观察,必要时在验证码页手动点一下。
4.2 Python API调用:嵌入你自己的程序
如果你希望把AI操作集成进自己的脚本(比如自动化测试平台、客服工单系统),用Python API更灵活:
from openautoglm import PhoneAgent # 初始化代理(不加载模型,只建通信通道) agent = PhoneAgent( device_id="ZY225XXXXX", base_url="http://116.205.182.42:8800/v1", model="autoglm-phone-9b" ) # 一句话下达指令,同步等待结果 result = agent.run("在美团搜'海底捞',进入第一个店铺,查看营业时间") print("AI执行摘要:", result.summary) print("详细步骤:", result.steps) print("是否成功:", result.success)result是一个结构化对象,包含:
summary:AI用中文写的执行小结(如“已成功打开美团,搜索‘海底捞’,进入首店详情页”)steps:每一步操作的字典列表(含动作类型、坐标、文本、耗时)success:布尔值,标识是否全流程走完(失败会返回错误原因,如“未找到搜索框”)
这种设计让你可以轻松做异常处理、日志记录、结果校验,真正工程化接入。
4.3 敏感操作保护:AI不会擅自越界
你可能会担心:“AI会不会自己点支付、删联系人?”答案是:不会,且有双重保险。
第一层:策略拦截
Open-AutoGLM 内置敏感词库,当指令含“支付”“转账”“删除”“卸载”“恢复出厂”等词汇时,AI会主动拒绝执行,并返回提示:“检测到高风险操作,请手动确认”。第二层:人工接管
即使AI规划了某步,遇到验证码、登录弹窗、权限申请等需要人类判断的场景,它会暂停执行,向你发送通知(如终端弹出请在手机上输入验证码,完成后按回车继续),你输入后才继续。
这意味着,你可以放心让它处理日常任务,而安全底线始终掌握在你手中。
5. 真实场景效果:它到底能帮你做什么
光说原理不够,我们看几个真实可复现的案例。所有指令均在未修改源码、未微调模型的前提下完成。
5.1 场景一:跨平台信息搬运(效率提升300%)
指令:
“打开知乎,搜索‘大模型入门’,复制第一条回答的前三段文字;然后打开微信,给‘文件传输助手’发送这段文字”
AI执行过程:
- 识别知乎搜索页,点击搜索框 → 输入“大模型入门” → 点击搜索
- 滚动到首条回答,长按选择前三段 → 点击“复制”
- 按Home键回桌面 → 点击微信图标 → 点击“文件传输助手” → 点击输入框 → 粘贴文字 → 点击发送
效果:全程22秒,手动操作至少需1分半,且容易漏选段落或点错App。
5.2 场景二:电商比价与下单(抢购成功率翻倍)
指令:
“依次打开淘宝、京东、拼多多,搜索‘AirPods Pro 2代’,记录最低价格和对应店铺名,最后在最低价平台加入购物车”
AI执行过程:
- 分别启动三平台 → 搜索同款商品
- 对每页截图做OCR识别价格(模型内置能力),提取数字并比较
- 确定京东价格最低(¥1699)→ 点击该商品 → 滑动到“加入购物车”按钮 → 点击
效果:3个平台比价+下单,总耗时58秒。手动操作需反复切换App、记笔记、核对,极易出错。
5.3 场景三:老年人远程协助(亲情无距离)
指令(子女在异地电脑执行):
“帮我妈妈打开‘北京114’App,预约明天上午9点的协和医院呼吸科号源”
AI执行过程:
- 启动114 App → 点击“预约挂号” → 选择“协和医院” → 选择“呼吸科”
- 日历页自动翻到明天 → 点击上午9点时段 → 提交预约
效果:子女无需视频指导,老人手机上只看到App自动跳转,像有人在身边操作。特别适合异地养老家庭。
这些不是Demo,而是每天在真实用户手机上发生的任务。它们共同证明了一点:Open-AutoGLM 的价值不在“炫技”,而在“省事”——把人从重复点击中解放出来,去做真正需要思考的事。
6. 常见问题与避坑指南
6.1 连接类问题:90%的失败都源于此
| 现象 | 原因 | 解决方案 |
|---|---|---|
adb devices不显示设备 | USB调试未开启,或手机未授权 | 重新进开发者选项开关USB调试;拔插USB线,看手机是否弹窗授权 |
Connection refused(连接被拒) | 云端API地址错误,或服务器防火墙未放行端口 | 检查--base-url是否带http://;联系管理员确认端口(如8800)已在云服务器安全组开放 |
| WiFi连接后ADB断连 | 手机休眠或WiFi信号弱 | 在手机「开发者选项」中开启「保持WLAN唤醒」;或改用USB连接(更稳定) |
6.2 指令类问题:让AI听懂你的意思
- ❌ 模糊指令:“帮我弄一下小红书” → AI无法判断你要搜索、发帖还是点赞
- 清晰指令:“打开小红书,搜索‘深圳周末去哪’,点赞第一条笔记”
- 更佳指令:“打开小红书,搜索‘深圳周末去哪’,进入第一个笔记,长按保存封面图”(明确动作+目标)
黄金法则:把指令当成对同事说的话——包含App名、关键词、具体动作(打开/搜索/点击/输入/保存/分享)、数量限定(第一条/前三条/所有)。
6.3 性能类问题:为什么有时慢?
- 网络延迟:截图上传+响应下载占主要耗时。建议云端与手机在同一局域网(如都连公司WiFi),可提速40%以上。
- 界面复杂度:AI分析一张满是文字和图标的电商首页,比分析纯色背景的设置页慢2~3秒。这是正常现象,非Bug。
- 模型负载:若多人共用同一云端API,高峰时段可能排队。可联系管理员扩容实例。
记住:这不是本地运行,所以“慢”永远是网络和云端的事,和你的电脑性能无关。
7. 总结:一条通往无感自动化的捷径
Open-AutoGLM 的云端API调用模式,本质上提供了一种全新的AI使用范式:算力外包,能力内化。
你不必成为Linux运维、不必研究vLLM参数、不必为显存不足焦虑。你只需要:
- 一部能联网的安卓手机(旧款也行)
- 一台普通电脑(MacBook Air或ThinkPad T系列足矣)
- 一个可用的API地址(可自建,也可用社区共享的测试端点)
然后,用最自然的语言下指令,剩下的交给AI。它看懂屏幕、理解意图、规划步骤、精准执行——而你,终于可以把时间花在真正重要的事情上。
这不是未来科技,它今天就能跑起来。现在,就打开终端,输入那行python main.py ...吧。第一次成功的“自动点击”,会让你真切感受到:原来,让AI替你动手,真的可以这么简单。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。