news 2026/6/26 13:32:31

零基础搭建手机AI Agent:Open-AutoGLM本地与远程部署全解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
零基础搭建手机AI Agent:Open-AutoGLM本地与远程部署全解

零基础搭建手机AI Agent:Open-AutoGLM本地与远程部署全解

1. 什么是Open-AutoGLM?不是“会说话的APP”,而是真正能动手的手机AI助理

你有没有想过,让AI不只是回答问题,而是真的帮你点开小红书、输入关键词、滑动查看结果、甚至在购物App里比价下单?Open-AutoGLM就是这样一个“能看、能想、能干”的手机AI Agent——它不依赖预设脚本,不靠UI元素ID硬编码,而是用眼睛(截图)+脑子(多模态大模型)+手(ADB指令)完成真实操作。

它的核心能力很实在:

  • 看懂屏幕:不只是拍张图,还能同时读取界面结构(XML)、当前页面名、控件位置和文字
  • 听懂人话:你说“帮我查明天上海到北京的高铁余票”,它能拆解成“打开12306→点击出发地→输入上海→点击到达地→输入北京→选择日期→点击查询”
  • 自己动手:通过ADB自动执行点击、滑动、输入、返回等动作,每步之后重新截图再思考,形成闭环
  • 知道分寸:遇到支付密码、短信验证码等敏感操作,会主动暂停并提示“请人工接管”,安全不越界

这不是概念演示,而是已落地的开源框架。它背后是智谱推出的AutoGLM-Phone-9B模型,专为手机端Agent任务优化,在真实安卓设备上稳定运行。本文不讲抽象原理,只带你从零开始:一台电脑、一部安卓手机、不到30分钟,亲手让AI替你操作手机。

2. 本地部署:Mac/Windows一键跑通,无需GPU也能玩转

2.1 环境准备:三步搞定,连新手都能看清每一步

别被“AI”“多模态”吓住——本地部署其实比装一个微信还简单。你只需要确认三件事:

  • 你的电脑:Windows 10+/macOS Monterey+,Python 3.10或更新版本(命令行输入python --version查看)
  • 你的手机:Android 7.0以上(市面95%的安卓机都满足),开启开发者模式和USB调试(后文细说)
  • ADB工具:Android官方调试桥,5MB大小,下载即用

小贴士:如果你用的是Mac M2/M3芯片,恭喜——它原生支持MLX框架,本地跑9B模型毫无压力;Windows用户则推荐用WSL2或直接走远程部署(更稳更快)

2.2 手机设置:5分钟完成,关键三步不能跳

这三步决定后续能否连上手机,务必按顺序操作:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”提示

  2. 开启USB调试
    设置 → 系统 → 开发者选项 → 找到“USB调试”并开启(部分品牌叫“USB调试(安全设置)”,一并开启)

  3. 安装ADB Keyboard(输入法关键!)

    • 下载adb-keyboard.apk(GitHub仓库Release页提供)
    • 手机安装后,进入 设置 → 语言与输入法 → 当前键盘 → 选择“ADB Keyboard”为默认
    • 这步漏掉,AI永远无法输入文字——所有“Type”指令都会失败

2.3 控制端部署:克隆、安装、验证,三行命令走完

打开终端(Mac)或命令提示符(Windows),依次执行:

# 1. 克隆代码(约15秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖(约2分钟,网络好可更快) pip install -r requirements.txt pip install -e . # 3. 验证ADB是否就绪(看到device ID即成功) adb devices

如果输出类似AERFUT4B08000806 device,说明手机已识别。若显示?????????? no permissions,请拔插USB线后重试,或在手机弹窗中勾选“允许USB调试”。

2.4 本地运行:不用服务器,直接启动AI代理

Open-AutoGLM支持两种本地运行方式,任选其一:

方式一:交互式模式(适合调试和学习)
python main.py --local --model autoglm-phone-9b "打开微博看看热搜"

输入后,你会看到AI实时打印思考过程(如<think>现在需要找到微博App图标并点击</think>),接着执行点击动作,最后截图反馈结果。

方式二:API服务模式(适合集成进其他工具)
python main.py --local --model autoglm-phone-9b --api-port 8080

启动后访问http://localhost:8080/docs,即可用网页表单发送指令,也支持Postman调用。

实测效果:在M2 Mac上,从指令输入到首屏点击平均耗时14秒;在i7-11800H Windows笔记本上约18秒。速度虽不如GPU,但完全满足日常辅助需求。

3. 远程部署:用云服务器加速7倍,支持多设备并发控制

3.1 为什么需要远程部署?本地VS云端的真实差距

本地部署方便,但有硬伤:

  • 模型加载慢(M2需30秒,Windows更久)
  • 单步推理卡顿(13–18秒/步,复杂任务易超时)
  • 无法同时控制多台手机(测试团队需批量跑用例)

而远程部署把“思考”交给高性能GPU,“动手”仍由本地ADB完成,实现分工协作。实测在NVIDIA H800服务器上:

  • 单步推理压缩至2–5秒(快7倍)
  • 模型热加载仅15秒
  • 一台服务器可同时驱动5–8台手机并行操作

3.2 服务端搭建:vLLM一键启动,兼容OpenAI接口

假设你已有一台Linux云服务器(腾讯云/阿里云均可),执行以下命令:

# 安装vLLM(推荐CUDA 12.1环境) pip install vllm torch torchvision transformers # 启动API服务(端口8000,模型自动从Hugging Face拉取) python3 -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --port 8000

启动成功后,终端会显示INFO: Uvicorn running on http://0.0.0.0:8000。此时服务已就绪,等待客户端连接。

安全提醒:生产环境务必配置反向代理(Nginx)+ HTTPS + API Key鉴权,避免公网暴露模型服务。

3.3 客户端连接:一条命令打通“云脑+手机手”

回到你的本地电脑(Mac/Windows),确保手机已通过USB或WiFi连接(WiFi连接方法见下文),执行:

python main.py \ --device-id AERFUT4B08000806 \ --base-url http://你的服务器IP:8000/v1 \ --model autoglm-phone-9b \ "打开知乎搜索‘AI Agent入门’,点开第一个回答并截图"

参数说明:

  • --device-idadb devices查到的设备号,或WiFi地址如192.168.1.100:5555
  • --base-url:指向云服务器的API地址,格式固定为http://IP:端口/v1
  • 最后字符串:你的自然语言指令,支持中文长句、带标点、口语化表达

3.4 WiFi无线连接:摆脱USB线,真·远程操控

USB线连接稳定,但不方便多设备管理。WiFi连接只需两步:

  1. 首次用USB连接并启用TCP/IP

    adb tcpip 5555 # 断开USB线,确保手机和电脑在同一WiFi
  2. 用IP连接设备

    adb connect 192.168.1.100:5555 # 替换为手机实际IP(手机设置→关于手机→状态信息里可查)

连接成功后,adb devices会显示192.168.1.100:5555 device。此后所有操作无需USB线,手机放桌上就能被AI操控。

4. 实战案例:从“打开抖音关注博主”到完整流程解析

4.1 一条指令背后的完整工作流

我们以标题中的例子展开:“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!”

Open-AutoGLM实际执行了7个步骤,全程无人干预:

步骤AI思考内容(简化)执行动作耗时
1“先找到抖音App图标并点击启动”Tap [210, 480]0.8s
2“首页有搜索框,点击进入”Tap [540, 120]0.6s
3“输入框已激活,输入抖音号”Type “dycwo11nt61d”1.2s
4“点击搜索按钮”Tap [920, 120]0.5s
5“结果页出现用户卡片,点击进入主页”Tap [540, 320]0.9s
6“关注按钮在右上角,点击”Tap [980, 180]0.4s
7“检查关注状态是否变为‘已关注’”Screenshot + OCR验证2.1s

整个过程约8秒(远程部署),AI会自动截图验证每步结果,失败则重试或报错。

4.2 敏感场景处理:当遇到验证码,AI主动“交棒”

在银行App、支付页面等场景,Open-AutoGLM内置安全机制:

  • 检测到输入框类型为“password”或界面含“验证码”“短信验证”文字 → 触发接管
  • 输出JSON指令:{"action": "Take_over", "reason": "检测到支付验证环节,请人工输入验证码"}
  • 终端打印红色提示:“ 请手动完成验证码,完成后按回车继续”

这既保障了资金安全,又避免了流程中断——AI不是取代人,而是把人从重复劳动中解放出来,专注关键决策。

4.3 多轮对话支持:连续指令,像跟真人协作一样自然

Open-AutoGLM支持上下文记忆,你可以连续下达指令:

python main.py --base-url http://server:8000/v1 --model autoglm-phone-9b \ "打开淘宝搜索蓝牙耳机" \ "按价格从低到高排序" \ "点开销量最高的商品" \ "截图商品详情页"

AI会记住前序操作状态(如当前在淘宝商品列表页),无需重复说明“现在在哪个App”,真正实现自然语言交互。

5. 常见问题排查:90%的问题,三句话就能解决

5.1 ADB连接类问题(占故障率70%)

  • 问题:“adb devices”无设备,或显示“unauthorized”
    解决:手机弹出“允许USB调试吗?”窗口,勾选“始终允许”,再点确定

  • 问题:WiFi连接后adb shell报错“connection refused”
    解决:确认手机和服务器在同一局域网;重启ADB服务adb kill-server && adb start-server

  • 问题:执行Type指令无反应
    解决:100%是ADB Keyboard未设为默认输入法!进入手机“设置→语言与输入法→当前键盘”切换

5.2 模型服务类问题(占故障率20%)

  • 问题:vLLM启动报错“out of memory”
    解决:H800需至少24GB显存;若用A10/A100,添加参数--gpu-memory-utilization 0.95

  • 问题:API返回空响应或乱码
    解决:检查--max-model-len是否小于实际输入长度;建议设为25480(模型最大支持值)

5.3 UI理解类问题(占故障率10%,但最影响体验)

  • 问题:AI点错位置,或找不到搜索框
    解决:手机开启“开发者选项→最小宽度”调至360dp(适配截图分辨率);关闭“字体缩放”至标准大小

  • 问题:深色模式下截图发黑
    解决:在main.py中添加参数--screenshot-quality 95提升截图质量

终极排查法:运行时加--verbose参数,查看完整日志,从“截图获取→XML解析→模型输入→动作输出”逐层定位。

6. 总结:你的第一台“手机AI工人”,今天就能上岗

Open-AutoGLM不是玩具,而是一套经过真实场景验证的生产力工具。它把过去需要写几十行Appium脚本、维护XPath定位器、反复调试的手机自动化任务,压缩成一句中文指令。无论你是:

  • 个人用户:用M2 Mac本地部署,让它每天自动整理微信收藏、汇总小红书笔记、监控电商降价
  • 测试工程师:用H800服务器批量跑回归用例,覆盖App所有分支路径,缺陷发现率提升3倍
  • 产品经理:快速验证竞品App交互流程,1小时生成10个主流App的操作SOP文档
  • 开发者:基于phone_agent.adb模块二次开发,接入企业微信、飞书机器人,打造专属AI办公助手

它的价值不在技术多炫酷,而在足够“笨”——不依赖预设规则,不惧界面改版,只认屏幕所见、听懂自然语言、老老实实执行。就像给你配了一个不知疲倦、从不抱怨、越用越懂你的手机助理。

现在,合上这篇文章,拿起手机,打开终端,敲下第一行git clone。5分钟后,你将亲眼看到AI第一次为你点开那个App——那一刻,你会相信:未来已来,而且就在你指尖。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/24 1:39:50

哔哩下载姬DownKyi:构建高效视频资源管理系统指南

哔哩下载姬DownKyi&#xff1a;构建高效视频资源管理系统指南 【免费下载链接】downkyi 哔哩下载姬downkyi&#xff0c;哔哩哔哩网站视频下载工具&#xff0c;支持批量下载&#xff0c;支持8K、HDR、杜比视界&#xff0c;提供工具箱&#xff08;音视频提取、去水印等&#xff0…

作者头像 李华
网站建设 2026/6/24 1:40:09

颠覆式效率提升:GHelper如何重构华硕笔记本性能控制体验

颠覆式效率提升&#xff1a;GHelper如何重构华硕笔记本性能控制体验 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地…

作者头像 李华
网站建设 2026/6/23 15:03:25

虚拟设备驱动解锁游戏控制新姿势:从问题到实践的完整指南

虚拟设备驱动解锁游戏控制新姿势&#xff1a;从问题到实践的完整指南 【免费下载链接】ViGEmBus 项目地址: https://gitcode.com/gh_mirrors/vig/ViGEmBus 还在为不同游戏手柄的兼容性问题头疼&#xff1f;想让老旧设备焕发新生却苦于没有合适的驱动支持&#xff1f;虚…

作者头像 李华
网站建设 2026/6/24 1:39:50

HsMod炉石插件使用指南:游戏加速与功能优化全解析

HsMod炉石插件使用指南&#xff1a;游戏加速与功能优化全解析 【免费下载链接】HsMod Hearthstone Modify Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod HsMod是基于BepInEx框架开发的炉石传说插件&#xff0c;集成游戏加速、界面定制、账…

作者头像 李华
网站建设 2026/6/24 1:42:19

YOLOv9-s模型特点:轻量级部署首选方案推荐

YOLOv9-s模型特点&#xff1a;轻量级部署首选方案推荐 你是否遇到过这样的问题&#xff1a;想在边缘设备或资源受限的服务器上部署目标检测模型&#xff0c;但YOLOv5太重、YOLOv8推理慢、YOLOv10又还没稳定&#xff1f;YOLOv9-s正是为这类场景而生——它不是简单地堆参数&…

作者头像 李华
网站建设 2026/6/24 1:45:38

基于单片机控制的全自动化洗衣机设计

目录 单片机控制的全自动化洗衣机设计概述硬件设计软件设计人机交互设计节能与安全特性扩展功能 源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01; 单片机控制的全自动化洗衣机设计概述 全自动化洗衣机通过单片机&#xff08;如STM32、5…

作者头像 李华