news 2026/2/15 22:16:37

5分钟部署Open-AutoGLM,用AI自动操作手机实测体验

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
5分钟部署Open-AutoGLM,用AI自动操作手机实测体验

5分钟部署Open-AutoGLM,用AI自动操作手机实测体验

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

1. 引言:让AI替你操作手机,真的能实现吗?

你有没有想过,有一天只要对手机说一句“打开小红书,搜一下附近的火锅店”,接下来的一切——解锁、打开App、输入关键词、点击搜索——全都不用手动完成?听起来像科幻电影,但今天,这个功能已经可以通过Open-AutoGLM实现了。

这是由智谱AI开源的一个基于视觉语言模型的手机智能助理框架。它不仅能“看懂”你的屏幕,还能通过自然语言指令自动执行操作。整个过程就像有个AI助手坐在你旁边,替你点来点去。

我亲自试了一下,从部署到跑通第一个任务,不到5分钟。下面我就带你一步步上手,并分享我的真实使用感受。


2. 快速部署:三步搞定控制端

2.1 环境准备

你需要准备以下几样东西:

  • 一台运行 Windows 或 macOS 的电脑
  • 一部 Android 7.0+ 的手机(或模拟器)
  • Python 3.10+
  • ADB 工具(Android Debug Bridge)

ADB 是安卓调试桥,用来连接电脑和手机。你可以从 Android 开发者官网 下载 SDK Platform Tools,解压后配置环境变量。

Windows 用户

  1. 解压文件夹
  2. Win + R输入sysdm.cpl→ 高级 → 环境变量
  3. 在系统 Path 中添加 ADB 所在路径
  4. 命令行输入adb version验证是否成功

macOS 用户

export PATH=${PATH}:~/Downloads/platform-tools

把路径换成你实际的解压位置即可。


2.2 手机设置:开启开发者权限

在手机上做三件事:

  1. 开启开发者模式
    进入「设置」→「关于手机」→ 连续点击“版本号”7次,直到提示已开启。

  2. 开启 USB 调试
    返回设置主界面 →「开发者选项」→ 勾选“USB 调试”。

  3. 安装 ADB Keyboard
    下载并安装 ADB Keyboard APK。
    安装后进入「语言与输入法」→ 将默认输入法切换为 ADB Keyboard。
    这是为了让 AI 能输入中文,原生 ADB 不支持中文直接输入。


2.3 部署 Open-AutoGLM 控制端

现在回到电脑,开始部署核心代码:

# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

这一步会安装所有必要的库,包括用于调用模型的客户端、ADB 控制模块等。


3. 连接设备:USB 和 WiFi 两种方式

3.1 使用 USB 连接(推荐新手)

用数据线将手机连上电脑,确保手机弹出“允许调试”的提示时点击“确定”。

然后在终端运行:

adb devices

如果看到类似这样的输出,说明连接成功:

List of devices attached 123456789 device

3.2 使用 WiFi 无线连接(适合远程控制)

如果你不想一直插着线,可以用 WiFi 连接。

先用 USB 连接,然后执行:

adb tcpip 5555

断开 USB 后,找到手机的 IP 地址(一般在「设置 → WLAN」里),再运行:

adb connect 192.168.x.x:5555

再次用adb devices检查,应该能看到设备在线。


4. 启动 AI 代理:一句话让AI接管手机

一切就绪后,就可以下达第一条指令了!

假设你已经在云服务器上部署好了 AutoGLM 模型服务(比如通过 vLLM 提供 OpenAI 兼容接口),现在只需运行:

python main.py \ --device-id 123456789 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索抖音号 dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:从adb devices获取的设备ID
  • --base-url:你的模型服务地址
  • --model:模型名称
  • 最后的字符串:你要给AI的自然语言指令

4.1 实测效果:AI是如何一步步执行的?

我试了上面这条命令,整个过程大概持续了20秒。以下是AI的实际行为记录:

  1. 识别当前界面:AI先截图,判断当前在桌面。
  2. 启动抖音:调用Launch("抖音"),等待应用加载。
  3. 寻找搜索框:分析界面元素,定位到搜索图标并点击。
  4. 输入账号名:使用 ADB Keyboard 输入 “dycwo11nt61d”。
  5. 点击搜索结果:找到目标用户,点击进入主页。
  6. 点击关注按钮:完成最后一步操作。
  7. 返回结果:输出finish(message="已成功关注该用户")

整个流程完全自动化,中间没有任何人工干预。


4.2 支持的操作类型

AI能理解并执行多种动作,包括:

  • Launch("微信"):启动应用
  • Tap([500, 300]):点击坐标(归一化0-999)
  • Type("你好"):输入文本
  • Swipe([500,800], [500,200]):滑动
  • Back()/Home():返回或回到桌面
  • Take_over():需要人工介入(如验证码)

这些动作都是通过 Prompt 引导模型输出结构化指令,再由本地程序解析执行。


5. 核心机制揭秘:AI是怎么“看懂”屏幕的?

5.1 多模态理解:图像 + 文本双输入

Open-AutoGLM 使用的是一个视觉语言模型(VLM),它接收两个输入:

  • 当前屏幕截图(图像)
  • 用户的任务描述 + 上下文信息(文本)

模型会结合这两者做出决策。例如,当你让它“在美团里订一家评分4.5以上的餐厅”,它会:

  1. 截图当前页面
  2. 分析界面上哪些是评分标签
  3. 判断是否满足条件
  4. 决定是继续浏览还是点击某个店铺

5.2 坐标归一化:适配不同分辨率

不同手机分辨率差异很大,但AI输出的坐标是统一的0-999 归一化坐标系

比如[500, 500]表示屏幕正中心,无论你是 720p 还是 4K 屏,系统都会自动换算成实际像素位置。

这样做的好处是:

  • 模型不需要学习每种分辨率
  • 训练数据可以跨设备复用
  • 更容易泛化到新机型

5.3 中文输入是如何实现的?

原生 ADB 的input text命令不支持中文。Open-AutoGLM 的解决方案是使用第三方输入法ADB Keyboard

其原理是:

  1. 临时切换输入法为 ADB Keyboard
  2. 通过广播发送 UTF-8 编码的文本
  3. 自动恢复原来的输入法

所以你在日志中看到的可能是:

[Input] Sending text: "美食推荐" [ADB] am broadcast -a ADB_INPUT_TEXT --es msg "美食推荐"

这种方式完美支持中文、emoji 和特殊字符。


6. 安全机制:敏感操作不会乱来

你可能会担心:AI会不会误触支付按钮?能不能随便读取隐私信息?

答案是不会。Open-AutoGLM 设计了多重安全机制。

6.1 敏感页面自动黑屏

当进入支付、密码输入等敏感页面时,Android 系统会阻止截图,返回一张纯黑图片。

AI收到黑屏后,会立即停止自动操作,并输出:

do(action="Take_over", message="检测到支付页面,请手动完成")

此时你需要接手操作,完成后按回车继续。


6.2 关键操作需确认

对于一些高风险动作,比如删除文件、退出登录,AI会在执行前添加确认信息:

do(action="Tap", element=[800, 900], message="即将退出登录,确认吗?")

你可以自定义回调函数,在终端弹出确认提示:

Sensitive operation: 即将退出登录,确认吗? Confirm? (Y/N):

只有你输入 Y,才会真正执行。


7. 实际应用场景:哪些事可以让AI代劳?

7.1 日常生活类

  • “打开外卖App,帮我点昨天那份午餐”
  • “查一下今天的天气,发给张三”
  • “把朋友圈最新一条动态点赞”

这类重复性操作最省时间。


7.2 工作辅助类

  • “登录企业微信,把今天的日报发到群里”
  • “打开钉钉,查看最近的会议纪要”
  • “批量转发公众号文章到客户群”

尤其适合运营、客服等岗位做标准化任务。


7.3 测试与自动化

  • UI 自动化测试
  • App 功能回归验证
  • 数据采集脚本

相比传统自动化工具(如 Appium),Open-AutoGLM 不需要写 XPath 或 ID,直接用自然语言就能驱动,门槛低很多。


8. 常见问题与排查建议

8.1 连接失败怎么办?

常见原因和解决方法:

问题可能原因解决方案
adb devices无设备未开启USB调试检查开发者选项
显示 unauthorized未授权电脑手机端确认调试授权
WiFi连接失败端口未开放确保防火墙放行5555端口

8.2 AI乱点或卡住?

可能原因:

  • 模型响应延迟过高
  • 屏幕未完全加载就执行下一步
  • 坐标识别偏差

建议:

  • 检查模型服务性能(首token延迟应 < 0.5s)
  • 增加等待逻辑(Prompt中加入“等待页面加载完成”)
  • 在复杂界面尽量描述清楚目标元素

8.3 中文显示乱码?

一定是 ADB Keyboard 没配好。请检查:

  • 是否已安装 APK
  • 是否已在输入法设置中启用
  • 是否在代码中正确调用了广播机制

9. 总结:这不仅仅是个玩具

经过实测,Open-AutoGLM 绝不只是个技术演示项目。它的设计非常工程化,具备以下几个亮点:

  • 真正可用:从部署到运行只需几分钟,文档清晰
  • 多模态能力强:能准确理解图文混合界面
  • 安全性到位:敏感操作有防护机制
  • 扩展性强:模块化设计,支持自定义回调和集成

当然也有局限:

  • 推理速度还不够快(每步约2-3秒)
  • 对动态动画界面识别偶尔不准
  • 目前仅支持安卓

但无论如何,它代表了一个重要方向:未来的操作系统交互,可能不再是手动点击,而是用语言告诉AI你想做什么,剩下的交给它完成

如果你对 AI Agent、自动化、RPA 或智能助手感兴趣,Open-AutoGLM 是一个绝佳的学习起点。

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/13 21:49:25

科哥定制FunASR镜像发布:支持VAD/PUNC/时间戳的中文语音识别

科哥定制FunASR镜像发布&#xff1a;支持VAD/PUNC/时间戳的中文语音识别 1. 镜像亮点与核心功能 最近在语音识别领域&#xff0c;越来越多开发者和企业开始关注高效、准确且易于部署的本地化方案。今天要介绍的这款由“科哥”二次开发并发布的 FunASR 语音识别 WebUI 镜像&am…

作者头像 李华
网站建设 2026/2/1 21:05:54

Unsloth微调全流程演示,附Jupyter Notebook

Unsloth微调全流程演示&#xff0c;附Jupyter Notebook 1. 为什么选择Unsloth&#xff1a;不是更快&#xff0c;而是“快得合理” 你有没有试过在单张3090上微调Llama-3&#xff1f;显存爆掉、训练卡住、等一小时才出一个loss——这些不是玄学&#xff0c;是真实痛点。Unslot…

作者头像 李华
网站建设 2026/2/6 9:07:31

3大维度解析系统清理:从诊断到优化的完整指南

3大维度解析系统清理&#xff1a;从诊断到优化的完整指南 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服&#xff01; 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 系统运行缓慢、磁盘空间告急是每位Windows用户都会遇到的…

作者头像 李华
网站建设 2026/2/6 4:10:05

教育AI模型自适应微调实战

&#x1f493; 博客主页&#xff1a;借口的CSDN主页 ⏩ 文章专栏&#xff1a;《热点资讯》 教育AI模型自适应微调实战&#xff1a;从理论到落地目录教育AI模型自适应微调实战&#xff1a;从理论到落地 引言&#xff1a;教育AI的“最后一公里”挑战 一、核心价值&#xff1a;为什…

作者头像 李华
网站建设 2026/2/6 2:44:55

从下载到预测:YOLOv12镜像完整操作流程

从下载到预测&#xff1a;YOLOv12镜像完整操作流程 1. 前言&#xff1a;为什么选择 YOLOv12 镜像&#xff1f; 你是不是也经历过这样的场景&#xff1a;想快速跑一个目标检测模型&#xff0c;结果光是环境配置就花了一整天&#xff1f;依赖冲突、版本不兼容、CUDA报错……这些…

作者头像 李华