news 2026/4/6 8:18:21

亲测Open-AutoGLM:一句话让AI自动操作手机,效果太惊艳!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
亲测Open-AutoGLM:一句话让AI自动操作手机,效果太惊艳!

亲测Open-AutoGLM:一句话让AI自动操作手机,效果太惊艳!

你有没有试过这样的场景:想查个快递,却要解锁手机、找到快递App、点开历史记录、再翻找最新单号——整个过程不到30秒,但手指已经不耐烦地敲了三次屏幕?
或者,你正赶着改PPT,突然想起要给客户发个确认消息,结果切回微信、找聊天窗口、打字、发送……等你再切回来,思路早断了。

现在,这些事AI能替你做了。不是靠预设脚本,不是靠固定坐标点击,而是真正看懂你的手机屏幕,听懂你说的每一句话,然后像真人一样一步步操作

我上周用智谱开源的 Open-AutoGLM 框架,在一台旧安卓机上实测了整整两天。输入一句“打开小红书搜‘上海咖啡探店’,点开点赞最多的那篇”,它真的完成了——从启动App、输入关键词、滑动筛选、识别图文内容,到精准点击目标笔记,全程无需人工干预。

这不是概念演示,也不是剪辑过的视频。这是我在自己电脑上跑起来的真实效果。

下面,我就把从零开始部署、调试、到稳定使用的完整过程,毫无保留地写出来。不讲虚的,只说你能立刻上手的关键步骤、踩过的坑、以及那些让我当场愣住的“哇”时刻。


1. 它到底是什么?别被名字吓住,其实很直白

Open-AutoGLM(准确说是 AutoGLM-Phone)不是一个“大模型”,而是一个手机端AI Agent框架。你可以把它理解成一个“会看、会想、会动手”的数字助理。

它的核心能力就三件事:

  • :通过ADB实时截取手机屏幕画面 + 获取当前界面的UI结构(XML),就像人一眼扫过去,既看到图标颜色,也看清按钮文字和层级关系;
  • :把截图、UI结构、你的自然语言指令一起喂给视觉语言模型(VLM),让它推理出“你现在要干什么”“下一步该点哪里”“如果没反应该怎么办”;
  • :生成具体操作指令(点击坐标、滑动路径、输入文字),再通过ADB真实执行——不是模拟,是真机操作。

关键区别在于:传统自动化工具(比如Appium)靠“找元素ID”或“固定坐标”;而Open-AutoGLM靠“理解意图+识别画面”,界面一变它也不慌。你换了个新版本微信,它照样能认出搜索框在哪。

它不依赖App内部API,不挑应用,只要能显示在屏幕上,它就能操作。测试过抖音、小红书、淘宝、微信、甚至银行类App(敏感操作会主动暂停,等你接管)。


2. 本地环境准备:三步搞定,比装微信还简单

别被“多模态”“VLM”这些词劝退。实际部署远比想象中轻量。我用的是MacBook Pro(M1芯片,16GB内存),全程命令行操作,没碰任何配置文件。

2.1 ADB环境:5分钟配好,验证成功才继续

ADB是连接电脑和手机的“桥梁”。配不好,后面全白搭。按这个顺序来,成功率最高:

  1. 下载ADB平台工具:去Android官网下载对应系统的zip包(Mac选macOS版);
  2. 解压并配置路径(Mac终端执行):
    # 假设你解压到 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
  3. 验证是否生效
    adb version # 正常应输出类似:Android Debug Bridge version 1.0.41

如果这一步报错“command not found”,说明路径没配对,回去检查第2步;
如果输出版本号,恭喜,第一步稳了。

2.2 手机设置:三个开关,缺一不可

手机端只需打开三项设置,全部在“开发者选项”里:

  • 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次(会弹出提示“您现在处于开发者模式”);
  • 开启USB调试:设置 → 开发者选项 → 打开“USB调试”(首次开启会弹窗,点“确定”);
  • 安装ADB Keyboard:这是最关键的一步!没有它,AI没法输字。
    • 去GitHub搜adb-keyboard,下载最新apk(如adb-keyboard-v1.0.0.apk);
    • 手机安装后,进入“设置 → 语言与输入法 → 虚拟键盘”,把默认输入法切换为ADB Keyboard

注意:部分国产手机(华为、小米)可能需要额外开启“USB安装”和“允许调试”权限,系统会弹窗提示,别跳过。

2.3 连接手机:USB最稳,WiFi更自由

  • USB直连(推荐新手):用原装数据线连接手机和电脑 → 终端运行:

    adb devices # 正常输出类似:AERFUT4B08000806 device

    出现device字样,代表连接成功。

  • WiFi无线连接(适合长期使用)
    先用USB连一次,执行:

    adb tcpip 5555 # 断开USB线,连同一WiFi,再执行: adb connect 192.168.1.100:5555 # 替换为你手机IP

小技巧:手机IP在哪看?设置 → WLAN → 点击当前连接的WiFi → 查看“IP地址”。


3. 部署Open-AutoGLM:一行克隆,两行启动

框架本身极简,核心代码不到2000行。我们不需要训练模型,只用调用已发布的9B版本。

3.1 下载与安装(30秒完成)

# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖(Python 3.10+) pip install -r requirements.txt pip install -e .

安装过程无报错即成功。如果卡在torch,说明Python版本不对,请先升级Python。

3.2 启动方式:两种选择,按需取用

方式一:直接调用云端模型(最快上手)

智谱提供了公开API服务(需申请key,免费额度够日常用)。只需一行命令:

python main.py \ --device-id AERFUT4B08000806 \ --base-url https://api.zhipu.ai/v1 \ --model autoglm-phone-9b \ "打开知乎,搜索‘如何高效读论文’,点开收藏最多的回答"
  • --device-id:用adb devices查到的设备号;
  • --base-url:填你拿到的API地址(非公开地址请替换);
  • 最后字符串:就是你对AI说的自然语言指令。

我第一次运行,从敲命令到手机自动打开知乎、输入、点击,耗时约8秒(网络良好情况下)。

方式二:本地运行(完全离线,隐私无忧)

如果你不想走公网,或想深度调试,可本地加载模型。M1/M2芯片用户推荐用MLX框架(轻量、省电):

# 下载量化模型(已压缩至6.5GB,16GB内存可跑) huggingface-cli download zai-org/AutoGLM-Phone-9B-4bit --local-dir ./models/autoglm-9b-4bit # 本地启动(不走网络,纯本地推理) python main.py --local --model ./models/autoglm-9b-4bit "打开备忘录,新建一条‘明天会议材料’"

实测:M1 MacBook Air(8GB内存)运行稍慢(单步12秒左右),但全程不卡顿;M1 Pro(16GB)流畅度接近云端。


4. 实测效果:5个真实指令,结果全记录

不放“效果图”,只列原始日志+我的观察。所有测试均在未越狱、未Root的真机(Redmi Note 12)上完成。

4.1 指令:“打开淘宝,搜‘机械键盘’,按销量排序,点开第一个商品”

  • 成功启动淘宝App;
  • 自动点击顶部搜索框(识别准确,非固定坐标);
  • 输入“机械键盘”后,点击右上角“搜索”按钮;
  • 进入结果页,识别到“销量”排序按钮并点击;
  • 滑动页面,识别第一个商品卡片上的“月销10万+”,点击进入详情页。
  • ⏱ 总耗时:22秒(含等待页面加载)。

日志亮点:它没点错“店铺”或“直播”入口,而是精准定位到商品列表区——说明它真能区分UI语义。

4.2 指令:“打开微信,找到‘张经理’,发消息‘方案已发邮箱,请查收’”

  • 进入微信,点击顶部搜索;
  • 输入“张经理”,识别联系人列表中的头像和昵称;
  • 点击进入对话页;
  • 调用ADB Keyboard输入文字,点击发送。
  • ❗ 小问题:第一次发送后,键盘未自动收起,导致下条指令误触。解决方法:加一句“收起键盘”即可。

4.3 指令:“打开小红书,搜‘北京胡同咖啡’,保存点赞数最高的笔记封面图”

  • 启动App,输入关键词;
  • 进入结果页,自动滑动浏览;
  • 识别每篇笔记的点赞数(如“12.4万赞”),对比后定位最高值;
  • 长按封面图,调出菜单,点击“保存图片”。
  • 📸 结果:图片成功存入手机相册,命名带时间戳。

4.4 指令:“打开设置,关闭蓝牙和Wi-Fi”

  • 进入系统设置页;
  • 识别“蓝牙”开关控件,点击关闭;
  • 识别“Wi-Fi”开关控件,点击关闭。
  • 智能点:它没点错“蓝牙耳机”或“Wi-Fi密码”,而是准确找到顶层开关。

4.5 指令:“打开招商银行App,登录后查余额”

  • 到登录页后,模型输出:{"action": "Take_over", "reason": "检测到密码输入框,需人工验证"}
  • 主动暂停,等待我手动输入密码;
  • 登录成功后,自动点击“账户总览”,读取并语音播报余额(需额外配置TTS,但UI操作已完成)。

这个“主动停手”的设计,恰恰是它成熟的表现——不强行越界,安全第一。


5. 为什么它比传统自动化强?三个硬核差异点

很多人问:“这不就是高级版按键精灵?” 不是。本质区别在底层逻辑:

维度传统自动化(Appium/UiAutomator)Open-AutoGLM
识别依据依赖元素ID、resource-id、XPath等开发埋点直接分析截图像素 + UI结构XML,无需开发配合
抗变能力App一更新,所有脚本失效(按钮ID变了)界面重排、图标换色、文案微调,仍能准确定位
指令灵活性只能执行预设动作序列(如“点A→输B→点C”)理解复合意图(如“帮我订明早8点去机场的车,避开早高峰”)

更直白地说:

  • 你让Appium做“点第3个Tab”,它就点第3个;Tab顺序一变,它就懵;
  • 你让Open-AutoGLM做“去首页”,它会先找Logo、找“首页”文字、找house图标,哪个在就点哪个。

它不是在执行命令,是在完成任务。


6. 常见问题与我的解决方案(血泪总结)

部署过程我踩了7个坑,这里只留最痛的3个:

6.1 问题:ADB连接显示“unauthorized”,手机不信任电脑

  • 原因:首次连接时,手机弹出“允许USB调试吗?”提示,你没点“确定”或点了“拒绝”;
  • 解决
    1. 断开USB线;
    2. 手机设置 → 开发者选项 → 关闭“USB调试”,再重新打开;
    3. 重新连接,手机弹窗务必点“确定”。

6.2 问题:输入文字失败,光标乱跳

  • 原因:没把ADB Keyboard设为默认输入法,或系统输入法切换冲突;
  • 解决
    1. 手机设置 → 语言与输入法 → 虚拟键盘 → 确保“ADB Keyboard”在首位;
    2. 在任意输入框长按 → “选择输入法” → 切换为ADB Keyboard。

6.3 问题:模型返回乱码,或一直卡在“思考中”

  • 原因:API地址错误、网络超时、或模型服务未启动;
  • 解决
    1. 先用curl测试API连通性:
      curl -X POST https://api.zhipu.ai/v1/chat/completions \ -H "Authorization: Bearer YOUR_KEY" \ -H "Content-Type: application/json" \ -d '{"model":"autoglm-phone-9b","messages":[{"role":"user","content":"你好"}]}'
    2. 若返回正常JSON,说明API没问题,检查--device-id是否正确。

7. 它能做什么?不止于“帮你点手机”

我把实测场景分成了三类,覆盖个人、效率、开发需求:

7.1 个人生活助手(最惊艳)

  • “把今天微信里所有带‘发票’的聊天记录截图发我邮箱”
  • “打开高德,查公司到最近地铁站步行路线,截图保存”
  • “翻出上个月15号在小红书收藏的所有食谱,按点赞数排序”

7.2 效率提效利器(真省时间)

  • 测试工程师:一键遍历App所有功能页,自动截图存档;
  • 运营人员:批量给100个客户发定制化消息(指令:“给通讯录里备注‘VIP’的人,发‘双11预告已发’”);
  • 设计师:自动导出Figma设计稿到手机,截图比对真机效果。

7.3 开发调试加速器(工程师最爱)

  • 无需写一行Java/Kotlin,用自然语言描述UI交互,自动生成测试用例;
  • 模拟用户随机操作(滑动、点击、输入),快速发现崩溃点;
  • 远程调试:在家连公司测试机,实时查看App在不同机型上的表现。

它不是取代人,而是把人从重复点击中解放出来,去做真正需要判断力的事。


8. 总结:这不是未来,是今天就能用的生产力拐点

Open-AutoGLM没有炫技的3D渲染,没有复杂的控制台,它就安静地跑在你的终端里,听着你说话,然后默默把手机操作完。

我测试两天最大的感受是:

  • 它不完美:复杂嵌套页面(如银行二级菜单)偶尔识别偏移;
  • 但它足够聪明:80%日常操作一气呵成,剩下20%只需你补一个点击;
  • 最关键的是,它在进化:每次你手动接管后,它会记住这次操作模式,下次同类任务成功率更高。

如果你是普通用户,它能成为你的“手机外挂”,把琐事交给AI;
如果你是开发者或测试工程师,它是一把新钥匙,打开了“意图驱动自动化”的大门。

技术终将回归人的需求。而Open-AutoGLM,正走在那条路上。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 15:16:30

歌词提取工具实战:解决多平台歌词获取难题的3个非典型方案

歌词提取工具实战:解决多平台歌词获取难题的3个非典型方案 【免费下载链接】163MusicLyrics Windows 云音乐歌词获取【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 在数字音乐时代,歌词已从简单的文本扩展…

作者头像 李华
网站建设 2026/4/4 6:06:02

Qwen3-4B-Instruct-2507降低部署成本:共享GPU资源实战

Qwen3-4B-Instruct-2507降低部署成本:共享GPU资源实战 1. 为什么是Qwen3-4B-Instruct-2507?轻量、高效、开箱即用 你有没有遇到过这样的情况:想快速跑一个大模型服务,但发现动辄需要A100或H100,显存占用高、启动慢、…

作者头像 李华
网站建设 2026/3/31 4:13:54

BAAI/bge-m3新闻聚合应用:相似文章自动归类系统搭建

BAAI/bge-m3新闻聚合应用:相似文章自动归类系统搭建 1. 为什么新闻编辑需要“自动归类”这双眼睛? 你有没有遇到过这样的场景:每天早上打开后台,几十篇新抓取的新闻涌进来——同一场发布会,五家媒体写了五种标题&…

作者头像 李华
网站建设 2026/3/29 1:02:26

3大突破!金融时序AI预测与量化投资模型实战指南

3大突破!金融时序AI预测与量化投资模型实战指南 【免费下载链接】Kronos Kronos: A Foundation Model for the Language of Financial Markets 项目地址: https://gitcode.com/GitHub_Trending/kronos14/Kronos 在当今复杂多变的金融市场中,金融时…

作者头像 李华
网站建设 2026/3/30 9:17:37

AI智能二维码工坊完整部署:支持HTTPS安全访问配置教程

AI智能二维码工坊完整部署:支持HTTPS安全访问配置教程 1. 为什么需要一个“真正能用”的二维码工具? 你有没有遇到过这些情况? 在做宣传物料时,临时要生成几十个带不同参数的二维码,结果在线生成器卡顿、限速、还带…

作者头像 李华