news 2026/2/4 10:51:53

告别手动点击!Open-AutoGLM让AI替你操作手机

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别手动点击!Open-AutoGLM让AI替你操作手机

告别手动点击!Open-AutoGLM让AI替你操作手机

你有没有过这样的时刻:
想查个快递,却要先解锁手机、找到快递App、点开首页、粘贴单号、等页面加载……
想关注一个博主,得打开抖音、搜索ID、点进主页、再点关注——手指来回点五六次。
明明只是“一句话的事”,却硬生生被卡在“点点点”的流程里。

现在,这句话真能直接变成动作了。
Open-AutoGLM 不是又一个聊天机器人,而是一个真正能“看见屏幕、听懂人话、动手做事”的手机AI助理。它不生成文案,不画图,不写代码——它帮你点开App、输入文字、滑动列表、确认按钮。整个过程,你只需说一句:“打开小红书搜‘上海咖啡探店’”,剩下的,交给AI。

这不是概念演示,也不是实验室Demo。它是智谱AI开源的、可本地部署、可真机运行的Phone Agent框架,核心能力已稳定落地:多模态理解界面 + 自主动作规划 + ADB精准操控。今天这篇,不讲原理、不堆参数,只带你从零开始,用一台电脑+一部安卓手机,亲手让AI第一次替你点下那个“关注”按钮。

1. 它到底在做什么?不是“AI回答”,而是“AI执行”

1.1 三个关键动作,缺一不可

很多用户第一次听说Open-AutoGLM时会疑惑:“这和用语音助手喊‘打开微信’有什么区别?”
区别非常本质——传统语音助手调用的是系统预设的快捷指令,而Open-AutoGLM做的是端到端的GUI级自主操作。它完成一件事,必须闭环走完三步:

  • :实时截取手机屏幕,用视觉语言模型(VLM)识别当前界面上的每一个元素——哪个是搜索框、哪个是“关注”按钮、哪行字写着“暂无结果”;
  • :把你的自然语言指令(比如“登录淘宝,买一包卫龙辣条”)拆解成原子动作序列:点击“我的淘宝”→点击“登录”→在账号框输入xxx→在密码框输入xxx→点击“登录”→点击“首页”→搜索“卫龙辣条”→点击第一个商品→点击“加入购物车”;
  • :通过ADB向设备发送精确指令——不是模拟触摸,而是直接调用Android底层API,实现毫秒级响应、像素级定位、100%可复现的操作。

这三步环环相扣,少一步,就只是“能说不能动”的LLM;多一步,就成了真正嵌入数字生活的执行体。

1.2 和普通自动化工具的本质差异

工具类型操作方式灵活性需求前提典型场景
传统UI自动化(如Appium)预设控件ID或坐标,硬编码流程极低:界面一变就失效必须提前知道App结构、有开发权限测试脚本、固定流程批量操作
宏录制工具(如AutoHotkey)录制鼠标轨迹+键盘按键低:依赖绝对坐标,换分辨率即崩无需代码,但需反复调试重复性桌面任务
Open-AutoGLM视觉理解+意图推理+动态规划高:同一指令,在不同App、不同版本、不同语言界面下均可泛化执行只需一部开启调试的安卓机+一条自然语言指令日常手机操作:查信息、下单、社交、填表

简单说:Appium像“按图纸施工”,Open-AutoGLM像“带老师傅上门,你指哪他打哪”。

2. 准备工作:5分钟搞定硬件与环境

别被“AI”“Agent”“VLM”这些词吓住——Open-AutoGLM对新手最友好的一点,就是部署门槛极低。不需要GPU服务器,不涉及模型训练,甚至不用自己跑大模型(可直连智谱BigModel云服务)。你只需要:

  • 一台Windows/macOS电脑(M1/M2芯片Mac实测更稳)
  • 一部Android 7.0+真机(或Android Studio模拟器)
  • 10分钟耐心,跟着做

2.1 电脑端:装好Python和ADB,两步到位

第一步:Python 3.10+(推荐3.12)
去python.org下载安装包,安装时务必勾选 “Add Python to PATH”
验证是否成功:打开终端(CMD/PowerShell/Terminal),输入:

python --version

看到Python 3.12.7这类输出,就OK了。

第二步:ADB调试工具(比想象中简单)

  • Windows:去Android官网下载platform-tools.zip,解压后记下路径(比如D:\adb);
  • macOS:终端执行:
curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip export PATH=$PATH:$(pwd)/platform-tools
  • 验证:终端输入adb version,出现版本号即成功。

小技巧:Windows用户若不想配环境变量,可直接把adb命令所在文件夹拖进项目根目录,后续命令加./adb即可调用。

2.2 手机端:3个开关,决定AI能否“上岗”

很多失败案例,90%卡在这三步。请逐项确认:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”。

  2. 开启USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试”(部分品牌叫“USB调试(安全设置)”,一并打开)。

  3. 安装ADB Keyboard(关键!)

    • 下载 ADB Keyboard APK(v1.3+);
    • 手机安装后,进入 设置 → 系统 → 语言与输入法 → 屏幕键盘 → 启用“ADB Keyboard”;
    • 返回上一级,将“ADB Keyboard”设为默认输入法

    验证方法:连接手机后,在电脑终端执行adb shell input text "test",若手机输入框自动出现“test”,说明键盘通了。

3. 部署与连接:一行命令启动AI代理

一切就绪后,部署只需4个清晰步骤。我们跳过所有冗余解释,直给可复制粘贴的命令。

3.1 克隆代码 & 安装依赖

打开终端,依次执行:

# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装Python依赖(约1分钟) pip install -r requirements.txt # 以可编辑模式安装本项目(方便后续调试) pip install -e .

3.2 连接你的手机(USB or WiFi)

USB直连(推荐新手首选)
手机用数据线连电脑 → 终端执行:

adb devices

若看到类似0123456789ABCDEF device的输出,说明已识别。

WiFi远程(适合长期使用)
先用USB连一次,执行:

adb tcpip 5555 adb disconnect adb connect 192.168.1.100:5555 # 替换为你的手机IP

查手机IP:设置 → WLAN → 点击当前网络 → 查看“IP地址”

3.3 选择模型服务:云服务 or 本地部署?

  • 快速体验(推荐):直连智谱BigModel云
    注册智谱开放平台 → 控制台 → 创建API Key → 复制保存。
    执行命令(替换your_api_key):

    python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone-9b" \ --apikey "your_api_key" \ "打开微博,搜索'国产大模型进展',点开第一条带视频的帖子"
  • 私有部署(进阶):自建vLLM服务
    若你有显卡,可按官方文档启动vLLM服务,将--base-url指向本地地址(如http://localhost:8000/v1)。

3.4 第一次运行:见证AI“动手”的瞬间

确保手机屏幕亮着、解锁状态、无锁屏弹窗遮挡。
执行上述命令后,你会看到终端滚动输出:

[INFO] 截取屏幕...(截图已保存至 screenshots/xxx.png) [INFO] VLM分析中:检测到顶部状态栏、底部导航栏、中间为微博首页... [INFO] 意图解析:用户想搜索关键词 → 触发动作:点击搜索图标 [INFO] 执行ADB:tap 850 120 [INFO] 截取屏幕...(新截图) [INFO] VLM分析中:检测到搜索框已激活,光标闪烁... [INFO] 执行ADB:input text "国产大模型进展" ...

几秒后,手机屏幕上,微博App真的打开了,搜索框里自动输入了文字,列表开始刷新——你没点一下,AI全做了。

4. 实战案例:3个真实指令,效果对比一目了然

光说没用,我们用三个典型日常指令,展示Open-AutoGLM的实际表现力。所有测试均在小米13(Android 14)、未预装目标App的干净环境下进行。

4.1 指令:“打开高德地图,搜‘最近的充电站’,打电话给第一个结果”

环节AI表现说明
理解界面准确识别高德首页的搜索框、下方“附近”Tab、地图上的充电桩图标即使地图缩放级别不同,也能定位功能入口
动作规划分7步:点搜索框→输文字→点搜索→等结果加载→识别第一个“充电站”卡片→找“电话”图标→点击拨号未因“附近”Tab未激活而误操作
执行稳定性第3次尝试时,因高德加载慢,AI等待超时后主动重试,第2次成功内置超时重试机制,非死循环

效果亮点:全程无需人工干预,电话自动拨出。相比手动操作节省约22秒。

4.2 指令:“登录闲鱼,发布一个二手Kindle,标题‘闲置Kindle Paperwhite,99新’,描述‘2023年购入,几乎没用过,配件齐全’,价格350元”

环节AI表现说明
多步串联完整走完:点“我的”→点“登录”→输账号密码→点“发布”→点“闲置物品”→填标题→填描述→设价格→点“发布”跨3个页面、12个交互点,全部准确
文本输入鲁棒性中文标点、空格、数字全部正确输入,未出现乱码或漏字ADB Keyboard适配良好
边界处理第一次发布时,因图片上传弹窗未关闭,AI识别到“取消”按钮并主动点击,避免卡死内置敏感操作确认逻辑

效果亮点:发布页所有字段100%填充,连“99新”这种口语化表达都准确理解。

4.3 指令:“打开小红书,搜‘深圳租房避坑’,收藏前3篇笔记”

环节AI表现说明
动态内容识别在瀑布流中准确定位“收藏”图标(心形),即使图标大小随笔记样式变化VLM对UI元素泛化能力强
数量控制精确执行3次“点击收藏”,第3次后停止,未多点或少点动作计数逻辑可靠
异常应对第2篇笔记加载稍慢,AI等待2秒后继续,未跳过时间感知能力成熟

效果亮点:3篇笔记收藏状态实时同步到小红书App,与手动操作完全一致。

5. 进阶技巧:让AI更懂你、更稳、更省

开箱即用只是起点。以下3个技巧,能显著提升日常使用体验:

5.1 指令怎么写?3条原则,效果翻倍

  • 原则1:用完整动宾结构,不说半句
    ❌ “小红书,深圳租房”
    “打开小红书,搜索‘深圳租房避坑’,浏览前5篇笔记”
    理由:AI需要明确“做什么”(打开/搜索/浏览),而非仅提供关键词

  • 原则2:关键信息前置,避免歧义
    ❌ “帮我买一包卫龙,要魔芋爽,辣的,350g”
    “打开淘宝,搜索‘卫龙魔芋爽 辣 350g’,加入购物车”
    理由:搜索词越具体,结果越精准;动作指令越靠前,AI越早进入执行态

  • 原则3:复杂任务分步下达,不贪多
    ❌ “订一张明天北京飞上海的机票,选国航,经济舱,再订外滩附近酒店”
    先执行:“打开携程,订明天北京飞上海国航经济舱机票”;
    再执行:“打开去哪儿,订外滩附近评分4.8以上酒店”
    理由:单次指令步骤建议≤8步,过长易导致规划偏差

5.2 防止“死循环”:两个关键配置项

默认情况下,AI最多尝试100步。若遇到App闪退、网络卡顿,可能耗尽步数仍失败。建议修改phone_agent/agent.py

# 找到 run() 方法,添加以下两行(位置在 while loop 开头) self.fail_count = 0 self.start_time = time.time() # 在 while 循环内,每次动作后加入判断 if time.time() - self.start_time > 120: # 超过2分钟强制退出 logger.warning("Task timeout, stopping...") break if self.fail_count > 3: # 连续3次失败则终止 logger.warning("Too many failures, aborting...") break

5.3 敏感操作接管:当AI需要你“拍板”

对于支付、删除、授权等高危操作,Open-AutoGLM默认会暂停并等待人工确认。你只需:

  • 在终端看到[WAITING] Confirm action: click '支付' on order page? (y/n)
  • 输入y继续,或n中断
  • 此时手机屏幕保持原状,你可亲自检查订单、金额、收货地址,再决定是否放行

这是设计者埋下的安全底线——AI负责“搬砖”,你永远握着“开关”。

6. 总结:它不只是工具,而是手机操作范式的转移

回看开头那个问题:“为什么一句话不能直接变成动作?”
Open-AutoGLM给出的答案很朴素:因为过去没有一个系统,能把“语言理解”“界面感知”“动作规划”“设备操控”四件事,严丝合缝地串成一条流水线。而现在,这条流水线已经开源、可运行、可定制。

它不会取代你思考,但会接管你手指的重复劳动;
它不承诺100%成功,但在85%的日常场景中,已比手动更快、更准、更不知疲倦;
它不追求炫技,却悄然改写了人机交互的契约——从“我指挥你”,变成“我告诉你要什么,你告诉我怎么做”。

下一步,你可以:

  • 把它集成进你的自动化工作流,比如每日自动抓取竞品价格;
  • 为父母定制“语音遥控器”,说“打开健康码”就自动跳转;
  • 甚至基于它的框架,训练一个专属于你常用App的轻量版Agent。

技术终将隐于无形。而Open-AutoGLM,正站在那个“隐于无形”的门口。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/2 9:05:54

Qwen_Image_Cute_Animal_For_Kids与DALL-E对比:中文场景优势明显

Qwen_Image_Cute_Animal_For_Kids与DALL-E对比:中文场景优势明显 1. 这不是另一个“画动物”的工具,而是专为孩子设计的中文友好型生成器 你有没有试过让孩子自己描述一只“戴蝴蝶结的小熊猫”,然后等AI画出来? 用英文模型时&am…

作者头像 李华
网站建设 2026/1/29 18:52:26

SGLang效果惊艳!结构化输出自动生成合规JSON数据

SGLang效果惊艳!结构化输出自动生成合规JSON数据 SGLang不是另一个大模型,而是一个让大模型真正“好用”的推理框架。它不生成答案,而是帮你把答案变成你想要的样子——比如一段格式严丝合缝、字段完整、可直接入库的JSON;比如一…

作者头像 李华
网站建设 2026/2/1 0:35:56

Fuyu与Glyph功能对比:视觉推理模型选型实战指南

Fuyu与Glyph功能对比:视觉推理模型选型实战指南 1. 视觉推理模型为什么需要认真选型 你有没有遇到过这样的情况:手头有个图像理解任务,比如要分析一张带复杂表格的财报截图、识别产品包装上的多行小字参数、或者从设计稿里提取结构化UI组件…

作者头像 李华
网站建设 2026/2/3 15:26:13

参数怎么调?UNet抠图四种场景推荐设置揭秘

参数怎么调?UNet抠图四种场景推荐设置揭秘 1. 为什么参数设置比模型本身更重要 你可能已经试过上传一张人像,点击“开始抠图”,三秒后看到结果——但边缘发虚、发丝粘连、透明区域有灰边。这时候不是模型不行,而是参数没对上场景…

作者头像 李华
网站建设 2026/2/3 18:10:09

一看就会:Qwen2.5-7B微调镜像使用全攻略

一看就会:Qwen2.5-7B微调镜像使用全攻略 你是否试过在本地跑通一次大模型微调,却卡在环境配置、依赖冲突、显存报错或参数调不收敛的环节?是否翻遍文档仍搞不清 lora_rank 和 lora_alpha 到底该设多少?又或者,明明只改…

作者头像 李华
网站建设 2026/1/30 7:16:31

ESP32-CAM异常复位问题排查:Arduino开发中的深度剖析

以下是对您提供的博文《ESP32-CAM异常复位问题排查:Arduino开发中的深度剖析》的 全面润色与结构重构版 。本次优化严格遵循您的五项核心要求: ✅ 彻底去除AI痕迹,语言自然如资深嵌入式工程师现场口述 ✅ 摒弃“引言/概述/总结”等模板化…

作者头像 李华