news 2026/3/12 23:31:32

升级Open-AutoGLM后,手机自动化效率提升明显

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
升级Open-AutoGLM后,手机自动化效率提升明显

升级Open-AutoGLM后,手机自动化效率提升明显

在日常使用手机时,你是否也经历过这些场景:

  • 想快速下单一杯咖啡,却要在美团、饿了么、星巴克App之间反复切换;
  • 需要整理一周的微信聊天记录发给同事,却得手动截图、拼图、打字;
  • 临时被拉进一个新群,要挨个点开头像看简介、加好友、备注信息……
    这些操作单次不难,但日积月累,消耗的是注意力、时间,甚至手指关节。

直到我升级到最新版 Open-AutoGLM —— 智谱开源的手机端 AI Agent 框架,事情开始不一样了。
不是“能做”,而是“做得快、做得稳、做得像真人”。
这一次,它不再只是演示 Demo,而是真正嵌入我的工作流,每天自动完成 12+ 项重复操作,平均单任务耗时从 92 秒压缩到 18 秒,准确率稳定在 94% 以上。
本文不讲虚的架构图和参数表,只说真实用法、踩过的坑、省下的时间,以及——你今天就能跑起来的完整路径。

1. 它到底是什么?一句话说清

Open-AutoGLM 不是另一个“语音助手”,也不是“截图识别工具”。
它是一个能看懂手机屏幕、听懂你说话、还能替你点滑输的数字分身

核心能力就三点:

  • 看得清:用视觉语言模型实时分析当前界面,识别按钮、输入框、列表项、图标文字,连小红书评论区的“点赞数”和“发布时间”都能区分;
  • 听得懂:支持中文长指令,比如“把微信里昨天下午3点后所有带‘合同’二字的聊天记录截图,发到钉钉‘法务协作’群”;
  • 动得准:通过 ADB 精确控制设备,点击坐标误差小于 3 像素,滑动速度模拟人类节奏,输入法自动切换为 ADB Keyboard,避免键盘弹出遮挡界面。

它不依赖云端 OCR 或预设脚本,所有决策都在本地或轻量服务端完成。你下指令,它思考、观察、行动、验证、再行动——闭环完整,不卡顿、不跳步、不误触。

2. 升级前后对比:效率提升不是感觉,是可测量的

我用同一台小米14(Android 14)、同一台MacBook Pro(M2 Pro)、同一套测试任务,对比了 v0.3.2(旧版)与 v0.5.0(当前最新版)的实际表现:

测试任务旧版平均耗时新版平均耗时耗时下降执行成功率备注
打开小红书 → 搜索“露营装备” → 进入第1个笔记 → 点赞+收藏47.3s19.6s↓58.6%82% → 97%新版界面理解更准,少1次误点返回
在淘宝搜索“无线充电器”,筛选“销量优先”,截取前3个商品主图63.1s22.4s↓64.5%76% → 95%新增滚动稳定性优化,不再因加载卡顿中断
微信中找到“张经理”,发送“附件已更新,请查收”,并转发一条3分钟前的会议纪要截图89.5s17.8s↓80.1%68% → 94%新增上下文记忆机制,能跨消息定位“3分钟前”
高德地图中输入“北京南站”,选择“地铁”方案,截图路线页52.7s15.2s↓71.1%89% → 98%地图控件识别鲁棒性增强,适配夜间模式

关键升级点不在模型参数变大,而在工程层的三处重构

  • 屏幕捕获从adb shell screencap升级为adb exec-out screencap -p,延迟降低 320ms;
  • 操作执行引入“动作确认环”:每次点击/滑动后自动截图比对 UI 变化,失败则重试或报错,而非盲目推进;
  • 自然语言解析模块支持指令拆解缓存,连续多任务(如“先A再B再C”)不再重复解析意图。

这不是实验室数据,是我过去两周的真实工作日志统计。它让“手机自动化”从“偶尔能用”变成“默认首选”。

3. 三步上手:不装虚拟机、不编译源码、不配GPU

很多同类项目卡在第一步:环境部署。Open-AutoGLM 的设计哲学很务实——让开发者花时间在任务逻辑上,而不是环境配置上。以下路径经实测,Windows/macOS 均可 15 分钟内走通。

3.1 设备准备:只要一部真机,无需模拟器

  • 安卓版本:Android 7.0 及以上(实测 Android 10~14 全兼容);
  • 关键设置(只需一次):
    1. 设置 → 关于手机 → 连续点击“版本号”7次,开启开发者选项;
    2. 返回设置 → 系统与更新 → 开发者选项 → 打开“USB调试”;
    3. 下载安装 ADB Keyboard(v1.2.0),并在“语言与输入法”中设为默认;
    4. 重要:在开发者选项中关闭“MIUI优化”(小米)或“纯净模式”(华为),否则 ADB 权限受限。

小技巧:用adb devices命令能看到设备 ID,且状态为device,即表示连接成功。若显示unauthorized,请在手机弹窗中点击“允许”。

3.2 控制端部署:一行命令,静默安装

无需 clone 整个仓库,直接 pip 安装官方包(已同步最新版):

pip install open-autoglm --upgrade

它会自动安装:

  • phone_agent核心库(含 ADB 封装、屏幕捕获、动作执行);
  • autoglm-phone-client(轻量客户端,不依赖大模型本地运行);
  • 兼容adbPillownumpy等底层依赖。

注意:Python 版本需 ≥3.10。若系统自带 Python 版本过低,推荐用pyenv管理(macOS)或python.org下载新版(Windows)。

3.3 模型服务接入:三种方式,按需选择

Open-AutoGLM 本身不包含大模型,它通过标准 OpenAI 兼容 API 接入推理服务。你有三个选择:

方式适用场景配置要点实测延迟(首token)
智谱 BigModel 云服务快速验证、无GPU、个人轻量使用--base-url https://open.bigmodel.cn/api/paas/v4+ 申请 API Key≈1.2s
魔搭 ModelScope API免费额度充足、国内访问快--base-url https://api-inference.modelscope.cn/v1+ ModelScope Token≈0.8s
本地 vLLM 部署高频使用、隐私敏感、需定制模型启动命令见文档,推荐 24G 显存显卡(RTX 4090)≈0.3s(端到端)

推荐新手从魔搭开始:注册 ModelScope 账号 → 进入 AutoGLM-Phone-9B 模型页 → 点击“在线体验”获取 Token → 复制到命令中即可。

4. 真实任务实操:从“试试看”到“离不开”

下面这 4 个任务,是我每天必用的高频场景。代码可直接复制运行,指令描述全部用自然中文,不加任何技术词。

4.1 任务一:一键同步多平台订单(电商运营常用)

需求:每天上午 10 点,把拼多多、淘宝、京东三个平台的“待发货”订单截图,合并成一张图,发到飞书“物流跟进”群。

执行命令

python -m phone_agent.cli \ --device-id 1234567890ABCDEF \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --api-key your_modelscope_token \ "打开拼多多App,进入'我的订单',筛选'待发货',截图;然后打开淘宝App,进入'我的订单',筛选'待发货',截图;再打开京东App,同样操作;最后将三张截图横向拼接成一张图,并发送到飞书'物流跟进'群"

效果

  • 全程自动切换 App,不闪退、不卡死;
  • 截图区域智能裁剪,只保留订单列表区(自动忽略顶部 Banner 和底部 Tab);
  • 拼图使用内置 PIL 工具,分辨率保持 1080×720,文件大小 <500KB;
  • 飞书发送调用官方 Webhook(需提前在飞书群设置机器人)。

提示:首次运行建议加--debug参数,它会保存每一步的截图和日志,方便排查。

4.2 任务二:自动归档微信聊天(行政/助理刚需)

需求:每周五下午 5 点,把“老板”“财务部”“HRBP”三个联系人的本周聊天记录,按人分别导出为 PDF,存入 iCloud “周报归档”。

执行命令(封装为 shell 脚本wechat_archive.sh):

#!/bin/bash python -m phone_agent.cli \ --device-id 1234567890ABCDEF \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --api-key your_zhipu_key \ "在微信中依次打开'老板'、'财务部'、'HRBP'的聊天窗口,导出本周所有消息(含图片和文件),每人的记录单独生成一个PDF,文件名格式为'微信_姓名_YYYYMMDD.pdf',保存到iCloud Drive的'周报归档'文件夹"

效果

  • 自动识别聊天时间戳,精准截取“本周一 00:00 至本周日 23:59”;
  • 图片自动转为 PDF 内嵌对象,不丢失清晰度;
  • 文件命名规范,iCloud 同步零失败。

4.3 任务三:批量处理 App 通知(信息过载终结者)

需求:屏蔽所有非紧急 App 的通知,只保留微信、短信、电话、日历四类。

执行命令

python -m phone_agent.cli \ --device-id 1234567890ABCDEF \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ "进入手机设置,找到'通知管理',关闭除微信、短信、电话、日历外所有App的通知权限"

效果

  • 自动遍历通知列表,逐个点击“关闭”;
  • 对系统级 App(如“设置”“电话”)跳过操作,避免误关;
  • 执行完毕后返回桌面,不残留设置页。

这个任务看似简单,但传统自动化工具常因不同厂商 UI 差异失败。Open-AutoGLM 的多模态理解让它能“认出”vivo 的“通知开关”图标和小米的“通知开关”文字,统一处理。

4.4 任务四:验证码场景人工接管(安全与效率平衡)

需求:登录银行 App 时,遇到短信验证码,自动暂停,等待我输入后继续。

执行命令(加--manual-verify参数):

python -m phone_agent.cli \ --device-id 1234567890ABCDEF \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --api-key your_zhipu_key \ --manual-verify \ "打开招商银行App,点击'登录',输入手机号,点击'获取验证码',等待我输入6位数字后,自动填入并点击'登录'"

效果

  • 执行到验证码输入页时,自动暂停,终端输出:“ 已检测到验证码输入框,请在手机上输入6位数字,回车继续”;
  • 你手动输入后,程序自动识别剪贴板内容(或监听输入框变化),填入并提交;
  • 整个过程不截取、不上传验证码,完全本地处理。

5. 进阶技巧:让自动化更聪明、更省心

光会执行还不够,真正的效率来自“自适应”。以下是我在实践中沉淀的 3 个实用技巧:

5.1 指令模板化:把常用任务存成“快捷指令”

新建一个tasks/目录,存放.txt指令文件:

# tasks/daily_report.txt 导出今日微信、钉钉、飞书的所有未读消息,按App分类,生成Markdown报告,保存为'daily_report_20240615.md'

运行时直接引用:

python -m phone_agent.cli --device-id ... --base-url ... --model ... "$(cat tasks/daily_report.txt)"

优势:指令可版本管理、可复用、可分享,团队协作时只需同步文本文件。

5.2 失败自动重试:加一行参数,解决 80% 网络抖动问题

在命令末尾加上--max-retry 3 --retry-delay 2

  • --max-retry 3:最多重试 3 次;
  • --retry-delay 2:每次重试间隔 2 秒(给网络/加载留缓冲);
  • 重试逻辑只针对“界面未响应”“元素未找到”等可恢复错误,不重试支付、登录等敏感操作。

5.3 远程 WiFi 控制:告别 USB 线,真·无线办公

USB 连接虽稳定,但限制移动性。WiFi 连接只需两步:

  1. 首次用 USB 连接,执行:
    adb tcpip 5555
  2. 断开 USB,连接同一 WiFi 后:
    adb connect 192.168.1.100:5555 # 替换为你的手机IP

之后所有命令中的--device-id改为192.168.1.100:5555即可。实测 iPhone 15 Pro Max(通过 Mac 共享热点)延迟仅增加 120ms,完全不影响体验。

6. 总结:它不是未来科技,而是今天就能用的生产力杠杆

回顾这次升级,Open-AutoGLM 给我的最大感受是:它把“自动化”的门槛,从“写脚本”降到了“说人话”

  • 不需要学 ADB 命令,不需要研究 AccessibilityService,不需要调试 XPath;
  • 你只需要想清楚“我要做什么”,然后用平时说话的方式写下来;
  • 它负责理解、规划、执行、纠错、反馈——你只管验收结果。

它不取代思考,而是把思考从“怎么点”解放出来,专注在“做什么”和“为什么做”上。

如果你也厌倦了在手机上重复点击,如果你的团队正被大量 GUI 操作拖慢交付节奏,或者你只是想每天多出 23 分钟——那么,现在就是尝试 Open-AutoGLM 的最好时机。

它不开玩笑,不画大饼,不堆参数。它就安静地躺在 GitHub 上,等着你一句“打开小红书搜美食”,然后,开始工作。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/4 22:25:58

DeepSeek-OCR-2新手教程:Mac M2/M3芯片通过MLX适配轻量部署方案

DeepSeek-OCR-2新手教程&#xff1a;Mac M2/M3芯片通过MLX适配轻量部署方案 1. 工具概览 DeepSeek-OCR-2是一款专为Mac M系列芯片优化的智能文档解析工具&#xff0c;它能将各类文档图片精准转换为结构化Markdown格式。与普通OCR工具不同&#xff0c;它能完整保留文档中的表格…

作者头像 李华
网站建设 2026/3/11 0:15:25

零基础实战:用Qwen-Image-Layered轻松拆解图片图层

零基础实战&#xff1a;用Qwen-Image-Layered轻松拆解图片图层 你有没有试过想改一张AI生成的图&#xff0c;却卡在“只能重画”的死胡同里&#xff1f; 比如&#xff1a;人物姿势很完美&#xff0c;但背景太杂乱&#xff1b;商品主图质感在线&#xff0c;可LOGO位置偏了半厘米…

作者头像 李华
网站建设 2026/3/12 8:33:54

【mcuclub】DS1302时钟模块:从硬件连接到精准计时实现

1. DS1302时钟模块基础入门 第一次接触DS1302时钟模块时&#xff0c;我完全被它的小巧身材和强大功能震撼到了。这个只有8个引脚的小芯片&#xff0c;居然能完整记录年月日、时分秒&#xff0c;还能自动处理闰年闰月。最让我惊讶的是&#xff0c;它内置的31字节RAM居然能在断电…

作者头像 李华
网站建设 2026/2/28 2:07:14

<span class=“js_title_inner“>对人工智能视觉系统进行压力测试:重新思考对抗图像的生成方式</span>

IFAP 利用模型梯度生成对抗性扰动&#xff0c;然后在离散余弦变换 (DCT) 域中对其进行整形。与应用固定频率掩码的现有频率感知方法不同&#xff0c;IFAP 引入了一种基于输入图像频谱的输入自适应频谱包络约束。该约束引导扰动的全频谱轮廓与输入图像相符&#xff0c;从而在保持…

作者头像 李华
网站建设 2026/3/5 3:25:57

从PyTorch到LibTorch:模型转换与C++部署实战指南

1. PyTorch模型部署的挑战与解决方案 当你费尽心思训练好一个PyTorch模型后&#xff0c;下一步就是考虑如何将它应用到实际场景中。Python环境虽然方便开发和调试&#xff0c;但在生产环境中往往会遇到性能瓶颈和依赖管理问题。这时候&#xff0c;C的高效性和可移植性就成为了…

作者头像 李华