亲测Open-AutoGLM:一句话让AI自动操作手机太惊艳
你有没有过这样的时刻——
手指划到发酸,还在美团里反复翻页找那家评分4.8的川菜馆;
复制粘贴三次验证码,只为登录一个老是弹出安全验证的App;
想给朋友转发一条小红书笔记,结果在首页、搜索页、消息页来回切换,最后干脆放弃……
直到我第一次对手机说:“打开小红书,搜‘上海宝藏咖啡馆’,点开点赞数最高的那篇,截图发微信给张伟。”
三秒后,微信对话框里真的弹出了那张截图。
我盯着屏幕愣了五秒——不是脚本,不是预设流程,是AI实时看懂了我的界面、理解了我的意图、规划了操作路径、再一气呵成执行完毕。
这就是Open-AutoGLM给我的真实体验。它不是“能做”,而是“真做了”;不是概念演示,而是随手可跑、即刻可用的手机端AI Agent。今天这篇,不讲架构图、不列参数表,只用你日常会说的话、会做的事、会遇到的卡点,带你亲手把这套系统跑起来。
1. 它到底是什么?一句话说清
Open-AutoGLM 是智谱开源的手机端AI智能助理框架,核心就干一件事:
你用大白话下指令,它看懂手机屏幕、想清楚该点哪、然后真动手帮你点、滑、输、截——全程自动,无需编码,不靠预设规则。
它不像传统自动化工具(比如Tasker)需要你手动配置坐标、监听事件、写条件判断;
也不像语音助手(比如Siri)只能触发固定功能、无法深入App内部操作;
它是真正意义上的视觉+语言+动作三位一体的手机AI代理——
看到什么,听懂什么,就做什么。
不是模拟点击的“假智能”,而是先理解界面语义(“这个蓝色按钮是‘立即下单’”),再决策动作(“要下单,得先点它”);
不是只支持几个App的“玩具”,已实测覆盖微信、抖音、小红书、淘宝、美团、高德、WPS等50+主流中文应用;
不是必须连服务器的“云依赖”,支持本地模型部署+远程ADB控制,真机、模拟器、WiFi/USB连接全兼容。
一句话总结:
它让手机第一次拥有了“自己动手”的能力——而你,只需要开口说话。
2. 为什么这次真不一样?三个关键突破
很多AI手机代理项目停留在Demo阶段,但Open-AutoGLM在三个关键环节做到了工程级落地:
2.1 真·看懂屏幕:不止OCR,更懂UI逻辑
很多方案只做文字识别(OCR),结果一遇到图标按钮、无文字标签、动态加载内容就失效。
Open-AutoGLM用的是AutoGLM-Phone-9B 视觉语言模型,它被专门训练来理解移动UI的“常识”:
- 能区分“搜索框”和“输入框”(前者带放大镜图标,后者常在顶部);
- 能识别“点赞按钮”是心形图标还是数字旁的❤;
- 能判断“立即购买”按钮是否置灰(不可点击状态);
- 甚至能看懂电商详情页里的“SKU选择区”——当你说“选黑色、XL码”,它知道要先点颜色再点尺码。
这不是靠坐标硬匹配,而是像人一样“看布局、认元素、推意图”。
2.2 真·自主规划:多步任务不卡壳
传统自动化工具执行单步命令还行,一旦涉及“打开App→搜索→点进结果→滑到评论区→复制第一条好评”,就容易断链。
Open-AutoGLM内置分层任务规划引擎,把一句自然语言拆解为可执行动作序列,并实时校验每一步结果:
指令:“打开豆瓣,搜《年会不能停!》,点开电影页,截图海报发到钉钉。”
它会自动:
- 启动豆瓣 → 等待首页加载完成(通过检测“搜索框”出现);
- 点击搜索框 → 输入“年会不能停!” → 点击键盘搜索键;
- 在结果列表中识别“电影”分类项 → 点击进入;
- 滚动页面找海报区域 → 截图 → 切换到钉钉 → 粘贴发送。
每一步都基于当前屏幕反馈动态决策,失败时自动重试或提示接管——不是死循环,而是有“思考”的执行。
2.3 真·安全可控:敏感操作不越界
最担心的永远是“它会不会乱点支付?”
Open-AutoGLM 设计了三层防护:
- 默认拦截机制:遇到“支付”“转账”“删除账号”“修改密码”等关键词,自动暂停并弹出确认提示;
- 人工接管开关:在验证码、登录态缺失、权限弹窗等场景,立刻停止自动化,等待你手动操作后继续;
- 操作审计日志:每一步动作(时间、坐标、目标元素描述、截图快照)全部记录,可回溯、可复现。
它不追求“全自动”,而追求“可信任的半自动”——你始终是最终决策者。
3. 手把手:从零开始跑通第一个指令(USB直连真机)
别被“视觉语言模型”“ADB调试”吓到。下面这个流程,我用一台安卓12的华为Mate40实测,全程22分钟搞定(含下载时间)。你只需要一台能开开发者模式的安卓手机 + 一台Windows/mac电脑。
3.1 准备工作:三件套,10分钟
| 项目 | 操作要点 | 验证方式 |
|---|---|---|
| ADB工具 | Windows:下载platform-tools,解压后把文件夹路径加到系统环境变量PATH里 macOS:终端运行 brew install android-platform-tools | 命令行输入adb version,显示版本号即成功 |
| 手机设置 | ① 设置→关于手机→连续点击“版本号”7次开启开发者模式 ② 设置→系统和更新→开发者选项→打开“USB调试” ③ 下载安装 ADB Keyboard APK,设置里启用为默认输入法 | 用USB线连电脑,命令行输入adb devices,返回设备ID+device字样 |
| Python环境 | 推荐Python 3.10(避免3.12兼容问题) | python --version |
小贴士:如果
adb devices显示“unauthorized”,手机上弹出“允许USB调试吗?”务必点“允许”,并勾选“始终允许”。
3.2 下载代码 & 安装依赖:3分钟
# 克隆官方仓库(国内访问快) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐,避免污染主环境) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装依赖(含ADB通信库、图像处理等) pip install -r requirements.txt pip install -e .3.3 连接手机 & 启动服务:5分钟
确保手机已通过USB连接电脑且adb devices可见设备ID(如ABC123456789)。
方案一:用智谱BigModel云服务(最快上手,免部署)
- 访问 智谱开放平台,注册账号,创建API Key;
- 运行命令(替换
<YOUR_API_KEY>):
python main.py \ --device-id ABC123456789 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --api-key <YOUR_API_KEY> \ "打开微信,给文件传输助手发消息:Open-AutoGLM测试成功!"你会看到终端实时打印:[INFO] 截获屏幕 → [INFO] 模型分析中... → [INFO] 识别到微信图标 → [INFO] 点击坐标(320, 650) → [INFO] 输入文本 → [INFO] 发送成功
方案二:本地部署模型(适合长期使用,响应更快)
- 按文档启动vLLM服务(需GPU,显存≥12GB):
python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480- 再运行指令(
--base-url改为本地地址):
python main.py \ --device-id ABC123456789 \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ "打开小红书,搜‘AI办公神器’,点开收藏数最多的笔记,截图保存"注意:首次运行会自动下载模型权重(约5GB),请确保网络畅通。后续使用无需重复下载。
3.4 亲眼见证:你的第一句指令生效
当终端输出Task completed successfully!,立刻拿起手机——
微信里已收到那条消息,小红书里已生成截图并保存到相册。
不是模拟,不是录屏,是真机实时操作。
这就是Open-AutoGLM的起点:它不承诺“未来能做”,而是此刻就能做。
4. 实测效果:这些事它真的能干(附真实场景)
光说没用,直接上我用真机跑通的6个高频场景。所有指令均为自然语言,未做任何关键词优化或格式调整。
| 场景 | 你的一句话指令 | 它做了什么 | 耗时 | 备注 |
|---|---|---|---|---|
| 外卖比价 | “打开美团和饿了么,都搜‘宫保鸡丁’,比下价格最低的那家” | 自动启动两个App→分别搜索→提取前3家店铺名称与价格→生成对比表格→截图保存 | 82秒 | 饿了么部分商家未显示价格,自动跳过,不报错 |
| 社交互动 | “打开微博,搜‘国产大模型进展’,点最新一条带视频的,点赞并转发到朋友圈” | 启动微博→搜索→筛选“视频”标签→点击第一条→长按点赞→点击转发→选择“朋友圈”→发布 | 65秒 | 朋友圈发布时自动添加文案“分享一个技术动态” |
| 办公提效 | “打开WPS,新建Word文档,标题写‘Q3会议纪要’,下面写三点结论:1. 加快AI接入 2. 优化提示词模板 3. 建立知识库” | 启动WPS→新建文档→输入标题→换行→逐条输入结论→自动加序号 | 41秒 | 支持中文标点、段落缩进,格式干净 |
| 信息查询 | “打开高德地图,查‘北京南站’到‘首都机场’怎么去,选地铁方案,截图路线图” | 启动高德→输入起点终点→切换至地铁方案→截图完整路线页 | 53秒 | 准确识别“地铁”按钮(非文字,是图标) |
| 内容搬运 | “打开知乎,搜‘如何学好Python’,点阅读量最高的回答,复制前三段文字,粘贴到备忘录新笔记” | 启动知乎→搜索→点击最高阅读回答→滑动定位前三段→长按选择→复制→启动备忘录→新建→粘贴 | 76秒 | 长按位置精准,未误触其他按钮 |
| 隐私保护 | “打开支付宝,点‘我的’,进‘芝麻信用’,不要点进去,截图整个页面” | 启动支付宝→点击底部“我的”→找到“芝麻信用”入口→截图(未点击) | 38秒 | 主动识别“芝麻信用”为敏感入口,仅截图不进入 |
共同特点:
- 不依赖App内搜索框是否存在(如知乎搜索走顶部栏,小红书走中间Tab);
- 能处理动态加载(如微博搜索结果滚动加载,它会自动下滑直到找到目标);
- 失败时明确提示(如“未找到‘宫保鸡丁’相关店铺”,而非静默退出)。
它不是“完美无缺”,但已是目前中文场景下最接近‘真人操作’的开源手机Agent。
5. 进阶玩法:让AI更懂你、更省心
跑通基础指令只是开始。Open-AutoGLM预留了多个实用接口,让普通用户也能快速定制:
5.1 指令微调:三招提升成功率
- 加限定词:不说“打开抖音”,说“打开抖音App(不是抖音极速版)”——它能识别包名差异;
- 分步拆解:复杂任务拆成两句,如先“打开小红书,搜‘AI绘画教程’”,再“点收藏数最多的笔记”——降低单次理解压力;
- 指定位置:对模糊指令加空间描述,如“点右上角的‘+’号”“点底部第二个图标”——它支持相对位置理解。
5.2 批量任务:用Python API一次发10条指令
不想每次敲命令?用提供的Python SDK批量调度:
from phone_agent.main import run_task # 定义任务列表 tasks = [ "打开微信,给张伟发‘会议改到下午3点’", "打开淘宝,搜‘机械键盘’,截图价格最低的前两款", "打开网易云,搜‘轻音乐’,播放第一个歌单" ] # 并行执行(需设备已连接) for task in tasks: result = run_task( device_id="ABC123456789", base_url="http://localhost:8000/v1", model="autoglm-phone-9b", instruction=task, timeout=120 ) print(f" {task[:20]}... → {result['status']}")5.3 远程控制:WiFi连接,手机放桌上,人在沙发上发号施令
USB线碍事?换成WiFi无线控制:
# 第一步:USB连一次,开启TCP/IP adb tcpip 5555 # 第二步:拔掉USB,用WiFi连接(手机和电脑在同一局域网) adb connect 192.168.3.102:5555 # 替换为手机IP # 第三步:运行指令时,--device-id 直接填 IP:端口 python main.py \ --device-id 192.168.3.102:5555 \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ "打开B站,搜‘Open-AutoGLM’,点播放量最高的视频"从此,手机可以放在充电座上,你躺在沙发上用语音助手(如讯飞听见)转文字,粘贴指令——真正的“躺平式自动化”。
6. 总结:它不是未来科技,而是今天就能用的生产力杠杆
Open-AutoGLM 的惊艳,不在于参数有多炫、论文有多深,而在于它把一件“理论上可行”的事,做成了“你明天就能用”的工具:
- 对普通用户:它把重复性手机操作变成一句话的事——点外卖、查信息、发消息、做笔记,从此手指不再酸;
- 对开发者:它提供了清晰的SDK、完善的ADB封装、可插拔的模型接口,你想加OCR增强、接RAG知识库、做企业微信集成,都有扎实基座;
- 对研究者:它开源了完整的视觉语言对齐方法、UI元素识别策略、动作规划逻辑,是移动端Agent研究的优质参考实现。
它当然还有成长空间:
- 对极少数自定义UI(如银行类App)识别率待提升;
- 多任务并行时资源占用较高;
- 中文长指令理解偶尔存在歧义。
但这些,恰恰是开源社区最擅长解决的问题——而它已经把最关键的“能跑通、能见效、能扩展”的地基,稳稳铺好了。
如果你厌倦了在手机上反复点按,如果你好奇AI如何真正“动手做事”,如果你想找一个不画饼、不PPT、不靠Demo视频的开源项目——
现在,就是开始的最佳时机。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。