亲测Open-AutoGLM：一句话让AI自动操作手机太惊艳-开发者社区

亲测Open-AutoGLM：一句话让AI自动操作手机太惊艳

你有没有过这样的时刻——
手指划到发酸，还在美团里反复翻页找那家评分4.8的川菜馆；
复制粘贴三次验证码，只为登录一个老是弹出安全验证的App；
想给朋友转发一条小红书笔记，结果在首页、搜索页、消息页来回切换，最后干脆放弃……

直到我第一次对手机说：“打开小红书，搜‘上海宝藏咖啡馆’，点开点赞数最高的那篇，截图发微信给张伟。”
三秒后，微信对话框里真的弹出了那张截图。
我盯着屏幕愣了五秒——不是脚本，不是预设流程，是AI实时看懂了我的界面、理解了我的意图、规划了操作路径、再一气呵成执行完毕。

这就是Open-AutoGLM给我的真实体验。它不是“能做”，而是“真做了”；不是概念演示，而是随手可跑、即刻可用的手机端AI Agent。今天这篇，不讲架构图、不列参数表，只用你日常会说的话、会做的事、会遇到的卡点，带你亲手把这套系统跑起来。

1. 它到底是什么？一句话说清

Open-AutoGLM 是智谱开源的手机端AI智能助理框架，核心就干一件事：
你用大白话下指令，它看懂手机屏幕、想清楚该点哪、然后真动手帮你点、滑、输、截——全程自动，无需编码，不靠预设规则。

它不像传统自动化工具（比如Tasker）需要你手动配置坐标、监听事件、写条件判断；
也不像语音助手（比如Siri）只能触发固定功能、无法深入App内部操作；
它是真正意义上的视觉+语言+动作三位一体的手机AI代理——
看到什么，听懂什么，就做什么。

不是模拟点击的“假智能”，而是先理解界面语义（“这个蓝色按钮是‘立即下单’”），再决策动作（“要下单，得先点它”）；
不是只支持几个App的“玩具”，已实测覆盖微信、抖音、小红书、淘宝、美团、高德、WPS等50+主流中文应用；
不是必须连服务器的“云依赖”，支持本地模型部署+远程ADB控制，真机、模拟器、WiFi/USB连接全兼容。

一句话总结：
它让手机第一次拥有了“自己动手”的能力——而你，只需要开口说话。

2. 为什么这次真不一样？三个关键突破

很多AI手机代理项目停留在Demo阶段，但Open-AutoGLM在三个关键环节做到了工程级落地：

2.1 真·看懂屏幕：不止OCR，更懂UI逻辑

很多方案只做文字识别（OCR），结果一遇到图标按钮、无文字标签、动态加载内容就失效。
Open-AutoGLM用的是AutoGLM-Phone-9B 视觉语言模型，它被专门训练来理解移动UI的“常识”：

能区分“搜索框”和“输入框”（前者带放大镜图标，后者常在顶部）；
能识别“点赞按钮”是心形图标还是数字旁的❤；
能判断“立即购买”按钮是否置灰（不可点击状态）；
甚至能看懂电商详情页里的“SKU选择区”——当你说“选黑色、XL码”，它知道要先点颜色再点尺码。

这不是靠坐标硬匹配，而是像人一样“看布局、认元素、推意图”。

2.2 真·自主规划：多步任务不卡壳

传统自动化工具执行单步命令还行，一旦涉及“打开App→搜索→点进结果→滑到评论区→复制第一条好评”，就容易断链。
Open-AutoGLM内置分层任务规划引擎，把一句自然语言拆解为可执行动作序列，并实时校验每一步结果：

指令：“打开豆瓣，搜《年会不能停！》，点开电影页，截图海报发到钉钉。”

它会自动：

启动豆瓣 → 等待首页加载完成（通过检测“搜索框”出现）；
点击搜索框 → 输入“年会不能停！” → 点击键盘搜索键；
在结果列表中识别“电影”分类项 → 点击进入；
滚动页面找海报区域 → 截图 → 切换到钉钉 → 粘贴发送。

每一步都基于当前屏幕反馈动态决策，失败时自动重试或提示接管——不是死循环，而是有“思考”的执行。

2.3 真·安全可控：敏感操作不越界

最担心的永远是“它会不会乱点支付？”
Open-AutoGLM 设计了三层防护：

默认拦截机制：遇到“支付”“转账”“删除账号”“修改密码”等关键词，自动暂停并弹出确认提示；
人工接管开关：在验证码、登录态缺失、权限弹窗等场景，立刻停止自动化，等待你手动操作后继续；
操作审计日志：每一步动作（时间、坐标、目标元素描述、截图快照）全部记录，可回溯、可复现。

它不追求“全自动”，而追求“可信任的半自动”——你始终是最终决策者。

3. 手把手：从零开始跑通第一个指令（USB直连真机）

别被“视觉语言模型”“ADB调试”吓到。下面这个流程，我用一台安卓12的华为Mate40实测，全程22分钟搞定（含下载时间）。你只需要一台能开开发者模式的安卓手机 + 一台Windows/mac电脑。

3.1 准备工作：三件套，10分钟

项目	操作要点	验证方式
ADB工具	Windows：下载platform-tools，解压后把文件夹路径加到系统环境变量PATH里 macOS：终端运行`brew install android-platform-tools`	命令行输入`adb version`，显示版本号即成功
手机设置	① 设置→关于手机→连续点击“版本号”7次开启开发者模式 ② 设置→系统和更新→开发者选项→打开“USB调试” ③ 下载安装 ADB Keyboard APK，设置里启用为默认输入法	用USB线连电脑，命令行输入`adb devices`，返回设备ID+device字样
Python环境	推荐Python 3.10（避免3.12兼容问题）	`python --version`

小贴士：如果adb devices显示“unauthorized”，手机上弹出“允许USB调试吗？”务必点“允许”，并勾选“始终允许”。

3.2 下载代码 & 安装依赖：3分钟

# 克隆官方仓库（国内访问快） git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境（推荐，避免污染主环境） python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装依赖（含ADB通信库、图像处理等） pip install -r requirements.txt pip install -e .

3.3 连接手机 & 启动服务：5分钟

确保手机已通过USB连接电脑且adb devices可见设备ID（如ABC123456789）。

方案一：用智谱BigModel云服务（最快上手，免部署）

访问智谱开放平台，注册账号，创建API Key；
运行命令（替换<YOUR_API_KEY>）：

python main.py \ --device-id ABC123456789 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --api-key <YOUR_API_KEY> \ "打开微信，给文件传输助手发消息：Open-AutoGLM测试成功！"

你会看到终端实时打印：
[INFO] 截获屏幕 → [INFO] 模型分析中... → [INFO] 识别到微信图标 → [INFO] 点击坐标(320, 650) → [INFO] 输入文本 → [INFO] 发送成功

方案二：本地部署模型（适合长期使用，响应更快）

按文档启动vLLM服务（需GPU，显存≥12GB）：

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480

再运行指令（--base-url改为本地地址）：

python main.py \ --device-id ABC123456789 \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ "打开小红书，搜‘AI办公神器’，点开收藏数最多的笔记，截图保存"

注意：首次运行会自动下载模型权重（约5GB），请确保网络畅通。后续使用无需重复下载。

3.4 亲眼见证：你的第一句指令生效

当终端输出Task completed successfully!，立刻拿起手机——
微信里已收到那条消息，小红书里已生成截图并保存到相册。
不是模拟，不是录屏，是真机实时操作。

这就是Open-AutoGLM的起点：它不承诺“未来能做”，而是此刻就能做。

4. 实测效果：这些事它真的能干（附真实场景）

光说没用，直接上我用真机跑通的6个高频场景。所有指令均为自然语言，未做任何关键词优化或格式调整。

场景	你的一句话指令	它做了什么	耗时	备注
外卖比价	“打开美团和饿了么，都搜‘宫保鸡丁’，比下价格最低的那家”	自动启动两个App→分别搜索→提取前3家店铺名称与价格→生成对比表格→截图保存	82秒	饿了么部分商家未显示价格，自动跳过，不报错
社交互动	“打开微博，搜‘国产大模型进展’，点最新一条带视频的，点赞并转发到朋友圈”	启动微博→搜索→筛选“视频”标签→点击第一条→长按点赞→点击转发→选择“朋友圈”→发布	65秒	朋友圈发布时自动添加文案“分享一个技术动态”
办公提效	“打开WPS，新建Word文档，标题写‘Q3会议纪要’，下面写三点结论：1. 加快AI接入 2. 优化提示词模板 3. 建立知识库”	启动WPS→新建文档→输入标题→换行→逐条输入结论→自动加序号	41秒	支持中文标点、段落缩进，格式干净
信息查询	“打开高德地图，查‘北京南站’到‘首都机场’怎么去，选地铁方案，截图路线图”	启动高德→输入起点终点→切换至地铁方案→截图完整路线页	53秒	准确识别“地铁”按钮（非文字，是图标）
内容搬运	“打开知乎，搜‘如何学好Python’，点阅读量最高的回答，复制前三段文字，粘贴到备忘录新笔记”	启动知乎→搜索→点击最高阅读回答→滑动定位前三段→长按选择→复制→启动备忘录→新建→粘贴	76秒	长按位置精准，未误触其他按钮
隐私保护	“打开支付宝，点‘我的’，进‘芝麻信用’，不要点进去，截图整个页面”	启动支付宝→点击底部“我的”→找到“芝麻信用”入口→截图（未点击）	38秒	主动识别“芝麻信用”为敏感入口，仅截图不进入

共同特点：

不依赖App内搜索框是否存在（如知乎搜索走顶部栏，小红书走中间Tab）；
能处理动态加载（如微博搜索结果滚动加载，它会自动下滑直到找到目标）；
失败时明确提示（如“未找到‘宫保鸡丁’相关店铺”，而非静默退出）。

它不是“完美无缺”，但已是目前中文场景下最接近‘真人操作’的开源手机Agent。

5. 进阶玩法：让AI更懂你、更省心

跑通基础指令只是开始。Open-AutoGLM预留了多个实用接口，让普通用户也能快速定制：

5.1 指令微调：三招提升成功率

加限定词：不说“打开抖音”，说“打开抖音App（不是抖音极速版）”——它能识别包名差异；
分步拆解：复杂任务拆成两句，如先“打开小红书，搜‘AI绘画教程’”，再“点收藏数最多的笔记”——降低单次理解压力；
指定位置：对模糊指令加空间描述，如“点右上角的‘+’号”“点底部第二个图标”——它支持相对位置理解。

5.2 批量任务：用Python API一次发10条指令

不想每次敲命令？用提供的Python SDK批量调度：

from phone_agent.main import run_task # 定义任务列表 tasks = [ "打开微信，给张伟发‘会议改到下午3点’", "打开淘宝，搜‘机械键盘’，截图价格最低的前两款", "打开网易云，搜‘轻音乐’，播放第一个歌单" ] # 并行执行（需设备已连接） for task in tasks: result = run_task( device_id="ABC123456789", base_url="http://localhost:8000/v1", model="autoglm-phone-9b", instruction=task, timeout=120 ) print(f" {task[:20]}... → {result['status']}")

5.3 远程控制：WiFi连接，手机放桌上，人在沙发上发号施令

USB线碍事？换成WiFi无线控制：

# 第一步：USB连一次，开启TCP/IP adb tcpip 5555 # 第二步：拔掉USB，用WiFi连接（手机和电脑在同一局域网） adb connect 192.168.3.102:5555 # 替换为手机IP # 第三步：运行指令时，--device-id 直接填 IP:端口 python main.py \ --device-id 192.168.3.102:5555 \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ "打开B站，搜‘Open-AutoGLM’，点播放量最高的视频"

从此，手机可以放在充电座上，你躺在沙发上用语音助手（如讯飞听见）转文字，粘贴指令——真正的“躺平式自动化”。

6. 总结：它不是未来科技，而是今天就能用的生产力杠杆

Open-AutoGLM 的惊艳，不在于参数有多炫、论文有多深，而在于它把一件“理论上可行”的事，做成了“你明天就能用”的工具：

对普通用户：它把重复性手机操作变成一句话的事——点外卖、查信息、发消息、做笔记，从此手指不再酸；
对开发者：它提供了清晰的SDK、完善的ADB封装、可插拔的模型接口，你想加OCR增强、接RAG知识库、做企业微信集成，都有扎实基座；
对研究者：它开源了完整的视觉语言对齐方法、UI元素识别策略、动作规划逻辑，是移动端Agent研究的优质参考实现。

它当然还有成长空间：

对极少数自定义UI（如银行类App）识别率待提升；
多任务并行时资源占用较高；
中文长指令理解偶尔存在歧义。

但这些，恰恰是开源社区最擅长解决的问题——而它已经把最关键的“能跑通、能见效、能扩展”的地基，稳稳铺好了。

如果你厌倦了在手机上反复点按，如果你好奇AI如何真正“动手做事”，如果你想找一个不画饼、不PPT、不靠Demo视频的开源项目——
现在，就是开始的最佳时机。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

亲测Open-AutoGLM：一句话让AI自动操作手机太惊艳