零基础也能懂!用Open-AutoGLM实现手机自动化操作
1. 这不是科幻,是今天就能用上的真实能力
你有没有过这样的时刻:
- 想在抖音搜一个博主,但懒得点开App、输入搜索框、敲字、点进去……
- 想给微信文件传输助手发条测试消息,却要解锁手机、划到微信、点开对话框、打字、发送——一套动作下来,比煮碗泡面还费劲。
- 明明只是想“打开小红书搜美食”,结果手指在屏幕上点了七八下,眼睛盯着加载圈转了三秒。
现在,这些事,一句话就能搞定。
Open-AutoGLM 不是概念演示,也不是实验室玩具。它是智谱AI开源的、真正能跑在你电脑上、指挥你手机完成任务的AI智能体框架。它不靠预设脚本,不靠固定坐标,而是像人一样——看屏幕、理解界面、思考下一步、动手操作。
你只需要说:“打开美团,搜‘附近2公里内的潮汕牛肉火锅’”,它就会自动点亮屏幕、解锁(如需)、启动美团、点击搜索框、输入文字、点击搜索、滑动浏览结果……全程无需你碰手机一下。
这篇文章不讲模型参数、不聊多模态对齐、不堆技术术语。我们只做一件事:手把手带你从零开始,用最直白的方式,让AI替你操作手机。哪怕你没写过一行Python,没听过ADB是什么,只要愿意花30分钟,就能让手机听你“说话”。
2. 它到底怎么工作的?三句话说清本质
很多人看到“AI操作手机”第一反应是:“这得写多少代码?是不是要学安卓开发?”
其实完全不用。Open-AutoGLM 的设计哲学很朴素:把复杂留给自己,把简单留给用户。
2.1 核心三步,像人一样思考和行动
整个流程就三步,每一步都对应一个真实的人类行为:
- 看:通过ADB实时截取手机屏幕画面,交给视觉语言模型(VLM)分析——它能识别按钮文字、图标含义、页面结构,甚至判断“这个蓝色带箭头的图标大概率是‘返回’”。
- 想:结合你的自然语言指令(比如“点开第二个商品详情”),模型推理出当前该做什么、点哪里、输什么、等多久——这不是死记硬背,而是动态规划。
- 做:把决策转化成ADB命令——
adb shell input tap x y点击、adb shell input swipe滑动、adb shell input text输入文字,全部自动执行。
你不需要告诉它“x=523, y=876”,它自己会算;你也不需要教它“小红书首页的搜索框在右上角”,它自己会找。
2.2 为什么它能“看懂”手机界面?
关键在于它用的不是普通大模型,而是专为手机场景训练的AutoGLM-Phone-9B。这个模型有两大特殊能力:
- 原生支持图文输入:它同时接收截图(图像)和你的指令(文本),在内部做跨模态对齐。比如你输入“点那个红色的‘立即购买’”,它会把“红色”“立即购买”这几个字,和截图里所有红色按钮的位置、文字匹配起来,精准定位。
- 内置手机操作知识:它学过上千个主流App的界面逻辑——知道淘宝的搜索框总在顶部、微信的聊天列表左滑可删除、抖音的点赞图标是爱心形状……这种“常识”,让它不用每次从零学习。
所以它不是在“猜”,而是在“理解”。
2.3 安全机制:它不会乱来
你可能会担心:“万一它误操作,把我的支付宝密码输进搜索框怎么办?”
Open-AutoGLM 内置了三层保险:
- 敏感操作拦截:检测到支付、转账、修改密码等关键词或界面特征(如密码输入框、人脸识别弹窗),自动暂停并提示“请人工接管”。
- 人工接管开关(Take_over):你随时按回车键就能中断AI,手动操作几秒后,再按回车,它立刻接上后续步骤。
- 远程调试支持:所有ADB指令都走标准协议,你可以用
adb logcat实时查看它每一步在干什么,完全透明。
它不是取代你,而是成为你手指的延伸。
3. 准备工作:三样东西,10分钟搞定
别被“AI”“多模态”吓住。部署Open-AutoGLM,本质上就是装一个工具、连一台手机、跑一条命令。下面所有步骤,我都按“小白视角”写清楚,连环境变量怎么配、USB调试在哪开,都标好了路径。
3.1 你需要准备什么?
| 项目 | 要求 | 说明 |
|---|---|---|
| 一台电脑 | Windows / macOS / Linux | 用来运行控制端,不需要高性能,MacBook Air M1就能跑 |
| 一部安卓手机 | Android 7.0 及以上 | 华为、小米、OPPO、vivo、三星等主流品牌均可,模拟器也行 |
| 一根数据线(可选) | USB-C 或 Micro-USB | 用于首次连接,之后可切WiFi无线控制 |
小贴士:如果你只有iPhone,目前暂不支持。Open-AutoGLM 专注安卓生态,因为ADB是安卓原生调试协议,iOS需要越狱或企业签名,成本太高。
3.2 第一步:装好ADB——让电脑“看见”手机
ADB(Android Debug Bridge)是谷歌官方提供的安卓调试工具,就像手机的“遥控器”。它不难装,但配置环境变量这一步,90%的新手会卡住。
Windows 用户:
- 去 Android平台工具官网 下载
platform-tools-latest-windows.zip - 解压到一个简单路径,比如
C:\adb(不要放在中文路径或桌面!) - 按
Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”里找到Path→ “编辑” → “新建” → 粘贴C:\adb - 打开新命令提示符,输入
adb version,如果显示版本号(如Android Debug Bridge version 1.0.41),就成功了。
macOS 用户:
- 下载
platform-tools-latest-darwin.zip,解压到~/Downloads/platform-tools - 打开终端,输入:
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version看到版本号,即配置成功。
常见坑:如果
adb devices显示空白,先试adb kill-server && adb start-server;如果显示unauthorized,去手机通知栏点“允许USB调试”。
3.3 第二步:手机设置——开启“被遥控”权限
这是最关键的一步,漏掉任何一个开关,AI都动不了你的手机。
- 开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式” - 开启USB调试:
设置 → 系统与更新 → 开发者选项 → 打开“USB调试” - 必须打开“USB调试(安全设置)”:
同一页面往下翻,找到“USB调试(安全设置)”或“USB安装”,务必打开它。这是很多教程遗漏的点,不开它,AI无法点击任何按钮。 - 安装ADB Keyboard(解决中文输入):
- 下载 ADBKeyboard.apk
- 用数据线连手机,在电脑命令行输入:
adb install ADBKeyboard.apk - 手机设置 → 语言和输入法 → 找到“ADB Keyboard”,启用它(不用设为默认,系统会自动调用)
做完这四步,你的手机就准备好被AI指挥了。
4. 部署控制端:三行命令,项目就绪
现在,你的电脑和手机已经“握手成功”,接下来只需把Open-AutoGLM的控制程序装到电脑上。全程命令行操作,我给你写好每一步。
4.1 克隆代码 & 创建虚拟环境
打开终端(Windows用CMD或PowerShell,macOS用Terminal),依次执行:
# 1. 克隆项目(这会下载所有代码和配置) git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建独立的Python环境(避免和其他项目冲突) python -m venv venv # 3. 激活环境(Windows) venv\Scripts\activate # 3. 激活环境(macOS/Linux) source venv/bin/activate激活后,命令行开头会出现(venv),表示你现在在一个干净的“沙盒”里。
4.2 安装依赖——一条命令,自动搞定
# 使用清华镜像源,国内下载飞快 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple pip install -e .这一步会自动安装:ADB通信库、图像处理工具、HTTP客户端、以及调用大模型的SDK。全程无交互,喝口水的功夫就完成了。
4.3 验证连接——确认AI能“看见”你的手机
保持手机用数据线连着电脑,运行:
adb devices如果输出类似:
List of devices attached ABC123456789 device恭喜,你的手机已被成功识别。ABC123456789就是你的设备ID,后面要用到。
如果显示unauthorized,去手机通知栏点“允许”;如果空白,重插数据线或换USB口。
5. 两种使用方式:新手选云端,老手选本地
你不需要自己训练模型,Open-AutoGLM 支持两种“调用大脑”的方式:一种是直接用现成的云端API(推荐新手),一种是自己在本地跑模型(适合有显卡的玩家)。我们分别说。
5.1 方式一:用智谱AI云端API(零硬件要求,5分钟上手)
这是最适合第一次体验的方式。你不用买显卡、不用等下载18GB模型、不用调参数——注册个账号,复制API Key,就能跑。
操作步骤:
- 访问 智谱AI开放平台,注册并登录
- 进入 API密钥管理页,点击“创建API Key”
- 复制生成的Key(形如
sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx)
然后,在你刚才激活的venv环境中,运行:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "你的API密钥" \ "打开小红书,搜索‘深圳咖啡探店’"看到手机屏幕亮起、App启动、搜索框弹出、文字自动输入、结果刷出来——你就成功了。
提示:新用户有免费额度,够你跑几十次任务。后续按token计费,一次简单操作约0.2元。
5.2 方式二:本地部署模型(响应更快,隐私更好)
如果你有RTX 3090/4090或A100这类显存≥24GB的显卡,可以本地跑模型。好处是:
- 响应更快(1-2秒 vs 云端3-5秒)
- 所有截图都在你本地,不上传服务器
- 可以离线使用(比如出差没网络时)
部署命令(Linux/macOS):
python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}"Windows用户注意:
- 用PowerShell运行,把
\换成`(反引号) - 首次运行会自动从Hugging Face下载约18GB模型文件,请确保磁盘空间充足
启动成功后,访问http://localhost:8000/v1应该能看到健康检查页面。然后用这条命令测试:
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信,给文件传输助手发消息:AI操作成功!"6. 实战操作:从一句话到完整任务
现在,你已经具备了让AI操作手机的所有条件。我们用几个真实场景,看看它怎么把“一句话指令”变成“一连串精准动作”。
6.1 场景一:电商购物——“搜商品→看详情→加购”
指令:
"打开淘宝,搜索‘罗技G502鼠标’,点击第一个商品,滑动到详情页,点击‘加入购物车’"AI实际执行步骤:
- 截图识别淘宝首页 → 找到顶部搜索框 → 点击
- 输入“罗技G502鼠标” → 点击搜索按钮
- 截图识别商品列表 → 定位第一个商品卡片 → 点击进入
- 截图识别详情页 → 滑动到底部 → 找到“加入购物车”按钮 → 点击
整个过程约8-12秒,无需你干预。
6.2 场景二:内容浏览——“刷短视频→点赞→关注”
指令:
"打开抖音,刷新推荐页,对第3个视频点赞,对博主‘科技小队长’点击关注"AI如何应对:
- 刷新动作:模拟上滑+释放,触发下拉刷新
- 点赞:识别视频右下角的爱心图标,点击
- 关注:先在视频下方找到博主昵称,再点击其头像进入主页,最后找“关注”按钮
它不是靠固定坐标,而是靠“认图标+读文字+判位置”。
6.3 场景三:多步协作——“查天气→订外卖→发消息同步”
你可以把复杂任务拆成多条指令,分步执行,更可控:
# 第一步:查深圳天气 python main.py "打开墨迹天气,搜索‘深圳’,截图当前天气" # 第二步:订外卖(假设已登录美团) python main.py "打开美团,搜索‘云海肴’,选择‘双人套餐’,点击‘去结算’" # 第三步:发消息同步进度 python main.py "打开微信,给‘张三’发消息:已帮你订好云海肴双人餐,预计30分钟送达"每一步执行完,你会看到终端打印出详细日志:“已识别搜索框”、“已输入文字”、“已点击坐标(523, 876)”……完全透明。
7. 进阶技巧:让AI更听话、更稳定、更省心
用熟了你会发现,AI不是万能的,但掌握几个小技巧,能让成功率从70%提升到95%。
7.1 指令怎么写才最有效?
❌ 不好的写法:
- “帮我弄点吃的”(太模糊,AI不知道是点外卖、查菜谱,还是打开冰箱)
- “点一下那个”(没有指代,AI无法定位)
好的写法(记住三个原则):
- 具体应用名:不说“社交App”,说“微信”或“小红书”
- 明确动作+对象:不说“看看”,说“打开”“搜索”“点击”“滑动”
- 限定范围:不说“第一个”,说“列表里的第一个商品”或“视频流中的第三个”
例子:
“打开高德地图,搜索‘北京南站’,点击路线规划,选择地铁,截图结果”
“打开网易云音乐,播放我的‘每日推荐’歌单,对当前播放歌曲点击收藏”
7.2 交互模式:像聊天一样连续下指令
不想每次输一长串命令?用交互模式:
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的Key"然后你会看到一个>提示符,像这样:
> 打开小红书 > 搜索‘露营装备’ > 点赞第一条笔记 > 返回首页 > 退出每输一行,AI立刻执行,全程无需重复写参数。
7.3 故障自愈:当AI卡住时怎么办?
遇到页面加载慢、弹窗广告、网络延迟,AI可能停在某一步。这时:
- 按 Ctrl+C 中断当前任务
- 手动关闭弹窗或等待加载完成
- 再运行一次原指令,AI会从断点继续(它会记住上一步状态)
或者,直接用--device-id指定设备,避免多设备混淆。
8. 它能做什么?一张表看清能力边界
Open-AutoGLM 目前支持50+款主流App,覆盖日常90%场景。但它不是魔法,了解它的“能”与“不能”,才能用得安心。
| 能力类型 | 具体表现 | 实测成功率 | 注意事项 |
|---|---|---|---|
| 启动/切换App | “打开微信”“切换到淘宝” | 100% | 依赖App已安装 |
| 文字输入 | 搜索、发消息、填表单 | 95% | 需提前安装ADB Keyboard |
| 点击/长按/双击 | 点按钮、选菜单、点赞 | 90% | 界面元素需清晰可见 |
| 滑动/拖拽 | 刷信息流、翻页、调节音量 | 85% | 需足够滑动距离 |
| 返回/回到桌面 | “返回上一页”“回到首页” | 100% | ADB原生命令,极稳定 |
| 复杂支付 | 输入支付密码、人脸识别 | 0% | 自动暂停,强制人工接管 |
| 安全敏感页 | 银行App、身份证上传页 | 0% | 截图黑屏,自动跳过或接管 |
关键结论:它擅长“标准化操作”(搜索、点击、滑动),不擅长“非标决策”(比如“选一个看起来靠谱的商家”)。把AI当高效执行者,而不是全能决策者。
9. 总结:这不是未来,是此刻就能拥有的生产力
Open-AutoGLM 最打动我的地方,不是它有多酷炫,而是它把一件本该很麻烦的事,变得像呼吸一样自然。
- 它不需要你学编程,只要会说人话;
- 它不依赖特定机型,主流安卓手机即插即用;
- 它不绑架你的隐私,云端可选、本地可控;
- 它不制造焦虑,而是默默帮你省下每天十几分钟的机械操作。
也许明天,它会支持iOS;也许下周,它能自动处理验证码;但今天,它已经能稳稳地帮你:
打开小红书搜美食
在抖音给喜欢的博主一键关注
为家人定时推送新闻摘要
为测试工程师跑完一整套App回归用例
技术的价值,从来不在参数多高,而在是否真正降低了人与数字世界的摩擦。Open-AutoGLM 做到了。
现在,关掉这篇文章,拿起你的手机和电脑,照着上面的步骤,跑出你的第一条指令。当屏幕第一次为你自动点亮、App自动打开、文字自动输入——那一刻,你会相信:AI助理,真的来了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。