从0开始学Open-AutoGLM,新手也能快速上手
1. 这不是另一个自动化工具,而是你手机的“AI手指”
你有没有过这样的时刻:
想在小红书搜“周末咖啡馆推荐”,结果点开App、等加载、输关键词、翻三页才找到想要的内容;
想给客户发一封带附件的邮件,却卡在找文件、切回邮箱、粘贴地址的循环里;
甚至只是想把手机屏幕里的表格数据复制到Excel,都要截图、OCR、再手动整理……
这些重复操作,本不该消耗你的时间。
Open-AutoGLM 就是来解决这个问题的——它不教你写代码,也不让你背命令,而是让你用说话的方式,指挥手机自己干活。
你说:“打开美团,搜‘附近2公里内评分4.8以上的粤菜馆,订今晚7点两人位’”,它就能理解你的意图、看清当前界面、一步步点击、输入、滑动、确认,全程自动完成。
这不是科幻,也不是定制开发。它是智谱AI开源的、真正跑在你本地电脑+真机上的手机AI智能体框架。
而且,它专为新手设计:没有复杂配置、不强制GPU、USB线一插就能试;即使你只用过微信和淘宝,也能在30分钟内让它帮你订第一单外卖。
下面我们就从零开始,不跳步、不省略、不假设你懂ADB或Python——就像教朋友装一个新App那样,带你亲手让AI接管你的手机。
2. 先搞懂三件事:它是什么、为什么特别、你能用它做什么
2.1 它到底是什么?一句话说清
Open-AutoGLM 是一个手机端AI助手框架,核心能力就三点:
- 看得懂:能分析你手机屏幕的实时截图,识别按钮、文字、图标、布局;
- 听得懂:理解你用中文说的自然语言指令,比如“把这张图发给张三”“登录微信后转发最新一条朋友圈”;
- 做得对:通过ADB(Android调试工具)自动点击、滑动、输入、返回,像真人一样操作手机。
它不是App,也不需要你越狱或root手机;它运行在你的电脑上,把你的电脑变成“AI遥控器”,控制你连着的安卓手机。
2.2 它和普通自动化工具(比如Tasker、Auto.js)有啥不一样?
| 对比项 | 传统自动化工具 | Open-AutoGLM |
|---|---|---|
| 怎么告诉它做什么 | 要写脚本、设条件、记坐标(比如“点击x=520,y=380”) | 直接说人话:“点右上角三个点,选‘分享’” |
| 能不能看懂界面 | 不能。只能按固定位置点,换一个App或版本就失效 | 能。每次操作前先截图分析,适配不同分辨率、不同UI风格 |
| 需不需要提前学技术 | 需要学语法、逻辑、坐标系统 | 不需要。唯一要学的是“怎么把需求说清楚” |
| 支持哪些App | 只能做你手动写好脚本的那几个 | 开箱即用支持50+主流App(微信、抖音、淘宝、Chrome、Gmail、高德地图等),还能自动泛化到没列出来的App |
简单说:传统工具是“你当导演,它当木偶”;Open-AutoGLM 是“你当老板,它当助理”——你只管提需求,它负责想方案、找路、动手干。
2.3 新手第一天就能做的3件实用事
别被“AI”“多模态”吓住。这框架最迷人的地方,是第一天就能产出真实价值。试试这三个零门槛任务:
一键查快递
指令:“打开菜鸟裹裹,查我最近一个待取件的物流信息”
→ 它自动打开App、进首页、点“我的包裹”、展开最新一条,把物流节点读给你听(或截图发你微信)。跨App传信息
指令:“把微信里和李四的聊天记录里最后一张图片,保存到相册并分享到小红书”
→ 它切到微信、找到对话、长按图片、点“保存”、再切到小红书、点发布、选图、发帖。批量处理通知
指令:“把今天所有来自‘银行’的短信,转发到邮箱xxx@163.com”
→ 它进短信App、筛选发件人为“银行”、逐条复制内容、切到邮箱、新建邮件、粘贴发送。
这些不是Demo,是它每天在真实手机上干的活。而你,只需要会打字、会说话。
3. 准备工作:3样东西,10分钟搞定(附避坑指南)
别急着敲命令。先确认这三样东西已就位——90%的新手卡点都在这里。
3.1 你的电脑:只要能上网,基本都行
- 系统:Windows 10/11、macOS 12+、Ubuntu 20.04+(苹果M1/M2芯片用户体验最佳)
- Python:必须装,但不用你折腾。我们用最傻瓜的方式装:
- Windows用户 → 去 python.org 下载安装包,勾选“Add Python to PATH”(加到系统路径),一路下一步。
- macOS用户 → 打开终端,粘贴
brew install python(没装Homebrew?点这里30秒装好)。
- 验证是否成功:打开命令行(Windows是CMD或PowerShell,Mac是Terminal),输入:
看到输出类似python --versionPython 3.10.12就OK。如果报错“command not found”,说明PATH没配好,重装时务必勾选那个选项。
新手避坑:别用Anaconda!它的环境太复杂,容易和后续步骤冲突。就用官方Python。
3.2 你的安卓手机:老款也能用,但得开个“隐藏开关”
- 系统要求:Android 7.0(2016年发布的机型基本都满足)
- 关键操作:开启开发者模式 + USB调试(这是连接电脑的钥匙)
步骤超简单,照着做:- 打开手机【设置】→【关于手机】→连续点击【版本号】7次 → 弹出“您现在是开发者!”
- 返回设置主菜单 → 找到新出现的【开发者选项】→ 打开它
- 在【开发者选项】里,找到并开启【USB调试】(有些手机还叫“USB调试(安全设置)”,两个都开)
新手避坑:
- 如果连上电脑后
adb devices没反应,90%是这一步漏了。- 华为/小米/OPPO等品牌机,可能还要在【开发者选项】里额外开启【OEM解锁】或【USB安装】。
- 第一次连电脑时,手机屏幕会弹窗问“允许USB调试吗?”,一定要点【允许】并勾选【始终允许】。
3.3 ADB工具:手机和电脑的“翻译官”,3种方式任选其一
ADB是Android官方工具,我们只用它最基础的功能(连设备、传图、模拟点击),不用学命令。装它有三种方式,选一个最快的:
- 推荐给Windows/macOS新手:用包管理器一键装
- Windows(已装Chocolatey):
choco install android-platform-tools - macOS(已装Homebrew):
brew install android-platform-tools
- Windows(已装Chocolatey):
- 没装包管理器?直接下载:
去 Google官方平台工具页 → 下载对应系统的zip包 → 解压到桌面 → 把解压后的文件夹路径(比如C:\platform-tools)加到系统环境变量PATH里(Windows教程见文末链接,Mac只需在终端执行export PATH=$PATH:/Users/你的用户名/Downloads/platform-tools)。 - 验证是否成功:命令行输入
adb version,看到版本号(如Android Debug Bridge version 1.0.41)就成功。
新手避坑:
- 别用第三方“ADB一键安装包”,很多捆绑软件。
adb devices命令必须在手机连着USB线、且开了USB调试的前提下运行。- 如果显示
unauthorized,说明手机没授权,断开重连,点“允许”。
4. 动手部署:5步走完,不抄错命令也能成功
现在,真正的动手环节来了。每一步我们都给出精确命令+作用解释+常见报错应对,你照着敲就行。
4.1 第一步:下载代码(1分钟)
打开命令行,粘贴执行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM成功标志:当前目录变成
Open-AutoGLM文件夹。
❌ 报错“git not found”?说明没装Git。去 git-scm.com 下载安装,重启命令行。
4.2 第二步:创建独立环境(防冲突,强烈建议)
避免影响你电脑上其他Python项目:
python -m venv venv source venv/bin/activate # macOS/Linux # Windows用户请用:venv\Scripts\activate成功标志:命令行开头出现
(venv)字样。
提示:之后所有命令都要在这个(venv)环境下运行。
4.3 第三步:安装依赖(2分钟,网络好更快)
pip install --upgrade pip pip install -r requirements.txt pip install -e .成功标志:最后几行没有红色错误,出现
Successfully installed ...。
❌ 报错“Failed building wheel for xxx”?别慌,这是某些库编译慢,不影响主体功能,跳过即可。
4.4 第四步:安装ADB Keyboard(让AI能打中文)
这是让AI在手机上“打字”的关键。执行:
# 下载APK(自动) curl -O https://github.com/senzhk/ADBKeyBoard/raw/master/ADBKeyboard.apk # 安装到手机(确保手机已连USB且授权) adb install ADBKeyboard.apk # 启用并设为默认输入法 adb shell ime enable com.android.adbkeyboard/.AdbIME adb shell ime set com.android.adbkeyboard/.AdbIME成功标志:
adb shell settings get secure default_input_method输出com.android.adbkeyboard/.AdbIME。
提示:如果提示“command not found curl”,Windows用户用Invoke-WebRequest替代,或直接浏览器下载APK后用adb install xxx.apk。
4.5 第五步:测试连接(最关键的验证)
确保手机连着USB线,然后执行:
adb devices成功标志:输出类似
List of attached devices 1234567890abcdef device❌ 如果是空列表或
unauthorized:
- 空列表 → 检查USB线(换根线)、检查USB调试是否开启、重启ADB(
adb kill-server && adb start-server)- unauthorized → 断开USB,在手机【开发者选项】里“撤销USB调试授权”,重连后点“允许”
恭喜!你已经完成了全部部署。现在,你的电脑和手机已建立信任连接,AI随时可以开始工作。
5. 第一次运行:用一句中文,让它干一件实事
别被文档里复杂的参数吓住。我们从最简单的命令开始,让它帮你做一件小事——打开Chrome,搜索“AI入门教程”。
5.1 最简命令(复制粘贴就能跑)
在你当前的命令行(确保还在Open-AutoGLM目录且激活了venv),执行:
python main.py "打开Chrome浏览器并搜索AI入门教程"它会自动:
- 截取手机当前屏幕
- 分析界面,找到Chrome图标
- 点击打开Chrome
- 等待页面加载,找到搜索框
- 输入“AI入门教程”
- 点击搜索按钮
- 显示搜索结果页
⏱ 首次运行会稍慢(约30-60秒),因为要加载模型、分析界面。后续任务会快很多。
5.2 如果失败了?先看这3个高频原因
| 现象 | 最可能原因 | 一句话解决 |
|---|---|---|
| 卡在“正在分析屏幕...”不动 | 手机屏幕太暗或锁屏了 | 保持手机亮屏、解锁状态,亮度调高 |
报错Connection refused或No route to host | 没启动模型服务(我们暂时用云端免费服务) | 加上--base-url https://api.z.ai/api/paas/v4 --model autoglm-phone-9b(需z.ai注册获取免费API Key,填在--apikey后) |
| 点了图标但App没打开 / 输入框没找到 | 屏幕分辨率太高,截图模糊 | 在手机【设置】→【显示】→ 调低“屏幕分辨率”或“字体大小”,重试 |
新手友好提示:
- 想看它每一步在想什么?加
--verbose参数:python main.py --verbose "打开微信,发消息给王五:你好"- 想让它连续干几件事?不加任务,直接进交互模式:
python main.py→ 然后在>提示符后,一行行输入指令。
5.3 试试更“生活化”的指令(激发灵感)
别只盯着技术参数。想想你每天手机里重复做的事,把它变成一句话:
- “把钉钉里昨天会议的纪要,复制到备忘录第3条后面”
- “打开高德地图,查从公司到北京南站的地铁路线,截图发我微信”
- “登录淘宝,进入‘我的订单’,找到上周买的蓝牙耳机,点‘申请退货’”
你会发现,描述越像平时跟朋友说的话,效果越好。不用加“请”“谢谢”,不用写步骤,它天生就懂“意图优先”。
6. 进阶玩法:不改代码,也能让它更懂你
部署成功只是开始。让AI真正成为你的效率伙伴,还需要一点小调整。
6.1 让它响应更快:调两个参数就够了
默认设置偏保守,适合首次测试。想提速?在命令里加:
--max-tokens 1500 --temperature 0.1--max-tokens 1500:限制AI最多生成1500个字(默认3000),减少“废话”,加快决策;--temperature 0.1:降低随机性,让它更“确定”地选动作,减少反复试探。
6.2 让它更准:给指令加一点“上下文”
AI不是万能的,但它很会“抓重点”。比如:
- ❌ 模糊指令:“查快递” → 它可能打开顺丰、中通、菜鸟,不知选哪个
- 清晰指令:“打开菜鸟裹裹App,查我最近一个待取件的快递” → 它立刻聚焦目标
黄金公式:【App名】+【具体动作】+【明确对象】
例:“在微博里,把‘科技Daily’账号最新一条带图的帖子,转发到我自己的主页”
6.3 安全兜底:敏感操作人工确认
它不会乱点支付、删除、清空等危险按钮。遇到这类操作时,会自动暂停,等你手动点一下确认。你也可以主动开启“严格模式”:
python main.py --require-human-confirmation "删除微信里所有超过30天的群聊"这样,每删一个群,它都会截图发你,等你回复“yes”才继续。
7. 总结:你已经拥有了一个会听话的手机AI助理
回顾一下,你刚刚完成了什么:
- 在电脑上装好了Python和ADB,没碰任何复杂配置;
- 让手机开启了开发者权限,只用了7次点击;
- 用5条命令下载、安装、连接,全程不超过15分钟;
- 用一句中文,让AI替你打开了浏览器、输入了搜索词、展示了结果;
- 学会了3个让AI更准、更快、更安全的小技巧。
Open-AutoGLM 的意义,从来不是炫技,而是把“手机自动化”这件事,从程序员的专属技能,变成每个普通人的日常工具。
你不需要成为开发者,也能拥有一个24小时待命、不喊累、不嫌烦、越用越懂你的AI手指。
下一步,你可以:
- 用它自动回复固定消息、整理每日截图、监控抢购链接;
- 在团队里部署,让测试同学用自然语言写用例;
- 甚至教父母用语音指令,帮他们远程操作手机。
技术的价值,永远在于它如何服务于人。而你,已经迈出了第一步。
8. 常见问题快答(新手最常问的5个问题)
8.1 必须要有GPU才能用吗?
不是。你可以用免费的云端模型服务(如z.ai、Novita AI),完全不需要本地显卡。只有当你想100%离线、追求极致速度时,才需要RTX 3090或更高配置的GPU。
8.2 iPhone能用吗?
目前仅支持安卓。iOS因系统限制无法通过类似ADB的机制深度控制,但社区已有探索方案,可关注项目更新。
8.3 会偷看我的手机隐私吗?
不会。所有屏幕截图只在你本地电脑内存中临时处理,不上传、不存储。模型服务(如z.ai)也遵循严格隐私协议,你可在其官网查看数据政策。
8.4 能同时控制多台手机吗?
能。用adb devices查看所有已连设备ID,然后在命令中指定--device-id XXXXXXXX,一台命令对应一台手机。
8.5 指令总是理解错,怎么办?
先检查:① 手机屏幕是否够亮、无遮挡;② 指令是否包含明确App名和动作;③ 尝试更短的指令(如先试“打开微信”,再试“发消息”)。大部分情况,调整表述就能解决。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。