news 2026/2/14 2:45:54

从0开始学Open-AutoGLM,新手也能快速上手

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从0开始学Open-AutoGLM,新手也能快速上手

从0开始学Open-AutoGLM,新手也能快速上手

1. 这不是另一个自动化工具,而是你手机的“AI手指”

你有没有过这样的时刻:
想在小红书搜“周末咖啡馆推荐”,结果点开App、等加载、输关键词、翻三页才找到想要的内容;
想给客户发一封带附件的邮件,却卡在找文件、切回邮箱、粘贴地址的循环里;
甚至只是想把手机屏幕里的表格数据复制到Excel,都要截图、OCR、再手动整理……

这些重复操作,本不该消耗你的时间。

Open-AutoGLM 就是来解决这个问题的——它不教你写代码,也不让你背命令,而是让你用说话的方式,指挥手机自己干活
你说:“打开美团,搜‘附近2公里内评分4.8以上的粤菜馆,订今晚7点两人位’”,它就能理解你的意图、看清当前界面、一步步点击、输入、滑动、确认,全程自动完成。

这不是科幻,也不是定制开发。它是智谱AI开源的、真正跑在你本地电脑+真机上的手机AI智能体框架。
而且,它专为新手设计:没有复杂配置、不强制GPU、USB线一插就能试;即使你只用过微信和淘宝,也能在30分钟内让它帮你订第一单外卖。

下面我们就从零开始,不跳步、不省略、不假设你懂ADB或Python——就像教朋友装一个新App那样,带你亲手让AI接管你的手机。

2. 先搞懂三件事:它是什么、为什么特别、你能用它做什么

2.1 它到底是什么?一句话说清

Open-AutoGLM 是一个手机端AI助手框架,核心能力就三点:

  • 看得懂:能分析你手机屏幕的实时截图,识别按钮、文字、图标、布局;
  • 听得懂:理解你用中文说的自然语言指令,比如“把这张图发给张三”“登录微信后转发最新一条朋友圈”;
  • 做得对:通过ADB(Android调试工具)自动点击、滑动、输入、返回,像真人一样操作手机。

它不是App,也不需要你越狱或root手机;它运行在你的电脑上,把你的电脑变成“AI遥控器”,控制你连着的安卓手机。

2.2 它和普通自动化工具(比如Tasker、Auto.js)有啥不一样?

对比项传统自动化工具Open-AutoGLM
怎么告诉它做什么要写脚本、设条件、记坐标(比如“点击x=520,y=380”)直接说人话:“点右上角三个点,选‘分享’”
能不能看懂界面不能。只能按固定位置点,换一个App或版本就失效能。每次操作前先截图分析,适配不同分辨率、不同UI风格
需不需要提前学技术需要学语法、逻辑、坐标系统不需要。唯一要学的是“怎么把需求说清楚”
支持哪些App只能做你手动写好脚本的那几个开箱即用支持50+主流App(微信、抖音、淘宝、Chrome、Gmail、高德地图等),还能自动泛化到没列出来的App

简单说:传统工具是“你当导演,它当木偶”;Open-AutoGLM 是“你当老板,它当助理”——你只管提需求,它负责想方案、找路、动手干。

2.3 新手第一天就能做的3件实用事

别被“AI”“多模态”吓住。这框架最迷人的地方,是第一天就能产出真实价值。试试这三个零门槛任务:

  • 一键查快递
    指令:“打开菜鸟裹裹,查我最近一个待取件的物流信息”
    → 它自动打开App、进首页、点“我的包裹”、展开最新一条,把物流节点读给你听(或截图发你微信)。

  • 跨App传信息
    指令:“把微信里和李四的聊天记录里最后一张图片,保存到相册并分享到小红书”
    → 它切到微信、找到对话、长按图片、点“保存”、再切到小红书、点发布、选图、发帖。

  • 批量处理通知
    指令:“把今天所有来自‘银行’的短信,转发到邮箱xxx@163.com”
    → 它进短信App、筛选发件人为“银行”、逐条复制内容、切到邮箱、新建邮件、粘贴发送。

这些不是Demo,是它每天在真实手机上干的活。而你,只需要会打字、会说话。

3. 准备工作:3样东西,10分钟搞定(附避坑指南)

别急着敲命令。先确认这三样东西已就位——90%的新手卡点都在这里。

3.1 你的电脑:只要能上网,基本都行

  • 系统:Windows 10/11、macOS 12+、Ubuntu 20.04+(苹果M1/M2芯片用户体验最佳)
  • Python:必须装,但不用你折腾。我们用最傻瓜的方式装:
    • Windows用户 → 去 python.org 下载安装包,勾选“Add Python to PATH”(加到系统路径),一路下一步。
    • macOS用户 → 打开终端,粘贴brew install python(没装Homebrew?点这里30秒装好)。
  • 验证是否成功:打开命令行(Windows是CMD或PowerShell,Mac是Terminal),输入:
    python --version
    看到输出类似Python 3.10.12就OK。如果报错“command not found”,说明PATH没配好,重装时务必勾选那个选项。

新手避坑:别用Anaconda!它的环境太复杂,容易和后续步骤冲突。就用官方Python。

3.2 你的安卓手机:老款也能用,但得开个“隐藏开关”

  • 系统要求:Android 7.0(2016年发布的机型基本都满足)
  • 关键操作:开启开发者模式 + USB调试(这是连接电脑的钥匙)
    步骤超简单,照着做:
    1. 打开手机【设置】→【关于手机】→连续点击【版本号】7次 → 弹出“您现在是开发者!”
    2. 返回设置主菜单 → 找到新出现的【开发者选项】→ 打开它
    3. 在【开发者选项】里,找到并开启【USB调试】(有些手机还叫“USB调试(安全设置)”,两个都开)

新手避坑:

  • 如果连上电脑后adb devices没反应,90%是这一步漏了。
  • 华为/小米/OPPO等品牌机,可能还要在【开发者选项】里额外开启【OEM解锁】或【USB安装】。
  • 第一次连电脑时,手机屏幕会弹窗问“允许USB调试吗?”,一定要点【允许】并勾选【始终允许】。

3.3 ADB工具:手机和电脑的“翻译官”,3种方式任选其一

ADB是Android官方工具,我们只用它最基础的功能(连设备、传图、模拟点击),不用学命令。装它有三种方式,选一个最快的:

  • 推荐给Windows/macOS新手:用包管理器一键装
    • Windows(已装Chocolatey):choco install android-platform-tools
    • macOS(已装Homebrew):brew install android-platform-tools
  • 没装包管理器?直接下载
    去 Google官方平台工具页 → 下载对应系统的zip包 → 解压到桌面 → 把解压后的文件夹路径(比如C:\platform-tools)加到系统环境变量PATH里(Windows教程见文末链接,Mac只需在终端执行export PATH=$PATH:/Users/你的用户名/Downloads/platform-tools)。
  • 验证是否成功:命令行输入adb version,看到版本号(如Android Debug Bridge version 1.0.41)就成功。

新手避坑:

  • 别用第三方“ADB一键安装包”,很多捆绑软件。
  • adb devices命令必须在手机连着USB线、且开了USB调试的前提下运行。
  • 如果显示unauthorized,说明手机没授权,断开重连,点“允许”。

4. 动手部署:5步走完,不抄错命令也能成功

现在,真正的动手环节来了。每一步我们都给出精确命令+作用解释+常见报错应对,你照着敲就行。

4.1 第一步:下载代码(1分钟)

打开命令行,粘贴执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

成功标志:当前目录变成Open-AutoGLM文件夹。
❌ 报错“git not found”?说明没装Git。去 git-scm.com 下载安装,重启命令行。

4.2 第二步:创建独立环境(防冲突,强烈建议)

避免影响你电脑上其他Python项目:

python -m venv venv source venv/bin/activate # macOS/Linux # Windows用户请用:venv\Scripts\activate

成功标志:命令行开头出现(venv)字样。
提示:之后所有命令都要在这个(venv)环境下运行。

4.3 第三步:安装依赖(2分钟,网络好更快)

pip install --upgrade pip pip install -r requirements.txt pip install -e .

成功标志:最后几行没有红色错误,出现Successfully installed ...
❌ 报错“Failed building wheel for xxx”?别慌,这是某些库编译慢,不影响主体功能,跳过即可。

4.4 第四步:安装ADB Keyboard(让AI能打中文)

这是让AI在手机上“打字”的关键。执行:

# 下载APK(自动) curl -O https://github.com/senzhk/ADBKeyBoard/raw/master/ADBKeyboard.apk # 安装到手机(确保手机已连USB且授权) adb install ADBKeyboard.apk # 启用并设为默认输入法 adb shell ime enable com.android.adbkeyboard/.AdbIME adb shell ime set com.android.adbkeyboard/.AdbIME

成功标志:adb shell settings get secure default_input_method输出com.android.adbkeyboard/.AdbIME
提示:如果提示“command not found curl”,Windows用户用Invoke-WebRequest替代,或直接浏览器下载APK后用adb install xxx.apk

4.5 第五步:测试连接(最关键的验证)

确保手机连着USB线,然后执行:

adb devices

成功标志:输出类似

List of attached devices 1234567890abcdef device

❌ 如果是空列表或unauthorized

  • 空列表 → 检查USB线(换根线)、检查USB调试是否开启、重启ADB(adb kill-server && adb start-server
  • unauthorized → 断开USB,在手机【开发者选项】里“撤销USB调试授权”,重连后点“允许”

恭喜!你已经完成了全部部署。现在,你的电脑和手机已建立信任连接,AI随时可以开始工作。

5. 第一次运行:用一句中文,让它干一件实事

别被文档里复杂的参数吓住。我们从最简单的命令开始,让它帮你做一件小事——打开Chrome,搜索“AI入门教程”

5.1 最简命令(复制粘贴就能跑)

在你当前的命令行(确保还在Open-AutoGLM目录且激活了venv),执行:

python main.py "打开Chrome浏览器并搜索AI入门教程"

它会自动:

  • 截取手机当前屏幕
  • 分析界面,找到Chrome图标
  • 点击打开Chrome
  • 等待页面加载,找到搜索框
  • 输入“AI入门教程”
  • 点击搜索按钮
  • 显示搜索结果页

⏱ 首次运行会稍慢(约30-60秒),因为要加载模型、分析界面。后续任务会快很多。

5.2 如果失败了?先看这3个高频原因

现象最可能原因一句话解决
卡在“正在分析屏幕...”不动手机屏幕太暗或锁屏了保持手机亮屏、解锁状态,亮度调高
报错Connection refusedNo route to host没启动模型服务(我们暂时用云端免费服务)加上--base-url https://api.z.ai/api/paas/v4 --model autoglm-phone-9b(需z.ai注册获取免费API Key,填在--apikey后)
点了图标但App没打开 / 输入框没找到屏幕分辨率太高,截图模糊在手机【设置】→【显示】→ 调低“屏幕分辨率”或“字体大小”,重试

新手友好提示:

  • 想看它每一步在想什么?加--verbose参数:
    python main.py --verbose "打开微信,发消息给王五:你好"
  • 想让它连续干几件事?不加任务,直接进交互模式:
    python main.py→ 然后在>提示符后,一行行输入指令。

5.3 试试更“生活化”的指令(激发灵感)

别只盯着技术参数。想想你每天手机里重复做的事,把它变成一句话:

  • “把钉钉里昨天会议的纪要,复制到备忘录第3条后面”
  • “打开高德地图,查从公司到北京南站的地铁路线,截图发我微信”
  • “登录淘宝,进入‘我的订单’,找到上周买的蓝牙耳机,点‘申请退货’”

你会发现,描述越像平时跟朋友说的话,效果越好。不用加“请”“谢谢”,不用写步骤,它天生就懂“意图优先”。

6. 进阶玩法:不改代码,也能让它更懂你

部署成功只是开始。让AI真正成为你的效率伙伴,还需要一点小调整。

6.1 让它响应更快:调两个参数就够了

默认设置偏保守,适合首次测试。想提速?在命令里加:

--max-tokens 1500 --temperature 0.1
  • --max-tokens 1500:限制AI最多生成1500个字(默认3000),减少“废话”,加快决策;
  • --temperature 0.1:降低随机性,让它更“确定”地选动作,减少反复试探。

6.2 让它更准:给指令加一点“上下文”

AI不是万能的,但它很会“抓重点”。比如:

  • ❌ 模糊指令:“查快递” → 它可能打开顺丰、中通、菜鸟,不知选哪个
  • 清晰指令:“打开菜鸟裹裹App,查我最近一个待取件的快递” → 它立刻聚焦目标

黄金公式【App名】+【具体动作】+【明确对象】
例:“在微博里,把‘科技Daily’账号最新一条带图的帖子,转发到我自己的主页”

6.3 安全兜底:敏感操作人工确认

它不会乱点支付、删除、清空等危险按钮。遇到这类操作时,会自动暂停,等你手动点一下确认。你也可以主动开启“严格模式”:

python main.py --require-human-confirmation "删除微信里所有超过30天的群聊"

这样,每删一个群,它都会截图发你,等你回复“yes”才继续。

7. 总结:你已经拥有了一个会听话的手机AI助理

回顾一下,你刚刚完成了什么:

  • 在电脑上装好了Python和ADB,没碰任何复杂配置;
  • 让手机开启了开发者权限,只用了7次点击;
  • 用5条命令下载、安装、连接,全程不超过15分钟;
  • 用一句中文,让AI替你打开了浏览器、输入了搜索词、展示了结果;
  • 学会了3个让AI更准、更快、更安全的小技巧。

Open-AutoGLM 的意义,从来不是炫技,而是把“手机自动化”这件事,从程序员的专属技能,变成每个普通人的日常工具。
你不需要成为开发者,也能拥有一个24小时待命、不喊累、不嫌烦、越用越懂你的AI手指。

下一步,你可以:

  • 用它自动回复固定消息、整理每日截图、监控抢购链接;
  • 在团队里部署,让测试同学用自然语言写用例;
  • 甚至教父母用语音指令,帮他们远程操作手机。

技术的价值,永远在于它如何服务于人。而你,已经迈出了第一步。

8. 常见问题快答(新手最常问的5个问题)

8.1 必须要有GPU才能用吗?

不是。你可以用免费的云端模型服务(如z.ai、Novita AI),完全不需要本地显卡。只有当你想100%离线、追求极致速度时,才需要RTX 3090或更高配置的GPU。

8.2 iPhone能用吗?

目前仅支持安卓。iOS因系统限制无法通过类似ADB的机制深度控制,但社区已有探索方案,可关注项目更新。

8.3 会偷看我的手机隐私吗?

不会。所有屏幕截图只在你本地电脑内存中临时处理,不上传、不存储。模型服务(如z.ai)也遵循严格隐私协议,你可在其官网查看数据政策。

8.4 能同时控制多台手机吗?

能。用adb devices查看所有已连设备ID,然后在命令中指定--device-id XXXXXXXX,一台命令对应一台手机。

8.5 指令总是理解错,怎么办?

先检查:① 手机屏幕是否够亮、无遮挡;② 指令是否包含明确App名和动作;③ 尝试更短的指令(如先试“打开微信”,再试“发消息”)。大部分情况,调整表述就能解决。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/14 2:44:37

抛弃复杂设置!这款开源IPTV播放器让家庭娱乐变简单

抛弃复杂设置!这款开源IPTV播放器让家庭娱乐变简单 【免费下载链接】iptvnator 项目地址: https://gitcode.com/GitHub_Trending/ip/iptvnator 还在为IPTV播放的复杂配置头疼吗?想要一款完全免费、功能强大的电视解决方案?开源IPTV播…

作者头像 李华
网站建设 2026/1/31 16:07:15

Phi-3-mini-4k-instruct效果展示:Ollama平台生成可直接运行的Dockerfile案例

Phi-3-mini-4k-instruct效果展示:Ollama平台生成可直接运行的Dockerfile案例 1. 为什么这个轻量级模型值得你花5分钟看看 你有没有试过在本地跑一个真正能干活的AI模型,既不用等GPU排队,也不用折腾CUDA版本,更不用为显存不够发愁…

作者头像 李华
网站建设 2026/2/7 15:30:44

基于改进直接转矩控制DTC的simulink仿真模型

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

作者头像 李华
网站建设 2026/2/5 4:15:15

Qwen2.5-VL图文对话模型:Ollama一键部署+多轮交互保姆级教程

Qwen2.5-VL图文对话模型:Ollama一键部署多轮交互保姆级教程 1. 为什么你需要Qwen2.5-VL这个视觉语言模型 你有没有遇到过这些场景? 拍了一张商品包装图,想快速提取上面的成分表和生产日期,但OCR工具识别不准、格式混乱&#xf…

作者头像 李华
网站建设 2026/2/4 14:20:01

低光照照片怎么救?Unet人像卡通化前处理建议

低光照照片怎么救?Unet人像卡通化前处理建议 你有没有试过——兴冲冲拍了一张氛围感十足的夜景人像,结果导入卡通化工具后,人脸发灰、细节糊成一片,卡通效果直接“垮掉”?或者在室内灯光偏黄、窗边逆光、手机夜景模式…

作者头像 李华
网站建设 2026/2/8 23:51:46

PWM频率调节的隐藏陷阱:STM32开发者常忽略的5个时序问题

PWM频率调节的隐藏陷阱:STM32开发者常忽略的5个时序问题 在工业控制、无线充电和音频合成等高精度应用中,PWM信号的稳定性直接决定了系统性能。许多开发者在使用STM32的ARR/PSC寄存器配置PWM时,往往只关注频率计算公式而忽略了底层时序细节。…

作者头像 李华