news 2026/2/17 9:37:07

零基础也能懂!用Open-AutoGLM实现手机自动化操作

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
零基础也能懂!用Open-AutoGLM实现手机自动化操作

零基础也能懂!用Open-AutoGLM实现手机自动化操作

1. 这不是科幻,是今天就能用上的真实能力

你有没有过这样的时刻:

  • 想在抖音搜一个博主,但懒得点开App、输入搜索框、敲字、点进去……
  • 想给微信文件传输助手发条测试消息,却要解锁手机、划到微信、点开对话框、打字、发送——一套动作下来,比煮碗泡面还费劲。
  • 明明只是想“打开小红书搜美食”,结果手指在屏幕上点了七八下,眼睛盯着加载圈转了三秒。

现在,这些事,一句话就能搞定。

Open-AutoGLM 不是概念演示,也不是实验室玩具。它是智谱AI开源的、真正能跑在你电脑上、指挥你手机完成任务的AI智能体框架。它不靠预设脚本,不靠固定坐标,而是像人一样——看屏幕、理解界面、思考下一步、动手操作

你只需要说:“打开美团,搜‘附近2公里内的潮汕牛肉火锅’”,它就会自动点亮屏幕、解锁(如需)、启动美团、点击搜索框、输入文字、点击搜索、滑动浏览结果……全程无需你碰手机一下。

这篇文章不讲模型参数、不聊多模态对齐、不堆技术术语。我们只做一件事:手把手带你从零开始,用最直白的方式,让AI替你操作手机。哪怕你没写过一行Python,没听过ADB是什么,只要愿意花30分钟,就能让手机听你“说话”。

2. 它到底怎么工作的?三句话说清本质

很多人看到“AI操作手机”第一反应是:“这得写多少代码?是不是要学安卓开发?”
其实完全不用。Open-AutoGLM 的设计哲学很朴素:把复杂留给自己,把简单留给用户

2.1 核心三步,像人一样思考和行动

整个流程就三步,每一步都对应一个真实的人类行为:

  1. :通过ADB实时截取手机屏幕画面,交给视觉语言模型(VLM)分析——它能识别按钮文字、图标含义、页面结构,甚至判断“这个蓝色带箭头的图标大概率是‘返回’”。
  2. :结合你的自然语言指令(比如“点开第二个商品详情”),模型推理出当前该做什么、点哪里、输什么、等多久——这不是死记硬背,而是动态规划。
  3. :把决策转化成ADB命令——adb shell input tap x y点击、adb shell input swipe滑动、adb shell input text输入文字,全部自动执行。

你不需要告诉它“x=523, y=876”,它自己会算;你也不需要教它“小红书首页的搜索框在右上角”,它自己会找。

2.2 为什么它能“看懂”手机界面?

关键在于它用的不是普通大模型,而是专为手机场景训练的AutoGLM-Phone-9B。这个模型有两大特殊能力:

  • 原生支持图文输入:它同时接收截图(图像)和你的指令(文本),在内部做跨模态对齐。比如你输入“点那个红色的‘立即购买’”,它会把“红色”“立即购买”这几个字,和截图里所有红色按钮的位置、文字匹配起来,精准定位。
  • 内置手机操作知识:它学过上千个主流App的界面逻辑——知道淘宝的搜索框总在顶部、微信的聊天列表左滑可删除、抖音的点赞图标是爱心形状……这种“常识”,让它不用每次从零学习。

所以它不是在“猜”,而是在“理解”。

2.3 安全机制:它不会乱来

你可能会担心:“万一它误操作,把我的支付宝密码输进搜索框怎么办?”
Open-AutoGLM 内置了三层保险:

  • 敏感操作拦截:检测到支付、转账、修改密码等关键词或界面特征(如密码输入框、人脸识别弹窗),自动暂停并提示“请人工接管”。
  • 人工接管开关(Take_over):你随时按回车键就能中断AI,手动操作几秒后,再按回车,它立刻接上后续步骤。
  • 远程调试支持:所有ADB指令都走标准协议,你可以用adb logcat实时查看它每一步在干什么,完全透明。

它不是取代你,而是成为你手指的延伸。

3. 准备工作:三样东西,10分钟搞定

别被“AI”“多模态”吓住。部署Open-AutoGLM,本质上就是装一个工具、连一台手机、跑一条命令。下面所有步骤,我都按“小白视角”写清楚,连环境变量怎么配、USB调试在哪开,都标好了路径。

3.1 你需要准备什么?

项目要求说明
一台电脑Windows / macOS / Linux用来运行控制端,不需要高性能,MacBook Air M1就能跑
一部安卓手机Android 7.0 及以上华为、小米、OPPO、vivo、三星等主流品牌均可,模拟器也行
一根数据线(可选)USB-C 或 Micro-USB用于首次连接,之后可切WiFi无线控制

小贴士:如果你只有iPhone,目前暂不支持。Open-AutoGLM 专注安卓生态,因为ADB是安卓原生调试协议,iOS需要越狱或企业签名,成本太高。

3.2 第一步:装好ADB——让电脑“看见”手机

ADB(Android Debug Bridge)是谷歌官方提供的安卓调试工具,就像手机的“遥控器”。它不难装,但配置环境变量这一步,90%的新手会卡住。

Windows 用户

  1. 去 Android平台工具官网 下载platform-tools-latest-windows.zip
  2. 解压到一个简单路径,比如C:\adb不要放在中文路径或桌面!
  3. Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”里找到Path→ “编辑” → “新建” → 粘贴C:\adb
  4. 打开新命令提示符,输入adb version,如果显示版本号(如Android Debug Bridge version 1.0.41),就成功了。

macOS 用户

  1. 下载platform-tools-latest-darwin.zip,解压到~/Downloads/platform-tools
  2. 打开终端,输入:
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version

看到版本号,即配置成功。

常见坑:如果adb devices显示空白,先试adb kill-server && adb start-server;如果显示unauthorized,去手机通知栏点“允许USB调试”。

3.3 第二步:手机设置——开启“被遥控”权限

这是最关键的一步,漏掉任何一个开关,AI都动不了你的手机。

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”
  2. 开启USB调试
    设置 → 系统与更新 → 开发者选项 → 打开“USB调试”
  3. 必须打开“USB调试(安全设置)”
    同一页面往下翻,找到“USB调试(安全设置)”或“USB安装”,务必打开它。这是很多教程遗漏的点,不开它,AI无法点击任何按钮。
  4. 安装ADB Keyboard(解决中文输入)
    • 下载 ADBKeyboard.apk
    • 用数据线连手机,在电脑命令行输入:
      adb install ADBKeyboard.apk
    • 手机设置 → 语言和输入法 → 找到“ADB Keyboard”,启用它(不用设为默认,系统会自动调用)

做完这四步,你的手机就准备好被AI指挥了。

4. 部署控制端:三行命令,项目就绪

现在,你的电脑和手机已经“握手成功”,接下来只需把Open-AutoGLM的控制程序装到电脑上。全程命令行操作,我给你写好每一步。

4.1 克隆代码 & 创建虚拟环境

打开终端(Windows用CMD或PowerShell,macOS用Terminal),依次执行:

# 1. 克隆项目(这会下载所有代码和配置) git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建独立的Python环境(避免和其他项目冲突) python -m venv venv # 3. 激活环境(Windows) venv\Scripts\activate # 3. 激活环境(macOS/Linux) source venv/bin/activate

激活后,命令行开头会出现(venv),表示你现在在一个干净的“沙盒”里。

4.2 安装依赖——一条命令,自动搞定

# 使用清华镜像源,国内下载飞快 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple pip install -e .

这一步会自动安装:ADB通信库、图像处理工具、HTTP客户端、以及调用大模型的SDK。全程无交互,喝口水的功夫就完成了。

4.3 验证连接——确认AI能“看见”你的手机

保持手机用数据线连着电脑,运行:

adb devices

如果输出类似:

List of devices attached ABC123456789 device

恭喜,你的手机已被成功识别。ABC123456789就是你的设备ID,后面要用到。

如果显示unauthorized,去手机通知栏点“允许”;如果空白,重插数据线或换USB口。

5. 两种使用方式:新手选云端,老手选本地

你不需要自己训练模型,Open-AutoGLM 支持两种“调用大脑”的方式:一种是直接用现成的云端API(推荐新手),一种是自己在本地跑模型(适合有显卡的玩家)。我们分别说。

5.1 方式一:用智谱AI云端API(零硬件要求,5分钟上手)

这是最适合第一次体验的方式。你不用买显卡、不用等下载18GB模型、不用调参数——注册个账号,复制API Key,就能跑。

操作步骤

  1. 访问 智谱AI开放平台,注册并登录
  2. 进入 API密钥管理页,点击“创建API Key”
  3. 复制生成的Key(形如sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

然后,在你刚才激活的venv环境中,运行:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "你的API密钥" \ "打开小红书,搜索‘深圳咖啡探店’"

看到手机屏幕亮起、App启动、搜索框弹出、文字自动输入、结果刷出来——你就成功了。

提示:新用户有免费额度,够你跑几十次任务。后续按token计费,一次简单操作约0.2元。

5.2 方式二:本地部署模型(响应更快,隐私更好)

如果你有RTX 3090/4090或A100这类显存≥24GB的显卡,可以本地跑模型。好处是:

  • 响应更快(1-2秒 vs 云端3-5秒)
  • 所有截图都在你本地,不上传服务器
  • 可以离线使用(比如出差没网络时)

部署命令(Linux/macOS)

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}"

Windows用户注意

  • 用PowerShell运行,把\换成`(反引号)
  • 首次运行会自动从Hugging Face下载约18GB模型文件,请确保磁盘空间充足

启动成功后,访问http://localhost:8000/v1应该能看到健康检查页面。然后用这条命令测试:

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信,给文件传输助手发消息:AI操作成功!"

6. 实战操作:从一句话到完整任务

现在,你已经具备了让AI操作手机的所有条件。我们用几个真实场景,看看它怎么把“一句话指令”变成“一连串精准动作”。

6.1 场景一:电商购物——“搜商品→看详情→加购”

指令:

"打开淘宝,搜索‘罗技G502鼠标’,点击第一个商品,滑动到详情页,点击‘加入购物车’"

AI实际执行步骤:

  1. 截图识别淘宝首页 → 找到顶部搜索框 → 点击
  2. 输入“罗技G502鼠标” → 点击搜索按钮
  3. 截图识别商品列表 → 定位第一个商品卡片 → 点击进入
  4. 截图识别详情页 → 滑动到底部 → 找到“加入购物车”按钮 → 点击

整个过程约8-12秒,无需你干预。

6.2 场景二:内容浏览——“刷短视频→点赞→关注”

指令:

"打开抖音,刷新推荐页,对第3个视频点赞,对博主‘科技小队长’点击关注"

AI如何应对:

  • 刷新动作:模拟上滑+释放,触发下拉刷新
  • 点赞:识别视频右下角的爱心图标,点击
  • 关注:先在视频下方找到博主昵称,再点击其头像进入主页,最后找“关注”按钮

它不是靠固定坐标,而是靠“认图标+读文字+判位置”。

6.3 场景三:多步协作——“查天气→订外卖→发消息同步”

你可以把复杂任务拆成多条指令,分步执行,更可控:

# 第一步:查深圳天气 python main.py "打开墨迹天气,搜索‘深圳’,截图当前天气" # 第二步:订外卖(假设已登录美团) python main.py "打开美团,搜索‘云海肴’,选择‘双人套餐’,点击‘去结算’" # 第三步:发消息同步进度 python main.py "打开微信,给‘张三’发消息:已帮你订好云海肴双人餐,预计30分钟送达"

每一步执行完,你会看到终端打印出详细日志:“已识别搜索框”、“已输入文字”、“已点击坐标(523, 876)”……完全透明。

7. 进阶技巧:让AI更听话、更稳定、更省心

用熟了你会发现,AI不是万能的,但掌握几个小技巧,能让成功率从70%提升到95%。

7.1 指令怎么写才最有效?

❌ 不好的写法:

  • “帮我弄点吃的”(太模糊,AI不知道是点外卖、查菜谱,还是打开冰箱)
  • “点一下那个”(没有指代,AI无法定位)

好的写法(记住三个原则):

  • 具体应用名:不说“社交App”,说“微信”或“小红书”
  • 明确动作+对象:不说“看看”,说“打开”“搜索”“点击”“滑动”
  • 限定范围:不说“第一个”,说“列表里的第一个商品”或“视频流中的第三个”

例子:

“打开高德地图,搜索‘北京南站’,点击路线规划,选择地铁,截图结果”
“打开网易云音乐,播放我的‘每日推荐’歌单,对当前播放歌曲点击收藏”

7.2 交互模式:像聊天一样连续下指令

不想每次输一长串命令?用交互模式:

python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的Key"

然后你会看到一个>提示符,像这样:

> 打开小红书 > 搜索‘露营装备’ > 点赞第一条笔记 > 返回首页 > 退出

每输一行,AI立刻执行,全程无需重复写参数。

7.3 故障自愈:当AI卡住时怎么办?

遇到页面加载慢、弹窗广告、网络延迟,AI可能停在某一步。这时:

  • 按 Ctrl+C 中断当前任务
  • 手动关闭弹窗或等待加载完成
  • 再运行一次原指令,AI会从断点继续(它会记住上一步状态)

或者,直接用--device-id指定设备,避免多设备混淆。

8. 它能做什么?一张表看清能力边界

Open-AutoGLM 目前支持50+款主流App,覆盖日常90%场景。但它不是魔法,了解它的“能”与“不能”,才能用得安心。

能力类型具体表现实测成功率注意事项
启动/切换App“打开微信”“切换到淘宝”100%依赖App已安装
文字输入搜索、发消息、填表单95%需提前安装ADB Keyboard
点击/长按/双击点按钮、选菜单、点赞90%界面元素需清晰可见
滑动/拖拽刷信息流、翻页、调节音量85%需足够滑动距离
返回/回到桌面“返回上一页”“回到首页”100%ADB原生命令,极稳定
复杂支付输入支付密码、人脸识别0%自动暂停,强制人工接管
安全敏感页银行App、身份证上传页0%截图黑屏,自动跳过或接管

关键结论:它擅长“标准化操作”(搜索、点击、滑动),不擅长“非标决策”(比如“选一个看起来靠谱的商家”)。把AI当高效执行者,而不是全能决策者。

9. 总结:这不是未来,是此刻就能拥有的生产力

Open-AutoGLM 最打动我的地方,不是它有多酷炫,而是它把一件本该很麻烦的事,变得像呼吸一样自然。

  • 它不需要你学编程,只要会说人话;
  • 它不依赖特定机型,主流安卓手机即插即用;
  • 它不绑架你的隐私,云端可选、本地可控;
  • 它不制造焦虑,而是默默帮你省下每天十几分钟的机械操作。

也许明天,它会支持iOS;也许下周,它能自动处理验证码;但今天,它已经能稳稳地帮你:
打开小红书搜美食
在抖音给喜欢的博主一键关注
为家人定时推送新闻摘要
为测试工程师跑完一整套App回归用例

技术的价值,从来不在参数多高,而在是否真正降低了人与数字世界的摩擦。Open-AutoGLM 做到了。

现在,关掉这篇文章,拿起你的手机和电脑,照着上面的步骤,跑出你的第一条指令。当屏幕第一次为你自动点亮、App自动打开、文字自动输入——那一刻,你会相信:AI助理,真的来了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/3 23:42:58

快递公司都在用的地址技术,原来是这个开源模型

快递公司都在用的地址技术,原来是这个开源模型 你有没有想过,每天收到的快递为什么总能准确送到楼下?背后支撑着整个物流网络高效运转的,不是什么神秘算法,而是一套看似简单却极其关键的技术——地址匹配。 当用户下…

作者头像 李华
网站建设 2026/2/10 7:22:02

libusb跨平台异步兼容性:Windows与Linux差异对比

以下是对您提供的博文内容进行 深度润色与结构重构后的技术文章 。整体风格已全面转向 人类专家口吻的实战教学体 :去除了所有AI痕迹、模板化表达和刻板章节标题;以真实开发者的视角层层递进,穿插经验判断、踩坑复盘与工程权衡;语言更紧凑有力,逻辑更自然流畅,技术细…

作者头像 李华
网站建设 2026/2/14 6:30:48

Z-Image-Turbo实战:轻松生成宠物写真与风景画

Z-Image-Turbo实战:轻松生成宠物写真与风景画 1. 为什么选Z-Image-Turbo?一张图说清它的特别之处 你有没有试过用AI画一只猫,结果它长了七条腿?或者想生成一张雪山日出,画面却灰蒙蒙像阴天?很多图像生成工…

作者头像 李华
网站建设 2026/2/16 9:03:50

基于SpringBoot的宠物爱心组织管理系统毕设

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在设计并实现一个基于SpringBoot框架的宠物爱心组织管理系统,以满足宠物爱心组织在日常运营中的管理需求。具体研究目的如下: 首…

作者头像 李华
网站建设 2026/2/13 5:16:51

Z-Image-Turbo CFG参数调节实测:7.5果然是黄金值

Z-Image-Turbo CFG参数调节实测:7.5果然是黄金值 1. 为什么CFG值值得专门一试? 你有没有遇到过这样的情况:明明写了很详细的提示词,生成的图却“似是而非”——猫的耳朵歪了、咖啡杯把手多了一个、风景里突然冒出半截电线&#…

作者头像 李华
网站建设 2026/2/12 12:31:18

CogVideoX-2b完整指南:本地化视频生成的全流程操作

CogVideoX-2b完整指南:本地化视频生成的全流程操作 1. 这不是“另一个视频模型”,而是一台装进服务器的微型电影工厂 你有没有试过这样一种场景:写几句话,点一下鼠标,两分钟后,一段3秒的高清短视频就出现…

作者头像 李华