零基础也能懂！用Open-AutoGLM实现手机自动化操作-开发者社区

零基础也能懂！用Open-AutoGLM实现手机自动化操作

1. 这不是科幻，是今天就能用上的真实能力

你有没有过这样的时刻：

想在抖音搜一个博主，但懒得点开App、输入搜索框、敲字、点进去……
想给微信文件传输助手发条测试消息，却要解锁手机、划到微信、点开对话框、打字、发送——一套动作下来，比煮碗泡面还费劲。
明明只是想“打开小红书搜美食”，结果手指在屏幕上点了七八下，眼睛盯着加载圈转了三秒。

现在，这些事，一句话就能搞定。

Open-AutoGLM 不是概念演示，也不是实验室玩具。它是智谱AI开源的、真正能跑在你电脑上、指挥你手机完成任务的AI智能体框架。它不靠预设脚本，不靠固定坐标，而是像人一样——看屏幕、理解界面、思考下一步、动手操作。

你只需要说：“打开美团，搜‘附近2公里内的潮汕牛肉火锅’”，它就会自动点亮屏幕、解锁（如需）、启动美团、点击搜索框、输入文字、点击搜索、滑动浏览结果……全程无需你碰手机一下。

这篇文章不讲模型参数、不聊多模态对齐、不堆技术术语。我们只做一件事：手把手带你从零开始，用最直白的方式，让AI替你操作手机。哪怕你没写过一行Python，没听过ADB是什么，只要愿意花30分钟，就能让手机听你“说话”。

2. 它到底怎么工作的？三句话说清本质

很多人看到“AI操作手机”第一反应是：“这得写多少代码？是不是要学安卓开发？”
其实完全不用。Open-AutoGLM 的设计哲学很朴素：把复杂留给自己，把简单留给用户。

2.1 核心三步，像人一样思考和行动

整个流程就三步，每一步都对应一个真实的人类行为：

看：通过ADB实时截取手机屏幕画面，交给视觉语言模型（VLM）分析——它能识别按钮文字、图标含义、页面结构，甚至判断“这个蓝色带箭头的图标大概率是‘返回’”。
想：结合你的自然语言指令（比如“点开第二个商品详情”），模型推理出当前该做什么、点哪里、输什么、等多久——这不是死记硬背，而是动态规划。
做：把决策转化成ADB命令——adb shell input tap x y点击、adb shell input swipe滑动、adb shell input text输入文字，全部自动执行。

你不需要告诉它“x=523, y=876”，它自己会算；你也不需要教它“小红书首页的搜索框在右上角”，它自己会找。

2.2 为什么它能“看懂”手机界面？

关键在于它用的不是普通大模型，而是专为手机场景训练的AutoGLM-Phone-9B。这个模型有两大特殊能力：

原生支持图文输入：它同时接收截图（图像）和你的指令（文本），在内部做跨模态对齐。比如你输入“点那个红色的‘立即购买’”，它会把“红色”“立即购买”这几个字，和截图里所有红色按钮的位置、文字匹配起来，精准定位。
内置手机操作知识：它学过上千个主流App的界面逻辑——知道淘宝的搜索框总在顶部、微信的聊天列表左滑可删除、抖音的点赞图标是爱心形状……这种“常识”，让它不用每次从零学习。

所以它不是在“猜”，而是在“理解”。

2.3 安全机制：它不会乱来

你可能会担心：“万一它误操作，把我的支付宝密码输进搜索框怎么办？”
Open-AutoGLM 内置了三层保险：

敏感操作拦截：检测到支付、转账、修改密码等关键词或界面特征（如密码输入框、人脸识别弹窗），自动暂停并提示“请人工接管”。
人工接管开关（Take_over）：你随时按回车键就能中断AI，手动操作几秒后，再按回车，它立刻接上后续步骤。
远程调试支持：所有ADB指令都走标准协议，你可以用adb logcat实时查看它每一步在干什么，完全透明。

它不是取代你，而是成为你手指的延伸。

3. 准备工作：三样东西，10分钟搞定

别被“AI”“多模态”吓住。部署Open-AutoGLM，本质上就是装一个工具、连一台手机、跑一条命令。下面所有步骤，我都按“小白视角”写清楚，连环境变量怎么配、USB调试在哪开，都标好了路径。

3.1 你需要准备什么？

项目	要求	说明
一台电脑	Windows / macOS / Linux	用来运行控制端，不需要高性能，MacBook Air M1就能跑
一部安卓手机	Android 7.0 及以上	华为、小米、OPPO、vivo、三星等主流品牌均可，模拟器也行
一根数据线（可选）	USB-C 或 Micro-USB	用于首次连接，之后可切WiFi无线控制

小贴士：如果你只有iPhone，目前暂不支持。Open-AutoGLM 专注安卓生态，因为ADB是安卓原生调试协议，iOS需要越狱或企业签名，成本太高。

3.2 第一步：装好ADB——让电脑“看见”手机

ADB（Android Debug Bridge）是谷歌官方提供的安卓调试工具，就像手机的“遥控器”。它不难装，但配置环境变量这一步，90%的新手会卡住。

Windows 用户：

去 Android平台工具官网下载platform-tools-latest-windows.zip
解压到一个简单路径，比如C:\adb（不要放在中文路径或桌面！）
按Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”里找到Path→ “编辑” → “新建” → 粘贴C:\adb
打开新命令提示符，输入adb version，如果显示版本号（如Android Debug Bridge version 1.0.41），就成功了。

macOS 用户：

下载platform-tools-latest-darwin.zip，解压到~/Downloads/platform-tools
打开终端，输入：

echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version

看到版本号，即配置成功。

常见坑：如果adb devices显示空白，先试adb kill-server && adb start-server；如果显示unauthorized，去手机通知栏点“允许USB调试”。

3.3 第二步：手机设置——开启“被遥控”权限

这是最关键的一步，漏掉任何一个开关，AI都动不了你的手机。

开启开发者模式：
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”
开启USB调试：
设置 → 系统与更新 → 开发者选项 → 打开“USB调试”
必须打开“USB调试（安全设置）”：
同一页面往下翻，找到“USB调试（安全设置）”或“USB安装”，务必打开它。这是很多教程遗漏的点，不开它，AI无法点击任何按钮。
安装ADB Keyboard（解决中文输入）：
- 下载 ADBKeyboard.apk
- 用数据线连手机，在电脑命令行输入：
```
adb install ADBKeyboard.apk
```
- 手机设置 → 语言和输入法 → 找到“ADB Keyboard”，启用它（不用设为默认，系统会自动调用）

做完这四步，你的手机就准备好被AI指挥了。

4. 部署控制端：三行命令，项目就绪

现在，你的电脑和手机已经“握手成功”，接下来只需把Open-AutoGLM的控制程序装到电脑上。全程命令行操作，我给你写好每一步。

4.1 克隆代码 & 创建虚拟环境

打开终端（Windows用CMD或PowerShell，macOS用Terminal），依次执行：

# 1. 克隆项目（这会下载所有代码和配置） git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建独立的Python环境（避免和其他项目冲突） python -m venv venv # 3. 激活环境（Windows） venv\Scripts\activate # 3. 激活环境（macOS/Linux） source venv/bin/activate

激活后，命令行开头会出现(venv)，表示你现在在一个干净的“沙盒”里。

4.2 安装依赖——一条命令，自动搞定

# 使用清华镜像源，国内下载飞快 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple pip install -e .

这一步会自动安装：ADB通信库、图像处理工具、HTTP客户端、以及调用大模型的SDK。全程无交互，喝口水的功夫就完成了。

4.3 验证连接——确认AI能“看见”你的手机

保持手机用数据线连着电脑，运行：

adb devices

如果输出类似：

List of devices attached ABC123456789 device

恭喜，你的手机已被成功识别。ABC123456789就是你的设备ID，后面要用到。

如果显示unauthorized，去手机通知栏点“允许”；如果空白，重插数据线或换USB口。

5. 两种使用方式：新手选云端，老手选本地

你不需要自己训练模型，Open-AutoGLM 支持两种“调用大脑”的方式：一种是直接用现成的云端API（推荐新手），一种是自己在本地跑模型（适合有显卡的玩家）。我们分别说。

5.1 方式一：用智谱AI云端API（零硬件要求，5分钟上手）

这是最适合第一次体验的方式。你不用买显卡、不用等下载18GB模型、不用调参数——注册个账号，复制API Key，就能跑。

操作步骤：

访问智谱AI开放平台，注册并登录
进入 API密钥管理页，点击“创建API Key”
复制生成的Key（形如sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx）

然后，在你刚才激活的venv环境中，运行：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "你的API密钥" \ "打开小红书，搜索‘深圳咖啡探店’"

看到手机屏幕亮起、App启动、搜索框弹出、文字自动输入、结果刷出来——你就成功了。

提示：新用户有免费额度，够你跑几十次任务。后续按token计费，一次简单操作约0.2元。

5.2 方式二：本地部署模型（响应更快，隐私更好）

如果你有RTX 3090/4090或A100这类显存≥24GB的显卡，可以本地跑模型。好处是：

响应更快（1-2秒 vs 云端3-5秒）
所有截图都在你本地，不上传服务器
可以离线使用（比如出差没网络时）

部署命令（Linux/macOS）：

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}"

Windows用户注意：

用PowerShell运行，把\换成`（反引号）
首次运行会自动从Hugging Face下载约18GB模型文件，请确保磁盘空间充足

启动成功后，访问http://localhost:8000/v1应该能看到健康检查页面。然后用这条命令测试：

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信，给文件传输助手发消息：AI操作成功！"

6. 实战操作：从一句话到完整任务

现在，你已经具备了让AI操作手机的所有条件。我们用几个真实场景，看看它怎么把“一句话指令”变成“一连串精准动作”。

6.1 场景一：电商购物——“搜商品→看详情→加购”

指令：

"打开淘宝，搜索‘罗技G502鼠标’，点击第一个商品，滑动到详情页，点击‘加入购物车’"

AI实际执行步骤：

截图识别淘宝首页 → 找到顶部搜索框 → 点击
输入“罗技G502鼠标” → 点击搜索按钮
截图识别商品列表 → 定位第一个商品卡片 → 点击进入
截图识别详情页 → 滑动到底部 → 找到“加入购物车”按钮 → 点击

整个过程约8-12秒，无需你干预。

6.2 场景二：内容浏览——“刷短视频→点赞→关注”

指令：

"打开抖音，刷新推荐页，对第3个视频点赞，对博主‘科技小队长’点击关注"

AI如何应对：

刷新动作：模拟上滑+释放，触发下拉刷新
点赞：识别视频右下角的爱心图标，点击
关注：先在视频下方找到博主昵称，再点击其头像进入主页，最后找“关注”按钮

它不是靠固定坐标，而是靠“认图标+读文字+判位置”。

6.3 场景三：多步协作——“查天气→订外卖→发消息同步”

你可以把复杂任务拆成多条指令，分步执行，更可控：

# 第一步：查深圳天气 python main.py "打开墨迹天气，搜索‘深圳’，截图当前天气" # 第二步：订外卖（假设已登录美团） python main.py "打开美团，搜索‘云海肴’，选择‘双人套餐’，点击‘去结算’" # 第三步：发消息同步进度 python main.py "打开微信，给‘张三’发消息：已帮你订好云海肴双人餐，预计30分钟送达"

每一步执行完，你会看到终端打印出详细日志：“已识别搜索框”、“已输入文字”、“已点击坐标(523, 876)”……完全透明。

7. 进阶技巧：让AI更听话、更稳定、更省心

用熟了你会发现，AI不是万能的，但掌握几个小技巧，能让成功率从70%提升到95%。

7.1 指令怎么写才最有效？

❌ 不好的写法：

“帮我弄点吃的”（太模糊，AI不知道是点外卖、查菜谱，还是打开冰箱）
“点一下那个”（没有指代，AI无法定位）

好的写法（记住三个原则）：

具体应用名：不说“社交App”，说“微信”或“小红书”
明确动作+对象：不说“看看”，说“打开”“搜索”“点击”“滑动”
限定范围：不说“第一个”，说“列表里的第一个商品”或“视频流中的第三个”

例子：

“打开高德地图，搜索‘北京南站’，点击路线规划，选择地铁，截图结果”
“打开网易云音乐，播放我的‘每日推荐’歌单，对当前播放歌曲点击收藏”

7.2 交互模式：像聊天一样连续下指令

不想每次输一长串命令？用交互模式：

python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的Key"

然后你会看到一个>提示符，像这样：

> 打开小红书 > 搜索‘露营装备’ > 点赞第一条笔记 > 返回首页 > 退出

每输一行，AI立刻执行，全程无需重复写参数。

7.3 故障自愈：当AI卡住时怎么办？

遇到页面加载慢、弹窗广告、网络延迟，AI可能停在某一步。这时：

按 Ctrl+C 中断当前任务
手动关闭弹窗或等待加载完成
再运行一次原指令，AI会从断点继续（它会记住上一步状态）

或者，直接用--device-id指定设备，避免多设备混淆。

8. 它能做什么？一张表看清能力边界

Open-AutoGLM 目前支持50+款主流App，覆盖日常90%场景。但它不是魔法，了解它的“能”与“不能”，才能用得安心。

能力类型	具体表现	实测成功率	注意事项
启动/切换App	“打开微信”“切换到淘宝”	100%	依赖App已安装
文字输入	搜索、发消息、填表单	95%	需提前安装ADB Keyboard
点击/长按/双击	点按钮、选菜单、点赞	90%	界面元素需清晰可见
滑动/拖拽	刷信息流、翻页、调节音量	85%	需足够滑动距离
返回/回到桌面	“返回上一页”“回到首页”	100%	ADB原生命令，极稳定
复杂支付	输入支付密码、人脸识别	0%	自动暂停，强制人工接管
安全敏感页	银行App、身份证上传页	0%	截图黑屏，自动跳过或接管

关键结论：它擅长“标准化操作”（搜索、点击、滑动），不擅长“非标决策”（比如“选一个看起来靠谱的商家”）。把AI当高效执行者，而不是全能决策者。

9. 总结：这不是未来，是此刻就能拥有的生产力

Open-AutoGLM 最打动我的地方，不是它有多酷炫，而是它把一件本该很麻烦的事，变得像呼吸一样自然。

它不需要你学编程，只要会说人话；
它不依赖特定机型，主流安卓手机即插即用；
它不绑架你的隐私，云端可选、本地可控；
它不制造焦虑，而是默默帮你省下每天十几分钟的机械操作。

也许明天，它会支持iOS；也许下周，它能自动处理验证码；但今天，它已经能稳稳地帮你：
打开小红书搜美食
在抖音给喜欢的博主一键关注
为家人定时推送新闻摘要
为测试工程师跑完一整套App回归用例

技术的价值，从来不在参数多高，而在是否真正降低了人与数字世界的摩擦。Open-AutoGLM 做到了。

现在，关掉这篇文章，拿起你的手机和电脑，照着上面的步骤，跑出你的第一条指令。当屏幕第一次为你自动点亮、App自动打开、文字自动输入——那一刻，你会相信：AI助理，真的来了。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

零基础也能懂！用Open-AutoGLM实现手机自动化操作