Open-AutoGLM + 智谱API，低成本体验前沿Phone Agent-开发者社区

Open-AutoGLM + 智谱API，低成本体验前沿Phone Agent

1. 前言：当大模型真正“看见”并“触摸”手机屏幕

你有没有试过对语音助手说：“帮我打开小红书，搜‘南京美食攻略’，把前三条收藏到备忘录”？结果它只回你一句“正在为您搜索南京”——然后戛然而止。不是它不想做，是它根本“看不见”你的屏幕，也“摸不到”你的App。

Open-AutoGLM 改变了这一点。它不是一个语音指令转发器，而是一个能真正理解手机界面、自主规划操作路径、并通过 ADB 精准点击滑动的 AI 手机助理。更关键的是，它不需要你有一台带显卡的服务器，也不需要你部署几十GB的大模型——只需一台普通电脑、一部安卓手机，再配上智谱 BigModel 的 API，就能跑起来。

这不是概念演示，而是可立即上手的真实能力：截图→分析→决策→执行→反馈，闭环完整。本文将带你从零开始，用最轻量的方式，亲手让 AI 替你操作手机。

2. 核心原理：三步闭环，让AI拥有“眼”和“手”

2.1 视觉感知：像人一样看懂界面

每次执行任务前，Open-AutoGLM 会通过 ADB 自动截取当前手机屏幕（adb shell screencap -p /sdcard/screen.png），并将图片与用户指令一起打包发送给后端模型。这里的关键不是“传图”，而是模型必须理解 UI 元素的语义与空间关系——比如识别出“搜索框”在右上角、“小红书图标”在第一行第三列、“关注按钮”是红色且处于底部悬浮层。

智谱的autoglm-phone模型正是为此优化的视觉语言模型（VLM），它在大量手机界面数据上微调，能准确输出结构化动作指令，例如：

{ "action": "click", "target": "text", "value": "搜索" }

2.2 智能规划：把自然语言翻译成操作序列

用户说“打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他”，这句话背后隐藏着至少5个原子动作：
① 启动抖音 App → ② 定位顶部搜索栏 → ③ 输入指定ID → ④ 点击搜索结果 → ⑤ 找到“关注”按钮并点击

Open-AutoGLM 不依赖预设脚本，而是让模型基于当前截图动态推理下一步。它会生成类似这样的思维链（Chain-of-Thought）：

当前界面是抖音首页，顶部有搜索图标。我需要先点击它进入搜索页；进入后，输入框已聚焦，直接输入“dycwo11nt61d”；搜索结果页加载完成，第一个头像旁有“关注”文字按钮，坐标(x=820, y=340)，执行点击。

这种能力源于 AutoGLM 架构对多步任务分解的强泛化性，而非硬编码规则。

2.3 自动执行：ADB 是它的“机械臂”

所有动作最终都落地为 ADB 命令：

点击：adb shell input tap 820 340
滑动：adb shell input swipe 500 1500 500 800
输入文字：adb shell am broadcast -a ADB_INPUT_TEXT --es msg "dycwo11nt61d"

特别地，它集成了 ADB Keyboard ——一个专为自动化设计的输入法，绕过系统键盘权限限制，确保文字输入稳定可靠。整个过程无需人工干预，仅在敏感操作（如支付、删除）时暂停并提示确认。

3. 零门槛部署：Windows/macOS + 安卓手机 + 智谱API

3.1 硬件与环境准备

你不需要GPU，甚至不需要Linux服务器。以下是最简配置：

组件	要求	说明
电脑	Windows 10+/macOS 12+	用于运行控制端代码
手机	Android 7.0+（真机优先）	推荐 vivo S20、小米13、华为Mate 50等主流机型；模拟器兼容性较差
Python	3.10+（建议conda虚拟环境）	避免包冲突，命令：`conda create -n autoglm python=3.10`
ADB 工具	platform-tools 最新版	官方下载地址

注意：USB线务必选用数据传输线（非仅充电线）。很多用户失败源于此——插上电脑后adb devices无响应，换一根线常立即解决。

3.2 手机端设置：三步开启“被操控权”

启用开发者模式
设置 → 关于手机 → 连续点击“版本号”7次，直到弹出“您现在处于开发者模式”。
开启USB调试
设置 → 系统与更新 → 开发者选项 → 启用“USB调试”。部分品牌（如OPPO、vivo）还需同时开启“USB调试（安全设置）”。
安装并启用 ADB Keyboard
下载 ADBKeyboard.apk
命令行安装：
```
adb install -r ADBKeyboard.apk
```
手机设置 → 语言与输入法 → 当前输入法 → 切换为ADB Keyboard

验证：连接手机后运行adb devices，若显示xxxxxx device（非offline或unauthorized），即配置成功。

3.3 获取智谱API：免费额度足够实测

访问智谱AI官网注册账号
进入「API Key 管理」页面，点击「创建新密钥」
复制生成的 API Key（形如sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx）

新用户默认赠送100万tokens免费额度。按单次任务平均消耗 8000 tokens 计算，可支持超100次完整操作（如“搜美食→点进详情→收藏”全流程），完全覆盖学习与验证需求。

4. 快速启动：一条命令，让AI开始工作

4.1 克隆与安装控制端

在终端中执行：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

提示：若遇到UnicodeDecodeError: 'gbk' codec can't decode...（Windows常见），请编辑scripts/check_deployment_cn.py，在open()函数中添加encoding='utf-8'参数：
with open(args.messages_file, encoding='utf-8') as f: messages = json.load(f)

4.2 直接运行：API模式一键启动

无需本地部署模型，直接调用智谱云端服务：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \ "打开美团搜索附近的火锅店"

参数说明：

--base-url：智谱标准API地址，固定不变
--model：必须填"autoglm-phone"（注意不是autoglm-phone-9b，后者为本地部署专用）
--apikey：你复制的密钥，必须用双引号包裹
最后字符串：你的自然语言指令，支持中文，越具体越好（如“在小红书搜‘露营装备推荐’，点开点赞数最高的笔记，截图保存到相册”）

4.3 进入交互模式：像聊天一样指挥AI

想反复测试不同指令？去掉最后的任务描述，进入持续对话：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

终端将显示：

Enter your task:

此时输入任意指令，如：
打开知乎，搜索“大模型手机Agent原理”，把前两篇摘要发给我
AI将自动执行，并返回结构化结果。

5. 实测案例：南京旅游攻略全自动获取

我们以真实任务验证效果：
指令：打开小红书搜索“南京两天一夜旅游攻略”，找到点赞最高的笔记，提取完整行程、美食和住宿推荐

5.1 执行过程可视化

整个流程耗时约 42 秒（网络延迟为主因），共经历 7 次截图-分析-执行循环：

截图识别小红书图标 → 点击启动
识别首页搜索框 → 点击进入
输入“南京两天一夜旅游攻略” → 点击搜索
识别搜索结果列表 → 滑动至第一条（点赞数最高）
点击进入笔记详情页
识别正文区域 → 截图并解析文本结构
整理信息，生成格式化回复

5.2 输出结果质量分析

AI返回的攻略不仅包含景点罗列，还具备真实旅行者的逻辑：

区分 Day1/Day2 动线，考虑地理位置邻近性（如“南京博物馆→中山陵→音乐台”顺路）
美食推荐标注具体门店与特色（“李百蟹蟹黄面：四种浇头都很香”）
住宿建议结合交通便利性（“玄武湖附近：地铁线路交汇处”）
补充体验细节（“梧桐大道：欣赏秋天的梧桐树美景”、“先锋书店：打卡网红书店”）

对比人工整理：传统方式需手动翻阅10+篇笔记、复制粘贴、排版整理，耗时15分钟以上；Open-AutoGLM 在42秒内完成同等质量输出，且无遗漏关键信息。

6. 进阶技巧：提升成功率与实用性

6.1 指令编写心法：给AI清晰的“任务说明书”

避免模糊表述，采用“动词+对象+约束条件”结构：

❌ 低效指令	高效指令	原因
“帮我找美食”	“打开大众点评，搜索‘上海静安区人均200元以内本帮菜’，列出评分4.5以上前三家，含地址和招牌菜”	明确App、关键词、筛选条件、输出格式
“看看天气”	“打开墨迹天气App，查询北京未来三天最高温和降水概率，用表格返回”	指定App、数据维度、呈现形式
“订机票”	“打开航旅纵横，搜索今日北京飞上海的航班，按起飞时间排序，返回最早一班的航班号、价格和余票数”	防止AI误入购票流程（需人工确认）

6.2 敏感操作接管：安全与可控的平衡

系统默认对以下操作暂停并等待人工确认：

应用内支付（检测到“付款”、“确认支付”按钮）
删除联系人/短信/应用（检测到“删除”、“卸载”文案）
修改系统设置（如“开启定位”、“关闭WIFI”）

此时终端会提示：

检测到高风险操作：点击【确认支付】按钮 请输入 y 继续，或 n 取消，或 s 跳过此步 →

你只需输入y或n，AI 即继续或跳过，全程掌握主动权。

6.3 远程WiFi控制：摆脱USB线束缚

当需长期运行或手机不便插线时，启用WiFi调试：

# 1. 首次用USB连接，开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB，连接同一WiFi，获取手机IP（设置→关于手机→状态信息） # 3. 连接WiFi设备 adb connect 192.168.1.100:5555 # 4. 在main.py中使用 --device-id 参数 python main.py \ --device-id 192.168.1.100:5555 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-..." \ "打开B站，搜索‘AutoGLM教程’，播放第一个视频"

实测WiFi下延迟增加约 0.8 秒/步，但稳定性良好，适合办公室或家庭场景。

7. 总结：这不是玩具，而是生产力新范式

Open-AutoGLM + 智谱API 的组合，首次让 Phone Agent 技术走出实验室，走进普通开发者的日常工具箱。它不追求“全自动化”，而强调“人在环路”的智能协作——AI处理重复性界面操作，人类专注高价值判断。

你获得的不仅是“手机遥控器”，更是：

跨App工作流引擎：串联微信、小红书、美团等孤立生态
无障碍交互入口：为视障用户自动朗读界面、执行复杂操作
自动化测试基座：替代Appium脚本，用自然语言描述测试用例
个性化数字分身：设定“每天早8点查天气+通勤路况+推送摘要”

成本几乎为零，门槛前所未有之低。现在，你只需要：
① 打开终端
② 复制那条python main.py ...命令
③ 输入第一句指令

然后，看着你的手机，被AI稳稳地、准确地、一步步地，执行你的想法。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Open-AutoGLM + 智谱API，低成本体验前沿Phone Agent