Open-AutoGLM + 智谱API,低成本体验前沿Phone Agent
1. 前言:当大模型真正“看见”并“触摸”手机屏幕
你有没有试过对语音助手说:“帮我打开小红书,搜‘南京美食攻略’,把前三条收藏到备忘录”?结果它只回你一句“正在为您搜索南京”——然后戛然而止。不是它不想做,是它根本“看不见”你的屏幕,也“摸不到”你的App。
Open-AutoGLM 改变了这一点。它不是一个语音指令转发器,而是一个能真正理解手机界面、自主规划操作路径、并通过 ADB 精准点击滑动的 AI 手机助理。更关键的是,它不需要你有一台带显卡的服务器,也不需要你部署几十GB的大模型——只需一台普通电脑、一部安卓手机,再配上智谱 BigModel 的 API,就能跑起来。
这不是概念演示,而是可立即上手的真实能力:截图→分析→决策→执行→反馈,闭环完整。本文将带你从零开始,用最轻量的方式,亲手让 AI 替你操作手机。
2. 核心原理:三步闭环,让AI拥有“眼”和“手”
2.1 视觉感知:像人一样看懂界面
每次执行任务前,Open-AutoGLM 会通过 ADB 自动截取当前手机屏幕(adb shell screencap -p /sdcard/screen.png),并将图片与用户指令一起打包发送给后端模型。这里的关键不是“传图”,而是模型必须理解 UI 元素的语义与空间关系——比如识别出“搜索框”在右上角、“小红书图标”在第一行第三列、“关注按钮”是红色且处于底部悬浮层。
智谱的autoglm-phone模型正是为此优化的视觉语言模型(VLM),它在大量手机界面数据上微调,能准确输出结构化动作指令,例如:
{ "action": "click", "target": "text", "value": "搜索" }2.2 智能规划:把自然语言翻译成操作序列
用户说“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他”,这句话背后隐藏着至少5个原子动作:
① 启动抖音 App → ② 定位顶部搜索栏 → ③ 输入指定ID → ④ 点击搜索结果 → ⑤ 找到“关注”按钮并点击
Open-AutoGLM 不依赖预设脚本,而是让模型基于当前截图动态推理下一步。它会生成类似这样的思维链(Chain-of-Thought):
当前界面是抖音首页,顶部有搜索图标。我需要先点击它进入搜索页;进入后,输入框已聚焦,直接输入“dycwo11nt61d”;搜索结果页加载完成,第一个头像旁有“关注”文字按钮,坐标(x=820, y=340),执行点击。
这种能力源于 AutoGLM 架构对多步任务分解的强泛化性,而非硬编码规则。
2.3 自动执行:ADB 是它的“机械臂”
所有动作最终都落地为 ADB 命令:
- 点击:
adb shell input tap 820 340 - 滑动:
adb shell input swipe 500 1500 500 800 - 输入文字:
adb shell am broadcast -a ADB_INPUT_TEXT --es msg "dycwo11nt61d"
特别地,它集成了 ADB Keyboard ——一个专为自动化设计的输入法,绕过系统键盘权限限制,确保文字输入稳定可靠。整个过程无需人工干预,仅在敏感操作(如支付、删除)时暂停并提示确认。
3. 零门槛部署:Windows/macOS + 安卓手机 + 智谱API
3.1 硬件与环境准备
你不需要GPU,甚至不需要Linux服务器。以下是最简配置:
| 组件 | 要求 | 说明 |
|---|---|---|
| 电脑 | Windows 10+/macOS 12+ | 用于运行控制端代码 |
| 手机 | Android 7.0+(真机优先) | 推荐 vivo S20、小米13、华为Mate 50等主流机型;模拟器兼容性较差 |
| Python | 3.10+(建议conda虚拟环境) | 避免包冲突,命令:conda create -n autoglm python=3.10 |
| ADB 工具 | platform-tools 最新版 | 官方下载地址 |
注意:USB线务必选用数据传输线(非仅充电线)。很多用户失败源于此——插上电脑后
adb devices无响应,换一根线常立即解决。
3.2 手机端设置:三步开启“被操控权”
启用开发者模式
设置 → 关于手机 → 连续点击“版本号”7次,直到弹出“您现在处于开发者模式”。开启USB调试
设置 → 系统与更新 → 开发者选项 → 启用“USB调试”。部分品牌(如OPPO、vivo)还需同时开启“USB调试(安全设置)”。安装并启用 ADB Keyboard
下载 ADBKeyboard.apk
命令行安装:adb install -r ADBKeyboard.apk手机设置 → 语言与输入法 → 当前输入法 → 切换为ADB Keyboard
验证:连接手机后运行
adb devices,若显示xxxxxx device(非offline或unauthorized),即配置成功。
3.3 获取智谱API:免费额度足够实测
- 访问 智谱AI官网 注册账号
- 进入「API Key 管理」页面,点击「创建新密钥」
- 复制生成的 API Key(形如
sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx)
新用户默认赠送100万tokens免费额度。按单次任务平均消耗 8000 tokens 计算,可支持超100次完整操作(如“搜美食→点进详情→收藏”全流程),完全覆盖学习与验证需求。
4. 快速启动:一条命令,让AI开始工作
4.1 克隆与安装控制端
在终端中执行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .提示:若遇到
UnicodeDecodeError: 'gbk' codec can't decode...(Windows常见),请编辑scripts/check_deployment_cn.py,在open()函数中添加encoding='utf-8'参数:with open(args.messages_file, encoding='utf-8') as f: messages = json.load(f)
4.2 直接运行:API模式一键启动
无需本地部署模型,直接调用智谱云端服务:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \ "打开美团搜索附近的火锅店"参数说明:
--base-url:智谱标准API地址,固定不变--model:必须填"autoglm-phone"(注意不是autoglm-phone-9b,后者为本地部署专用)--apikey:你复制的密钥,必须用双引号包裹- 最后字符串:你的自然语言指令,支持中文,越具体越好(如“在小红书搜‘露营装备推荐’,点开点赞数最高的笔记,截图保存到相册”)
4.3 进入交互模式:像聊天一样指挥AI
想反复测试不同指令?去掉最后的任务描述,进入持续对话:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"终端将显示:
Enter your task:此时输入任意指令,如:打开知乎,搜索“大模型手机Agent原理”,把前两篇摘要发给我
AI将自动执行,并返回结构化结果。
5. 实测案例:南京旅游攻略全自动获取
我们以真实任务验证效果:
指令:打开小红书搜索“南京两天一夜旅游攻略”,找到点赞最高的笔记,提取完整行程、美食和住宿推荐
5.1 执行过程可视化
整个流程耗时约 42 秒(网络延迟为主因),共经历 7 次截图-分析-执行循环:
- 截图识别小红书图标 → 点击启动
- 识别首页搜索框 → 点击进入
- 输入“南京两天一夜旅游攻略” → 点击搜索
- 识别搜索结果列表 → 滑动至第一条(点赞数最高)
- 点击进入笔记详情页
- 识别正文区域 → 截图并解析文本结构
- 整理信息,生成格式化回复
5.2 输出结果质量分析
AI返回的攻略不仅包含景点罗列,还具备真实旅行者的逻辑:
- 区分 Day1/Day2 动线,考虑地理位置邻近性(如“南京博物馆→中山陵→音乐台”顺路)
- 美食推荐标注具体门店与特色(“李百蟹蟹黄面:四种浇头都很香”)
- 住宿建议结合交通便利性(“玄武湖附近:地铁线路交汇处”)
- 补充体验细节(“梧桐大道:欣赏秋天的梧桐树美景”、“先锋书店:打卡网红书店”)
对比人工整理:传统方式需手动翻阅10+篇笔记、复制粘贴、排版整理,耗时15分钟以上;Open-AutoGLM 在42秒内完成同等质量输出,且无遗漏关键信息。
6. 进阶技巧:提升成功率与实用性
6.1 指令编写心法:给AI清晰的“任务说明书”
避免模糊表述,采用“动词+对象+约束条件”结构:
| ❌ 低效指令 | 高效指令 | 原因 |
|---|---|---|
| “帮我找美食” | “打开大众点评,搜索‘上海静安区人均200元以内本帮菜’,列出评分4.5以上前三家,含地址和招牌菜” | 明确App、关键词、筛选条件、输出格式 |
| “看看天气” | “打开墨迹天气App,查询北京未来三天最高温和降水概率,用表格返回” | 指定App、数据维度、呈现形式 |
| “订机票” | “打开航旅纵横,搜索今日北京飞上海的航班,按起飞时间排序,返回最早一班的航班号、价格和余票数” | 防止AI误入购票流程(需人工确认) |
6.2 敏感操作接管:安全与可控的平衡
系统默认对以下操作暂停并等待人工确认:
- 应用内支付(检测到“付款”、“确认支付”按钮)
- 删除联系人/短信/应用(检测到“删除”、“卸载”文案)
- 修改系统设置(如“开启定位”、“关闭WIFI”)
此时终端会提示:
检测到高风险操作:点击【确认支付】按钮 请输入 y 继续,或 n 取消,或 s 跳过此步 →你只需输入y或n,AI 即继续或跳过,全程掌握主动权。
6.3 远程WiFi控制:摆脱USB线束缚
当需长期运行或手机不便插线时,启用WiFi调试:
# 1. 首次用USB连接,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,连接同一WiFi,获取手机IP(设置→关于手机→状态信息) # 3. 连接WiFi设备 adb connect 192.168.1.100:5555 # 4. 在main.py中使用 --device-id 参数 python main.py \ --device-id 192.168.1.100:5555 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-..." \ "打开B站,搜索‘AutoGLM教程’,播放第一个视频"实测WiFi下延迟增加约 0.8 秒/步,但稳定性良好,适合办公室或家庭场景。
7. 总结:这不是玩具,而是生产力新范式
Open-AutoGLM + 智谱API 的组合,首次让 Phone Agent 技术走出实验室,走进普通开发者的日常工具箱。它不追求“全自动化”,而强调“人在环路”的智能协作——AI处理重复性界面操作,人类专注高价值判断。
你获得的不仅是“手机遥控器”,更是:
- 跨App工作流引擎:串联微信、小红书、美团等孤立生态
- 无障碍交互入口:为视障用户自动朗读界面、执行复杂操作
- 自动化测试基座:替代Appium脚本,用自然语言描述测试用例
- 个性化数字分身:设定“每天早8点查天气+通勤路况+推送摘要”
成本几乎为零,门槛前所未有之低。现在,你只需要:
① 打开终端
② 复制那条python main.py ...命令
③ 输入第一句指令
然后,看着你的手机,被AI稳稳地、准确地、一步步地,执行你的想法。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。