news 2026/4/3 12:29:54

Open-AutoGLM + 智谱API,低成本体验前沿Phone Agent

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM + 智谱API,低成本体验前沿Phone Agent

Open-AutoGLM + 智谱API,低成本体验前沿Phone Agent

1. 前言:当大模型真正“看见”并“触摸”手机屏幕

你有没有试过对语音助手说:“帮我打开小红书,搜‘南京美食攻略’,把前三条收藏到备忘录”?结果它只回你一句“正在为您搜索南京”——然后戛然而止。不是它不想做,是它根本“看不见”你的屏幕,也“摸不到”你的App。

Open-AutoGLM 改变了这一点。它不是一个语音指令转发器,而是一个能真正理解手机界面、自主规划操作路径、并通过 ADB 精准点击滑动的 AI 手机助理。更关键的是,它不需要你有一台带显卡的服务器,也不需要你部署几十GB的大模型——只需一台普通电脑、一部安卓手机,再配上智谱 BigModel 的 API,就能跑起来。

这不是概念演示,而是可立即上手的真实能力:截图→分析→决策→执行→反馈,闭环完整。本文将带你从零开始,用最轻量的方式,亲手让 AI 替你操作手机。

2. 核心原理:三步闭环,让AI拥有“眼”和“手”

2.1 视觉感知:像人一样看懂界面

每次执行任务前,Open-AutoGLM 会通过 ADB 自动截取当前手机屏幕(adb shell screencap -p /sdcard/screen.png),并将图片与用户指令一起打包发送给后端模型。这里的关键不是“传图”,而是模型必须理解 UI 元素的语义与空间关系——比如识别出“搜索框”在右上角、“小红书图标”在第一行第三列、“关注按钮”是红色且处于底部悬浮层。

智谱的autoglm-phone模型正是为此优化的视觉语言模型(VLM),它在大量手机界面数据上微调,能准确输出结构化动作指令,例如:

{ "action": "click", "target": "text", "value": "搜索" }

2.2 智能规划:把自然语言翻译成操作序列

用户说“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他”,这句话背后隐藏着至少5个原子动作:
① 启动抖音 App → ② 定位顶部搜索栏 → ③ 输入指定ID → ④ 点击搜索结果 → ⑤ 找到“关注”按钮并点击

Open-AutoGLM 不依赖预设脚本,而是让模型基于当前截图动态推理下一步。它会生成类似这样的思维链(Chain-of-Thought):

当前界面是抖音首页,顶部有搜索图标。我需要先点击它进入搜索页;进入后,输入框已聚焦,直接输入“dycwo11nt61d”;搜索结果页加载完成,第一个头像旁有“关注”文字按钮,坐标(x=820, y=340),执行点击。

这种能力源于 AutoGLM 架构对多步任务分解的强泛化性,而非硬编码规则。

2.3 自动执行:ADB 是它的“机械臂”

所有动作最终都落地为 ADB 命令:

  • 点击:adb shell input tap 820 340
  • 滑动:adb shell input swipe 500 1500 500 800
  • 输入文字:adb shell am broadcast -a ADB_INPUT_TEXT --es msg "dycwo11nt61d"

特别地,它集成了 ADB Keyboard ——一个专为自动化设计的输入法,绕过系统键盘权限限制,确保文字输入稳定可靠。整个过程无需人工干预,仅在敏感操作(如支付、删除)时暂停并提示确认。

3. 零门槛部署:Windows/macOS + 安卓手机 + 智谱API

3.1 硬件与环境准备

你不需要GPU,甚至不需要Linux服务器。以下是最简配置:

组件要求说明
电脑Windows 10+/macOS 12+用于运行控制端代码
手机Android 7.0+(真机优先)推荐 vivo S20、小米13、华为Mate 50等主流机型;模拟器兼容性较差
Python3.10+(建议conda虚拟环境)避免包冲突,命令:conda create -n autoglm python=3.10
ADB 工具platform-tools 最新版官方下载地址

注意:USB线务必选用数据传输线(非仅充电线)。很多用户失败源于此——插上电脑后adb devices无响应,换一根线常立即解决。

3.2 手机端设置:三步开启“被操控权”

  1. 启用开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次,直到弹出“您现在处于开发者模式”。

  2. 开启USB调试
    设置 → 系统与更新 → 开发者选项 → 启用“USB调试”。部分品牌(如OPPO、vivo)还需同时开启“USB调试(安全设置)”。

  3. 安装并启用 ADB Keyboard
    下载 ADBKeyboard.apk
    命令行安装:

    adb install -r ADBKeyboard.apk

    手机设置 → 语言与输入法 → 当前输入法 → 切换为ADB Keyboard

验证:连接手机后运行adb devices,若显示xxxxxx device(非offlineunauthorized),即配置成功。

3.3 获取智谱API:免费额度足够实测

  1. 访问 智谱AI官网 注册账号
  2. 进入「API Key 管理」页面,点击「创建新密钥」
  3. 复制生成的 API Key(形如sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

新用户默认赠送100万tokens免费额度。按单次任务平均消耗 8000 tokens 计算,可支持超100次完整操作(如“搜美食→点进详情→收藏”全流程),完全覆盖学习与验证需求。

4. 快速启动:一条命令,让AI开始工作

4.1 克隆与安装控制端

在终端中执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

提示:若遇到UnicodeDecodeError: 'gbk' codec can't decode...(Windows常见),请编辑scripts/check_deployment_cn.py,在open()函数中添加encoding='utf-8'参数:

with open(args.messages_file, encoding='utf-8') as f: messages = json.load(f)

4.2 直接运行:API模式一键启动

无需本地部署模型,直接调用智谱云端服务:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \ "打开美团搜索附近的火锅店"

参数说明:

  • --base-url:智谱标准API地址,固定不变
  • --model:必须填"autoglm-phone"(注意不是autoglm-phone-9b,后者为本地部署专用)
  • --apikey:你复制的密钥,必须用双引号包裹
  • 最后字符串:你的自然语言指令,支持中文,越具体越好(如“在小红书搜‘露营装备推荐’,点开点赞数最高的笔记,截图保存到相册”)

4.3 进入交互模式:像聊天一样指挥AI

想反复测试不同指令?去掉最后的任务描述,进入持续对话:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

终端将显示:

Enter your task:

此时输入任意指令,如:
打开知乎,搜索“大模型手机Agent原理”,把前两篇摘要发给我
AI将自动执行,并返回结构化结果。

5. 实测案例:南京旅游攻略全自动获取

我们以真实任务验证效果:
指令打开小红书搜索“南京两天一夜旅游攻略”,找到点赞最高的笔记,提取完整行程、美食和住宿推荐

5.1 执行过程可视化

整个流程耗时约 42 秒(网络延迟为主因),共经历 7 次截图-分析-执行循环:

  1. 截图识别小红书图标 → 点击启动
  2. 识别首页搜索框 → 点击进入
  3. 输入“南京两天一夜旅游攻略” → 点击搜索
  4. 识别搜索结果列表 → 滑动至第一条(点赞数最高)
  5. 点击进入笔记详情页
  6. 识别正文区域 → 截图并解析文本结构
  7. 整理信息,生成格式化回复

5.2 输出结果质量分析

AI返回的攻略不仅包含景点罗列,还具备真实旅行者的逻辑:

  • 区分 Day1/Day2 动线,考虑地理位置邻近性(如“南京博物馆→中山陵→音乐台”顺路)
  • 美食推荐标注具体门店与特色(“李百蟹蟹黄面:四种浇头都很香”)
  • 住宿建议结合交通便利性(“玄武湖附近:地铁线路交汇处”)
  • 补充体验细节(“梧桐大道:欣赏秋天的梧桐树美景”、“先锋书店:打卡网红书店”)

对比人工整理:传统方式需手动翻阅10+篇笔记、复制粘贴、排版整理,耗时15分钟以上;Open-AutoGLM 在42秒内完成同等质量输出,且无遗漏关键信息。

6. 进阶技巧:提升成功率与实用性

6.1 指令编写心法:给AI清晰的“任务说明书”

避免模糊表述,采用“动词+对象+约束条件”结构:

❌ 低效指令高效指令原因
“帮我找美食”“打开大众点评,搜索‘上海静安区人均200元以内本帮菜’,列出评分4.5以上前三家,含地址和招牌菜”明确App、关键词、筛选条件、输出格式
“看看天气”“打开墨迹天气App,查询北京未来三天最高温和降水概率,用表格返回”指定App、数据维度、呈现形式
“订机票”“打开航旅纵横,搜索今日北京飞上海的航班,按起飞时间排序,返回最早一班的航班号、价格和余票数”防止AI误入购票流程(需人工确认)

6.2 敏感操作接管:安全与可控的平衡

系统默认对以下操作暂停并等待人工确认:

  • 应用内支付(检测到“付款”、“确认支付”按钮)
  • 删除联系人/短信/应用(检测到“删除”、“卸载”文案)
  • 修改系统设置(如“开启定位”、“关闭WIFI”)

此时终端会提示:

检测到高风险操作:点击【确认支付】按钮 请输入 y 继续,或 n 取消,或 s 跳过此步 →

你只需输入yn,AI 即继续或跳过,全程掌握主动权。

6.3 远程WiFi控制:摆脱USB线束缚

当需长期运行或手机不便插线时,启用WiFi调试:

# 1. 首次用USB连接,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,连接同一WiFi,获取手机IP(设置→关于手机→状态信息) # 3. 连接WiFi设备 adb connect 192.168.1.100:5555 # 4. 在main.py中使用 --device-id 参数 python main.py \ --device-id 192.168.1.100:5555 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-..." \ "打开B站,搜索‘AutoGLM教程’,播放第一个视频"

实测WiFi下延迟增加约 0.8 秒/步,但稳定性良好,适合办公室或家庭场景。

7. 总结:这不是玩具,而是生产力新范式

Open-AutoGLM + 智谱API 的组合,首次让 Phone Agent 技术走出实验室,走进普通开发者的日常工具箱。它不追求“全自动化”,而强调“人在环路”的智能协作——AI处理重复性界面操作,人类专注高价值判断。

你获得的不仅是“手机遥控器”,更是:

  • 跨App工作流引擎:串联微信、小红书、美团等孤立生态
  • 无障碍交互入口:为视障用户自动朗读界面、执行复杂操作
  • 自动化测试基座:替代Appium脚本,用自然语言描述测试用例
  • 个性化数字分身:设定“每天早8点查天气+通勤路况+推送摘要”

成本几乎为零,门槛前所未有之低。现在,你只需要:
① 打开终端
② 复制那条python main.py ...命令
③ 输入第一句指令

然后,看着你的手机,被AI稳稳地、准确地、一步步地,执行你的想法。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 12:24:44

DeepSeek-R1-Distill-Qwen-1.5B快速部署:Kubernetes集群集成指南

DeepSeek-R1-Distill-Qwen-1.5B快速部署:Kubernetes集群集成指南 1. 为什么选这个模型?轻量但不妥协的推理能力 你有没有遇到过这样的问题:想在生产环境跑一个能写代码、解数学题、做逻辑推演的模型,但又不想动不动就上8卡A100&…

作者头像 李华
网站建设 2026/4/2 8:56:04

Qwen3-Embedding-4B性能回归:版本升级测试流程

Qwen3-Embedding-4B性能回归:版本升级测试流程 在AI工程落地过程中,模型升级不是“换一个权重文件”就完事的简单操作。尤其对嵌入(embedding)这类基础服务而言,一次看似微小的版本更新,可能悄然改变向量空…

作者头像 李华
网站建设 2026/3/27 19:28:44

Qwen3-Embedding-4B GPU利用率低?内核优化部署案例

Qwen3-Embedding-4B GPU利用率低?内核优化部署案例 1. Qwen3-Embedding-4B:不只是又一个嵌入模型 很多人第一次看到“Qwen3-Embedding-4B”这个名字,下意识会想:不就是个40亿参数的文本向量化模型吗?跑起来慢点、显存…

作者头像 李华
网站建设 2026/3/31 2:06:17

Qwen3-4B-Instruct镜像亮点解析:一键部署支持256K上下文实战

Qwen3-4B-Instruct镜像亮点解析:一键部署支持256K上下文实战 1. 这不是又一个“小模型”,而是能真正干活的轻量级主力 你有没有遇到过这样的情况:想在本地跑个靠谱的大模型,但发现7B模型动不动就要两张卡,推理还卡顿…

作者头像 李华
网站建设 2026/4/3 12:19:40

NewBie-image-Exp0.1支持哪些提示词?general_tags使用教程

NewBie-image-Exp0.1支持哪些提示词?general_tags使用教程 你是不是刚接触动漫图像生成,面对一堆标签不知从哪下手?或者试过几个模型,总感觉角色细节模糊、风格不统一、多人物时容易“串场”?NewBie-image-Exp0.1 就是…

作者头像 李华
网站建设 2026/3/28 9:58:44

为什么选择DeepSeek-R1-Distill-Qwen-1.5B?蒸馏模型优势深度解析

为什么选择DeepSeek-R1-Distill-Qwen-1.5B?蒸馏模型优势深度解析 你有没有遇到过这样的情况:想在本地跑一个推理强、响应快、还能写代码解数学题的大模型,但一看到7B、14B甚至更大的参数量就犯怵——显存不够、加载太慢、部署复杂&#xff0…

作者头像 李华