news 2026/4/17 12:14:39

Open-AutoGLM一键部署教程:开发者入门必看的AI Agent方案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM一键部署教程:开发者入门必看的AI Agent方案

Open-AutoGLM一键部署教程:开发者入门必看的AI Agent方案

Open-AutoGLM – 智谱开源的手机端AI Agent框架

AutoGLM-Phone 是一个基于视觉语言模型的 AI 手机智能助理框架。它能以多模态方式理解屏幕内容,并通过 ADB 自动操控设备。用户只需用自然语言下指令,如“打开小红书搜美食”,模型即可解析意图、理解界面并自动规划、执行操作流程,无需手动点击。

Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求,如“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。

1. 快速上手:从零开始搭建你的手机AI助手

如果你是一个开发者,想让AI帮你自动操作手机完成日常任务,比如刷短视频、查信息、批量关注账号,那这篇文章就是为你准备的。我们今天要讲的是Open-AutoGLM——由智谱开源的一套完整AI手机代理解决方案。

它的核心思路是:你说话,AI看屏,自动点手机。不需要你写复杂的脚本,也不需要反复手动操作。只要一句话,比如“打开抖音,搜索某个博主并关注”,系统就能自己完成整个流程。

整个系统分为两部分:

  • 云端模型服务:运行视觉语言模型(VLM),负责“看懂”手机屏幕和理解你的指令。
  • 本地控制端(Open-AutoGLM):运行在你电脑上,通过ADB连接手机,接收AI指令并执行点击、滑动等操作。

本文重点教你如何快速部署本地控制端,并连接已部署好的云服务,实现一键自动化。


2. 环境准备:配置你的开发环境

要让 Open-AutoGLM 正常工作,你需要准备好以下几样东西:

2.1 硬件与系统要求

  • 操作系统:Windows 或 macOS(Linux也可但需自行适配)
  • Python版本:建议使用 Python 3.10 或更高版本
  • 安卓设备:Android 7.0 及以上系统的真机或模拟器
  • ADB工具:Android调试桥,用于电脑与手机通信

为什么必须用ADB?
因为目前还没有其他方式能在不root的情况下精确控制手机的点击、滑动、截图等行为。ADB是官方支持的标准调试协议,稳定且兼容性好。

2.2 安装并配置 ADB

Windows 用户
  1. 前往 Android SDK Platform Tools 下载最新版。
  2. 解压到任意目录,例如C:\platform-tools
  3. 设置环境变量:
    • Win + R输入sysdm.cpl→ 高级 → 环境变量
    • 在“系统变量”中找到Path,点击编辑 → 新增 → 添加解压路径
  4. 打开命令行输入:
    adb version
    如果显示版本号,则说明安装成功。
macOS 用户

打开终端,执行以下命令(假设你把 platform-tools 放在 Downloads 文件夹):

export PATH=${PATH}:~/Downloads/platform-tools

你可以将这行加入.zshrc.bash_profile实现永久生效:

echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

验证是否成功:

adb version

3. 手机设置:开启调试权限与输入法

接下来要在手机上做一些必要设置,确保电脑可以完全控制它。

3.1 开启开发者选项

进入手机「设置」→「关于手机」→ 连续点击「版本号」7次,直到提示“您已进入开发者模式”。

3.2 启用 USB 调试

返回设置主页面 →「开发者选项」→ 找到「USB调试」并开启。

⚠️ 注意:不同品牌手机路径略有差异,如小米叫“USB调试”,华为可能叫“调试模式”。

3.3 安装 ADB Keyboard(关键步骤)

这是为了让AI能自动输入文字,而不需要你手动打字。

  1. 下载 ADB Keyboard APK 并安装。
  2. 进入「设置」→「语言与输入法」→「默认键盘」→ 切换为ADB Keyboard

这样,当AI需要输入搜索词、用户名时,就可以直接发送文本,无需手动输入。


4. 部署控制端代码:运行 Open-AutoGLM

现在我们来下载并安装本地控制程序。

4.1 克隆项目仓库

打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装依赖包

推荐使用虚拟环境(可选):

python -m venv venv source venv/bin/activate # macOS/Linux # 或 venv\Scripts\activate.bat (Windows)

安装所需依赖:

pip install -r requirements.txt pip install -e .

-e .表示以可编辑模式安装,方便后续修改源码调试。


5. 连接设备:USB 与 WiFi 两种方式

确保手机通过数据线连接电脑,或者在同一局域网内。

5.1 使用 USB 连接(推荐初学者)

插上数据线后,在命令行运行:

adb devices

你应该看到类似输出:

List of devices attached ABCDEF1234567890 device

只要有设备ID和device状态,就表示连接成功。

5.2 使用 WiFi 远程连接(适合无线调试)

如果你不想一直连着线,可以用WiFi连接。

第一步:先用USB连接,启动TCP模式

adb tcpip 5555

第二步:拔掉USB,用IP连接

查看手机Wi-Fi详情中的IP地址(如192.168.1.105),然后执行:

adb connect 192.168.1.105:5555

再次运行adb devices,应该能看到设备在线。

✅ 小技巧:以后只要手机和电脑在同一网络,就可以直接adb connect,不用再插线了。


6. 启动 AI 代理:让AI接管手机

一切准备就绪,现在可以正式让AI来操作手机了!

6.1 命令行方式运行任务

在项目根目录下执行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://<你的云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

参数说明
--device-idadb devices获取的设备ID
--base-url云服务地址,格式为http://IP:端口/v1
--model模型名称,目前固定为autoglm-phone-9b
最后的字符串你要下达的自然语言指令

💡 示例指令还可以是:

  • “打开小红书,搜索‘北京美食探店’,点赞前三篇笔记”
  • “去美团看看附近评分4.5以上的川菜馆”

AI会自动完成以下流程:

  1. 截图当前屏幕
  2. 将图像+指令传给云端模型
  3. 模型分析界面元素,决定下一步操作(点击、滑动、输入等)
  4. 控制端执行动作
  5. 循环直到任务完成

6.2 使用 Python API 编程调用

除了命令行,你也可以在自己的项目中集成这个功能。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 查看已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 在USB设备上启用TCP/IP(便于后续无线调试) success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这段代码展示了如何:

  • 动态连接设备
  • 获取设备IP
  • 管理多个连接
  • 集成进自动化平台

7. 常见问题与排查指南

在实际使用过程中,可能会遇到一些问题。以下是高频故障及解决方法。

7.1 ADB 连接失败:“unauthorized” 或 “offline”

原因:手机未授权电脑调试。

解决办法

  • 检查手机是否弹出“允许USB调试?”对话框
  • 勾选“始终允许”,然后点击“确定”
  • 重新插拔数据线

7.2 连接被拒绝:“failed to connect to :5555”

可能原因

  • 手机和电脑不在同一Wi-Fi网络
  • 防火墙阻止了5555端口
  • 手机休眠导致ADB断开

解决方案

  • 确保在同一局域网
  • 关闭手机省电模式,保持亮屏
  • 重启ADB服务:adb kill-server && adb start-server

7.3 模型无响应或返回乱码

常见于自建云服务场景

检查以下几点:

  • vLLM 服务是否正常启动?
  • --host 0.0.0.0是否设置,确保外部可访问?
  • 端口映射是否正确(如 Docker 映射了 8800 → 8000)?
  • max-model-len是否足够大?建议 ≥ 8192
  • 显存是否充足?9B模型至少需要 16GB GPU 显存

示例正确的 vLLM 启动命令:

python -m vllm.entrypoints.openai.api_server \ --model ZhipuAI/autoglm-phone-9b \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 8192

然后通过 Nginx 或 frp 映射到公网端口(如 8800)。


8. 总结:为什么 Open-AutoGLM 值得关注?

Open-AutoGLM 不只是一个玩具项目,它是迈向真正“通用手机AI助手”的重要一步。相比传统自动化脚本,它的优势非常明显:

  • 无需编写规则:你说人话,AI自己想办法执行
  • 跨App通用性强:不管是抖音、小红书还是淘宝,都能理解界面
  • 支持复杂任务链:能处理“搜索→点击→滑动→输入→判断结果”这样的多步逻辑
  • 安全可控:敏感操作可暂停确认,验证码场景支持人工介入
  • 远程调试友好:支持WiFi连接,适合做集群化测试或远程运维

对于开发者来说,这套框架提供了完整的工程化模板,无论是用来做自动化测试、批量运营账号,还是构建个人AI助理,都非常实用。

更重要的是——它已经开源,你可以自由定制、训练专属模型、扩展新功能。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 23:25:37

麦克风权限无法启用?Speech Seaco Paraformer实时录音问题排查教程

麦克风权限无法启用&#xff1f;Speech Seaco Paraformer实时录音问题排查教程 1. 问题背景与使用场景 你是不是也遇到过这种情况&#xff1a;打开 Speech Seaco Paraformer 的 WebUI&#xff0c;想用“实时录音”功能做语音转文字&#xff0c;点击麦克风按钮却没反应&#x…

作者头像 李华
网站建设 2026/4/15 5:47:11

【C++23实战精华】:为什么顶级工程师都在抢用这些新功能?

第一章&#xff1a;C23标准演进全景与工程价值重估 C23作为C语言演进的重要里程碑&#xff0c;引入了一系列提升开发效率、代码安全性和系统性能的新特性。这些变化不仅反映了现代软件工程对可维护性与执行效率的双重追求&#xff0c;也重新定义了C在高性能计算、嵌入式系统和大…

作者头像 李华
网站建设 2026/4/13 20:23:19

web_app.py启动报错?常见异常及解决方案汇总

web_app.py启动报错&#xff1f;常见异常及解决方案汇总 1. 为什么这个脚本总在启动时“卡住”或直接崩溃&#xff1f; 你刚把 web_app.py 复制进项目目录&#xff0c;满怀期待地敲下 python web_app.py&#xff0c;结果终端要么卡在某一行不动、要么弹出一长串红色报错、甚至…

作者头像 李华
网站建设 2026/4/14 15:14:02

【C程序员必看】:strcat不安全?这3个安全拼接函数你必须掌握

第一章&#xff1a;strcat为何不安全&#xff1f;深入剖析字符串溢出风险 在C语言中&#xff0c; strcat 函数用于将一个字符串追加到另一个字符串的末尾。尽管其使用简单&#xff0c;但该函数因缺乏边界检查而成为缓冲区溢出攻击的主要源头之一。 strcat 的工作原理与隐患 s…

作者头像 李华
网站建设 2026/4/15 15:48:39

Qwen3-Embedding-0.6B如何调参?嵌入维度自定义设置指南

Qwen3-Embedding-0.6B如何调参&#xff1f;嵌入维度自定义设置指南 1. Qwen3-Embedding-0.6B 介绍 Qwen3 Embedding 模型系列是 Qwen 家族的最新专有模型&#xff0c;专门设计用于文本嵌入和排序任务。基于 Qwen3 系列的密集基础模型&#xff0c;它提供了各种大小&#xff08…

作者头像 李华
网站建设 2026/4/10 15:14:13

从C++17到C++23的跨越,这5个特性让开发者效率翻倍

第一章&#xff1a;C23 新特性有哪些值得用 C23 作为 C 编程语言的最新标准&#xff0c;引入了一系列实用且现代化的特性&#xff0c;显著提升了开发效率与代码可读性。这些新特性不仅优化了现有语法&#xff0c;还增强了对并发、容器和元编程的支持。 统一函数调用语法 C23 允…

作者头像 李华