news 2026/5/2 15:40:41

从下载到运行,Open-AutoGLM完整流程视频脚本

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从下载到运行,Open-AutoGLM完整流程视频脚本

从下载到运行,Open-AutoGLM完整流程视频脚本

1. 简介

Open-AutoGLM 是由智谱AI(ZhipuAI)开源的一款面向手机端的AI Agent框架,基于AutoGLM架构构建,专为自动化操作Android设备而设计。该项目采用Apache-2.0开源协议,支持本地部署、免费商用,核心能力是通过自然语言指令驱动AI完成复杂的手机操作任务。

该系统结合视觉语言模型(VLM)与ADB(Android Debug Bridge)技术,实现“截图→理解→决策→执行”的闭环控制。用户只需输入如“打开小红书搜索美食并点赞前三条内容”这样的自然语言指令,AI即可自动解析意图、识别当前界面元素、规划操作路径,并通过ADB完成点击、滑动、输入等动作。

1.1 核心特性

  • 多模态感知:利用视觉语言模型直接分析手机屏幕图像,理解UI布局和语义信息。
  • 自然语言驱动:无需编写代码,一句话即可触发复杂任务流程。
  • 跨应用协同:支持在多个App之间切换执行,例如从美团点餐后分享至微信朋友圈。
  • 安全机制完善:敏感操作(如支付、删除)需人工确认,保障账户安全。
  • 灵活部署方式:支持本地vLLM服务、云端API调用及远程WiFi ADB连接。

2. 环境准备与硬件要求

2.1 本地电脑环境配置

要成功运行 Open-AutoGLM 控制端,需确保本地开发环境满足以下条件:

项目要求
操作系统Windows 10/11、macOS 10.15+ 或 Linux(Ubuntu 18.04+)
Python 版本3.9 及以上(推荐 3.10+)
内存建议 8GB 以上
存储空间至少 200MB 可用空间用于代码和依赖安装
ADB 工具必须安装并配置环境变量
安装 ADB 工具

Windows 用户:

  1. 下载 Android SDK Platform Tools 并解压。
  2. 将解压目录添加到系统PATH环境变量中:
    • Win + R输入sysdm.cpl
    • 进入“高级” → “环境变量”
    • 在“系统变量”中的Path添加 ADB 解压路径
  3. 打开命令行,执行:
adb version

若返回版本号,则表示配置成功。

macOS 用户:

在终端中执行以下命令(假设 platform-tools 解压在 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

可将此行加入.zshrc.bash_profile实现永久生效。


2.2 Android 设备设置

需要准备一台运行 Android 7.0 或更高版本的真机或模拟器,并完成以下设置:

  1. 开启开发者模式
    进入「设置」→「关于手机」→ 连续点击“版本号”7次,提示已开启开发者选项。

  2. 启用 USB 调试
    返回设置主界面 →「开发者选项」→ 开启“USB调试”。

  3. 安装 ADB Keyboard 输入法

    • 下载 ADB Keyboard APK 并安装。
    • 进入「语言与输入法」设置 → 将默认输入法切换为 ADB Keyboard。
    • 此步骤确保 AI 可以通过 ADB 发送文本输入,避免权限问题。

3. 部署 Open-AutoGLM 控制端

3.1 克隆项目与安装依赖

在本地电脑上执行以下命令获取项目源码并安装所需依赖:

# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 推荐使用虚拟环境隔离依赖 python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .

注意pip install -e .会以可编辑模式安装包,便于后续调试和扩展。


3.2 配置模型服务地址

Open-AutoGLM 本身不包含模型推理能力,需连接一个运行中的大模型服务。支持多种部署方式:

  • 本地部署(推荐):使用 vLLM 启动 AutoGLM-Phone-9B 模型
  • 云端 API:调用智谱 BigModel、Hugging Face 或 ModelScope 提供的服务
启动本地模型服务(需GPU)
python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 4096 \ --tensor-parallel-size 1

启动后,模型服务将在http://localhost:8000/v1提供 OpenAI 兼容接口。

若显存不足,可尝试降低--max-model-len或使用量化版本。


4. 连接 Android 设备

4.1 使用 ADB 连接设备

确保手机通过 USB 连接到电脑,或处于同一局域网内。

查看设备状态
adb devices

正常输出应类似:

List of devices attached emulator-5554 device

如果显示unauthorized,请在手机上确认授权弹窗。

WiFi 远程连接(适用于无线调试)

首次需通过 USB 连接启用 TCP/IP 模式:

adb tcpip 5555 adb disconnect adb connect 192.168.x.x:5555

其中192.168.x.x为手机 IP 地址(可在 WLAN 设置中查看)。连接成功后可通过无线网络控制设备,方便远程调试。


5. 启动 AI 代理执行任务

5.1 命令行方式运行任务

在项目根目录下执行main.py,传入必要参数:

python main.py \ --device-id YOUR_DEVICE_ID_OR_IP:5555 \ --base-url http://YOUR_SERVER_IP:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
参数说明:
参数说明
--device-idADB设备ID,可通过adb devices获取
--base-url模型服务地址,本地为http://localhost:8000/v1
--model模型名称,固定为autoglm-phone-9b
最后字符串自然语言指令,支持中文复杂描述

示例指令:“打开微信给文件传输助手发送消息:今天天气不错”


5.2 使用 Python API 调用

对于集成到其他系统的场景,可使用 Python API 方式调用:

from phone_agent.adb import ADBConnection, list_devices from openautoglm import PhoneAgent # 初始化 ADB 连接 conn = ADBConnection() success, msg = conn.connect("192.168.1.100:5555") if not success: raise Exception(f"连接失败: {msg}") # 列出所有连接设备 devices = list_devices() for d in devices: print(f"设备: {d.device_id}, 类型: {d.connection_type}") # 创建 AI Agent 实例 agent = PhoneAgent( device_id="192.168.1.100:5555", base_url="http://192.168.1.100:8000/v1", model="autoglm-phone-9b" ) # 执行任务 result = agent.run("打开小红书搜索‘秋季穿搭’并收藏第一条笔记") print(result)

该方式适合嵌入自动化测试平台、企业RPA系统等高级应用场景。


6. 常见问题排查与优化建议

6.1 常见问题及解决方案

问题现象可能原因解决方案
ADB 无法识别设备未开启USB调试或驱动异常检查开发者选项,重插数据线,安装官方驱动
连接被拒绝(Connection Refused)服务器防火墙未开放端口放行对应端口(如8000),检查云服务器安全组规则
模型响应慢或乱码显存不足或 max-model-len 设置不当减小上下文长度,启用量化,升级GPU
文字输入失败ADB Keyboard 未设为默认输入法进入系统设置手动切换
ADB 断连频繁WiFi信号不稳定改用USB连接,或优化路由器信号

6.2 性能优化建议

  • 优先使用USB连接:比WiFi更稳定,延迟更低。
  • 使用高性能GPU:推荐 NVIDIA RTX 3090 或更高型号,支持BF16加速。
  • 启用模型量化:若资源有限,可使用 GPTQ 或 AWQ 量化版本降低显存占用。
  • 限制最大步数:通过--max-steps 20防止AI陷入无限循环。
  • 启用交互模式调试:使用--interactive参数进行多轮对话式调试。
python main.py --interactive \ --device-id YOUR_DEVICE_ID \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b"

7. 应用场景与实践价值

7.1 社交媒体自动化运营

自媒体创作者可通过一句指令完成多平台发布任务,如:

“在抖音上传视频《AI如何改变生活》,标题为‘未来已来’,添加话题#人工智能,并@三个好友。”

AI将自动打开抖音、选择相册视频、填写标题、添加标签、@指定账号并发布,大幅提升内容生产效率。


7.2 电商抢购与比价

消费者可设定定时任务实现自动抢购:

“每天上午10点监控京东iPhone 15价格,低于6000元时立即下单并通知我。”

系统将持续截图监控页面变化,识别价格更新,在符合条件时自动点击购买按钮,抢占先机。


7.3 办公自动化

企业员工可让AI处理重复性任务:

“打开钉钉,查找昨天的会议记录,提取关键结论生成PPT大纲并保存到企业网盘。”

整个流程无需人工干预,显著提升办公效率。


7.4 老年人数字助手

子女可远程配置任务帮助父母:

“每天早上8点帮妈妈打开健康码和行程卡,准备好乘车。”

老年人只需语音唤醒助手,AI即可完成所有操作,降低智能设备使用门槛。


7.5 移动应用自动化测试

测试人员可用自然语言编写测试用例:

“测试微博登录功能,输入错误密码3次后是否弹出锁定提示。”

AI将自动生成测试路径并执行,记录每一步结果,极大降低自动化测试门槛。


8. 总结

Open-AutoGLM 作为一款开源的手机端AI Agent框架,融合了视觉语言模型与设备控制能力,实现了真正意义上的“动口不动手”智能交互体验。其核心优势在于:

  1. 自然语言驱动:无需编程基础,普通用户也能轻松使用;
  2. 多模态理解能力强:不仅能听懂指令,还能“看懂”屏幕内容;
  3. 部署灵活:支持本地、云端、远程等多种运行模式;
  4. 安全性高:敏感操作需人工确认,数据本地处理保障隐私;
  5. 应用场景广泛:覆盖个人效率、企业办公、老年辅助、自动化测试等多个领域。

随着多模态AI技术的发展,Open-AutoGLM 正在推动人机交互方式的根本变革——从“手动操作App”迈向“用语言指挥设备”,成为下一代移动智能的重要基础设施。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 4:58:40

无需编程!HeyGem让非技术人员也能玩转AI视频

无需编程!HeyGem让非技术人员也能玩转AI视频 1. 引言:AI视频生成的平民化革命 在内容为王的时代,视频已成为信息传递的核心载体。然而,专业视频制作往往需要复杂的拍摄设备、后期剪辑技能和高昂的人力成本,这让许多中…

作者头像 李华
网站建设 2026/5/1 13:32:01

Qwen2.5语音助手集成:ASR+NLP联合部署教程

Qwen2.5语音助手集成:ASRNLP联合部署教程 1. 引言 随着大语言模型技术的快速发展,构建具备自然对话能力的语音助手已成为智能交互系统的重要方向。Qwen2.5系列作为通义千问最新一代的语言模型,在知识广度、逻辑推理、代码生成和长文本理解等…

作者头像 李华
网站建设 2026/5/2 15:40:40

DDColor老照片评估体系:建立修复质量打分标准的尝试

DDColor老照片评估体系:建立修复质量打分标准的尝试 1. 背景与问题提出 随着深度学习技术的发展,图像着色(Image Colorization)已成为计算机视觉领域的重要应用方向之一。其中,DDColor作为一种先进的黑白图像智能上色…

作者头像 李华
网站建设 2026/5/1 4:59:08

OCR识别SLA保障:cv_resnet18_ocr-detection高可用架构设计

OCR识别SLA保障:cv_resnet18_ocr-detection高可用架构设计 1. 背景与需求分析 随着企业对自动化文档处理、票据识别、证件信息提取等场景的依赖日益加深,OCR(光学字符识别)技术已成为关键基础设施之一。在实际生产环境中&#x…

作者头像 李华
网站建设 2026/5/1 4:58:46

大规模语言模型的创造性问题解决能力培养

大规模语言模型的创造性问题解决能力培养 关键词:大规模语言模型、创造性问题解决、能力培养、自然语言处理、机器学习 摘要:本文围绕大规模语言模型的创造性问题解决能力培养展开深入探讨。首先介绍了研究的背景、目的、预期读者等内容。接着阐述了大规模语言模型及创造性问…

作者头像 李华
网站建设 2026/4/30 20:16:24

NewBie-image-Exp0.1与Miku风格生成对比:多角色控制能力全面评测

NewBie-image-Exp0.1与Miku风格生成对比:多角色控制能力全面评测 1. 选型背景与评测目标 在当前AI生成内容(AIGC)领域,高质量动漫图像生成已成为研究与应用的热点方向。随着大模型参数规模的提升和结构优化,生成结果…

作者头像 李华