Open-AutoGLM工单提交自动化:IT支持请求执行代理部署
在企业IT运维场景中,一线员工常需反复向IT部门提交各类设备操作类工单——比如“重置某员工手机邮箱配置”“为新同事开通企业微信并加入指定群组”“在测试机上安装指定版本APK并完成登录验证”。这类请求高度结构化、重复性强,却因涉及真实设备交互而难以用传统RPA完全覆盖。Open-AutoGLM的出现,让这类任务首次具备了端到端自动执行能力:它不依赖预设脚本,而是像真人一样“看懂”手机屏幕、“理解”自然语言指令、“规划”操作路径,并通过ADB精准操控真机完成闭环。
这不是一个需要写代码、配流程图、调API的开发项目,而是一次开箱即用的生产力升级。本文将带你从零部署一套可投入实际使用的IT支持请求执行代理——无需安卓开发经验,不碰逆向或Hook,只用标准ADB和云推理服务,就能让AI真正“动手干活”。
1. 为什么Open-AutoGLM能胜任IT工单自动化?
1.1 它不是传统RPA,而是具备视觉理解与自主决策的AI代理
AutoGLM-Phone 是智谱开源的手机端AI Agent框架,核心突破在于多模态感知+动作规划双引擎协同。它不像传统自动化工具那样依赖坐标点击或UI控件ID,而是把手机屏幕当作一张图片来理解:
- 每次操作前,模型会实时截取当前屏幕画面,结合OCR识别文字、VLM理解界面布局(如“顶部是搜索框,中间是列表,底部有‘关注’按钮”);
- 同时解析用户指令语义(如“打开小红书搜美食”),拆解为意图(启动App→输入关键词→点击搜索→浏览结果);
- 最后生成可执行的动作序列:
tap(230, 150)→input("美食")→tap(890, 180)→swipe_up()。
这种能力对IT工单场景极为关键——不同品牌手机的系统UI千差万别,但“设置图标在右上角”“确认按钮在底部居中”这类视觉规律高度一致。AI代理能泛化适应,无需为每款机型单独维护脚本。
1.2 Phone Agent专为真实设备控制设计,安全机制完备
Phone Agent作为Open-AutoGLM的落地实现,针对企业环境做了关键增强:
- 敏感操作人工接管:当检测到“输入密码”“确认删除”“授予管理员权限”等高风险动作时,自动暂停并等待人工确认,避免误操作引发事故;
- 验证码/登录态兜底方案:遇到短信验证码、人脸识别或二次登录弹窗,系统会截图推送至管理员Web界面,由人完成验证后继续执行;
- 远程ADB调试支持:不仅支持USB直连,更可通过WiFi或内网IP远程连接设备,IT工程师无需物理接触手机即可批量管理上百台测试机或员工终端;
- 状态可追溯:每步操作均记录截图、ADB日志、模型推理耗时,生成完整执行报告,满足ITSM审计要求。
这意味着,你交付给IT团队的不再是一段黑盒脚本,而是一个可观察、可干预、可审计的智能协作者。
2. 本地控制端部署全流程(Windows/macOS通用)
2.1 硬件与基础环境准备
| 组件 | 要求 | 验证方式 |
|---|---|---|
| 操作系统 | Windows 10+/macOS 12+ | 系统关于页面查看版本 |
| Python | 3.10 或更高版本 | python --version |
| 安卓设备 | Android 7.0+(真机优先,模拟器仅限开发测试) | 设置→关于手机→Android版本 |
| ADB工具 | Platform-tools v34+ | adb version输出 ≥ 34.0.0 |
ADB环境变量配置提示
Windows用户:解压platform-tools后,在“系统属性→高级→环境变量→系统变量→Path”中添加ADB解压路径;macOS用户:在~/.zshrc或~/.bash_profile中追加export PATH=$PATH:~/Downloads/platform-tools,然后执行source ~/.zshrc。
2.2 手机端必备设置(三步到位)
开启开发者模式
进入手机“设置→关于手机”,连续点击“版本号”7次,直到提示“您已处于开发者模式”。启用USB调试
返回设置主界面,进入“开发者选项”,找到并开启“USB调试”。若未显示该选项,请先开启“开发者模式”。安装并启用ADB Keyboard
- 下载ADB Keyboard APK(推荐v1.1+);
- 在手机上安装后,进入“设置→语言与输入法→虚拟键盘”,将默认输入法切换为“ADB Keyboard”;
- 这一步至关重要:它让AI能通过ADB命令直接向任意输入框发送文字,无需依赖剪贴板或无障碍服务。
2.3 控制端代码部署与依赖安装
# 1. 克隆官方仓库(国内用户建议使用镜像加速) git clone https://gitee.com/zai-org/Open-AutoGLM # 或 github地址 cd Open-AutoGLM # 2. 创建独立Python环境(推荐) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装核心依赖(含ADB通信、模型调用、图像处理) pip install -r requirements.txt pip install -e .此步骤完成后,你已拥有完整的本地控制中枢。它不包含任何大模型权重,所有AI推理均通过HTTP调用云端服务,本地仅需轻量级运行时。
3. 设备连接与远程调试实战
3.1 双模连接:USB直连与WiFi远程任选
| 连接方式 | 适用场景 | 操作步骤 | 验证命令 |
|---|---|---|---|
| USB直连 | 首次部署、调试阶段、网络受限环境 | 用原装数据线连接手机与电脑,选择“文件传输”模式 | adb devices→ 输出类似ABC123456789 device |
| WiFi远程 | 批量管理、无USB接口设备、远程办公 | ① USB连接后执行adb tcpip 5555② 断开USB,连接同一WiFi ③ adb connect 192.168.1.100:5555 | adb devices→ 输出192.168.1.100:5555 device |
小技巧:WiFi连接后,可在手机“设置→关于手机→状态”中查看IP地址;若连接失败,检查手机是否开启“允许通过网络调试”(开发者选项内)。
3.2 Python API方式灵活管理设备
相比命令行,Python API更适合集成进ITSM系统或编写批量任务脚本:
from phone_agent.adb import ADBConnection, list_devices # 初始化连接管理器 conn = ADBConnection() # 远程连接设备(支持IP:port格式) success, msg = conn.connect("192.168.1.100:5555") print(f"连接结果:{msg}") # 成功时输出 "Connected to 192.168.1.100:5555" # 获取当前所有已连接设备信息 devices = list_devices() for d in devices: print(f"设备ID:{d.device_id} | 类型:{d.connection_type.value}") # 为USB设备启用TCP/IP(便于后续转WiFi) success, msg = conn.enable_tcpip(5555) ip = conn.get_device_ip() # 自动获取设备IP print(f"设备IP地址:{ip}") # 安全断开连接 conn.disconnect("192.168.1.100:5555")这段代码可嵌入企业内部运维平台,实现“工单触发→自动连接设备→执行指令→返回截图报告”的全自动流水线。
4. IT工单场景实测:三类高频请求一键执行
4.1 场景一:员工邮箱重置(跨品牌适配)
工单描述:
“请为员工张三(手机号138****1234)重置华为Mate50企业邮箱配置,服务器地址:mail.company.com,端口993,用户名zhangsan@company.com”
执行指令:
python main.py \ --device-id ABC123456789 \ --base-url http://192.168.10.50:8800/v1 \ --model "autoglm-phone-9b" \ "进入设置,找到账户与同步,添加Exchange账户,服务器填mail.company.com,端口993,用户名zhangsan@company.com,密码用公司统一密码"AI执行过程:
- 截图识别华为EMUI设置首页,定位“账户与同步”入口;
- 进入后点击“添加账户”→选择“Exchange”;
- 逐项填写表单:自动识别输入框位置,用ADB Keyboard输入服务器、端口、用户名;
- 对于密码字段,因属敏感操作,暂停并推送截图至IT管理员Web控制台,人工输入后继续。
效果:全程无需人工点击,耗时约92秒,比手动操作快3倍,且规避了因UI差异导致的误点风险。
4.2 场景二:批量应用安装与登录(真机集群管理)
工单描述:
“在10台测试机上安装v2.3.1版企业OA APK,完成首次登录(账号test001,密码Abc123!)并截图首页”
Python批量脚本:
from phone_agent.agent import PhoneAgent devices = ["ABC123...", "DEF456...", "GHI789..."] # 10台设备ID for dev_id in devices: agent = PhoneAgent( device_id=dev_id, base_url="http://192.168.10.50:8800/v1", model_name="autoglm-phone-9b" ) result = agent.run( "安装/storage/emulated/0/Download/oa_v2.3.1.apk,打开应用,输入账号test001,密码Abc123!,点击登录,截图保存为login_success.png" ) print(f"{dev_id} 执行状态:{result.status} | 报告路径:{result.report_path}")效果:10台设备并行执行,总耗时约14分钟,生成10份带时间戳的执行报告,含每步截图与ADB日志。
4.3 场景三:紧急故障排查(远程接管模式)
工单描述:
“销售部王经理手机无法连接公司WiFi,已尝试重启无效,请远程诊断并修复”
执行指令:
python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://192.168.10.50:8800/v1 \ --model "autoglm-phone-9b" \ "打开设置,进入WLAN,忘记当前公司WiFi,重新搜索并连接,输入密码company2024"关键特性体现:
- 当AI检测到WiFi密码输入框时,自动触发人工接管,将当前屏幕截图推送至IT工程师浏览器;
- 工程师在Web界面输入密码后,AI立即恢复执行,完成“忘记→重连→验证”闭环;
- 整个过程工程师无需登录员工手机,全程通过网页端协作。
效果:故障平均解决时间从47分钟降至6分钟,且全程留痕可追溯。
5. 常见问题与稳定运行保障指南
5.1 连接类问题速查表
| 现象 | 可能原因 | 解决方案 |
|---|---|---|
adb devices无设备 | USB调试未开启 / 数据线故障 / 驱动缺失 | ① 重开USB调试开关 ② 换原装线 ③ Windows安装Google USB Driver |
adb connect失败 | 手机未开启“允许通过网络调试” / 防火墙拦截 | ① 开发者选项中开启该开关 ② 电脑防火墙放行5555端口 |
设备显示unauthorized | 手机未授权电脑调试 | 拔插USB线,手机弹出授权框并勾选“始终允许” |
5.2 AI执行异常应对策略
- 指令无响应:检查云服务端口是否可达(
curl -v http://IP:8800/health),确认vLLM服务正常; - 界面识别错误:确保手机屏幕亮度≥80%,关闭深色模式(部分VLM对暗色UI识别率下降);
- 动作执行偏移:运行
python utils/calibrate_screen.py --device-id XXX进行屏幕坐标校准; - 频繁人工接管:在指令中明确限定范围,例如将“点击登录按钮”改为“点击屏幕底部绿色的‘登录’按钮”,减少歧义。
5.3 生产环境加固建议
- 设备池管理:使用
adb -P 5037 devices指定ADB server端口,避免多任务冲突; - 执行超时控制:在
main.py中添加--timeout 300参数,防止单任务卡死; - 日志集中收集:将
logs/目录挂载至企业ELK日志平台,实现工单执行全链路追踪; - 权限最小化:为ADB连接创建专用用户,禁用
adb root等高危命令。
6. 总结:让IT支持从“响应式”走向“主动式”
Open-AutoGLM工单自动化代理的价值,远不止于节省人力。它正在重构IT服务交付范式:
- 对员工:提交工单后无需等待,AI即时响应,体验接近“说句话就搞定”;
- 对IT团队:将重复性操作剥离,工程师聚焦架构优化、安全加固等高价值工作;
- 对企业:降低终端管理TCO,提升员工设备可用率,审计合规性显著增强。
更重要的是,这套方案不绑定特定云厂商、不依赖定制硬件、不强制改造现有APP——它基于开放标准(ADB+HTTP),所有组件均可自主可控。今天部署的,不仅是自动化工具,更是面向AIGC时代的IT基础设施底座。
下一步,你可以尝试将Phone Agent接入企业微信机器人,让员工直接在聊天窗口发送“帮我重置邮箱”,后台自动触发执行;或与Jira工单系统集成,实现“工单创建→AI执行→结果回填→自动关闭”的无人值守闭环。
技术终将回归人本。当AI开始真正“动手”,IT支持才真正完成了它的使命。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。