Open-AutoGLM企业培训场景:新员工操作指引AI代理案例
1. 引言:让AI成为新员工的“手机操作教练”
在企业数字化转型过程中,新员工入职培训常常面临一个共性难题:如何快速掌握各类内部系统、审批流程和常用App的操作?尤其是面对复杂的移动端办公应用时,图文手册不够直观,视频教程又难以交互,学习成本高、效率低。
有没有一种方式,能让新员工像“对话”一样完成任务?比如直接说:“帮我登录OA系统,提交一份出差申请”,然后手机自动一步步操作完成?
这正是Open-AutoGLM的价值所在。作为智谱开源的手机端AI Agent框架,它不仅能“看懂”屏幕,还能“动手操作”,真正实现自然语言驱动的自动化执行。本文将以企业培训为背景,深入解析如何利用 Open-AutoGLM 构建一个面向新员工的“操作指引AI代理”,帮助他们零门槛上手公司移动应用。
我们还将详细讲解从环境搭建、设备连接到指令执行的全流程,并结合真实场景展示其落地潜力。
2. Open-AutoGLM 是什么?让AI“会看会动”的手机助手
2.1 多模态理解 + 自动化控制 = 真正的智能体
传统的语音助手(如Siri、小爱同学)只能完成简单唤醒和搜索,而 Open-AutoGLM 背后的AutoGLM-Phone框架则更进一步——它是一个基于视觉语言模型(VLM)的 AI 手机智能助理框架。
它的核心能力可以概括为三个关键词:
- 看得懂:通过多模态模型实时分析手机屏幕内容,识别按钮、文本、布局结构。
- 想得清:结合上下文理解用户意图,规划出合理的操作路径。
- 做得准:通过 ADB(Android Debug Bridge)发送点击、滑动、输入等指令,真正“代替你点手机”。
这意味着,你只需要说一句:“打开企业微信,进入‘审批’页面,发起一个请假流程”,AI 就能自动完成整个操作链。
2.2 Phone Agent:构建在 AutoGLM 上的完整解决方案
Phone Agent 是基于 AutoGLM 开发的完整手机端智能代理系统。它不仅具备上述能力,还集成了多项实用功能,特别适合企业级部署:
- 自然语言驱动:无需编写脚本,普通员工也能使用。
- 远程调试支持:可通过 WiFi 连接设备,实现跨网络控制,便于集中管理。
- 安全机制内置:
- 敏感操作(如支付、删除)需人工确认;
- 遇到验证码或登录弹窗时可暂停并交由人工处理。
- 可扩展性强:支持调用云端大模型进行推理,本地仅负责执行。
这些特性使得 Phone Agent 成为企业培训、流程自动化、辅助操作的理想选择。
3. 实战部署:如何让AI接管你的安卓手机
接下来,我们将手把手带你完成 Open-AutoGLM 的本地控制端部署,让你的电脑能够通过 ADB 控制真机,并调用云端 AI 模型来执行任务。
说明:本节假设你已有一台运行中的云服务器,上面已部署好 vLLM 或其他兼容 OpenAI API 的模型服务(如
autoglm-phone-9b),且端口已映射对外可访问。
3.1 硬件与环境准备
以下是搭建控制端所需的基本条件:
| 项目 | 要求 |
|---|---|
| 操作系统 | Windows / macOS(推荐) |
| Python 版本 | 3.10+ |
| 安卓设备 | Android 7.0 及以上版本(真机或模拟器均可) |
| ADB 工具 | 必须安装并配置环境变量 |
ADB 安装与配置
ADB 是 Android 调试桥,是实现手机自动化的基础工具。
Windows 用户:
- 下载 Android SDK Platform Tools 并解压。
- 按
Win + R输入sysdm.cpl→ 高级 → 环境变量。 - 在“系统变量”中找到
Path,添加 ADB 解压目录路径(例如:C:\platform-tools)。 - 打开命令行,输入
adb version,若显示版本号即表示配置成功。
macOS 用户:
在终端中执行以下命令(请根据实际路径调整):
export PATH=${PATH}:~/Downloads/platform-tools你可以将这行代码写入.zshrc或.bash_profile文件,避免每次重启终端都要重新设置。
3.2 手机端设置:开启调试权限
为了让电脑能控制手机,必须启用开发者选项和 USB 调试。
开启开发者模式
进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。开启 USB 调试
返回设置主界面 → “开发者选项” → 勾选“USB 调试”。安装 ADB Keyboard(关键步骤)
- 下载并安装 ADB Keyboard APK。
- 安装后进入“语言与输入法”设置 → 默认键盘 → 切换为“ADB Keyboard”。
⚠️ 为什么需要 ADB Keyboard?
因为 ADB 本身无法直接输入中文或复杂字符。ADB Keyboard 允许我们通过 ADB 命令向手机发送任意文本,解决了自动化输入的瓶颈。
3.3 部署 Open-AutoGLM 控制端
现在开始在本地电脑部署控制代码。
# 1. 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖 pip install -r requirements.txt pip install -e .💡 提示:建议使用虚拟环境(如
python -m venv venv)以避免依赖冲突。
安装完成后,你就拥有了一个完整的本地控制客户端,它可以:
- 监听手机屏幕变化
- 向云端模型发送视觉+指令数据
- 接收模型返回的操作动作并执行
3.4 连接设备:USB 与 WiFi 两种方式
确保手机通过 USB 连接到电脑,或处于同一局域网下。
方法一:USB 连接(稳定推荐)
adb devices如果输出类似:
List of devices attached 123456789 device说明设备已正确连接。
方法二:WiFi 远程连接(适合远程调试)
首次需用 USB 连接,之后可切换为无线模式:
# 启用 TCP/IP 模式 adb tcpip 5555 # 断开 USB,使用 IP 连接(替换为你的手机IP) adb connect 192.168.x.x:5555连接成功后,即使拔掉数据线,仍可通过网络控制手机。
4. 启动AI代理:一句话触发全自动操作
一切就绪,现在让我们真正“唤醒”AI代理。
4.1 命令行方式启动
在Open-AutoGLM根目录下运行:
python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器IP>:<映射端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
| 参数 | 说明 |
|---|---|
--device-id | 通过adb devices获取的设备标识 |
--base-url | 云端模型服务地址(需支持 OpenAI API 格式) |
--model | 指定使用的模型名称 |
| 最后字符串 | 用户输入的自然语言指令 |
执行后,你会看到 AI 开始“思考”:
- 分析当前屏幕内容
- 判断是否需要启动App
- 规划点击路径
- 调用 ADB 执行操作
最终自动完成关注动作。
4.2 使用 Python API 实现远程控制
除了命令行,你还可以将其集成进自己的系统中,通过编程方式调用。
from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 在 USB 设备上启用 TCP/IP success, message = conn.enable_tcpip(5555) ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")这个接口非常适合用于:
- 批量管理多台测试机
- 构建自动化巡检系统
- 集成到企业内部培训平台
5. 应用场景拓展:AI代理在企业培训中的实践价值
5.1 场景一:新员工App操作教学
想象一位刚入职的销售代表,需要学会使用公司定制的CRM App提交客户拜访记录。
传统方式:
- 看PDF手册 → 记不住
- 看视频教程 → 不能互动
- 问同事 → 打扰他人
使用 Open-AutoGLM 后:
“帮我新建一条客户拜访记录,客户名是‘张伟’,电话138****1234,备注‘意向采购A产品’。”
AI立即接管手机,在CRM App中一步步填写表单并提交,全程可视化操作。员工只需观察过程,即可快速模仿掌握。
5.2 场景二:标准化流程执行
某些企业有严格的审批流程(如报销、请假、资产申领)。不同部门略有差异,容易出错。
AI代理可作为“标准操作模板”:
- 输入统一指令 → 输出一致操作路径
- 减少人为失误
- 支持录屏回放教学
5.3 场景三:无障碍辅助与老年员工支持
对于不熟悉智能手机的老年员工或视障人士,AI代理可充当“语音导航+自动操作”助手:
- “帮我查一下今天的会议安排”
- “把这份报告发给王经理”
极大降低数字鸿沟带来的使用障碍。
5.4 安全与可控性设计
企业在引入此类技术时最关心的是安全性。Open-AutoGLM 在设计上已考虑以下几点:
- 敏感操作拦截:涉及支付、删除、权限变更等操作时,AI会暂停并提示人工确认。
- 人工接管机制:遇到验证码、人脸识别等无法自动处理的环节,自动退出并通知用户。
- 操作日志记录:所有AI执行的动作都会被记录,便于审计追踪。
- 私有化部署:模型和服务均可部署在内网,保障数据不出域。
6. 常见问题与排查建议
在实际使用中,可能会遇到一些典型问题。以下是常见情况及解决方法:
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
| ADB 无法识别设备 | 未开启USB调试或驱动异常 | 重新开启USB调试,尝试更换数据线或端口 |
| 连接被拒绝(adb connect失败) | 防火墙阻止或设备未启用tcpip | 检查云服务器安全组规则,确认端口开放 |
| AI无响应或乱码 | 模型服务未正常启动 | 检查 vLLM 启动参数,特别是--max-model-len和显存分配 |
| 输入中文失败 | ADB Keyboard 未设为默认输入法 | 进入设置手动切换,默认输入法选择 ADB Keyboard |
| 屏幕识别错误 | 光照过暗或界面遮挡 | 调整手机角度,避免反光,关闭无关悬浮窗 |
✅最佳实践建议:
- 初次使用优先采用 USB 连接,稳定性更高;
- 测试阶段保持手机亮屏且锁屏密码关闭;
- 指令尽量具体明确,避免模糊表达(如“搞一下”应改为“打开XX并点击YY”)。
7. 总结:迈向“对话即操作”的智能办公新时代
Open-AutoGLM 不只是一个技术玩具,它是通向“自然语言操作系统”的重要一步。在企业培训这一垂直场景中,它展现出巨大的实用潜力:
- 降低学习成本:新员工不再需要死记硬背操作步骤;
- 提升执行一致性:AI按标准流程操作,减少人为偏差;
- 增强可访问性:为非技术背景员工提供平等使用数字工具的机会;
- 支持规模化复制:一套AI代理可服务多个终端,边际成本趋近于零。
更重要的是,这种“说句话就能办事”的体验,正在重新定义人与设备的关系——从“我来学怎么用手机”,变成“手机听懂我要做什么”。
未来,随着模型能力的增强和多设备协同的发展,我们可以期待更多创新应用:
- AI代理同时操控手机+电脑完成跨端任务;
- 结合RPA形成企业级自动化流水线;
- 内嵌于HR系统,成为每位员工的“数字导师”。
技术的意义,从来不是取代人类,而是释放人类去做更有创造力的事。而 Open-AutoGLM 正在为此铺平第一条路。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。