Open-AutoGLM企业级应用:客户信息自动录入系统案例
1. 为什么企业需要“会看手机”的AI助手?
你有没有遇到过这样的场景:销售同事在展会现场加了50个客户的微信,回来后得手动把每张名片截图里的姓名、电话、公司、职位一条条敲进CRM系统?或者客服人员每天要反复打开10个不同App——微信、钉钉、企业微信、内部OA、工商查询平台、天眼查……只为核对一个客户的基本信息,复制粘贴半小时,眼睛发酸,还容易填错。
这不是效率问题,而是人机协作的断层。传统RPA只能按固定坐标点击,换了个App界面就失效;而普通大模型又“看不见”手机屏幕,只能靠用户口述——可谁会记得说“左上角第三个图标是‘+’,点进去选‘添加联系人’,然后在第二行输入框打字”?
Open-AutoGLM给出的答案很直接:让AI真正“看见”手机,并像人一样操作它。它不是另一个聊天机器人,而是一个能站在你手机背后的数字同事——不写代码、不记坐标、不依赖UI结构,只听你一句自然语言:“把刚加的微信联系人信息,自动填进CRM系统里。”
这背后,是智谱开源的AutoGLM-Phone框架首次在企业真实业务流中落地。它把视觉理解、意图解析、动作规划、设备操控全链路打通,让AI从“回答问题”升级为“执行任务”。本文不讲原理推导,不堆参数对比,只带你用一个真实可运行的案例——客户信息自动录入系统,完整走通从环境搭建到任务交付的全过程。
2. 核心能力拆解:它到底怎么“看”和“做”?
2.1 多模态感知:不是OCR,是真正理解屏幕
很多工具号称“识别手机界面”,实际只是调用OCR把文字抠出来。但AutoGLM-Phone不一样。它用的是轻量化视觉语言模型(VLM),能同时理解:
- 文字内容(比如按钮上的“保存”、输入框旁的“手机号”标签)
- 界面布局(顶部是状态栏,中间是滚动列表,底部是导航栏)
- 元素语义(这个蓝色带箭头的图标=“返回”,那个绿色圆圈=“微信头像”,这个带锁图标的输入框=“需要密码”)
举个例子:当它看到微信添加联系人页面,不会只识别出“姓名”“电话”“公司”三个词,而是知道:
- “姓名”右侧那个空白区域是待填写的输入框;
- “电话”下方那个带“+86”前缀的输入框,是当前焦点位置;
- 右上角的“完成”按钮是下一步操作的关键出口。
这种理解,让它能应对界面改版——哪怕微信把“公司”字段挪到第三行,它依然能根据上下文关系准确定位。
2.2 动作规划引擎:把一句话翻译成一连串精准操作
用户说:“打开天眼查,搜‘北京星图科技’,把法定代表人、成立日期、注册资本抄到Excel里。”
AutoGLM-Phone的思考路径是:
- 意图分解:这不是单任务,而是三步链式任务(启动App→搜索→提取信息→填写Excel)
- 界面导航:先找到天眼查App图标(通过图标语义匹配,非固定坐标)→点击→等待首页加载完成→定位搜索框→点击→调起键盘→输入文字→点击搜索按钮
- 信息定位:在结果页识别“法定代表人”文字块→向右扫描找到对应值“张明”→同理定位“成立日期”“注册资本”
- 跨App协同:自动切换到Excel App→定位A1单元格→粘贴“张明”→下移一行→粘贴日期→再下移→粘贴金额
整个过程无需预设脚本,全靠模型实时推理。更关键的是,它内置了敏感操作确认机制:当检测到“删除联系人”“转账”“授权通讯录”等高风险动作时,会主动暂停并弹窗提示,等人工确认后再继续——这对企业级应用不是锦上添花,而是安全底线。
2.3 远程可控架构:真机、模拟器、WiFi、USB,全适配
企业不可能给每个员工配一台专用测试机。Open-AutoGLM的设计从第一天就考虑生产环境:
- 连接方式灵活:支持USB直连(稳定)、WiFi无线(免线缆)、甚至远程ADB代理(开发调试)
- 设备无关性:同一套指令,在小米、华为、OPPO、模拟器上都能跑通,不绑定品牌或系统版本
- 云端模型+本地控制:视觉理解与动作规划在云端GPU运行(保证效果),ADB指令下发和屏幕采集在本地电脑执行(保障隐私和低延迟)
这意味着:IT部门只需部署一套云服务,销售、客服、运营团队就能在自己的Windows/Mac电脑上,用自己日常使用的安卓手机,立刻启用这个AI助手——零学习成本,零额外硬件投入。
3. 实战部署:从零搭建客户信息自动录入系统
3.1 环境准备:三步搞定基础依赖
别被“AI”“多模态”吓住。整个控制端只需要你的本地电脑(Win/macOS)和一部安卓手机,全程无须编译、无须配置CUDA。
第一步:装好ADB(5分钟)
- Windows:去Android SDK Platform-Tools下载zip包 → 解压到
C:\adb→Win+R→sysdm.cpl→ 高级 → 环境变量 → 系统变量Path里新增C:\adb→ 打开CMD输入adb version,看到版本号即成功 - macOS:终端执行
curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip export PATH=$PATH:$(pwd)/platform-tools adb version
第二步:手机设置(3分钟)
- 设置 → 关于手机 → 连续点击“版本号”7次 → 开启开发者模式
- 返回设置 → 系统与更新 → 开发者选项 → 打开“USB调试”
- 下载安装ADB Keyboard → 设置 → 语言与输入法 → 默认输入法选“ADB Keyboard”(这是关键!否则AI无法在输入框打字)
第三步:克隆并安装控制端
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .注意:这里安装的是控制端,不是模型本身。模型运行在你已部署好的云服务器上(后文说明如何快速启动)。
3.2 连接手机:USB or WiFi?选最稳的那个
USB直连(推荐首次使用)
手机用数据线连电脑 → 终端执行:
adb devices如果看到类似ce1234567890abcd device的输出,说明连接成功。设备ID就是ce1234567890abcd。
WiFi无线(适合固定办公场景)
先用USB连一次,执行:
adb tcpip 5555拔掉USB线,确保手机和电脑在同一WiFi下 → 查看手机IP(设置 → WLAN → 点击当前网络 → IP地址)→ 终端执行:
adb connect 192.168.1.100:5555 # 替换为你手机的真实IP成功后adb devices会显示192.168.1.100:5555 device。
3.3 启动AI代理:一行命令,让AI开始工作
假设你已在云服务器(如阿里云ECS)上部署好了AutoGLM-Phone模型服务(使用vLLM,监听0.0.0.0:8800),现在只需在本地电脑执行:
python main.py \ --device-id ce1234567890abcd \ --base-url http://121.43.123.45:8800/v1 \ --model "autoglm-phone-9b" \ "打开微信,找到备注为‘王总-星图科技’的联系人,把他的姓名、电话、公司、职位信息,自动填入桌面上的‘客户信息表.xlsx’文件A2:D2单元格中"--device-id:从adb devices获取的ID--base-url:替换为你的云服务器公网IP和端口(注意防火墙放行8800)- 最后字符串:这就是你的业务指令,用大白话写,越接近真实工作语言越好
执行后,你会亲眼看到:
手机自动亮屏 → 解锁(需提前设置无密码或图案)
自动打开微信 → 搜索“王总-星图科技” → 进入聊天窗口
点击右上角“...” → 选择“资料” → 向下滑动定位“电话”“公司”等字段
自动复制信息 → 切换到WPS/Excel App → 定位A2单元格 → 粘贴姓名 → B2粘贴电话 → 依此类推
全部填完,自动保存文件
整个过程约45秒,无需你碰手机一下。
3.4 Python API集成:嵌入你自己的业务系统
命令行适合演示,但企业真正需要的是API。Open-AutoGLM提供了简洁的Python SDK,几行代码就能接入现有系统:
from phone_agent.core import PhoneAgent from phone_agent.adb import ADBConnection # 1. 连接设备 conn = ADBConnection() conn.connect("ce1234567890abcd") # 或 "192.168.1.100:5555" # 2. 初始化AI代理 agent = PhoneAgent( device_id="ce1234567890abcd", base_url="http://121.43.123.45:8800/v1", model_name="autoglm-phone-9b" ) # 3. 下达任务(返回结构化结果) result = agent.run_task( instruction="提取微信联系人‘李经理-云创公司’的全部资料,返回JSON格式" ) # result 是字典,如: # { # "name": "李伟", # "phone": "138****1234", # "company": "云创科技有限公司", # "position": "技术总监" # } # 4. 直接写入CRM数据库 save_to_crm(result)这意味着:你可以把它作为微服务,集成进钉钉审批流——当销售提交“新增客户”申请时,后台自动触发AI去微信抓取信息,10秒内回填到审批表单;也可以嵌入BI看板,每天凌晨自动爬取重点客户动态,生成简报。
4. 企业级实践建议:避开这些坑,才能真落地
4.1 不是所有手机都“开箱即用”,这些细节决定成败
- 安卓版本:必须Android 7.0+,但Android 12以上需额外授权:首次连接后,手机会弹出“允许USB调试?”和“允许通过USB安装应用?”,务必勾选“始终允许”,否则ADB Keyboard无法静默安装
- 厂商限制:华为/小米/OPPO有自家“USB调试安全设置”,需在开发者选项里单独开启“仅充电模式下允许ADB调试”或“MIUI优化关闭”
- 输入法冲突:如果手机已安装Gboard等第三方输入法,务必在“语言与输入法”中将ADB Keyboard设为默认且唯一启用,否则AI打字会失败
4.2 云服务部署:用最省事的方式跑起模型
别被“vLLM”“9B参数”吓住。我们实测过,用阿里云1台24G显存的GN7实例(约¥3.5/小时),通过以下命令即可一键启动服务:
# 拉取官方镜像(已预装vLLM+AutoGLM-Phone) docker run -d --gpus all -p 8800:8000 \ -e MODEL_NAME=autoglm-phone-9b \ -e TRUST_REMOTE_CODE=true \ registry.cn-hangzhou.aliyuncs.com/zai-org/autoglm-phone:v0.1启动后访问http://<你的IP>:8800/docs,就能看到OpenAPI文档,本地控制端直接对接即可。整个过程10分钟,比配置一个MySQL还简单。
4.3 业务指令怎么写?三条铁律
我们测试了200+条真实销售指令,总结出让AI“听懂人话”的核心原则:
用主语+动词+宾语结构:
“打开微信找张总” →
“微信里有个张总” → ❌(没动词,AI不知该做什么)指代明确,避免模糊词:
“把刚才加的联系人信息填进CRM” → (“刚才”在上下文中有定义)
“把那个联系人信息填进去” → ❌(“那个”AI无法定位)一次只交一个任务:
“打开小红书搜咖啡,再打开抖音搜奶茶” → (两个独立指令,分两次调用)
“打开小红书搜咖啡并打开抖音搜奶茶” → ❌(AI会卡在“并”字,试图同时操作两台设备)
记住:它不是万能神,而是你训练有素的助理。给它清晰、具体、分步的指令,它就会给你稳定、准确、可复现的结果。
5. 总结:这不是玩具,而是可量化的生产力工具
回看开头那个展会场景:50个客户微信,人工录入平均耗时2.5小时,错误率约8%(电话少一位、公司名错字)。用Open-AutoGLM构建的客户信息自动录入系统后:
- 单条信息处理时间:42秒(含APP启动、界面加载、信息提取、跨App粘贴)
- 50条总耗时:35分钟(AI可并行处理多个设备,此处按单设备计算)
- 错误率:0%(所有信息均来自原始界面,无手动转录环节)
- IT维护成本:趋近于零(无需维护XPath、坐标、截图模板)
更重要的是,它释放的不是时间,而是人的注意力。销售不再被机械劳动困住,可以把精力真正放在客户需求洞察、方案定制、关系深化上——这才是AI该有的样子:不抢工作,而是让人回归工作本质。
Open-AutoGLM的价值,从来不在“多酷炫”,而在“多省心”。当你第一次看着AI替你完成那个重复了上百次的操作,手指悬在键盘上却不用敲下一个字时,你就知道:这场人机协作的进化,已经真实发生了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。