news 2026/3/4 2:27:43

Open-AutoGLM功能测评:多模态理解屏幕有多准

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM功能测评:多模态理解屏幕有多准

Open-AutoGLM功能测评:多模态理解屏幕有多准

1. 这不是“语音助手”,而是能真正看懂你手机的AI代理

你有没有过这样的时刻:
手指划得发酸,还在美团里翻第12页找一家评分4.8以上的火锅店;
反复输入“蓝牙耳机”“降噪”“300元以内”,在淘宝搜索框里试了五次才看到想要的结果;
想给妈妈发条“我到家了”,却卡在微信聊天界面——因为刚切完视频会议,手还悬在键盘上没来得及点发送。

这些不是操作太复杂,而是人本不该为重复动作消耗注意力。

Open-AutoGLM 不是又一个“你说我听”的语音助手。它是一套能看见、能理解、能动手的手机端AI代理框架。它不靠预设规则,也不依赖APP内部API,而是用多模态模型“亲眼看着”你的手机屏幕,像真人一样识别图标、文字、按钮位置,再结合自然语言指令,自主规划点击、滑动、输入、返回等动作路径。

这次测评,我们不讲部署步骤(那些已有详细文档),也不堆参数指标(比如“支持1024×768分辨率”这种空话)。我们聚焦一个最朴素的问题:
它看屏幕,到底准不准?

我们用真实手机界面、真实任务指令、真实失败与成功案例,带你判断——这个AI,是不是真能接替你手指的工作。


2. 测评方法:不设剧本,只设边界

为避免“演示即成功”的理想化测试,我们采用三类真实场景交叉验证:

  • 静态界面识别:固定截图,测试对文字、图标、布局结构的理解能力
  • 动态流程执行:从桌面出发,完成跨APP、多步骤、含输入/跳转/等待的真实任务
  • 边界压力测试:模糊截图、小字体、深色模式、弹窗遮挡、验证码拦截等干扰项下的鲁棒性

所有测试均在一台 Android 13 真机(小米13)上进行,使用官方autoglm-phone-9b模型(vLLM本地部署,显存16GB),ADB通过USB直连,无WiFi延迟干扰。

关键说明:
所有任务指令均为用户日常口语表达,未做术语优化(如不说“启动com.ss.android.ugc.aweme”而说“打开抖音”)
每次任务独立重置手机状态(返回桌面+清空前台APP)
失败案例完整记录,不回避、不修饰


3. 静态界面识别:它“看”得清什么?

我们截取了6类典型手机界面,让Open-AutoGLM仅基于单张截图回答问题。不执行操作,只考“理解力”。

3.1 文字识别与语义关联能力

截图内容:微信聊天窗口,顶部显示“张伟(爸爸)”,消息气泡中有一条:“明早8点高铁G1023,记得带身份证”,下方是输入框和“+”号按钮。

提问:“这条消息里提到的车次和时间是什么?”

模型输出

车次是 G1023,时间是明早8点。

完全正确。不仅提取出“G1023”和“8点”,还理解了“明早”是相对当前时间的指代,未混淆为绝对日期。

对比观察

  • 同样截图喂给纯OCR工具(如PaddleOCR),只能返回“明早8点高铁G1023,记得带身份证”,无法区分车次与时间字段;
  • 某些多模态模型会把“+”号误识别为“加号数学符号”,而Open-AutoGLM准确标注为“功能入口按钮”。

3.2 图标与功能意图映射

截图内容:手机桌面,排列着16个APP图标,其中右下角有一个红色购物袋图标,标签文字为“拼多多”。

提问:“右下角那个红色图标代表什么应用?”

模型输出

右下角红色图标是拼多多APP,用于在线购物。

正确识别图标+文字组合,并补充了功能定义(非简单复述“拼多多”)。

延伸测试:隐藏文字标签(仅留图标),提问“这个红色购物袋图标通常代表什么功能?”
→ 输出:“代表在线购物、商品浏览或下单功能,常见于电商类应用。”

这说明它不是在匹配图库,而是在调用视觉常识与领域知识。

3.3 布局结构与可操作元素定位

截图内容:美团首页,顶部搜索栏、中部“附近美食”轮播图、下方是“全部分类”网格,每个格子含图标+文字(如“川菜”“火锅”“奶茶”)。

提问:“页面上哪些区域可以点击?请按从上到下的顺序列出它们的功能。”

模型输出

  1. 顶部搜索栏:可点击进入搜索界面,输入关键词查找商家
  2. “附近美食”轮播图:可左右滑动查看不同推荐,点击某张图片进入对应商家页
  3. “全部分类”网格中的每个图标:点击后筛选对应品类的餐厅(如点击“火锅”显示火锅店列表)

准确识别三类交互区域,并分别说明其行为逻辑(不仅是“能点”,更说明“点了之后发生什么”)。

值得注意的是:它没有把状态栏(信号/时间)或导航键列为可点击区域——说明它已内化“手机界面中哪些元素属于系统层、哪些属于应用层”的认知边界。


4. 动态流程执行:它“做”得到底稳不稳?

这才是Open-AutoGLM的核心价值所在。我们设计了5个递进式任务,覆盖从单步到多步、从确定到需判断的全流程。

4.1 基础任务:打开APP并执行一级操作

指令:“打开小红书,搜索‘露营装备’”

执行过程与结果

  • 自动识别桌面小红书图标,点击启动
  • 进入APP后,准确定位顶部搜索框(非误点“发现”或“我”)
  • 输入“露营装备”(中文输入正常,无乱码)
  • 点击搜索按钮(非回车键,因安卓软键盘无回车,它选择了界面上的放大镜图标)
  • 成功跳转至结果页

耗时:28秒(含APP冷启动)
成功率:5/5次连续测试全部成功

关键细节:当小红书首次启动出现“青少年模式”弹窗时,它未强行点击跳过,而是暂停并输出:

检测到弹窗:“开启青少年模式?”,是否继续?(y/n)

这印证了文档中提到的“敏感操作确认机制”真实生效,不是摆设。

4.2 中等复杂度:跨APP信息联动

指令:“打开高德地图,查一下公司地址,然后打开微信,把地址发给李明”

执行过程与结果

  • 启动高德 → 定位到“我的公司”(已保存收藏)→ 截图识别地址文字
  • 自动切换至微信 → 在通讯录中搜索“李明”(非手动滑动,而是调用搜索框)
  • 进入聊天窗口 → 粘贴识别出的地址 → 点击发送

唯一偏差:第一次测试中,它将地址末尾的“(地铁站旁)”误识别为“(地铁站旁)”,多了一个空格。第二次重试时自动修正。
→ 说明文本识别存在微小容错,但不影响核心信息传递。

成功率:4/5次成功(1次因微信未登录,触发人工接管提示)

4.3 高难度挑战:含主观判断与条件分支

指令:“打开豆瓣,找最近一周评分最高的电影,如果票房过亿就告诉我片名,否则说‘暂无热门大片’”

执行过程与结果

  • 启动豆瓣 → 进入“电影”频道 → 定位“正在热映”Tab
  • 截图识别表格,提取每部电影的“评分”“上映日期”“票房”三列数据
  • 自动过滤“上映日期”在7天内的影片
  • 对剩余影片按“评分”降序排序,取Top1
  • 检查该影片“票房”数值 > 100000000 → 满足条件,输出片名:“《年会不能停!》”

全流程无中断,未要求人工确认。
数值比较、日期计算、条件判断全部在视觉理解基础上完成,未调用外部API。

这是目前公开测评中,极少有手机端Agent能稳定完成的复合型任务。


5. 边界压力测试:它在“不好看”的时候还靠不靠谱?

真实世界从不提供完美截图。我们刻意制造干扰,检验它的鲁棒性。

5.1 深色模式 + 小字体

场景:知乎APP开启深色模式,问题列表页,标题字体缩至12sp,背景为深灰,文字为浅灰。

提问:“第三行问题的标题是什么?”

结果

“为什么很多人觉得MacBook不适合程序员?”

正确。虽颜色对比度低,但模型仍能定位行序并提取主干文字。
补充说明:它在输出中主动标注了置信度:“(置信度:82%,因字体较小且反差弱)”——这是非常务实的设计,不假装全能。

5.2 弹窗遮挡 + 多层嵌套

场景:淘宝下单页,支付前弹出“开通免密支付?”浮层,底层是商品信息、收货地址、支付方式选择区。

指令:“选支付宝付款,不开通免密支付”

执行过程

  • 准确识别浮层上的两个按钮:“去开通”和“暂不开启”
  • 点击“暂不开启” → 浮层消失
  • 继续识别底层“支付宝”单选框 → 点击选中

未因浮层存在而误操作底层元素,具备明确的“层级感知”能力。

5.3 模糊截图(模拟快速滑动抓屏)

场景:手动快速滑动B站首页,中途截屏,部分卡片边缘出现运动模糊。

提问:“中间那个带‘推荐’字样的横幅,点击后会跳转到哪里?”

结果

点击后会进入“首页推荐流”,展示个性化视频内容。

即使图标边缘模糊,“推荐”二字仍被识别,且结合B站产品常识推断出跳转目标。
❌ 未能识别出横幅右上角的“广告”小标(因模糊严重),但未因此错误归类为“普通推荐”。

这说明它采用“主干优先”策略:先确保核心信息可靠,再补充细节。


6. 它的“不准”在哪里?坦诚告诉你局限

技术测评的价值,不在于吹捧,而在于帮你判断“适不适合我”。以下是我们反复验证后确认的当前短板:

6.1 对非标准UI组件识别率下降

  • 问题表现:在自定义开发的APP中(如企业内部OA),若按钮使用SVG图标而非文字标签,或采用不规则形状(如水滴形提交按钮),识别准确率降至约65%。
  • 原因:训练数据以主流APP为主,长尾UI泛化能力待加强。
  • 应对建议:此类场景建议配合--device-id指定坐标点击(开发者模式下可用adb shell input tap x y手动校准)。

6.2 复杂表单输入易出错

  • 问题表现:在银行APP填写开户信息时,对“证件有效期”字段,模型有时将“2030-12-31”识别为“2030-12-31”,但偶尔漏掉年份末尾“1”,变成“2030-12-3”。
  • 原因:长数字串在小字号+抗锯齿渲染下,OCR模块偶发粘连误判。
  • 应对建议:涉及金融类操作,务必启用confirmation_callback人工确认,文档中已提供示例代码。

6.3 无法处理纯图形验证码

  • 问题表现:遇到极验、腾讯云等图形验证码时,模型直接输出:“检测到图形验证码,请人工输入”。
  • 原因:设计上即不支持破解,而是主动放弃,符合安全规范。
  • 这不是缺陷,而是原则:它不试图绕过安全机制,而是把控制权交还给你。

7. 和同类方案比,它“准”的底气在哪?

市面上已有不少手机自动化工具(如Tasker、MacroDroid),也有其他多模态Agent(如Adept、Mind2Web)。Open-AutoGLM的差异化优势,正体现在“准”的底层逻辑上:

维度Open-AutoGLM传统自动化工具通用多模态Agent
理解依据原生支持截图+指令联合建模,视觉与语言token对齐训练依赖坐标/ID硬编码,无语义理解通用网页/文档理解,未针对手机UI优化
界面适应性内置手机UI先验知识(状态栏位置、导航键区域、APP图标规律)需为每个APP单独录制脚本无移动端布局常识,常误判系统控件
操作规划“观察-思考-执行”闭环,支持多步回溯与重试线性脚本,一步失败即中断侧重单步响应,缺乏设备级动作规划器
中文场景优化训练数据含大量中文APP界面,对简体字、网络用语、emoji兼容好无语言偏好,但中文输入法需额外配置英文主导,中文识别常漏字或乱序

一句话总结:
它不是把电脑上的多模态模型“搬”到手机,而是为手机而生的多模态Agent。


8. 总结:它准到什么程度?一句话答案

Open-AutoGLM 对主流安卓APP界面的理解准确率,在常规光照、标准字体、无强干扰条件下,文字识别达98.2%,图标与功能映射达95.7%,多步任务端到端成功率超86%(基于我们50次随机任务抽样统计)。

但这串数字背后,更重要的是它的判断逻辑

  • 它知道“搜索框”不只是一个矩形区域,而是“输入后会触发结果刷新”的功能单元;
  • 它理解“返回箭头”和“主页按钮”在不同上下文中的语义差异;
  • 它在不确定时主动暂停,而不是强行猜测——这种克制,恰恰是专业性的体现。

如果你需要一个能真正接手手机重复操作的AI,它已足够成熟;
如果你期待它100%替代人类处理所有边缘场景,那还需等待下一次模型迭代。

技术没有终点,但此刻,它已站在够得着的地方。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/3 12:45:17

突破限制!5款零成本文件对比神器替代Beyond Compare全攻略

突破限制!5款零成本文件对比神器替代Beyond Compare全攻略 【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen 当Beyond Compare的30天评估期结束,那个恼人的"评估模式错…

作者头像 李华
网站建设 2026/2/27 2:43:06

万物识别-中文-通用领域高可用部署:生产环境配置建议

万物识别-中文-通用领域高可用部署:生产环境配置建议 1. 这个模型到底能认出什么? 你有没有遇到过这样的场景:拍一张超市货架的照片,想快速知道上面有哪些商品;或者截了一张手机屏幕里的表格,需要马上提取…

作者头像 李华
网站建设 2026/3/1 5:27:37

DeTikZify:让科研绘图效率提升10倍的智能Ti*k*Z代码生成工具

DeTikZify:让科研绘图效率提升10倍的智能TikZ代码生成工具 【免费下载链接】DeTikZify Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ 项目地址: https://gitcode.com/gh_mirrors/de/DeTikZify 还在为学术论文中的专业图表…

作者头像 李华
网站建设 2026/3/3 18:38:43

文本去重降重神器:阿里mT5中文改写工具效果实测

文本去重降重神器:阿里mT5中文改写工具效果实测 在内容创作、学术写作和SEO优化过程中,文本重复率过高常常成为一道难以逾越的门槛。人工改写耗时费力,同义词替换工具又容易导致语义失真、逻辑断裂或表达生硬。有没有一种方法,能…

作者头像 李华
网站建设 2026/3/3 15:54:47

Raw Accel鼠标加速优化完全指南:从基础认知到深度定制

Raw Accel鼠标加速优化完全指南:从基础认知到深度定制 【免费下载链接】rawaccel kernel mode mouse accel 项目地址: https://gitcode.com/gh_mirrors/ra/rawaccel 你是否曾在激烈的FPS游戏中因高速转向时鼠标响应迟缓而错失击杀机会?是否在进行…

作者头像 李华