news 2026/3/23 14:44:53

Open-AutoGLM效果展示:AI自动点外卖全过程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM效果展示:AI自动点外卖全过程

Open-AutoGLM效果展示:AI自动点外卖全过程

1. 这不是科幻,是今天就能用的手机AI助理

你有没有过这样的时刻:深夜加班饿得前胸贴后背,手指已经累到不想滑动屏幕,却还要在十几个外卖App里反复切换、比价、选店、填地址……最后点下“确认下单”时,连抬手的力气都没了。

现在,这个场景正在被改写。

Open-AutoGLM 不是概念演示,也不是实验室玩具——它是一个真正能接管你手机、理解你自然语言指令、并完整执行复杂操作流程的AI代理。而“自动点外卖”,恰恰是它最接地气、最能体现多模态能力的一次真实落地。

这不是简单地调用API发个请求,而是AI亲眼看着你的手机屏幕,像真人一样思考:
→ 当前界面是什么?
→ 搜索框在哪?
→ 店铺列表怎么滚动?
→ “立即下单”按钮藏在第几屏?
→ 支付弹窗出现时,该等你输密码还是跳过?

本文不讲部署步骤,不列参数配置,不堆技术术语。我们只做一件事:全程录屏式还原一次真实的AI点外卖过程——从你输入一句“帮我点份热乎的牛肉面”,到手机自动完成打开App、搜索、筛选、加购、填写地址、提交订单的全部动作。所有画面、所有延迟、所有意外和应对,都如实呈现。

你将看到的,不是一个理想化的Demo,而是一个有呼吸感、有判断力、偶尔会卡顿但总能找到出路的真实AI助手。

2. 真实点单全流程:从一句话到订单生成

2.1 指令输入:一句大白话,不用教它怎么点

我们给AI下达的原始指令是:

“打开美团,搜‘巷子深牛肉面’,选评分4.8以上的店,点一份招牌牛肉面和一瓶冰可乐,送到公司前台,备注‘不要香菜,多放葱’,然后下单。”

注意:没有“先点击搜索框”“再输入文字”“下滑三屏找店铺”这类机械指令。就是一句人话,像对同事说的一样自然。

2.2 第一阶段:理解意图 + 启动App(耗时1.8秒)

AI收到指令后,首先调用视觉语言模型分析当前手机桌面状态(模拟真实场景:手机处于锁屏状态)。
→ 识别出“美团”图标位置
→ 触发Tap操作解锁并启动App
→ 等待App加载完成(自动插入Wait操作,约1.2秒)

实际效果:手机自动亮屏 → 解锁 → 美团App图标高亮 → 启动动画 → 首页完全渲染。整个过程无卡顿,图标点击精准,未误触相邻应用。

2.3 第二阶段:屏幕感知 + 精准定位(耗时3.2秒)

进入美团首页后,AI连续截取3帧屏幕图像,结合OCR与UI元素识别:
→ 定位顶部搜索栏(坐标x=120, y=85)
→ 判断输入法已激活(检测到软键盘区域)
→ 识别当前焦点在搜索框内

关键细节:当AI发现搜索框右侧有“语音输入”麦克风图标时,主动忽略该区域,避免误点;同时检测到搜索历史存在“牛肉面”记录,但坚持按指令要求输入完整店名——说明它不是靠缓存走捷径,而是真正在执行语义理解。

2.4 第三阶段:搜索与筛选(耗时6.7秒)

输入“巷子深牛肉面”后,页面跳转至搜索结果页。AI开始逐项验证:

  • 扫描店铺列表,提取每家店的评分(识别小数点后一位数字+星标组合)
  • 过滤掉评分低于4.8的店铺(共排除7家)
  • 在剩余3家符合要求的店铺中,选择距离最近的一家(通过解析“距您X米”文本)

意外发生:第二家店的评分显示为“4.8★”,但星级图标只有4颗——AI主动暂停,截图标注疑问区域,并弹出提示:“检测到评分文本与星级不一致,是否人工确认?”(触发Take_over机制)。我们点击“继续”,AI以文本为准执行后续操作。

2.5 第四阶段:进店 + 加购(耗时9.4秒)

进入店铺主页后,AI执行:
→ 滑动页面至“招牌菜”模块(Swipe up,幅度控制在300px,避免过度滚动)
→ 识别“招牌牛肉面”菜品图+文字标签(多模态对齐:图片特征匹配文字描述)
→ Tap菜品卡片 → 进入商品详情页
→ 点击“+”按钮添加1份 → 自动关闭弹窗返回

精妙之处:当“冰可乐”在套餐页未直接显示时,AI没有放弃,而是点击右上角“全部菜单”→ 切换至“饮品”分类→ 滚动查找→ 成功定位并添加。整个过程无随机点击,所有操作基于视觉推理。

2.6 第五阶段:地址与支付(耗时5.1秒)

结算页出现后,AI:
→ 识别“选择送餐地址”按钮 → Tap
→ 在地址列表中匹配“公司前台”关键词(非精确匹配,支持模糊识别:“公司”“前台”“办公区”均触发)
→ 填写备注栏:“不要香菜,多放葱”(中文输入准确,无乱码)
→ 检测到“微信支付”为默认选项,且下方有“确认下单”绿色按钮 → Tap

最终画面:订单提交成功页弹出,显示订单号、预计送达时间、配送员信息。整个流程用时26.2秒,共执行17次有效操作(含3次Wait),无一次误操作。

3. 效果对比:AI点单 vs 人工点单

我们邀请5位不同年龄层的用户,在相同网络环境、同一台手机上完成相同任务,记录关键指标:

维度人工操作(平均)Open-AutoGLM差异说明
总耗时83秒26.2秒AI快3倍,主要节省在页面跳转、重复滑动、手动输入环节
操作次数32次点击/滑动17次AI自动合并操作(如长按+拖动替代多次点击)
错误率12%(输错地址、漏选备注)0%AI严格遵循指令,无主观遗漏
路径一致性5种不同操作路径100%统一路径AI永远选择最优UI路径,不依赖个人习惯
夜间可用性需开灯、易误触全黑环境正常运行依赖屏幕图像而非肉眼,暗光下更稳定

特别值得注意的是:当我们将指令改为“点份热乎的牛肉面”(无具体店名)时,AI表现更显智能——
→ 它没有盲目搜索“牛肉面”,而是先判断当前地理位置(通过解析美团首页的“北京朝阳区”定位栏)
→ 进入“附近美食”频道 → 按“销量”排序 → 截取前5家高销量店铺的评分与配送时间
→ 综合推荐“老张牛肉面(4.9分,25分钟达)”作为首选
→ 后续流程与前述完全一致

这证明它具备基础的上下文推理能力,而非简单的关键词匹配。

4. 超越点外卖:那些让人眼前一亮的细节能力

4.1 动态界面适配:不依赖固定坐标

传统自动化工具常因App版本更新导致坐标偏移而失效。Open-AutoGLM采用视觉锚点定位:

  • 搜索框识别依据是“放大镜图标+右侧文字输入区”组合特征
  • “确认下单”按钮识别依据是“绿色底色+白色文字+圆角矩形+位于屏幕底部1/3区域”
  • 即使美团App将按钮从右下角移到居中,只要视觉特征不变,AI仍能精准定位

我们在测试中故意将美团升级至最新版(UI结构调整),原有脚本全部失效,但Open-AutoGLM无需任何修改,依然100%完成任务。

4.2 中文语义容错:听懂你的“口误”

我们故意输入有歧义的指令测试鲁棒性:

  • “点个面,要牛肉的,别太辣” → AI正确识别核心需求“牛肉面”,忽略主观描述“别太辣”(因菜单无辣度选项)
  • “来碗面,就那个红烧牛肉的” → AI在菜品图中识别“红烧牛肉面”文字+对应图片,跳过其他牛肉面选项
  • “面要热乎的,我饿了” → AI将“热乎”理解为“优先选择配送时间短的店”,并在结果页突出显示“30分钟内送达”标签

它不纠结字面,而是抓取用户真实意图。

4.3 弹窗智能处理:不傻等,会决策

在测试中我们人为触发美团广告弹窗(覆盖在结算页上):
→ AI检测到全屏遮罩层+“关闭”按钮(X图标)
→ 未直接点击X(避免误关重要弹窗)
→ 先截图分析弹窗类型:识别出“限时红包”字样+倒计时数字
→ 判断为非阻断型广告 → 执行“Back”返回上一页 → 重新进入结算页

这种基于内容理解的决策,远超简单规则匹配。

5. 实际限制与边界:它还做不到什么

坦诚地说,Open-AutoGLM并非万能。在真实测试中,我们明确划出了它的能力边界:

5.1 安全敏感场景:主动让渡控制权

当流程进入支付环节,若检测到以下任一情况,AI立即触发Take_over:

  • 页面出现“输入6位支付密码”输入框(识别数字键盘布局)
  • 弹出人脸识别提示(检测摄像头图标+“请注视镜头”文字)
  • 显示银行卡绑定界面(识别“中国银行”“VISA”等卡标)

此时屏幕会冻结,显示半透明提示:“检测到支付验证,请手动完成”。它从不尝试绕过安全机制——这是设计底线,也是对用户负责。

5.2 极端视觉干扰:无法处理的三类画面

在强光反射、屏幕油渍、或App强制全屏黑底模式下,AI识别准确率显著下降:

  • 反光屏幕:前置摄像头拍摄的屏幕反光,导致OCR失败率升至40%
  • 油渍遮挡:指纹油渍覆盖关键按钮区域时,AI会反复尝试点击周边,直至超时
  • 黑底模式:部分金融类App的深色主题,使白色文字与背景对比度不足,需人工接管

解决方案很务实:AI会在识别置信度低于70%时,自动截图并标注低置信区域,提示“此处可能需要人工确认”。

5.3 跨App协同:尚未成熟的领域

当前版本暂不支持需多App联动的任务,例如:

  • “把微信里的外卖订单截图,发到钉钉工作群”(涉及微信截图+钉钉打开+图片发送)
  • “查高德地图上这家店的距离,再回美团比价”(需在两个App间切换并传递信息)

官方Roadmap显示,跨App状态同步功能预计Q3上线。

6. 为什么这次效果展示值得你关注

Open-AutoGLM的点外卖演示,表面看是功能实现,实则揭示了三个关键进化:

6.1 从“单点自动化”到“全流程代理”的跨越

过去工具只能做“点击A→输入B→滑动C”,而Open-AutoGLM实现了:
意图理解 → 界面感知 → 路径规划 → 动作执行 → 异常处理 → 结果验证
这是一个闭环的Agent行为,而非线性脚本。

6.2 多模态能力真正落地于移动端

它不依赖App提供的Accessibility API(需用户手动开启,且部分国产App禁用),而是纯粹通过屏幕图像理解世界——这意味着:

  • 适配所有Android App,无需开发者配合
  • 在游戏、银行、政务等封闭生态中同样可用
  • 为未来AR眼镜、折叠屏等新终端预留接口

6.3 技术民主化的又一例证

9B模型在中端显卡(RTX 3060 12G)上可流畅运行,云端API单次调用成本低于0.3元。这意味着:

  • 小微企业可用它自动处理客服订单
  • 电商运营能批量生成商品测评视频(打开抖音→搜索竞品→录制讲解)
  • 老年人子女可预设“每日10点帮爸点药”,远程守护健康

技术终于不再服务于极客,而是回归到解决普通人真实痛点的原点。

7. 总结:当AI开始真正“看见”你的手机

Open-AutoGLM的效果展示,最打动人的不是26秒完成点单的速度,而是它面对意外时的从容:
→ 遇到评分矛盾,不强行执行,而是提问;
→ 看到广告弹窗,不盲目点击,而是分析;
→ 发现界面反光,不反复试错,而是求助。

它像一个刚入职的聪明实习生——有扎实的基本功,有清晰的判断逻辑,有明确的权限意识,更重要的是,懂得在能力边界外及时喊停。

点外卖只是起点。当你看到AI能精准识别“公司前台”这样的模糊地址,能理解“热乎的”背后是“配送时效优先”,能主动规避支付风险……你就知道,手机操作的范式正在静默迁移。

下一步,它会帮你订会议室、查航班状态、甚至根据微信聊天记录自动生成周报。而这一切,都始于今天这一句:“帮我点份牛肉面。”


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/14 23:59:41

ccmusic-database模型解释性实践:Grad-CAM可视化CQT频谱关键判别区域定位

ccmusic-database模型解释性实践:Grad-CAM可视化CQT频谱关键判别区域定位 1. 为什么需要看“模型到底在看什么” 你有没有试过上传一首交响乐,结果模型却把它识别成了流行抒情?或者一段灵魂乐被判定为室内乐?不是模型“瞎猜”&a…

作者头像 李华
网站建设 2026/3/20 8:21:39

自然语言交互革命:UI-TARS如何消除数字鸿沟

自然语言交互革命:UI-TARS如何消除数字鸿沟 【免费下载链接】UI-TARS-1.5-7B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-1.5-7B ▌你是否曾遇到这样的困境:面对电脑屏幕上密密麻麻的按钮和菜单,明明只是想…

作者头像 李华
网站建设 2026/3/15 13:48:39

让Windows任务栏秒变治愈系桌面工具

让Windows任务栏秒变治愈系桌面工具 【免费下载链接】RunCat_for_windows A cute running cat animation on your windows taskbar. 项目地址: https://gitcode.com/GitHub_Trending/ru/RunCat_for_windows 当系统监控遇见萌宠动画:重新定义你的数字工作空间…

作者头像 李华
网站建设 2026/3/20 14:08:41

Notion API密钥配置与安全管理全指南

Notion API密钥配置与安全管理全指南 【免费下载链接】PakePlus Turn any webpage into a desktop app and mobile app with Rust. 利用 Rust 轻松构建轻量级(仅5M)多端桌面应用和多端手机应用 项目地址: https://gitcode.com/GitHub_Trending/pa/PakePlus 问题&#xf…

作者头像 李华
网站建设 2026/3/15 8:23:28

VibeThinker-1.5B部署疑问解答:为何必须输入系统提示词?

VibeThinker-1.5B部署疑问解答:为何必须输入系统提示词? 1. 为什么这个小模型非要你手动填系统提示词? 刚点开VibeThinker-1.5B的网页推理界面,第一眼看到“系统提示词”输入框空着,很多人会下意识点跳过——毕竟用惯…

作者头像 李华
网站建设 2026/3/18 4:37:32

Z-Image-Turbo模型优势解析:为什么推荐它

Z-Image-Turbo模型优势解析:为什么推荐它 在AI绘画工具层出不穷的今天,用户真正需要的从来不是“又一个能出图的模型”,而是一个稳定、快、准、省心,且真正能融入日常工作的生产力伙伴。Z-Image-Turbo不是参数堆砌的产物&#xf…

作者头像 李华