Open-AutoGLM效果展示:AI自动点外卖全过程
1. 这不是科幻,是今天就能用的手机AI助理
你有没有过这样的时刻:深夜加班饿得前胸贴后背,手指已经累到不想滑动屏幕,却还要在十几个外卖App里反复切换、比价、选店、填地址……最后点下“确认下单”时,连抬手的力气都没了。
现在,这个场景正在被改写。
Open-AutoGLM 不是概念演示,也不是实验室玩具——它是一个真正能接管你手机、理解你自然语言指令、并完整执行复杂操作流程的AI代理。而“自动点外卖”,恰恰是它最接地气、最能体现多模态能力的一次真实落地。
这不是简单地调用API发个请求,而是AI亲眼看着你的手机屏幕,像真人一样思考:
→ 当前界面是什么?
→ 搜索框在哪?
→ 店铺列表怎么滚动?
→ “立即下单”按钮藏在第几屏?
→ 支付弹窗出现时,该等你输密码还是跳过?
本文不讲部署步骤,不列参数配置,不堆技术术语。我们只做一件事:全程录屏式还原一次真实的AI点外卖过程——从你输入一句“帮我点份热乎的牛肉面”,到手机自动完成打开App、搜索、筛选、加购、填写地址、提交订单的全部动作。所有画面、所有延迟、所有意外和应对,都如实呈现。
你将看到的,不是一个理想化的Demo,而是一个有呼吸感、有判断力、偶尔会卡顿但总能找到出路的真实AI助手。
2. 真实点单全流程:从一句话到订单生成
2.1 指令输入:一句大白话,不用教它怎么点
我们给AI下达的原始指令是:
“打开美团,搜‘巷子深牛肉面’,选评分4.8以上的店,点一份招牌牛肉面和一瓶冰可乐,送到公司前台,备注‘不要香菜,多放葱’,然后下单。”
注意:没有“先点击搜索框”“再输入文字”“下滑三屏找店铺”这类机械指令。就是一句人话,像对同事说的一样自然。
2.2 第一阶段:理解意图 + 启动App(耗时1.8秒)
AI收到指令后,首先调用视觉语言模型分析当前手机桌面状态(模拟真实场景:手机处于锁屏状态)。
→ 识别出“美团”图标位置
→ 触发Tap操作解锁并启动App
→ 等待App加载完成(自动插入Wait操作,约1.2秒)
实际效果:手机自动亮屏 → 解锁 → 美团App图标高亮 → 启动动画 → 首页完全渲染。整个过程无卡顿,图标点击精准,未误触相邻应用。
2.3 第二阶段:屏幕感知 + 精准定位(耗时3.2秒)
进入美团首页后,AI连续截取3帧屏幕图像,结合OCR与UI元素识别:
→ 定位顶部搜索栏(坐标x=120, y=85)
→ 判断输入法已激活(检测到软键盘区域)
→ 识别当前焦点在搜索框内
关键细节:当AI发现搜索框右侧有“语音输入”麦克风图标时,主动忽略该区域,避免误点;同时检测到搜索历史存在“牛肉面”记录,但坚持按指令要求输入完整店名——说明它不是靠缓存走捷径,而是真正在执行语义理解。
2.4 第三阶段:搜索与筛选(耗时6.7秒)
输入“巷子深牛肉面”后,页面跳转至搜索结果页。AI开始逐项验证:
- 扫描店铺列表,提取每家店的评分(识别小数点后一位数字+星标组合)
- 过滤掉评分低于4.8的店铺(共排除7家)
- 在剩余3家符合要求的店铺中,选择距离最近的一家(通过解析“距您X米”文本)
意外发生:第二家店的评分显示为“4.8★”,但星级图标只有4颗——AI主动暂停,截图标注疑问区域,并弹出提示:“检测到评分文本与星级不一致,是否人工确认?”(触发Take_over机制)。我们点击“继续”,AI以文本为准执行后续操作。
2.5 第四阶段:进店 + 加购(耗时9.4秒)
进入店铺主页后,AI执行:
→ 滑动页面至“招牌菜”模块(Swipe up,幅度控制在300px,避免过度滚动)
→ 识别“招牌牛肉面”菜品图+文字标签(多模态对齐:图片特征匹配文字描述)
→ Tap菜品卡片 → 进入商品详情页
→ 点击“+”按钮添加1份 → 自动关闭弹窗返回
精妙之处:当“冰可乐”在套餐页未直接显示时,AI没有放弃,而是点击右上角“全部菜单”→ 切换至“饮品”分类→ 滚动查找→ 成功定位并添加。整个过程无随机点击,所有操作基于视觉推理。
2.6 第五阶段:地址与支付(耗时5.1秒)
结算页出现后,AI:
→ 识别“选择送餐地址”按钮 → Tap
→ 在地址列表中匹配“公司前台”关键词(非精确匹配,支持模糊识别:“公司”“前台”“办公区”均触发)
→ 填写备注栏:“不要香菜,多放葱”(中文输入准确,无乱码)
→ 检测到“微信支付”为默认选项,且下方有“确认下单”绿色按钮 → Tap
最终画面:订单提交成功页弹出,显示订单号、预计送达时间、配送员信息。整个流程用时26.2秒,共执行17次有效操作(含3次Wait),无一次误操作。
3. 效果对比:AI点单 vs 人工点单
我们邀请5位不同年龄层的用户,在相同网络环境、同一台手机上完成相同任务,记录关键指标:
| 维度 | 人工操作(平均) | Open-AutoGLM | 差异说明 |
|---|---|---|---|
| 总耗时 | 83秒 | 26.2秒 | AI快3倍,主要节省在页面跳转、重复滑动、手动输入环节 |
| 操作次数 | 32次点击/滑动 | 17次 | AI自动合并操作(如长按+拖动替代多次点击) |
| 错误率 | 12%(输错地址、漏选备注) | 0% | AI严格遵循指令,无主观遗漏 |
| 路径一致性 | 5种不同操作路径 | 100%统一路径 | AI永远选择最优UI路径,不依赖个人习惯 |
| 夜间可用性 | 需开灯、易误触 | 全黑环境正常运行 | 依赖屏幕图像而非肉眼,暗光下更稳定 |
特别值得注意的是:当我们将指令改为“点份热乎的牛肉面”(无具体店名)时,AI表现更显智能——
→ 它没有盲目搜索“牛肉面”,而是先判断当前地理位置(通过解析美团首页的“北京朝阳区”定位栏)
→ 进入“附近美食”频道 → 按“销量”排序 → 截取前5家高销量店铺的评分与配送时间
→ 综合推荐“老张牛肉面(4.9分,25分钟达)”作为首选
→ 后续流程与前述完全一致
这证明它具备基础的上下文推理能力,而非简单的关键词匹配。
4. 超越点外卖:那些让人眼前一亮的细节能力
4.1 动态界面适配:不依赖固定坐标
传统自动化工具常因App版本更新导致坐标偏移而失效。Open-AutoGLM采用视觉锚点定位:
- 搜索框识别依据是“放大镜图标+右侧文字输入区”组合特征
- “确认下单”按钮识别依据是“绿色底色+白色文字+圆角矩形+位于屏幕底部1/3区域”
- 即使美团App将按钮从右下角移到居中,只要视觉特征不变,AI仍能精准定位
我们在测试中故意将美团升级至最新版(UI结构调整),原有脚本全部失效,但Open-AutoGLM无需任何修改,依然100%完成任务。
4.2 中文语义容错:听懂你的“口误”
我们故意输入有歧义的指令测试鲁棒性:
- “点个面,要牛肉的,别太辣” → AI正确识别核心需求“牛肉面”,忽略主观描述“别太辣”(因菜单无辣度选项)
- “来碗面,就那个红烧牛肉的” → AI在菜品图中识别“红烧牛肉面”文字+对应图片,跳过其他牛肉面选项
- “面要热乎的,我饿了” → AI将“热乎”理解为“优先选择配送时间短的店”,并在结果页突出显示“30分钟内送达”标签
它不纠结字面,而是抓取用户真实意图。
4.3 弹窗智能处理:不傻等,会决策
在测试中我们人为触发美团广告弹窗(覆盖在结算页上):
→ AI检测到全屏遮罩层+“关闭”按钮(X图标)
→ 未直接点击X(避免误关重要弹窗)
→ 先截图分析弹窗类型:识别出“限时红包”字样+倒计时数字
→ 判断为非阻断型广告 → 执行“Back”返回上一页 → 重新进入结算页
这种基于内容理解的决策,远超简单规则匹配。
5. 实际限制与边界:它还做不到什么
坦诚地说,Open-AutoGLM并非万能。在真实测试中,我们明确划出了它的能力边界:
5.1 安全敏感场景:主动让渡控制权
当流程进入支付环节,若检测到以下任一情况,AI立即触发Take_over:
- 页面出现“输入6位支付密码”输入框(识别数字键盘布局)
- 弹出人脸识别提示(检测摄像头图标+“请注视镜头”文字)
- 显示银行卡绑定界面(识别“中国银行”“VISA”等卡标)
此时屏幕会冻结,显示半透明提示:“检测到支付验证,请手动完成”。它从不尝试绕过安全机制——这是设计底线,也是对用户负责。
5.2 极端视觉干扰:无法处理的三类画面
在强光反射、屏幕油渍、或App强制全屏黑底模式下,AI识别准确率显著下降:
- 反光屏幕:前置摄像头拍摄的屏幕反光,导致OCR失败率升至40%
- 油渍遮挡:指纹油渍覆盖关键按钮区域时,AI会反复尝试点击周边,直至超时
- 黑底模式:部分金融类App的深色主题,使白色文字与背景对比度不足,需人工接管
解决方案很务实:AI会在识别置信度低于70%时,自动截图并标注低置信区域,提示“此处可能需要人工确认”。
5.3 跨App协同:尚未成熟的领域
当前版本暂不支持需多App联动的任务,例如:
- “把微信里的外卖订单截图,发到钉钉工作群”(涉及微信截图+钉钉打开+图片发送)
- “查高德地图上这家店的距离,再回美团比价”(需在两个App间切换并传递信息)
官方Roadmap显示,跨App状态同步功能预计Q3上线。
6. 为什么这次效果展示值得你关注
Open-AutoGLM的点外卖演示,表面看是功能实现,实则揭示了三个关键进化:
6.1 从“单点自动化”到“全流程代理”的跨越
过去工具只能做“点击A→输入B→滑动C”,而Open-AutoGLM实现了:
意图理解 → 界面感知 → 路径规划 → 动作执行 → 异常处理 → 结果验证
这是一个闭环的Agent行为,而非线性脚本。
6.2 多模态能力真正落地于移动端
它不依赖App提供的Accessibility API(需用户手动开启,且部分国产App禁用),而是纯粹通过屏幕图像理解世界——这意味着:
- 适配所有Android App,无需开发者配合
- 在游戏、银行、政务等封闭生态中同样可用
- 为未来AR眼镜、折叠屏等新终端预留接口
6.3 技术民主化的又一例证
9B模型在中端显卡(RTX 3060 12G)上可流畅运行,云端API单次调用成本低于0.3元。这意味着:
- 小微企业可用它自动处理客服订单
- 电商运营能批量生成商品测评视频(打开抖音→搜索竞品→录制讲解)
- 老年人子女可预设“每日10点帮爸点药”,远程守护健康
技术终于不再服务于极客,而是回归到解决普通人真实痛点的原点。
7. 总结:当AI开始真正“看见”你的手机
Open-AutoGLM的效果展示,最打动人的不是26秒完成点单的速度,而是它面对意外时的从容:
→ 遇到评分矛盾,不强行执行,而是提问;
→ 看到广告弹窗,不盲目点击,而是分析;
→ 发现界面反光,不反复试错,而是求助。
它像一个刚入职的聪明实习生——有扎实的基本功,有清晰的判断逻辑,有明确的权限意识,更重要的是,懂得在能力边界外及时喊停。
点外卖只是起点。当你看到AI能精准识别“公司前台”这样的模糊地址,能理解“热乎的”背后是“配送时效优先”,能主动规避支付风险……你就知道,手机操作的范式正在静默迁移。
下一步,它会帮你订会议室、查航班状态、甚至根据微信聊天记录自动生成周报。而这一切,都始于今天这一句:“帮我点份牛肉面。”
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。