news 2026/4/15 19:10:40

教你用Open-AutoGLM自动下单美团外卖,全程无干预

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
教你用Open-AutoGLM自动下单美团外卖,全程无干预

教你用Open-AutoGLM自动下单美团外卖,全程无干预

1. 这不是科幻,是今天就能用上的手机AI助理

你有没有过这样的经历:深夜加班饿得前胸贴后背,打开美团外卖翻了二十分钟,还在纠结“到底吃啥”;手指划到发酸,终于选好店铺,又卡在填写地址、选择优惠券、确认支付这一连串操作上;眼看配送时间从30分钟变成45分钟,心里默默叹气——点个外卖,怎么比写代码还费劲?

现在,这个问题有解了。

智谱AI开源的Open-AutoGLM不是另一个聊天机器人,也不是只能回答问题的“嘴强王者”。它是一个真正能“看见”你手机屏幕、“理解”你自然语言指令、“动手”完成任务的手机端AI Agent。它不靠预设脚本,不依赖固定界面结构,而是像一个熟悉安卓系统的真人助手——你告诉它“帮我点份黄焖鸡米饭,送到公司前台”,它就真的会打开美团、搜索、筛选、加购、填地址、选优惠、点支付,一气呵成。

更关键的是:整个过程你完全不用碰手机。它通过ADB连接真机,用视觉语言模型实时分析每一帧屏幕画面,再规划下一步动作。这不是概念演示,而是已在真实设备上稳定运行的工程化框架。

这篇文章不讲大道理,不堆技术参数,只带你一步步把这套能力装进你的手机,然后亲手让它帮你点一次外卖。全程可验证、可复现、无黑箱。


2. 它到底怎么做到“看懂屏幕+自动操作”的?

2.1 核心不是“猜”,而是“看见+推理”

很多自动化工具靠坐标点击或UI控件ID来操作,一旦APP更新、界面微调,就全盘失效。Open-AutoGLM完全不同——它的底层是AutoGLM-Phone-9B,一个专为移动端优化的多模态大模型。

它的工作流非常清晰:

  1. 截屏:每一步操作前,自动调用ADB抓取当前手机屏幕图像;
  2. 理解:把截图 + 你的文字指令(如“点外卖”)一起输入模型,模型输出结构化动作意图(例如:“找到‘美团外卖’图标并点击”);
  3. 规划:根据当前界面状态,生成下一步最合理的操作序列(点击?滑动?输入文字?);
  4. 执行:调用ADB命令真实执行(adb shell input tap x y);
  5. 循环:再次截屏 → 再次理解 → 再次规划 → 直到任务完成。

这个闭环里,没有硬编码的坐标,没有脆弱的XPath,只有对界面语义的理解。所以哪怕美团APP今天改了图标位置、明天换了按钮颜色,只要功能逻辑没变,它依然能认出来、点进去、干完活。

2.2 安全不是口号,是设计在骨子里的机制

你可能会担心:“让AI随便操作我的手机,会不会误点支付、泄露隐私?”

Open-AutoGLM 把安全当作第一优先级:

  • 敏感操作强制人工确认:当检测到“支付”“转账”“修改密码”等关键词或界面元素时,流程会自动暂停,弹出提示框,必须你手动点击“继续”才执行;
  • 验证码场景无缝接管:遇到短信验证码、图形验证码,系统会停止自动化,把控制权交还给你,填完再继续;
  • 操作全程可追溯:每一步动作(截图、模型输出、ADB命令)都记录日志,你可以随时回看“它刚才干了什么”。

这不是“信任AI”,而是“让AI在你的监督下干活”。


3. 手把手部署:从零开始,30分钟搞定真机自动下单

别被“AI”“多模态”这些词吓住。Open-AutoGLM 的设计目标就是让开发者和普通用户都能快速上手。下面所有步骤,我都按真实操作顺序整理,跳过所有弯路。

提示:本文以Windows + 真机USB连接为例,macOS和WiFi连接方式在文末单独说明,原理完全一致。

3.1 准备工作:三样东西,缺一不可

项目要求验证方式
一台安卓手机Android 7.0 及以上,已开启开发者模式和USB调试设置 → 关于手机 → 连续点击“版本号”7次 → 返回设置 → 开发者选项 → 开启“USB调试”
一台电脑Windows 或 macOS,已安装 Python 3.10+命令行输入python --version,显示Python 3.10.x或更高
ADB 工具Android Debug Bridge,用于电脑与手机通信下载 platform-tools,解压后将文件夹路径添加到系统环境变量,命令行输入adb version应返回版本号

特别注意:手机需安装ADB Keyboard(GitHub下载链接),并在手机“设置 → 语言与输入法”中,将默认输入法切换为它。这是实现自动输入文字的关键,否则AI无法在搜索框里打字。

3.2 一键连接:让电脑“认出”你的手机

  1. 用原装USB线将手机连接电脑;
  2. 手机弹出“允许USB调试吗?”提示,勾选“始终允许”,点击确定;
  3. 打开电脑命令行(Windows:CMD 或 PowerShell;macOS:Terminal),输入:
    adb devices
    如果看到类似ZY223456789 device的输出,说明连接成功
    如果显示List of devices attached下面为空,或显示unauthorized,请检查USB调试是否开启、驱动是否安装、手机是否信任该电脑。

3.3 下载并安装 Open-AutoGLM 控制端

在电脑上执行以下命令(确保已安装 Git):

# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐,避免依赖冲突) python -m venv venv venv\Scripts\activate # Windows # venv/bin/activate # macOS/Linux # 安装依赖 pip install -r requirements.txt pip install -e .

小贴士:如果pip install报错torch相关问题,请先访问 PyTorch官网,根据你的系统和CUDA版本安装对应torch,再重试。

3.4 选择模型服务:三种方式,总有一款适合你

Open-AutoGLM 本身是控制框架,真正“思考”的是背后的视觉语言模型。你有三个选择:

方式优点适合谁配置要点
智谱 BigModel API(推荐新手)无需本地显卡,开箱即用,稳定性高想快速验证效果、无GPU设备注册 智谱AI平台 → 获取API Key →--base-url https://open.bigmodel.cn/api/paas/v4--api-key your_key
魔搭 ModelScope API同样免部署,国内访问快偏好国产平台、网络环境受限注册 ModelScope → 获取Token →--base-url https://api-inference.modelscope.cn/v1--api-key your_token
本地部署(进阶)完全离线、响应更快、可深度定制有NVIDIA显卡(≥8G显存)、追求极致控制使用vLLM部署zai-org/AutoGLM-Phone-9B,启动后服务地址为http://localhost:8000/v1

本文演示使用智谱 BigModel API,因为它最简单、最可靠,且对新手友好。你只需替换your_api_key_here即可。

3.5 执行第一次自动下单:一条命令,见证奇迹

确保手机已解锁并停留在桌面(不要在锁屏或任何APP内),然后在 Open-AutoGLM 项目根目录下,运行:

python main.py \ --device-id ZY223456789 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --api-key your_api_key_here \ "打开美团外卖,搜索‘黄焖鸡米饭’,选择评分4.8以上的店铺,加入购物车,填写收货地址为北京市朝阳区建国路88号SOHO现代城A座,选择满30减5优惠券,提交订单"

替换说明:

  • --device-id:用你自己的设备ID(adb devices输出的第一列);
  • --api-key:替换成你在智谱平台申请的真实API Key;
  • 最后一串引号里的文字,就是你给AI下的“自然语言指令”,越具体,成功率越高。

你会看到命令行开始滚动日志:

  • [INFO] Capturing screenshot...→ 截图上传
  • [INFO] Querying model...→ 模型正在“看图说话”
  • [INFO] Executing action: tap (x=520, y=1240)→ 真实点击发生
  • ……
    几秒后,你的手机屏幕上,美团APP自动打开、搜索框出现文字、列表滚动、店铺被选中、地址自动填写、优惠券自动勾选、最终停留在“确认支付”页面。

任务完成!整个过程无需你任何干预,就像有个同事坐在你旁边,帮你把外卖点好了。


4. 实战技巧:让自动下单更稳、更快、更聪明

光会跑通一次还不够。真实使用中,你会遇到各种边界情况。以下是我在实测中总结的5个关键技巧,直接决定成功率:

4.1 指令要“像教真人一样具体”,而不是“像写代码一样抽象”

❌ 错误示范(太模糊):
“帮我点个外卖”

正确示范(带上下文+约束+动作):
“打开美团外卖APP,点击首页搜索框,输入‘黄焖鸡米饭’,在结果页向上滑动,找到店铺名含‘老张’且评分大于4.7的店铺,点击进入,选择‘单人套餐A’,点击‘去结算’,在地址栏输入‘北京市朝阳区建国路88号SOHO现代城A座1201室’,勾选‘满30减5’优惠券,点击‘提交订单’”

原理:模型需要明确的“起点→路径→终点”。越具体的指令,越少歧义,越少走弯路。

4.2 首次使用,务必从“低风险任务”开始练手

不要一上来就挑战“支付”。建议按这个顺序渐进:

  1. 打开微信,给文件传输助手发送‘Hello’(验证基础操作)
  2. 打开小红书,搜索‘北京美食’,点击第一个笔记(验证图文识别)
  3. 打开美团外卖,搜索‘咖啡’,查看前三个店铺的评分(验证信息提取)
  4. 打开美团外卖,搜索‘黄焖鸡’,选择一家店,加入购物车(验证电商流程)
  5. ……最后才是完整下单

每一步成功,都是对模型理解和ADB控制能力的一次确认。

4.3 网络不稳定?换WiFi远程连接,摆脱USB线束缚

USB线虽稳定,但限制活动范围。Open-AutoGLM 支持WiFi无线控制:

# 第一步:用USB线连接,开启ADB TCP/IP模式 adb tcpip 5555 # 第二步:拔掉USB线,连接同一WiFi,获取手机IP(设置 → WLAN → 点击当前网络 → 查看IP地址) # 第三步:用IP连接 adb connect 192.168.1.100:5555 # 替换为你手机的真实IP # 第四步:运行命令时,--device-id 改为 IP:端口 python main.py --device-id 192.168.1.100:5555 --base-url ... "你的指令"

从此,你躺在沙发上,手机放在茶几上,也能远程指挥它干活。

4.4 遇到“卡住”?三招快速诊断

如果AI在某一步反复尝试、不前进,别急着重装:

  1. 看日志最后一行:通常会提示“未找到XX元素”,说明模型没识别到你要点的按钮;
  2. 手动操作一次:你自己在手机上走一遍流程,观察那个按钮在屏幕上的大概位置(比如“底部中间”“右上角三个点”),下次指令里加上方位描述;
  3. 加一句“如果找不到,就向下滑动一页”:给模型提供 fallback 策略,它会主动尝试滚动。

4.5 想批量处理?用Python API写个“外卖小管家”

main.py是交互式入口,但真正工程化要用API。下面是一段真实可用的代码,封装成函数,以后只需调用order_food("黄焖鸡")就行:

# order_helper.py from phone_agent.main import run_agent from phone_agent.adb import ADBConnection def order_food(dish_name: str, address: str): """自动下单指定菜品""" conn = ADBConnection() success, msg = conn.connect("ZY223456789") # 设备ID if not success: print(f"连接失败: {msg}") return instruction = f"打开美团外卖,搜索'{dish_name}',选择评分4.8+的店铺,加入购物车,填写收货地址为{address},使用满30减5优惠券,提交订单" try: result = run_agent( device_id="ZY223456789", base_url="https://open.bigmodel.cn/api/paas/v4", model="autoglm-phone", api_key="your_api_key_here", instruction=instruction, max_steps=50 ) print("下单流程已启动,详情见日志") except Exception as e: print(f"执行出错: {e}") # 使用 if __name__ == "__main__": order_food("黄焖鸡米饭", "北京市朝阳区建国路88号SOHO现代城A座1201室")

把它保存为order_helper.py,运行python order_helper.py,就是你的私人外卖Agent。


5. 它能做的,远不止点外卖

Open-AutoGLM 的能力边界,取决于你给它的指令和它所连接的APP生态。在实测中,我们验证了这些真实可用的高频场景

场景一句话指令示例为什么实用
电商比价“打开淘宝、京东、拼多多,分别搜索‘AirPods Pro 2’,截图并对比三家最低价和发货地”省去手动切APP、记价格的麻烦,结果一目了然
社交运营“打开小红书,搜索‘AI工具推荐’,点赞前5篇笔记,对第3篇评论‘已收藏,谢谢分享!’”个人IP冷启动期,批量互动效率提升10倍
办公提效“打开WPS,新建空白文档,标题写‘周报-20240615’,插入表格,列名为‘工作项’‘进度’‘备注’,保存为‘周报.docx’”每周一重复劳动,3秒自动生成模板
出行规划“打开高德地图,搜索‘首都机场’,选择‘地铁’方案,截图路线图;再打开滴滴出行,输入目的地‘首都机场T3’,截图预估价格”出差前一站式查交通,不用来回切APP
学习辅助“打开知乎,搜索‘Transformer原理’,打开高赞回答,长按复制全文,粘贴到备忘录新笔记中,标题为‘Transformer学习笔记’”快速收集碎片知识,构建个人知识库

你会发现,所有这些任务,共同点是:重复、机械、规则明确、耗时耗力。而 Open-AutoGLM 的价值,就是把这些“人类时间黑洞”,变成一条可复用的自然语言指令。


6. 总结:你不是在用工具,而是在培养一个数字分身

回到最初的问题:点个外卖,为什么值得写一篇技术博客?

因为 Open-AutoGLM 代表的,不是某个APP的自动化插件,而是一种全新的交互范式——
你不再需要“学操作”,只需要“说需求”;
你不再需要“记住路径”,只需要“描述目标”;
你不再需要“动手执行”,只需要“确认结果”。

它把过去十年移动互联网积累的海量APP,第一次真正变成了可被统一调度、可被自然语言编排的“数字劳动力”。而你,是它的指挥官。

当然,它还有成长空间:复杂表单填写、跨APP数据粘贴、弱网环境鲁棒性……但这些,恰恰是留给开发者和早期用户的共创机会。

如果你已经按本文步骤成功让AI帮你点了一次外卖,恭喜你——你刚刚跨过了AI Agent从“概念”走向“日常”的那条线。

下一步,不妨试试让它帮你整理通讯录、归档微信聊天记录、甚至监控竞品APP的促销活动。世界,正变得越来越“听话”。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 22:09:39

3D模型转Minecraft工具:从虚拟设计到方块世界的无缝桥梁

3D模型转Minecraft工具:从虚拟设计到方块世界的无缝桥梁 【免费下载链接】ObjToSchematic A tool to convert 3D models into Minecraft formats such as .schematic, .litematic, .schem and .nbt 项目地址: https://gitcode.com/gh_mirrors/ob/ObjToSchematic …

作者头像 李华
网站建设 2026/4/14 21:11:54

Raw Accel完全掌控指南:从入门到专业的精准操控解决方案

Raw Accel完全掌控指南:从入门到专业的精准操控解决方案 【免费下载链接】rawaccel kernel mode mouse accel 项目地址: https://gitcode.com/gh_mirrors/ra/rawaccel 你是否曾在图形设计时因鼠标过于灵敏而难以精确定位?是否在游戏中需要快速转身…

作者头像 李华
网站建设 2026/4/15 7:47:41

Qwen3-Reranker-8B效果实测:金融研报事件抽取后实体重排序精度

Qwen3-Reranker-8B效果实测:金融研报事件抽取后实体重排序精度 1. 模型亮点与核心能力 Qwen3-Reranker-8B是Qwen家族最新推出的专业文本重排序模型,专为提升文本检索和排序任务精度而设计。作为Qwen3 Embedding系列的重要成员,它在金融文本…

作者头像 李华
网站建设 2026/3/30 9:52:43

解锁视频自由:跨设备播放的终极格式转换指南

解锁视频自由:跨设备播放的终极格式转换指南 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 在数字媒体时代,视频格式转换已成为内容创作者与普通用…

作者头像 李华
网站建设 2026/4/11 21:58:46

4×24GB显卡能跑吗?Live Avatar硬件适配实测

424GB显卡能跑吗?Live Avatar硬件适配实测 数字人技术正从实验室走向真实业务场景,但一个现实问题始终横亘在开发者面前:手头的4张RTX 4090(每卡24GB显存)到底能不能跑起Live Avatar? 这不是理论推演&…

作者头像 李华
网站建设 2026/4/8 9:30:37

Ollama部署translategemma-12b-it保姆级教程:55语种图文翻译开箱即用

Ollama部署translategemma-12b-it保姆级教程:55语种图文翻译开箱即用 1. 快速了解translategemma-12b-it Google推出的TranslateGemma系列是目前最先进的轻量级开源翻译模型之一,基于Gemma 3模型架构构建。translategemma-12b-it特别针对图文翻译场景优…

作者头像 李华