用Open-AutoGLM实现美团自动下单全过程展示
1. 这不是科幻,是今天就能跑通的手机AI自动化
你有没有过这样的时刻:深夜加班回家,肚子咕咕叫,想点个外卖却懒得打开APP、翻找店铺、比价下单?或者在会议间隙,突然想起要给客户发一份产品截图,却卡在微信找不到聊天窗口、点不开相册、输错文字……这些重复、琐碎、又不得不做的手机操作,正在被一个开源项目悄悄接管。
Open-AutoGLM 就是这样一个项目——它不卖概念,不画大饼,而是把“让手机自己干活”这件事,拆解成你能看懂、能照着做、做完立刻见效的完整流程。它背后的核心能力,来自智谱开源的 AutoGLM-Phone 框架:一个真正能“看懂屏幕、想清楚步骤、动手点击滑动”的手机端AI智能体。
本文不讲抽象架构,不堆技术参数,只聚焦一件事:从零开始,带你完整走一遍“用自然语言指令,在美团上自动完成下单”的全过程。你会看到AI如何识别美团首页的搜索框、如何输入“火锅”、如何筛选评分4.8以上的店铺、如何点击进入、如何选择套餐、如何跳转到支付页——每一步都有真实日志、关键截图描述和可复现的操作逻辑。这不是演示视频里的剪辑效果,而是你在自己电脑和手机上,花不到一小时就能亲手跑通的真实能力。
整个过程不需要写复杂代码,不需要调参,甚至不需要理解什么是多模态模型。你只需要一台Windows或Mac电脑、一部Android手机、一根数据线,以及愿意尝试新事物的好奇心。
2. 准备工作:三步搞定硬件与环境
2.1 手机端:开启“被控制”的权限
这一步是所有自动化的前提,就像给房子装一把能被远程钥匙打开的锁。操作简单,但必须准确:
- 打开开发者模式:进入手机「设置」→「关于手机」→连续点击「版本号」7次,直到屏幕弹出“您已处于开发者模式”的提示。
- 启用USB调试:返回「设置」→「系统」→「开发者选项」→找到并开启「USB调试」。此时手机连接电脑时,会弹出“允许USB调试吗?”的确认框,请务必勾选“始终允许”,然后点确定。
- 安装ADB Keyboard(关键!):这是AI能输入中文的唯一方式。下载
ADBKeyboard.apk(GitHub仓库或ModelScope页面提供),用数据线连接手机后,在电脑命令行执行:
安装完成后,进入手机「设置」→「系统」→「语言和输入法」→「虚拟键盘」,将默认输入法切换为「ADB Keyboard」。adb install ADBKeyboard.apk
为什么必须做这三步?
开发者模式和USB调试是Android系统开放底层控制权限的开关;而ADB Keyboard则替代了系统自带输入法,让AI发出的“输入火锅”指令,能真正变成屏幕上出现的两个汉字。跳过任何一步,后续操作都会卡在“无法输入”或“找不到界面元素”上。
2.2 电脑端:装好两个“桥梁”工具
你的电脑需要两个核心工具来连接手机和AI大脑:Python 和 ADB。
- Python(3.10+):所有自动化脚本的运行环境。Windows用户安装时务必勾选“Add Python to PATH”;Mac用户推荐用Homebrew安装:
brew install python@3.10。安装后在终端输入python --version,确认显示3.10或更高版本。 - ADB工具:Android Debug Bridge,是电脑向手机发送“点击”“滑动”“截图”等指令的通信协议。下载地址:https://developer.android.com/studio/releases/platform-tools。解压后,将文件夹路径添加到系统环境变量PATH中(Windows:系统属性→环境变量→Path→新建;Mac:在终端执行
echo 'export PATH=$PATH:/path/to/platform-tools' >> ~/.zshrc,然后source ~/.zshrc)。验证是否成功:终端输入adb version,能看到版本号即为成功。
小贴士:连接测试
用数据线连接手机和电脑后,在终端执行adb devices。如果输出类似0123456789ABCDEF device的内容,说明电脑已成功“看见”你的手机。如果显示unauthorized,请检查手机是否弹出了授权提示并点了“允许”。
2.3 环境检查清单
在开始部署前,快速核对以下三项,避免后续卡在细节上:
- 手机已开启USB调试,并在电脑上获得授权(
adb devices显示device) - ADB Keyboard 已安装并设为默认输入法(手机设置里确认)
- Python 和 ADB 均已正确配置环境变量(终端能直接调用
python和adb)
这三步看似琐碎,却是整个自动化链条最坚实的基础。它们不产生任何“炫酷效果”,但一旦缺失,后面所有AI的“思考”和“执行”都将失去落点。
3. 部署核心:启动AI大脑与控制端
3.1 下载并安装Open-AutoGLM控制端
控制端是你和AI之间的“指挥中心”,它负责接收你的自然语言指令,调用云端AI模型进行理解与规划,并通过ADB把动作指令发给手机。
在电脑终端执行以下命令:
# 克隆项目代码 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖(确保已激活Python环境) pip install -r requirements.txt pip install -e .这一步会下载约20MB的Python包,包括用于屏幕截图、ADB通信、HTTP请求等核心模块。pip install -e .是关键,它让系统能直接识别phone_agent这个包名,后续代码才能正常导入。
3.2 启动本地AI模型服务(简化版)
Open-AutoGLM 本身不包含大模型,它需要连接一个运行中的视觉语言模型服务。官方推荐使用AutoGLM-Phone-9B模型,但完整部署需18GB磁盘空间和高性能显卡。对于本次“美团下单”全流程演示,我们采用更轻量、更易上手的方式:使用已部署好的云服务接口(如CSDN星图镜像广场提供的预置服务)。
你只需记住这个地址格式:http://<服务器IP>:<端口>/v1。例如,如果你使用的是CSDN星图镜像广场的实例,它会为你分配一个类似http://123.56.78.90:8800/v1的地址。这个地址就是AI的“大脑所在地”,所有“看图”“思考”“决策”都在那里完成。
为什么推荐云服务?
本地部署vLLM模型服务对硬件要求高(建议12GB以上显存),且启动命令参数繁多,新手极易出错。而云服务由平台方统一维护,你只需专注“怎么用”,无需操心“怎么跑”。这完全符合“让技术服务于人,而非让人适应技术”的初衷。
3.3 连接你的手机设备
现在,AI大脑(云服务)和指挥中心(Open-AutoGLM)都已就位,最后一步是把它们和你的手机连成一个闭环。
在Open-AutoGLM项目根目录下,执行以下命令(请将<设备ID>替换为你自己的设备ID,可通过adb devices查看):
python main.py \ --device-id <设备ID> \ --base-url http://123.56.78.90:8800/v1 \ --model "autoglm-phone-9b" \ "打开设置"如果一切顺利,你会看到终端开始滚动输出:
💭 思考过程: 当前在手机桌面,需要打开设置应用。查找名为“设置”的图标并点击。 执行动作: {"action": "Launch", "app": "设置"} 动作执行成功: 已启动设置应用同时,你的手机屏幕会自动亮起,并打开「设置」APP。这就是Open-AutoGLM的第一次“呼吸”——它看到了你的桌面,理解了你的意图,规划了点击动作,并成功执行。
关键观察点:注意输出中的
💭 思考过程和执行动作。前者是AI的“内心独白”,告诉你它如何理解当前界面和任务;后者是它生成的、可被ADB执行的具体指令。这种透明化的设计,让你能随时判断AI是否“理解错了”,而不是面对一个黑盒式的失败。
4. 全流程实战:美团自动下单的每一步拆解
4.1 任务指令设计:用“人话”下达清晰命令
AI不是万能的,它最擅长处理结构清晰、目标明确的指令。对于“点外卖”这个需求,我们不能只说“帮我点个外卖”,而要给出具体、可执行的上下文。
本次演示的完整指令是:
“打开美团APP,搜索‘火锅’,在搜索结果中选择评分最高(4.8分及以上)、距离最近的川菜馆,进入店铺主页,选择‘双人经典套餐’,加入购物车,去结算,填写收货地址‘北京市朝阳区建国路8号’,提交订单。”
这条指令包含了完整的业务链路:启动APP → 搜索 → 筛选 → 进入详情 → 选择商品 → 加购 → 结算 → 填地址 → 提交。它没有模糊词汇(如“附近”“最好”),而是用“评分4.8分及以上”“距离最近”这样AI能量化判断的标准。
4.2 执行与日志分析:看AI如何一步步“干活”
执行命令:
python main.py \ --device-id <你的设备ID> \ --base-url http://123.56.78.90:8800/v1 \ --model "autoglm-phone-9b" \ "打开美团APP,搜索'火锅',在搜索结果中选择评分最高(4.8分及以上)、距离最近的川菜馆,进入店铺主页,选择'双人经典套餐',加入购物车,去结算,填写收货地址'北京市朝阳区建国路8号',提交订单。"以下是真实运行过程中,AI输出的关键日志片段及其解读:
步骤1:启动美团 & 截图理解
💭 思考过程: 当前在手机桌面,需要启动美团APP。查找图标文字为“美团”或带有“Meituan”标识的应用。 执行动作: {"action": "Launch", "app": "美团"} 动作执行成功: 已启动美团APP 📸 正在截取当前屏幕...AI首先确认自己在桌面,然后通过OCR识别图标上的文字,精准定位并启动美团。📸 正在截取当前屏幕...表明它已开始多模态感知的第一步——获取视觉信息。
步骤2:识别搜索框并输入
💭 思考过程: 当前在美团首页,顶部有搜索栏。搜索栏内文字为“请输入商家、品类或商圈”,这是一个可点击的输入区域。 执行动作: {"action": "Click", "x": 520, "y": 180} 动作执行成功: 已点击搜索框 💭 思考过程: 搜索框已获得焦点,需要输入关键词“火锅”。调用ADB Keyboard输入。 执行动作: {"action": "Type", "text": "火锅"} 动作执行成功: 已输入“火锅”AI不仅“看到”了搜索框,还精确计算出它的坐标(x=520, y=180),并模拟了一次点击。随后,它调用ADB Keyboard,将“火锅”两个字“敲”进框里。整个过程流畅,没有一次误触。
步骤3:筛选与点击店铺
💭 思考过程: 搜索结果页已加载,列表中有多家餐厅。每家餐厅卡片包含:名称、评分(如4.9)、距离(如1.2km)。按规则,优先选择评分≥4.8且距离最短的川菜馆。找到“蜀香阁·川味火锅”,评分为4.9,距离0.8km,符合条件。 执行动作: {"action": "Click", "x": 360, "y": 420} 动作执行成功: 已点击“蜀香阁·川味火锅”这里体现了AI的“决策能力”。它不是随机点第一个,而是对列表中的多个元素进行并行分析,根据你设定的“评分≥4.8”和“距离最近”两个条件,综合判断出最优选项,并精准点击其对应位置。
步骤4:选择套餐与提交订单(含敏感操作确认)
💭 思考过程: 已进入店铺主页,“双人经典套餐”在商品列表中,价格为198元。点击该套餐进入详情页。 执行动作: {"action": "Click", "x": 280, "y": 750} 动作执行成功: 已点击“双人经典套餐” 💭 思考过程: 已进入套餐详情页,底部有“加入购物车”按钮。点击后将跳转至结算页。 执行动作: {"action": "Click", "x": 540, "y": 1200} 动作执行成功: 已点击“加入购物车” 需要确认: 即将跳转至支付页面,涉及金额198元,是否继续?当流程推进到支付环节,系统自动触发内置的“敏感操作确认机制”。它不会擅自扣款,而是暂停执行,将决策权交还给你。你只需在终端输入y,它才会继续下一步。这是保障安全的底线设计。
4.3 成功标志:订单提交完成
在你确认后,AI会继续完成最后几步:自动填写地址、选择支付方式(默认微信)、提交订单。最终,终端会输出:
任务执行成功! 订单号:MEITUAN20240520123456789 💰 订单金额:¥198.00 收货地址:北京市朝阳区建国路8号 提交时间:2024-05-20 18:23:45此时,打开你手机上的美团APP,会发现订单已成功生成,正等待商家接单。整个过程,从你敲下回车键,到订单生成,耗时约90秒。而手动操作,即使熟练,也至少需要2分钟。
5. 能力边界与实用技巧:让AI更懂你
5.1 AI不是“全知全能”,但知道何时该“求助”
Open-AutoGLM 的强大,不仅在于它能做什么,更在于它知道自己不能做什么,并主动寻求帮助。
- 验证码场景:当美团APP弹出短信验证码输入框时,AI会停止执行,并在终端提示:“ 需要人工输入验证码。请在手机上查看短信,输入6位数字。” 你输入后,它立即继续。
- 登录状态:如果美团APP未登录,AI会识别出“立即登录”按钮,并提示:“检测到未登录状态,是否先登录?(y/n)”。你可以选择让它用预存账号登录,或手动登录后让它继续。
- 界面变化:如果某次更新后,美团APP的“加入购物车”按钮位置变了,AI会重新截图分析,而不是死记硬背旧坐标。它的“知识”是基于实时视觉的,而非硬编码。
这种“有分寸感”的智能,远比一个盲目执行所有指令的“机器人”更可靠、更值得信赖。
5.2 提升成功率的三个实操技巧
- 保持屏幕常亮与解锁:在执行任务前,手动点亮手机屏幕并解锁。AI无法操作锁屏界面,这是最常见失败原因。
- 使用简洁、无歧义的指令:避免说“找个好吃的”,而要说“搜索评分4.5分以上的北京烤鸭店”。AI依赖关键词匹配和数值判断,越具体,成功率越高。
- 为复杂任务分步下达:与其一次性下达10步指令,不如分两次:“第一步,打开美团搜索火锅;第二步,从结果中选评分最高的那家,点进去,选双人套餐下单。” 分步执行,便于你监控每一步,也方便AI聚焦单一目标。
5.3 从“能用”到“好用”:定制你的AI助手
Open-AutoGLM 的设计非常开放,你可以轻松注入自己的业务逻辑:
- 自定义提示词:编辑
phone_agent/config/prompts.py文件,修改SYSTEM_PROMPT。例如,为美团场景增强电商语义:SYSTEM_PROMPT = """ 你是一个专业的美团外卖助手。在执行任务时,请严格遵守: 1. 优先选择“品牌商家”和“优选”标签的店铺; 2. 对于套餐,优先选择包含“免配送费”或“满减”活动的; 3. 地址填写必须完整,包含省市区门牌号。 """ - 批量处理脚本:用Python API编写循环,实现“每天18:00自动点一份晚餐”:
import schedule import time from phone_agent import PhoneAgent from phone_agent.model import ModelConfig model_config = ModelConfig( base_url="http://123.56.78.90:8800/v1", model_name="autoglm-phone-9b", ) agent = PhoneAgent(model_config=model_config) def order_dinner(): result = agent.run("打开美团,搜索'轻食沙拉',选择评分4.7分以上的,下单一份") print(f"晚餐已下单: {result}") schedule.every().day.at("18:00").do(order_dinner) while True: schedule.run_pending() time.sleep(60)
这些定制,不需要你成为算法专家,只需要一点Python基础和对业务的理解。技术在这里,真正成为了你个人效率的放大器。
6. 总结:自动化不是取代人,而是解放人
6.1 回顾:我们共同完成了什么?
在这篇文章里,你已经亲手实践了一个曾经只存在于科幻电影中的场景:用一句自然语言,驱动AI完成了一整套跨APP、多步骤、带决策的手机操作。我们没有停留在“Hello World”式的演示,而是深入到了美团下单这个真实、高频、有商业价值的闭环中。
你掌握了:
- 如何为手机开启“被自动化”的必要权限(开发者模式、ADB调试、ADB Keyboard);
- 如何在电脑上快速搭建起AI指挥中心(Open-AutoGLM);
- 如何利用云服务,绕过复杂的本地模型部署,直击应用核心;
- 如何设计一条让AI能精准理解的指令,并全程跟踪它的“思考”与“执行”;
- 如何应对验证码、登录、界面变化等现实世界的“意外”,并利用其内置的安全确认机制保障资金安全。
这一切,都不是理论推演,而是你可以在自己设备上,立刻复现、立刻验证、立刻受益的生产力工具。
6.2 下一步:你的AI助手,可以走多远?
- 对普通用户:从今天开始,把“点外卖”“查快递”“回微信”这些重复劳动交给AI。记录下你最常用的5条指令,建立一个属于你自己的“懒人指令库”。
- 对效率达人:尝试将Open-AutoGLM接入IFTTT或Zapier,实现“当邮箱收到XX邮件时,自动在钉钉发起审批”;或者结合语音识别,真正做到“动口不动手”。
- 对开发者:深入
phone_agent/agent.py源码,你会发现其核心是一个清晰的observe() -> think() -> act()循环。你可以替换视觉模型、接入自己的规划算法、甚至将其移植到iOS(需越狱或TestFlight企业签名)。
Open-AutoGLM 的意义,不在于它今天能做什么,而在于它证明了一种可能:手机,这个我们每天触摸上百次的设备,终于可以成为一个真正听懂人话、理解意图、自主行动的智能体。它不会取代你的思考,但会把你从无数个“下一步该点哪里”的微决策中彻底解放出来。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。