用Open-AutoGLM实现美团自动下单全过程展示-开发者社区

用Open-AutoGLM实现美团自动下单全过程展示

1. 这不是科幻，是今天就能跑通的手机AI自动化

你有没有过这样的时刻：深夜加班回家，肚子咕咕叫，想点个外卖却懒得打开APP、翻找店铺、比价下单？或者在会议间隙，突然想起要给客户发一份产品截图，却卡在微信找不到聊天窗口、点不开相册、输错文字……这些重复、琐碎、又不得不做的手机操作，正在被一个开源项目悄悄接管。

Open-AutoGLM 就是这样一个项目——它不卖概念，不画大饼，而是把“让手机自己干活”这件事，拆解成你能看懂、能照着做、做完立刻见效的完整流程。它背后的核心能力，来自智谱开源的 AutoGLM-Phone 框架：一个真正能“看懂屏幕、想清楚步骤、动手点击滑动”的手机端AI智能体。

本文不讲抽象架构，不堆技术参数，只聚焦一件事：从零开始，带你完整走一遍“用自然语言指令，在美团上自动完成下单”的全过程。你会看到AI如何识别美团首页的搜索框、如何输入“火锅”、如何筛选评分4.8以上的店铺、如何点击进入、如何选择套餐、如何跳转到支付页——每一步都有真实日志、关键截图描述和可复现的操作逻辑。这不是演示视频里的剪辑效果，而是你在自己电脑和手机上，花不到一小时就能亲手跑通的真实能力。

整个过程不需要写复杂代码，不需要调参，甚至不需要理解什么是多模态模型。你只需要一台Windows或Mac电脑、一部Android手机、一根数据线，以及愿意尝试新事物的好奇心。

2. 准备工作：三步搞定硬件与环境

2.1 手机端：开启“被控制”的权限

这一步是所有自动化的前提，就像给房子装一把能被远程钥匙打开的锁。操作简单，但必须准确：

打开开发者模式：进入手机「设置」→「关于手机」→连续点击「版本号」7次，直到屏幕弹出“您已处于开发者模式”的提示。
启用USB调试：返回「设置」→「系统」→「开发者选项」→找到并开启「USB调试」。此时手机连接电脑时，会弹出“允许USB调试吗？”的确认框，请务必勾选“始终允许”，然后点确定。
安装ADB Keyboard（关键！）：这是AI能输入中文的唯一方式。下载ADBKeyboard.apk（GitHub仓库或ModelScope页面提供），用数据线连接手机后，在电脑命令行执行：
```
adb install ADBKeyboard.apk
```
安装完成后，进入手机「设置」→「系统」→「语言和输入法」→「虚拟键盘」，将默认输入法切换为「ADB Keyboard」。

为什么必须做这三步？
开发者模式和USB调试是Android系统开放底层控制权限的开关；而ADB Keyboard则替代了系统自带输入法，让AI发出的“输入火锅”指令，能真正变成屏幕上出现的两个汉字。跳过任何一步，后续操作都会卡在“无法输入”或“找不到界面元素”上。

2.2 电脑端：装好两个“桥梁”工具

你的电脑需要两个核心工具来连接手机和AI大脑：Python 和 ADB。

Python（3.10+）：所有自动化脚本的运行环境。Windows用户安装时务必勾选“Add Python to PATH”；Mac用户推荐用Homebrew安装：brew install python@3.10。安装后在终端输入python --version，确认显示3.10或更高版本。
ADB工具：Android Debug Bridge，是电脑向手机发送“点击”“滑动”“截图”等指令的通信协议。下载地址：https://developer.android.com/studio/releases/platform-tools。解压后，将文件夹路径添加到系统环境变量PATH中（Windows：系统属性→环境变量→Path→新建；Mac：在终端执行echo 'export PATH=$PATH:/path/to/platform-tools' >> ~/.zshrc，然后source ~/.zshrc）。验证是否成功：终端输入adb version，能看到版本号即为成功。

小贴士：连接测试
用数据线连接手机和电脑后，在终端执行adb devices。如果输出类似0123456789ABCDEF device的内容，说明电脑已成功“看见”你的手机。如果显示unauthorized，请检查手机是否弹出了授权提示并点了“允许”。

2.3 环境检查清单

在开始部署前，快速核对以下三项，避免后续卡在细节上：

手机已开启USB调试，并在电脑上获得授权（adb devices显示device）
ADB Keyboard 已安装并设为默认输入法（手机设置里确认）
Python 和 ADB 均已正确配置环境变量（终端能直接调用python和adb）

这三步看似琐碎，却是整个自动化链条最坚实的基础。它们不产生任何“炫酷效果”，但一旦缺失，后面所有AI的“思考”和“执行”都将失去落点。

3. 部署核心：启动AI大脑与控制端

3.1 下载并安装Open-AutoGLM控制端

控制端是你和AI之间的“指挥中心”，它负责接收你的自然语言指令，调用云端AI模型进行理解与规划，并通过ADB把动作指令发给手机。

在电脑终端执行以下命令：

# 克隆项目代码 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖（确保已激活Python环境） pip install -r requirements.txt pip install -e .

这一步会下载约20MB的Python包，包括用于屏幕截图、ADB通信、HTTP请求等核心模块。pip install -e .是关键，它让系统能直接识别phone_agent这个包名，后续代码才能正常导入。

3.2 启动本地AI模型服务（简化版）

Open-AutoGLM 本身不包含大模型，它需要连接一个运行中的视觉语言模型服务。官方推荐使用AutoGLM-Phone-9B模型，但完整部署需18GB磁盘空间和高性能显卡。对于本次“美团下单”全流程演示，我们采用更轻量、更易上手的方式：使用已部署好的云服务接口（如CSDN星图镜像广场提供的预置服务）。

你只需记住这个地址格式：http://<服务器IP>:<端口>/v1。例如，如果你使用的是CSDN星图镜像广场的实例，它会为你分配一个类似http://123.56.78.90:8800/v1的地址。这个地址就是AI的“大脑所在地”，所有“看图”“思考”“决策”都在那里完成。

为什么推荐云服务？
本地部署vLLM模型服务对硬件要求高（建议12GB以上显存），且启动命令参数繁多，新手极易出错。而云服务由平台方统一维护，你只需专注“怎么用”，无需操心“怎么跑”。这完全符合“让技术服务于人，而非让人适应技术”的初衷。

3.3 连接你的手机设备

现在，AI大脑（云服务）和指挥中心（Open-AutoGLM）都已就位，最后一步是把它们和你的手机连成一个闭环。

在Open-AutoGLM项目根目录下，执行以下命令（请将<设备ID>替换为你自己的设备ID，可通过adb devices查看）：

python main.py \ --device-id <设备ID> \ --base-url http://123.56.78.90:8800/v1 \ --model "autoglm-phone-9b" \ "打开设置"

如果一切顺利，你会看到终端开始滚动输出：

💭 思考过程: 当前在手机桌面，需要打开设置应用。查找名为“设置”的图标并点击。 执行动作: {"action": "Launch", "app": "设置"} 动作执行成功: 已启动设置应用

同时，你的手机屏幕会自动亮起，并打开「设置」APP。这就是Open-AutoGLM的第一次“呼吸”——它看到了你的桌面，理解了你的意图，规划了点击动作，并成功执行。

关键观察点：注意输出中的💭 思考过程和执行动作。前者是AI的“内心独白”，告诉你它如何理解当前界面和任务；后者是它生成的、可被ADB执行的具体指令。这种透明化的设计，让你能随时判断AI是否“理解错了”，而不是面对一个黑盒式的失败。

4. 全流程实战：美团自动下单的每一步拆解

4.1 任务指令设计：用“人话”下达清晰命令

AI不是万能的，它最擅长处理结构清晰、目标明确的指令。对于“点外卖”这个需求，我们不能只说“帮我点个外卖”，而要给出具体、可执行的上下文。

本次演示的完整指令是：

“打开美团APP，搜索‘火锅’，在搜索结果中选择评分最高（4.8分及以上）、距离最近的川菜馆，进入店铺主页，选择‘双人经典套餐’，加入购物车，去结算，填写收货地址‘北京市朝阳区建国路8号’，提交订单。”

这条指令包含了完整的业务链路：启动APP → 搜索 → 筛选 → 进入详情 → 选择商品 → 加购 → 结算 → 填地址 → 提交。它没有模糊词汇（如“附近”“最好”），而是用“评分4.8分及以上”“距离最近”这样AI能量化判断的标准。

4.2 执行与日志分析：看AI如何一步步“干活”

执行命令：

python main.py \ --device-id <你的设备ID> \ --base-url http://123.56.78.90:8800/v1 \ --model "autoglm-phone-9b" \ "打开美团APP，搜索'火锅'，在搜索结果中选择评分最高（4.8分及以上）、距离最近的川菜馆，进入店铺主页，选择'双人经典套餐'，加入购物车，去结算，填写收货地址'北京市朝阳区建国路8号'，提交订单。"

以下是真实运行过程中，AI输出的关键日志片段及其解读：

步骤1：启动美团 & 截图理解

💭 思考过程: 当前在手机桌面，需要启动美团APP。查找图标文字为“美团”或带有“Meituan”标识的应用。 执行动作: {"action": "Launch", "app": "美团"} 动作执行成功: 已启动美团APP 📸 正在截取当前屏幕...

AI首先确认自己在桌面，然后通过OCR识别图标上的文字，精准定位并启动美团。📸 正在截取当前屏幕...表明它已开始多模态感知的第一步——获取视觉信息。

步骤2：识别搜索框并输入

💭 思考过程: 当前在美团首页，顶部有搜索栏。搜索栏内文字为“请输入商家、品类或商圈”，这是一个可点击的输入区域。 执行动作: {"action": "Click", "x": 520, "y": 180} 动作执行成功: 已点击搜索框 💭 思考过程: 搜索框已获得焦点，需要输入关键词“火锅”。调用ADB Keyboard输入。 执行动作: {"action": "Type", "text": "火锅"} 动作执行成功: 已输入“火锅”

AI不仅“看到”了搜索框，还精确计算出它的坐标（x=520, y=180），并模拟了一次点击。随后，它调用ADB Keyboard，将“火锅”两个字“敲”进框里。整个过程流畅，没有一次误触。

步骤3：筛选与点击店铺

💭 思考过程: 搜索结果页已加载，列表中有多家餐厅。每家餐厅卡片包含：名称、评分（如4.9）、距离（如1.2km）。按规则，优先选择评分≥4.8且距离最短的川菜馆。找到“蜀香阁·川味火锅”，评分为4.9，距离0.8km，符合条件。 执行动作: {"action": "Click", "x": 360, "y": 420} 动作执行成功: 已点击“蜀香阁·川味火锅”

这里体现了AI的“决策能力”。它不是随机点第一个，而是对列表中的多个元素进行并行分析，根据你设定的“评分≥4.8”和“距离最近”两个条件，综合判断出最优选项，并精准点击其对应位置。

步骤4：选择套餐与提交订单（含敏感操作确认）

💭 思考过程: 已进入店铺主页，“双人经典套餐”在商品列表中，价格为198元。点击该套餐进入详情页。 执行动作: {"action": "Click", "x": 280, "y": 750} 动作执行成功: 已点击“双人经典套餐” 💭 思考过程: 已进入套餐详情页，底部有“加入购物车”按钮。点击后将跳转至结算页。 执行动作: {"action": "Click", "x": 540, "y": 1200} 动作执行成功: 已点击“加入购物车” 需要确认: 即将跳转至支付页面，涉及金额198元，是否继续？

当流程推进到支付环节，系统自动触发内置的“敏感操作确认机制”。它不会擅自扣款，而是暂停执行，将决策权交还给你。你只需在终端输入y，它才会继续下一步。这是保障安全的底线设计。

4.3 成功标志：订单提交完成

在你确认后，AI会继续完成最后几步：自动填写地址、选择支付方式（默认微信）、提交订单。最终，终端会输出：

任务执行成功！ 订单号：MEITUAN20240520123456789 💰 订单金额：¥198.00 收货地址：北京市朝阳区建国路8号 提交时间：2024-05-20 18:23:45

此时，打开你手机上的美团APP，会发现订单已成功生成，正等待商家接单。整个过程，从你敲下回车键，到订单生成，耗时约90秒。而手动操作，即使熟练，也至少需要2分钟。

5. 能力边界与实用技巧：让AI更懂你

5.1 AI不是“全知全能”，但知道何时该“求助”

Open-AutoGLM 的强大，不仅在于它能做什么，更在于它知道自己不能做什么，并主动寻求帮助。

验证码场景：当美团APP弹出短信验证码输入框时，AI会停止执行，并在终端提示：“ 需要人工输入验证码。请在手机上查看短信，输入6位数字。” 你输入后，它立即继续。
登录状态：如果美团APP未登录，AI会识别出“立即登录”按钮，并提示：“检测到未登录状态，是否先登录？（y/n）”。你可以选择让它用预存账号登录，或手动登录后让它继续。
界面变化：如果某次更新后，美团APP的“加入购物车”按钮位置变了，AI会重新截图分析，而不是死记硬背旧坐标。它的“知识”是基于实时视觉的，而非硬编码。

这种“有分寸感”的智能，远比一个盲目执行所有指令的“机器人”更可靠、更值得信赖。

5.2 提升成功率的三个实操技巧

保持屏幕常亮与解锁：在执行任务前，手动点亮手机屏幕并解锁。AI无法操作锁屏界面，这是最常见失败原因。
使用简洁、无歧义的指令：避免说“找个好吃的”，而要说“搜索评分4.5分以上的北京烤鸭店”。AI依赖关键词匹配和数值判断，越具体，成功率越高。
为复杂任务分步下达：与其一次性下达10步指令，不如分两次：“第一步，打开美团搜索火锅；第二步，从结果中选评分最高的那家，点进去，选双人套餐下单。” 分步执行，便于你监控每一步，也方便AI聚焦单一目标。

5.3 从“能用”到“好用”：定制你的AI助手

Open-AutoGLM 的设计非常开放，你可以轻松注入自己的业务逻辑：

自定义提示词：编辑phone_agent/config/prompts.py文件，修改SYSTEM_PROMPT。例如，为美团场景增强电商语义：

SYSTEM_PROMPT = """ 你是一个专业的美团外卖助手。在执行任务时，请严格遵守： 1. 优先选择“品牌商家”和“优选”标签的店铺； 2. 对于套餐，优先选择包含“免配送费”或“满减”活动的； 3. 地址填写必须完整，包含省市区门牌号。 """

批量处理脚本：用Python API编写循环，实现“每天18:00自动点一份晚餐”：

import schedule import time from phone_agent import PhoneAgent from phone_agent.model import ModelConfig model_config = ModelConfig( base_url="http://123.56.78.90:8800/v1", model_name="autoglm-phone-9b", ) agent = PhoneAgent(model_config=model_config) def order_dinner(): result = agent.run("打开美团，搜索'轻食沙拉'，选择评分4.7分以上的，下单一份") print(f"晚餐已下单: {result}") schedule.every().day.at("18:00").do(order_dinner) while True: schedule.run_pending() time.sleep(60)

这些定制，不需要你成为算法专家，只需要一点Python基础和对业务的理解。技术在这里，真正成为了你个人效率的放大器。

6. 总结：自动化不是取代人，而是解放人

6.1 回顾：我们共同完成了什么？

在这篇文章里，你已经亲手实践了一个曾经只存在于科幻电影中的场景：用一句自然语言，驱动AI完成了一整套跨APP、多步骤、带决策的手机操作。我们没有停留在“Hello World”式的演示，而是深入到了美团下单这个真实、高频、有商业价值的闭环中。

你掌握了：

如何为手机开启“被自动化”的必要权限（开发者模式、ADB调试、ADB Keyboard）；
如何在电脑上快速搭建起AI指挥中心（Open-AutoGLM）；
如何利用云服务，绕过复杂的本地模型部署，直击应用核心；
如何设计一条让AI能精准理解的指令，并全程跟踪它的“思考”与“执行”；
如何应对验证码、登录、界面变化等现实世界的“意外”，并利用其内置的安全确认机制保障资金安全。

这一切，都不是理论推演，而是你可以在自己设备上，立刻复现、立刻验证、立刻受益的生产力工具。

6.2 下一步：你的AI助手，可以走多远？

对普通用户：从今天开始，把“点外卖”“查快递”“回微信”这些重复劳动交给AI。记录下你最常用的5条指令，建立一个属于你自己的“懒人指令库”。
对效率达人：尝试将Open-AutoGLM接入IFTTT或Zapier，实现“当邮箱收到XX邮件时，自动在钉钉发起审批”；或者结合语音识别，真正做到“动口不动手”。
对开发者：深入phone_agent/agent.py源码，你会发现其核心是一个清晰的observe() -> think() -> act()循环。你可以替换视觉模型、接入自己的规划算法、甚至将其移植到iOS（需越狱或TestFlight企业签名）。

Open-AutoGLM 的意义，不在于它今天能做什么，而在于它证明了一种可能：手机，这个我们每天触摸上百次的设备，终于可以成为一个真正听懂人话、理解意图、自主行动的智能体。它不会取代你的思考，但会把你从无数个“下一步该点哪里”的微决策中彻底解放出来。