AI也能逛拼多多?Open-AutoGLM实战演示
1. 这不是科幻,是今天就能用的手机AI助理
你有没有想过,让AI替你刷拼多多?不是简单地调用API查价格,而是真正“看”到屏幕、“理解”界面、“点击”按钮、“输入”搜索词、“滑动”商品列表——就像一个真人坐在你旁边,手指在你手机上操作一样。
Open-AutoGLM 就是这样一个项目。它不是概念演示,也不是实验室玩具,而是一个已经能跑通完整闭环的、开源的手机端AI Agent框架。它背后的核心模型 AutoGLM-Phone-9B,是智谱AI专为移动端多模态交互设计的9B参数量模型,能同时“看图”和“读字”,再结合ADB(Android Debug Bridge)实现真实设备操控。
最打动人的地方在于:你不需要写一行逻辑代码,也不需要定义UI元素坐标。你只需要说一句自然语言:“打开拼多多,搜‘空气炸锅’,找销量前五、带运费险、价格在200到400之间的款”,AI就会自动完成从启动App、输入关键词、筛选条件、浏览结果到截图反馈的全过程。
这不是未来,这是你现在插上数据线、配好环境就能亲手试出来的现实。本文不讲空泛原理,只带你一步步从零部署、连接真机、发出第一条指令,并亲眼看到AI如何在你的拼多多里“逛”起来。
2. 准备工作:三件套,缺一不可
别被“AI”“Agent”这些词吓住。Open-AutoGLM 的使用门槛,其实比装一个微信还低——只要你有三样东西:一台能连电脑的安卓手机、一台能跑Python的电脑、以及一点耐心。下面就是你要准备的全部清单,没有例外。
2.1 硬件与系统要求:够用就行
| 项目 | 要求 | 为什么重要 |
|---|---|---|
| 电脑 | Windows 10+/macOS 12+,8GB内存起步(推荐16GB),50GB可用空间 | 模型推理和控制端运行都在这里,内存小了会卡顿,空间不够放不下18GB的模型文件 |
| 手机 | Android 7.0 及以上,已解锁Bootloader非必需,但需开启开发者选项 | 这是AI的“手”和“眼”,太老的系统ADB协议不兼容,无法稳定通信 |
| 连接方式 | USB数据线(首选)或同一WiFi网络(进阶) | USB最稳,WiFi更自由;二者选其一即可,不用都配 |
注意:iPhone 不支持。这不是技术歧视,而是 ADB 是 Android 原生调试协议,iOS 有完全不同的封闭生态。
2.2 软件安装:四步到位,每步都有验证点
所有软件安装都必须通过命令行验证成功,这是避免后续“报错找不到”问题的关键。
第一步:装好 Python 3.10+
- Windows:去 python.org 下载最新版,安装时务必勾选“Add Python to PATH”。
- macOS:终端执行
brew install python@3.10(没装 Homebrew 先装它)。 - 验证:打开命令行,输入
python --version,看到Python 3.10.x或更高版本即成功。
第二步:装好 ADB 工具
ADB 是你和手机之间的“翻译官”。它不复杂,但路径配置是新手最大坑点。
- 下载:访问 Android SDK Platform-Tools,下载对应系统的压缩包。
- 解压:放到一个简单路径,比如
C:\adb(Win)或~/adb(Mac)。 - 配置环境变量:
- Win:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你的ADB解压路径。
- Mac:终端执行
echo 'export PATH=$PATH:~/adb' >> ~/.zshrc && source ~/.zshrc。
- 验证:命令行输入
adb version,看到类似Android Debug Bridge version 1.0.41即成功。
第三步:手机开启“开发者模式”和“USB调试”
这一步必须手动操作,无法跳过。
- 打开手机【设置】→【关于手机】→连续点击【版本号】7次,直到弹出“您已处于开发者模式”。
- 返回【设置】→【系统】→【开发者选项】→打开【USB调试】。
- 用USB线连接手机和电脑,手机屏幕上会弹出“允许USB调试吗?”提示,务必勾选“始终允许”,然后点确定。
第四步:安装 ADB Keyboard(中文输入关键!)
默认安卓输入法无法被ADB远程触发。ADB Keyboard 是一个轻量级的专用输入法,能让AI“打字”。
- 下载:GitHub 搜索
adb-keyboard,找到adb-keyboard.apk文件(约1MB)。 - 安装:电脑命令行执行
adb install adb-keyboard.apk。 - 启用:手机【设置】→【系统】→【语言和输入法】→【虚拟键盘】→启用
ADB Keyboard,并设为默认输入法。
验证是否生效:命令行执行adb shell input text "hello",如果手机当前输入框里出现hello,说明一切就绪。
3. 部署核心:模型、服务、控制端,三者串联
Open-AutoGLM 的架构很清晰:模型在后端“思考”,控制端在本地“发号施令”,手机在前端“执行动作”。我们要把这三环严丝合缝地扣在一起。
3.1 下载并启动模型服务(AI的大脑)
模型文件约18GB,国内用户强烈推荐用 ModelScope 镜像源,速度提升5倍以上。
# 国内用户(推荐) git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git # 国际用户 git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B接着,安装高性能推理引擎 vLLM:
pip install vllm现在,启动模型服务。以下命令适用于大多数NVIDIA显卡(RTX 3090/4090等):
python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --limit-mm-per-prompt '{"image":10}' \ --chat-template-content-format string如果你只有CPU或显存不足(<12GB),请添加
--device cpu参数,但速度会明显变慢。
启动成功后,你会看到一行绿色日志:Uvicorn running on http://0.0.0.0:8000。这意味着AI大脑已上线,正等待你的指令。
3.2 安装 Open-AutoGLM 控制端(你的指挥中心)
控制端是连接你、模型和手机的桥梁。它负责截图、上传、解析AI返回的动作、再下发ADB命令。
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .安装完成后,先测试一下本地连接是否通畅:
# 查看已连接的设备 adb devices输出应为类似:
List of devices attached ZY225XXXXX device其中ZY225XXXXX就是你的设备ID,后面要用到。
3.3 第一次运行:让AI打开“设置”App
这是最简单的测试,却能验证整个链路是否打通。
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"如果一切顺利,你会看到类似这样的输出:
💭 思考过程: 当前在桌面,需要打开设置应用 执行动作: {"action": "Launch", "app": "设置"} 动作执行成功:已启动设置应用同时,你的手机屏幕上,设置App会自动打开。恭喜,你已经完成了从零到一的跨越。
4. 实战:在拼多多里“逛”起来
现在,我们进入最激动人心的部分——让AI替你逛拼多多。我们将分三步走:基础搜索、条件筛选、结果交互。每一步都基于真实操作,不加任何美化。
4.1 基础搜索:一句话启动App并输入关键词
指令:
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开拼多多,搜索苹果"AI会自动:
- 启动拼多多App(如果未运行)
- 定位到顶部搜索框(视觉识别)
- 点击搜索框
- 调用ADB Keyboard输入“苹果”
- 点击“搜索”按钮
你会在命令行看到它一步步描述自己的动作,手机屏幕则实时响应。整个过程约15-30秒,取决于你的设备性能。
4.2 条件筛选:让AI理解“销量高”“价格区间”“带运费险”
这才是体现AI Agent价值的地方。传统自动化脚本只能硬编码点击坐标,而Open-AutoGLM能理解语义。
指令:
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "在拼多多搜索结果页,按销量从高到低排序,筛选价格在100到300元之间、且带有‘运费险’标签的商品"AI会:
- 分析当前页面结构,找到“销量”排序按钮并点击
- 找到价格筛选入口(通常是“筛选”按钮),点击展开
- 在价格输入框中分别输入“100”和“300”
- 滚动查找并勾选“运费险”复选框
- 点击“确定”应用筛选
你会发现,AI不是盲目点击,而是先“看”清界面布局,再“想”清楚哪一步该做什么,最后“做”。
4.3 结果交互:让AI帮你“选中”并“截图反馈”
最终目标不是刷完就结束,而是帮你做出决策。
指令:
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "在筛选后的商品列表中,选择第一个商品,点击进入详情页,并截图保存"AI会:
- 定位商品列表区域
- 计算第一个商品卡片的位置(视觉定位)
- 点击该卡片
- 等待详情页加载完成
- 执行
adb shell screencap -p /sdcard/screen.png截图 - 将截图拉取到本地
./screenshots/目录
你将在本地看到一张清晰的拼多多商品详情页截图。这就是AI为你“逛”出来的结果——不是一堆链接,而是可直接查看的视觉信息。
5. 进阶技巧:让AI更懂你、更安全、更高效
部署只是开始,用好才是关键。以下是三个最实用的进阶技巧,能立刻提升你的使用体验。
5.1 敏感操作人工接管:支付前必须“叫停”
AI再聪明,也不能替你输密码。Open-AutoGLM 内置了智能确认机制,对支付、删除、授权等高危操作,会主动暂停并等待你的指令。
你可以自定义确认逻辑,比如让它弹出一个终端提示:
def my_confirm(msg): print(f"\n🚨 安全提醒:{msg}") return input("确认执行?(y/N): ").strip().lower() == "y" # 在 main.py 中传入这个函数 agent.run("打开拼多多,下单一件商品", confirmation_callback=my_confirm)运行时,一旦AI识别到支付页面,就会停下来等你敲y键。这层保险,是把AI当助手而非替代品的核心体现。
5.2 WiFi远程控制:摆脱数据线,真正“无线”智能
USB虽稳,但受限于线长。WiFi远程控制让你在客厅沙发上,就能指挥卧室里的手机。
前提:手机和电脑在同一WiFi下。
- 手机开启【无线调试】(在开发者选项里)。
- 电脑执行:
adb tcpip 5555 adb connect 192.168.1.100:5555 # 替换为你的手机IP - 验证:
adb devices应显示192.168.1.100:5555 device。
之后,所有main.py命令中的--device-id参数,都换成这个IP地址即可。从此,你的AI助理真正“无绳化”。
5.3 自定义提示词:给AI注入你的领域知识
默认提示词是通用的,但你可以让它变成“拼多多专家”。
编辑phone_agent/config/prompts.py,修改SYSTEM_PROMPT:
SYSTEM_PROMPT = """ 你是一个专注拼多多购物的AI助手,深谙平台规则: - “百亿补贴”是最高优先级标签,必须首先识别 - 商品标题中“官方旗舰店”“品牌直销”代表高可信度 - 评论区“追评”内容比主评更能反映真实体验 - 当用户说“便宜”,默认指“券后价最低”,而非“原价最低” """保存后重启服务,AI在处理拼多多相关指令时,思考路径会明显更贴近真实用户的购物逻辑。
6. 常见问题速查:遇到报错,先看这三行
部署过程中,90%的问题都集中在这几个点。遇到报错,按顺序检查,通常3分钟内解决。
| 现象 | 最可能原因 | 一句话解决方案 |
|---|---|---|
adb devices显示unauthorized或空白 | 手机未授权USB调试 | 断开重连USB线,手机点“允许”,勾选“始终允许” |
Connection refused(连接被拒) | 模型服务没启动,或端口不对 | 运行curl http://localhost:8000/health,返回{"status":"healthy"}才算活 |
AI一直“思考”不执行,或报No valid action found | 手机屏幕熄灭、锁屏或截图失败 | 保持手机亮屏、解锁状态;检查adb shell screencap是否能正常截图 |
记住一个黄金法则:所有问题,都源于“电脑没看见手机”或“AI没看见屏幕”。先确保adb devices和adb shell screencap这两个命令100%成功,再排查其他。
7. 总结:你的手机,从此有了一个沉默却可靠的伙伴
我们从一句“AI也能逛拼多多?”的疑问出发,一起完成了:
- 环境搭建:配齐Python、ADB、开发者模式三件套;
- 模型部署:下载18GB模型,用vLLM一键启动AI大脑;
- 真机连接:让AI能“看”你的屏幕,“点”你的按钮,“输”你的文字;
- 实战验证:在拼多多里完成搜索、筛选、查看详情的全流程;
- 安全加固:为支付等敏感操作加上人工确认锁;
- 效率升级:用WiFi远程和自定义提示词,让AI更懂你。
这不仅仅是一个技术Demo。它预示着一种新的交互范式:我们不再需要学习每个App的操作逻辑,而是用最自然的语言,向设备表达意图。未来,你的手机将不再是一个需要你“教”它怎么用的工具,而是一个能主动理解你、辅助你、甚至预见你需求的数字伙伴。
下一步,你可以尝试让它帮你:
- 每天早上自动截图天气预报和股票行情,发到微信置顶群;
- 批量给淘宝收藏夹里的商品比价,生成Excel报告;
- 在小红书里按关键词爬取最新探店笔记,整理成摘要。
工具已备好,世界正等着你用自然语言去重新定义。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。