news 2026/5/13 2:05:43

AI也能逛拼多多?Open-AutoGLM实战演示

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI也能逛拼多多?Open-AutoGLM实战演示

AI也能逛拼多多?Open-AutoGLM实战演示

1. 这不是科幻,是今天就能用的手机AI助理

你有没有想过,让AI替你刷拼多多?不是简单地调用API查价格,而是真正“看”到屏幕、“理解”界面、“点击”按钮、“输入”搜索词、“滑动”商品列表——就像一个真人坐在你旁边,手指在你手机上操作一样。

Open-AutoGLM 就是这样一个项目。它不是概念演示,也不是实验室玩具,而是一个已经能跑通完整闭环的、开源的手机端AI Agent框架。它背后的核心模型 AutoGLM-Phone-9B,是智谱AI专为移动端多模态交互设计的9B参数量模型,能同时“看图”和“读字”,再结合ADB(Android Debug Bridge)实现真实设备操控。

最打动人的地方在于:你不需要写一行逻辑代码,也不需要定义UI元素坐标。你只需要说一句自然语言:“打开拼多多,搜‘空气炸锅’,找销量前五、带运费险、价格在200到400之间的款”,AI就会自动完成从启动App、输入关键词、筛选条件、浏览结果到截图反馈的全过程。

这不是未来,这是你现在插上数据线、配好环境就能亲手试出来的现实。本文不讲空泛原理,只带你一步步从零部署、连接真机、发出第一条指令,并亲眼看到AI如何在你的拼多多里“逛”起来。

2. 准备工作:三件套,缺一不可

别被“AI”“Agent”这些词吓住。Open-AutoGLM 的使用门槛,其实比装一个微信还低——只要你有三样东西:一台能连电脑的安卓手机、一台能跑Python的电脑、以及一点耐心。下面就是你要准备的全部清单,没有例外。

2.1 硬件与系统要求:够用就行

项目要求为什么重要
电脑Windows 10+/macOS 12+,8GB内存起步(推荐16GB),50GB可用空间模型推理和控制端运行都在这里,内存小了会卡顿,空间不够放不下18GB的模型文件
手机Android 7.0 及以上,已解锁Bootloader非必需,但需开启开发者选项这是AI的“手”和“眼”,太老的系统ADB协议不兼容,无法稳定通信
连接方式USB数据线(首选)或同一WiFi网络(进阶)USB最稳,WiFi更自由;二者选其一即可,不用都配

注意:iPhone 不支持。这不是技术歧视,而是 ADB 是 Android 原生调试协议,iOS 有完全不同的封闭生态。

2.2 软件安装:四步到位,每步都有验证点

所有软件安装都必须通过命令行验证成功,这是避免后续“报错找不到”问题的关键。

第一步:装好 Python 3.10+
  • Windows:去 python.org 下载最新版,安装时务必勾选“Add Python to PATH”
  • macOS:终端执行brew install python@3.10(没装 Homebrew 先装它)。
  • 验证:打开命令行,输入python --version,看到Python 3.10.x或更高版本即成功。
第二步:装好 ADB 工具

ADB 是你和手机之间的“翻译官”。它不复杂,但路径配置是新手最大坑点。

  • 下载:访问 Android SDK Platform-Tools,下载对应系统的压缩包。
  • 解压:放到一个简单路径,比如C:\adb(Win)或~/adb(Mac)。
  • 配置环境变量:
    • Win:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你的ADB解压路径。
    • Mac:终端执行echo 'export PATH=$PATH:~/adb' >> ~/.zshrc && source ~/.zshrc
  • 验证:命令行输入adb version,看到类似Android Debug Bridge version 1.0.41即成功。
第三步:手机开启“开发者模式”和“USB调试”

这一步必须手动操作,无法跳过。

  1. 打开手机【设置】→【关于手机】→连续点击【版本号】7次,直到弹出“您已处于开发者模式”。
  2. 返回【设置】→【系统】→【开发者选项】→打开【USB调试】。
  3. 用USB线连接手机和电脑,手机屏幕上会弹出“允许USB调试吗?”提示,务必勾选“始终允许”,然后点确定
第四步:安装 ADB Keyboard(中文输入关键!)

默认安卓输入法无法被ADB远程触发。ADB Keyboard 是一个轻量级的专用输入法,能让AI“打字”。

  • 下载:GitHub 搜索adb-keyboard,找到adb-keyboard.apk文件(约1MB)。
  • 安装:电脑命令行执行adb install adb-keyboard.apk
  • 启用:手机【设置】→【系统】→【语言和输入法】→【虚拟键盘】→启用ADB Keyboard,并设为默认输入法

验证是否生效:命令行执行adb shell input text "hello",如果手机当前输入框里出现hello,说明一切就绪。

3. 部署核心:模型、服务、控制端,三者串联

Open-AutoGLM 的架构很清晰:模型在后端“思考”,控制端在本地“发号施令”,手机在前端“执行动作”。我们要把这三环严丝合缝地扣在一起。

3.1 下载并启动模型服务(AI的大脑)

模型文件约18GB,国内用户强烈推荐用 ModelScope 镜像源,速度提升5倍以上。

# 国内用户(推荐) git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git # 国际用户 git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B

接着,安装高性能推理引擎 vLLM:

pip install vllm

现在,启动模型服务。以下命令适用于大多数NVIDIA显卡(RTX 3090/4090等):

python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --limit-mm-per-prompt '{"image":10}' \ --chat-template-content-format string

如果你只有CPU或显存不足(<12GB),请添加--device cpu参数,但速度会明显变慢。

启动成功后,你会看到一行绿色日志:Uvicorn running on http://0.0.0.0:8000。这意味着AI大脑已上线,正等待你的指令。

3.2 安装 Open-AutoGLM 控制端(你的指挥中心)

控制端是连接你、模型和手机的桥梁。它负责截图、上传、解析AI返回的动作、再下发ADB命令。

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

安装完成后,先测试一下本地连接是否通畅:

# 查看已连接的设备 adb devices

输出应为类似:

List of devices attached ZY225XXXXX device

其中ZY225XXXXX就是你的设备ID,后面要用到。

3.3 第一次运行:让AI打开“设置”App

这是最简单的测试,却能验证整个链路是否打通。

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

如果一切顺利,你会看到类似这样的输出:

💭 思考过程: 当前在桌面,需要打开设置应用 执行动作: {"action": "Launch", "app": "设置"} 动作执行成功:已启动设置应用

同时,你的手机屏幕上,设置App会自动打开。恭喜,你已经完成了从零到一的跨越。

4. 实战:在拼多多里“逛”起来

现在,我们进入最激动人心的部分——让AI替你逛拼多多。我们将分三步走:基础搜索、条件筛选、结果交互。每一步都基于真实操作,不加任何美化。

4.1 基础搜索:一句话启动App并输入关键词

指令:

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开拼多多,搜索苹果"

AI会自动:

  • 启动拼多多App(如果未运行)
  • 定位到顶部搜索框(视觉识别)
  • 点击搜索框
  • 调用ADB Keyboard输入“苹果”
  • 点击“搜索”按钮

你会在命令行看到它一步步描述自己的动作,手机屏幕则实时响应。整个过程约15-30秒,取决于你的设备性能。

4.2 条件筛选:让AI理解“销量高”“价格区间”“带运费险”

这才是体现AI Agent价值的地方。传统自动化脚本只能硬编码点击坐标,而Open-AutoGLM能理解语义。

指令:

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "在拼多多搜索结果页,按销量从高到低排序,筛选价格在100到300元之间、且带有‘运费险’标签的商品"

AI会:

  • 分析当前页面结构,找到“销量”排序按钮并点击
  • 找到价格筛选入口(通常是“筛选”按钮),点击展开
  • 在价格输入框中分别输入“100”和“300”
  • 滚动查找并勾选“运费险”复选框
  • 点击“确定”应用筛选

你会发现,AI不是盲目点击,而是先“看”清界面布局,再“想”清楚哪一步该做什么,最后“做”。

4.3 结果交互:让AI帮你“选中”并“截图反馈”

最终目标不是刷完就结束,而是帮你做出决策。

指令:

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "在筛选后的商品列表中,选择第一个商品,点击进入详情页,并截图保存"

AI会:

  • 定位商品列表区域
  • 计算第一个商品卡片的位置(视觉定位)
  • 点击该卡片
  • 等待详情页加载完成
  • 执行adb shell screencap -p /sdcard/screen.png截图
  • 将截图拉取到本地./screenshots/目录

你将在本地看到一张清晰的拼多多商品详情页截图。这就是AI为你“逛”出来的结果——不是一堆链接,而是可直接查看的视觉信息。

5. 进阶技巧:让AI更懂你、更安全、更高效

部署只是开始,用好才是关键。以下是三个最实用的进阶技巧,能立刻提升你的使用体验。

5.1 敏感操作人工接管:支付前必须“叫停”

AI再聪明,也不能替你输密码。Open-AutoGLM 内置了智能确认机制,对支付、删除、授权等高危操作,会主动暂停并等待你的指令。

你可以自定义确认逻辑,比如让它弹出一个终端提示:

def my_confirm(msg): print(f"\n🚨 安全提醒:{msg}") return input("确认执行?(y/N): ").strip().lower() == "y" # 在 main.py 中传入这个函数 agent.run("打开拼多多,下单一件商品", confirmation_callback=my_confirm)

运行时,一旦AI识别到支付页面,就会停下来等你敲y键。这层保险,是把AI当助手而非替代品的核心体现。

5.2 WiFi远程控制:摆脱数据线,真正“无线”智能

USB虽稳,但受限于线长。WiFi远程控制让你在客厅沙发上,就能指挥卧室里的手机。

前提:手机和电脑在同一WiFi下。

  1. 手机开启【无线调试】(在开发者选项里)。
  2. 电脑执行:
    adb tcpip 5555 adb connect 192.168.1.100:5555 # 替换为你的手机IP
  3. 验证:adb devices应显示192.168.1.100:5555 device

之后,所有main.py命令中的--device-id参数,都换成这个IP地址即可。从此,你的AI助理真正“无绳化”。

5.3 自定义提示词:给AI注入你的领域知识

默认提示词是通用的,但你可以让它变成“拼多多专家”。

编辑phone_agent/config/prompts.py,修改SYSTEM_PROMPT

SYSTEM_PROMPT = """ 你是一个专注拼多多购物的AI助手,深谙平台规则: - “百亿补贴”是最高优先级标签,必须首先识别 - 商品标题中“官方旗舰店”“品牌直销”代表高可信度 - 评论区“追评”内容比主评更能反映真实体验 - 当用户说“便宜”,默认指“券后价最低”,而非“原价最低” """

保存后重启服务,AI在处理拼多多相关指令时,思考路径会明显更贴近真实用户的购物逻辑。

6. 常见问题速查:遇到报错,先看这三行

部署过程中,90%的问题都集中在这几个点。遇到报错,按顺序检查,通常3分钟内解决。

现象最可能原因一句话解决方案
adb devices显示unauthorized或空白手机未授权USB调试断开重连USB线,手机点“允许”,勾选“始终允许”
Connection refused(连接被拒)模型服务没启动,或端口不对运行curl http://localhost:8000/health,返回{"status":"healthy"}才算活
AI一直“思考”不执行,或报No valid action found手机屏幕熄灭、锁屏或截图失败保持手机亮屏、解锁状态;检查adb shell screencap是否能正常截图

记住一个黄金法则:所有问题,都源于“电脑没看见手机”或“AI没看见屏幕”。先确保adb devicesadb shell screencap这两个命令100%成功,再排查其他。

7. 总结:你的手机,从此有了一个沉默却可靠的伙伴

我们从一句“AI也能逛拼多多?”的疑问出发,一起完成了:

  • 环境搭建:配齐Python、ADB、开发者模式三件套;
  • 模型部署:下载18GB模型,用vLLM一键启动AI大脑;
  • 真机连接:让AI能“看”你的屏幕,“点”你的按钮,“输”你的文字;
  • 实战验证:在拼多多里完成搜索、筛选、查看详情的全流程;
  • 安全加固:为支付等敏感操作加上人工确认锁;
  • 效率升级:用WiFi远程和自定义提示词,让AI更懂你。

这不仅仅是一个技术Demo。它预示着一种新的交互范式:我们不再需要学习每个App的操作逻辑,而是用最自然的语言,向设备表达意图。未来,你的手机将不再是一个需要你“教”它怎么用的工具,而是一个能主动理解你、辅助你、甚至预见你需求的数字伙伴。

下一步,你可以尝试让它帮你:

  • 每天早上自动截图天气预报和股票行情,发到微信置顶群;
  • 批量给淘宝收藏夹里的商品比价,生成Excel报告;
  • 在小红书里按关键词爬取最新探店笔记,整理成摘要。

工具已备好,世界正等着你用自然语言去重新定义。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 2:52:50

5大场景搞定downr1n降级失败:从故障诊断到预防全攻略

5大场景搞定downr1n降级失败&#xff1a;从故障诊断到预防全攻略 【免费下载链接】downr1n downgrade tethered checkm8 idevices ios 14, 15. 项目地址: https://gitcode.com/gh_mirrors/do/downr1n 一、问题诊断&#xff1a;5种典型futurerestore失败现象 1.1 工具调…

作者头像 李华
网站建设 2026/5/3 17:53:34

探索Windhawk:解锁Windows个性化新可能

探索Windhawk&#xff1a;解锁Windows个性化新可能 【免费下载链接】windhawk The customization marketplace for Windows programs: https://windhawk.net/ 项目地址: https://gitcode.com/gh_mirrors/wi/windhawk 你是否也曾想过&#xff0c;每天使用的Windows系统可…

作者头像 李华
网站建设 2026/5/12 13:48:25

LCD在工业控制中的应用:核心要点解析

以下是对您提供的博文《LCD在工业控制中的应用:核心要点解析》进行 深度润色与专业重构后的版本 。本次优化严格遵循您的全部要求: ✅ 彻底去除AI腔调与模板化结构(无“引言/概述/总结”等刻板标题) ✅ 所有内容以真实工程师口吻展开,穿插经验判断、设计权衡与一线踩坑…

作者头像 李华
网站建设 2026/5/11 10:20:58

Z-Image-Turbo部署踩坑记录:少走弯路的秘诀

Z-Image-Turbo部署踩坑记录&#xff1a;少走弯路的秘诀 刚拿到Z-Image-Turbo镜像时&#xff0c;我满心期待——8步出图、16GB显存就能跑、中文提示词原生支持……这不就是我等了半年的“生产力核弹”&#xff1f;结果从启动服务到打开WebUI&#xff0c;我花了整整3小时&#xf…

作者头像 李华
网站建设 2026/5/7 6:34:31

SVG优化技术解析:从原理到实战的全方位指南

SVG优化技术解析&#xff1a;从原理到实战的全方位指南 【免费下载链接】svgomg Web GUI for SVGO 项目地址: https://gitcode.com/gh_mirrors/sv/svgomg 在现代网页开发中&#xff0c;SVG优化技术是提升网页性能的关键环节。随着矢量图形在界面设计、数据可视化等领域的…

作者头像 李华