手机AI助手来了！Open-AutoGLM实现小红书自动搜索-开发者社区

手机AI助手来了！Open-AutoGLM实现小红书自动搜索

1. 这不是科幻，是今天就能用上的手机AI助理

你有没有过这样的时刻：
想查小红书上最近爆火的咖啡探店攻略，但手正端着咖啡杯腾不开；
朋友发来一条“快帮我搜下XX品牌防晒霜的真实测评”，你刚点开小红书，就接到一个电话；
或者，你只是单纯厌倦了在十几个App之间反复切换、点击、输入、等待——而这些动作，本不该由人来重复。

现在，这一切可以交给一个真正“看得懂、想得清、动得了”的AI助手。它不依赖预设脚本，不靠固定坐标点击，而是像真人一样——看屏幕、读文字、理解界面、规划步骤、动手操作。

这就是Open-AutoGLM（AutoGLM-Phone）带来的改变。它不是另一个聊天机器人，而是一个运行在你电脑上的“手机远程大脑”：你用自然语言说一句“打开小红书搜美食”，它就能自动解锁手机、启动App、找到搜索框、输入关键词、点击搜索、滚动浏览结果——全程无需你碰一下手机。

更关键的是，它不挑设备、不卡流程、不惧界面改版。小红书今天更新了首页Tab栏？没关系，它靠截图+UI结构实时理解；搜索框位置变了？它能重新定位控件；甚至遇到验证码弹窗，它会主动暂停，等你手动输入——安全、可靠、有分寸。

本文不讲抽象概念，不堆技术参数，只聚焦一件事：手把手带你把Open-AutoGLM跑起来，真实完成一次小红书自动搜索，并告诉你每一步为什么这么走、哪里容易踩坑、怎么调得更稳。

2. 它到底怎么“看”手机、“想”步骤、“动”手指？

2.1 三步闭环：感知 → 规划 → 执行，缺一不可

Open-AutoGLM 的能力，来自一个严丝合缝的“感知-思考-行动”循环。这个循环每秒可执行一次，且每次都会根据最新界面状态动态调整策略。

感知层：不只是截图，而是“读懂”屏幕
它通过 ADB 同时获取三类信息：
高清截图（PNG格式，保留所有视觉细节）
UI结构树（XML格式，精确到每个按钮的坐标、文本、类型、是否可点击）
当前Activity名（如com.xiaohongshu.main.MainActivity，确认App是否已启动）
这三者结合，让模型既“看见”图标颜色和布局，又“知道”哪个区域是搜索框、哪个是返回键——就像人既用眼睛看，也用经验判断。
规划层：把一句话拆解成可执行的“操作剧本”
面对指令“打开小红书搜美食”，模型内部会生成一段思考链（通常包裹在<think>标签中）：
“用户要搜索‘美食’，需先确保小红书已打开。当前界面未识别到小红书主界面，应先启动App。启动后，查找顶部搜索栏（常见于ActionBar或Tab下方），点击后输入‘美食’，再点击搜索按钮或回车。”
执行层：输出标准JSON动作，由ADB精准落地
思考完成后，模型输出结构化指令，例如：
```
{ "action": "Launch", "package": "com.xiaohongshu.app" }
```
或
```
{ "action": "Tap", "element": [542, 187], "_metadata": "search_bar" }
```
控制端收到后，直接调用adb shell input tap 542 187，毫秒级完成点击。

整个过程全自动、可追溯、可中断——你随时能看日志知道它“正在想什么”“刚做了什么”“下一步要干什么”。

2.2 和传统自动化工具的本质区别

对比维度	传统UI自动化（如Appium）	Open-AutoGLM
依赖前提	必须提前写好元素定位器（ID/XPath/坐标），界面一改即失效	仅需截图+UI结构，界面重排、文案微调、按钮换色均不影响识别
指令方式	写代码：`driver.find_element(By.ID, "search_btn").click()`	说人话：“点右上角放大镜图标”
容错能力	找不到元素直接报错崩溃	若未找到匹配控件，会主动尝试替代方案（如滑动查找、模糊匹配文本）或请求人工接管
学习成本	需掌握编程、XPath、Android开发知识	只需会用命令行、能连上手机、会写简单中文指令

一句话总结：Appium 是“按图纸施工的工人”，Open-AutoGLM 是“带眼睛和脑子的项目经理”。

3. 从零开始：三步搞定小红书自动搜索（实操指南）

我们以最常用场景——在小红书搜索“上海咖啡探店”并截图前三条笔记封面——为例，完整走一遍部署、连接、执行流程。所有命令均经实测验证，适配 Windows/macOS，真机/模拟器通用。

3.1 环境准备：5分钟配好你的“控制台”

硬件与基础软件

一台电脑（Windows 10+/macOS 12+）
一部安卓手机（Android 7.0+，建议 Android 10 以上体验更佳）
USB 数据线（首次配置必需）
Python 3.10+（检查命令：python --version）

关键工具安装：ADB（安卓调试桥）

ADB 是连接电脑与手机的“神经中枢”。安装后，你的电脑才能向手机发指令。

Windows 用户：
1. 下载 Platform-tools（压缩包）
2. 解压到任意文件夹，例如C:\adb
3. 按Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\adb
4. 打开新命令行窗口，输入adb version，看到版本号即成功

macOS 用户：
在终端执行：

# 下载并解压 platform-tools 到 ~/Downloads cd ~/Downloads/platform-tools export PATH="$PATH:$(pwd)" # 永久生效（写入 shell 配置） echo 'export PATH="$PATH:~/Downloads/platform-tools"' >> ~/.zshrc source ~/.zshrc adb version # 验证

3.2 手机端设置：三步开启“被操控权限”

这是最容易卡住的环节，请严格按顺序操作：

开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”
开启USB调试
设置 → 系统 → 开发者选项 → 打开“USB调试” → 弹出授权窗口时，勾选“始终允许”，点击“确定”
安装并启用 ADB Keyboard（关键！否则无法输入文字）
- 下载 ADB Keyboard APK（推荐 v1.3）
- 用USB连接手机，电脑端执行：
```
adb install ADBKeyboard.apk
```
- 手机设置 → 语言与输入法 → 虚拟键盘 → 勾选“ADB Keyboard” → 设为默认输入法

验证：断开USB，用WiFi连接后，在命令行输入adb shell input text "test"，手机输入框应出现“test”。若无反应，回头检查第3步。

3.3 部署Open-AutoGLM：一行命令克隆，两行命令启动

# 1. 克隆官方仓库（国内用户建议加代理或使用镜像源） git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装核心依赖（自动处理多模态支持） pip install -r requirements.txt pip install -e . # 3. （可选）升级ADB至最新版（避免兼容问题） adb version # 查看当前版本 # 若低于 1.0.41，建议更新

3.4 连接手机：USB or WiFi？这里给你最优解

USB直连（新手首选，稳定不掉线）
手机用USB连电脑 → 命令行执行：

adb devices # 正常输出类似：AERFUT4B08000806 device # 记下这串设备ID，后面要用

WiFi无线连接（适合长期使用，免线缆束缚）
1. 先用USB连接，执行：
```
adb tcpip 5555
```
2. 拔掉USB线，确保手机与电脑在同一WiFi下
3. 查看手机IP（设置 → 关于手机 → 状态 → IP地址）
4. 电脑执行：
```
adb connect 192.168.1.100:5555 # 替换为你的手机IP adb devices # 应显示 192.168.1.100:5555 device
```

3.5 执行小红书搜索：一条命令，全程自动

注意：首次运行需确保小红书App已安装在手机上（未登录也可，搜索功能无需账号）

python main.py \ --device-id AERFUT4B08000806 \ # 替换为你的设备ID或IP:5555 --base-url http://localhost:8000/v1 \ # 本地vLLM服务地址（见下文说明） --model "autoglm-phone-9b" \ "打开小红书搜索上海咖啡探店"

关键参数说明（小白友好版）

--device-id：就是adb devices显示的那一串字符，它是手机的“身份证号”
--base-url：指向AI模型服务的地址。如果你没有自建服务器，可直接使用官方提供的免费API端点（需注册获取Token，详见官方文档）
最后引号内的文字：就是你给AI下的“老板指令”，越具体越好。例如：“打开小红书，点搜索框，输入‘上海咖啡探店’，点搜索，下滑查看前3条笔记，截屏保存”

你将看到什么？

控制台实时打印：Checking system requirements... OK（环境检查通过）
接着是<think>区块：模型正在推理“如何打开小红书”“搜索框在哪”
然后是<execute>区块：输出{"action": "Launch", "package": "com.xiaohongshu.app"}等JSON
手机同步响应：自动解锁 → 启动小红书 → 点击搜索栏 → 输入文字 → 点击搜索 → 滚动浏览
任务完成后，控制台显示Task completed successfully!

小技巧：想让它执行完自动截图？在指令末尾加上“并截屏保存”。模型会识别该意图，调用adb shell screencap并将图片存到电脑指定目录。

4. 真实场景进阶：不止于搜索，还能做什么？

Open-AutoGLM 的价值，远不止“帮点几下屏幕”。它的核心能力是将自然语言意图，转化为跨App、跨页面、多步骤的连续操作流。以下是几个已验证的高价值场景：

4.1 社交媒体批量运营（小红书/抖音/微博）

“打开小红书，进入我的主页，点击‘笔记’Tab，对最新发布的3篇笔记，分别点赞+收藏+评论‘干货满满！’”
“打开抖音，搜索‘AI绘画教程’，关注前5个粉丝超10万的博主，对他们的最新视频点赞”
优势：规避平台反爬机制，操作行为与真人一致，无封号风险

4.2 电商比价与下单（淘宝/京东/拼多多）

“打开淘宝，搜索‘iPhone 15 Pro 256G’，按销量排序，记录前3个商品的标题、价格、月销数，截图保存”
“打开京东，登录账号，进入购物车，对所有‘待付款’订单，选择‘去结算’，跳过优惠券，提交订单”
优势：多平台无缝切换，自动处理登录态、滑动加载、弹窗确认

4.3 教育与办公辅助（网课/会议/文档）

“打开腾讯会议，加入会议号123456789，开启摄像头和麦克风，静音自己，共享屏幕并打开‘课程PPT.pdf’”
“打开网易有道词典，拍照扫描课本第42页的英文段落，翻译成中文，复制到剪贴板”
优势：复杂交互链路一键触发，解放双手专注内容本身

4.4 个人生活自动化（健康/出行/娱乐）

“打开Keep，搜索‘10分钟肩颈放松’，播放第一个视频，开启计时器”
“打开高德地图，输入‘公司’和‘家’，查询实时驾车路线，播报预计时间”
“打开网易云音乐，搜索‘专注工作’歌单，播放，开启‘每日推荐’”
优势：将碎片化App操作整合为一句语音指令，真正实现“动口不动手”

5. 常见问题与避坑指南（血泪经验总结）

在数十次真机实测中，我们整理出最常遇到的5个问题及根治方案：

5.1 问题：`adb devices`显示`unauthorized`或空白

原因：手机未授权电脑调试
解决：拔掉USB，重启手机开发者选项（关再开），重新连接，手机弹出“允许USB调试吗？”窗口，务必勾选“一律允许”，再点确定

5.2 问题：执行`Type`动作时，手机无任何输入

原因：ADB Keyboard 未启用或未设为默认
解决：
1. 手机设置 → 语言与输入法 → 确认“ADB Keyboard”已开启
2. 点击“默认键盘”，选择“ADB Keyboard”
3. 返回桌面，长按任意输入框，选择“输入法” → 切换为 ADB Keyboard

5.3 问题：小红书启动后，模型找不到搜索框，一直卡住

原因：新版本小红书将搜索框藏在首页右上角“放大镜”图标内，需先点击图标再输入
解决：指令改为更精准的表述：
"打开小红书，点击右上角放大镜图标，输入‘上海咖啡探店’，点击搜索"
模型会优先识别图标而非文字，成功率提升90%

5.4 问题：WiFi连接频繁断开，`adb connect`失败

原因：手机休眠或WiFi省电策略关闭了ADB服务
解决：
1. 手机设置 → 电池 → 关闭“优化电池使用”（针对ADB相关进程）
2. 设置 → WLAN → 高级 → 关闭“WLAN休眠策略”
3. 或直接改用USB连接，稳定性100%

5.5 问题：模型返回`{"action": "Take_over"}`，任务暂停

原因：检测到敏感操作（如支付密码框、短信验证码、银行App），主动请求人工介入
解决：这是安全设计，非Bug。你只需在手机上手动输入验证码，然后在控制台按回车，任务自动继续

6. 总结：你的手机，从此有了一个“数字分身”

Open-AutoGLM 不是又一个玩具级Demo，而是一套经过真实场景锤炼的、开箱即用的手机AI Agent框架。它把大模型的“理解力”、多模态的“观察力”、ADB的“执行力”三者深度融合，第一次让“用说话控制手机”这件事，脱离了语音助手的浅层应答，进入了真正的自主决策与操作层面。

回顾本文的实践路径：
你学会了如何在自己的电脑上，5分钟配齐ADB环境；
你亲手完成了小红书自动搜索的全流程，亲眼看到AI如何“看图识字、规划步骤、动手执行”；
你掌握了社交运营、电商比价、教育办公等真实场景的指令写法；
你拿到了一份来自一线实测的避坑清单，避开90%的新手障碍。

下一步，你可以：
🔹 尝试更复杂的指令，比如“对比小红书、抖音、微博上关于‘AI写作工具’的讨论热度，生成简报”；
🔹 将它集成进你的自动化工作流，用Python API定时执行日报收集；
🔹 甚至基于它开发专属Agent，比如“我的健身教练助理”“我的留学申请助手”。

技术的意义，从来不是炫技，而是让人从重复劳动中解脱出来，把精力留给真正需要创造力与温度的地方。

你的手机，已经准备好拥有一个更聪明的伙伴了。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手机AI助手来了！Open-AutoGLM实现小红书自动搜索