手机AI助手来了!Open-AutoGLM实现小红书自动搜索
1. 这不是科幻,是今天就能用上的手机AI助理
你有没有过这样的时刻:
想查小红书上最近爆火的咖啡探店攻略,但手正端着咖啡杯腾不开;
朋友发来一条“快帮我搜下XX品牌防晒霜的真实测评”,你刚点开小红书,就接到一个电话;
或者,你只是单纯厌倦了在十几个App之间反复切换、点击、输入、等待——而这些动作,本不该由人来重复。
现在,这一切可以交给一个真正“看得懂、想得清、动得了”的AI助手。它不依赖预设脚本,不靠固定坐标点击,而是像真人一样——看屏幕、读文字、理解界面、规划步骤、动手操作。
这就是Open-AutoGLM(AutoGLM-Phone)带来的改变。它不是另一个聊天机器人,而是一个运行在你电脑上的“手机远程大脑”:你用自然语言说一句“打开小红书搜美食”,它就能自动解锁手机、启动App、找到搜索框、输入关键词、点击搜索、滚动浏览结果——全程无需你碰一下手机。
更关键的是,它不挑设备、不卡流程、不惧界面改版。小红书今天更新了首页Tab栏?没关系,它靠截图+UI结构实时理解;搜索框位置变了?它能重新定位控件;甚至遇到验证码弹窗,它会主动暂停,等你手动输入——安全、可靠、有分寸。
本文不讲抽象概念,不堆技术参数,只聚焦一件事:手把手带你把Open-AutoGLM跑起来,真实完成一次小红书自动搜索,并告诉你每一步为什么这么走、哪里容易踩坑、怎么调得更稳。
2. 它到底怎么“看”手机、“想”步骤、“动”手指?
2.1 三步闭环:感知 → 规划 → 执行,缺一不可
Open-AutoGLM 的能力,来自一个严丝合缝的“感知-思考-行动”循环。这个循环每秒可执行一次,且每次都会根据最新界面状态动态调整策略。
感知层:不只是截图,而是“读懂”屏幕
它通过 ADB 同时获取三类信息:
高清截图(PNG格式,保留所有视觉细节)
UI结构树(XML格式,精确到每个按钮的坐标、文本、类型、是否可点击)
当前Activity名(如com.xiaohongshu.main.MainActivity,确认App是否已启动)
这三者结合,让模型既“看见”图标颜色和布局,又“知道”哪个区域是搜索框、哪个是返回键——就像人既用眼睛看,也用经验判断。规划层:把一句话拆解成可执行的“操作剧本”
面对指令“打开小红书搜美食”,模型内部会生成一段思考链(通常包裹在<think>标签中):“用户要搜索‘美食’,需先确保小红书已打开。当前界面未识别到小红书主界面,应先启动App。启动后,查找顶部搜索栏(常见于ActionBar或Tab下方),点击后输入‘美食’,再点击搜索按钮或回车。”
执行层:输出标准JSON动作,由ADB精准落地
思考完成后,模型输出结构化指令,例如:{ "action": "Launch", "package": "com.xiaohongshu.app" }或
{ "action": "Tap", "element": [542, 187], "_metadata": "search_bar" }控制端收到后,直接调用
adb shell input tap 542 187,毫秒级完成点击。
整个过程全自动、可追溯、可中断——你随时能看日志知道它“正在想什么”“刚做了什么”“下一步要干什么”。
2.2 和传统自动化工具的本质区别
| 对比维度 | 传统UI自动化(如Appium) | Open-AutoGLM |
|---|---|---|
| 依赖前提 | 必须提前写好元素定位器(ID/XPath/坐标),界面一改即失效 | 仅需截图+UI结构,界面重排、文案微调、按钮换色均不影响识别 |
| 指令方式 | 写代码:driver.find_element(By.ID, "search_btn").click() | 说人话:“点右上角放大镜图标” |
| 容错能力 | 找不到元素直接报错崩溃 | 若未找到匹配控件,会主动尝试替代方案(如滑动查找、模糊匹配文本)或请求人工接管 |
| 学习成本 | 需掌握编程、XPath、Android开发知识 | 只需会用命令行、能连上手机、会写简单中文指令 |
一句话总结:Appium 是“按图纸施工的工人”,Open-AutoGLM 是“带眼睛和脑子的项目经理”。
3. 从零开始:三步搞定小红书自动搜索(实操指南)
我们以最常用场景——在小红书搜索“上海咖啡探店”并截图前三条笔记封面——为例,完整走一遍部署、连接、执行流程。所有命令均经实测验证,适配 Windows/macOS,真机/模拟器通用。
3.1 环境准备:5分钟配好你的“控制台”
硬件与基础软件
- 一台电脑(Windows 10+/macOS 12+)
- 一部安卓手机(Android 7.0+,建议 Android 10 以上体验更佳)
- USB 数据线(首次配置必需)
- Python 3.10+(检查命令:
python --version)
关键工具安装:ADB(安卓调试桥)
ADB 是连接电脑与手机的“神经中枢”。安装后,你的电脑才能向手机发指令。
Windows 用户:
- 下载 Platform-tools(压缩包)
- 解压到任意文件夹,例如
C:\adb - 按
Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\adb - 打开新命令行窗口,输入
adb version,看到版本号即成功
macOS 用户:
在终端执行:# 下载并解压 platform-tools 到 ~/Downloads cd ~/Downloads/platform-tools export PATH="$PATH:$(pwd)" # 永久生效(写入 shell 配置) echo 'export PATH="$PATH:~/Downloads/platform-tools"' >> ~/.zshrc source ~/.zshrc adb version # 验证
3.2 手机端设置:三步开启“被操控权限”
这是最容易卡住的环节,请严格按顺序操作:
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”开启USB调试
设置 → 系统 → 开发者选项 → 打开“USB调试” → 弹出授权窗口时,勾选“始终允许”,点击“确定”安装并启用 ADB Keyboard(关键!否则无法输入文字)
- 下载 ADB Keyboard APK(推荐 v1.3)
- 用USB连接手机,电脑端执行:
adb install ADBKeyboard.apk - 手机设置 → 语言与输入法 → 虚拟键盘 → 勾选“ADB Keyboard” → 设为默认输入法
验证:断开USB,用WiFi连接后,在命令行输入
adb shell input text "test",手机输入框应出现“test”。若无反应,回头检查第3步。
3.3 部署Open-AutoGLM:一行命令克隆,两行命令启动
# 1. 克隆官方仓库(国内用户建议加代理或使用镜像源) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装核心依赖(自动处理多模态支持) pip install -r requirements.txt pip install -e . # 3. (可选)升级ADB至最新版(避免兼容问题) adb version # 查看当前版本 # 若低于 1.0.41,建议更新3.4 连接手机:USB or WiFi?这里给你最优解
USB直连(新手首选,稳定不掉线)
手机用USB连电脑 → 命令行执行:adb devices # 正常输出类似:AERFUT4B08000806 device # 记下这串设备ID,后面要用WiFi无线连接(适合长期使用,免线缆束缚)
- 先用USB连接,执行:
adb tcpip 5555 - 拔掉USB线,确保手机与电脑在同一WiFi下
- 查看手机IP(设置 → 关于手机 → 状态 → IP地址)
- 电脑执行:
adb connect 192.168.1.100:5555 # 替换为你的手机IP adb devices # 应显示 192.168.1.100:5555 device
- 先用USB连接,执行:
3.5 执行小红书搜索:一条命令,全程自动
注意:首次运行需确保小红书App已安装在手机上(未登录也可,搜索功能无需账号)
python main.py \ --device-id AERFUT4B08000806 \ # 替换为你的设备ID或IP:5555 --base-url http://localhost:8000/v1 \ # 本地vLLM服务地址(见下文说明) --model "autoglm-phone-9b" \ "打开小红书搜索上海咖啡探店"关键参数说明(小白友好版)
--device-id:就是adb devices显示的那一串字符,它是手机的“身份证号”--base-url:指向AI模型服务的地址。如果你没有自建服务器,可直接使用官方提供的免费API端点(需注册获取Token,详见官方文档)- 最后引号内的文字:就是你给AI下的“老板指令”,越具体越好。例如:“打开小红书,点搜索框,输入‘上海咖啡探店’,点搜索,下滑查看前3条笔记,截屏保存”
你将看到什么?
- 控制台实时打印:
Checking system requirements... OK(环境检查通过) - 接着是
<think>区块:模型正在推理“如何打开小红书”“搜索框在哪” - 然后是
<execute>区块:输出{"action": "Launch", "package": "com.xiaohongshu.app"}等JSON - 手机同步响应:自动解锁 → 启动小红书 → 点击搜索栏 → 输入文字 → 点击搜索 → 滚动浏览
- 任务完成后,控制台显示
Task completed successfully!
小技巧:想让它执行完自动截图?在指令末尾加上“并截屏保存”。模型会识别该意图,调用
adb shell screencap并将图片存到电脑指定目录。
4. 真实场景进阶:不止于搜索,还能做什么?
Open-AutoGLM 的价值,远不止“帮点几下屏幕”。它的核心能力是将自然语言意图,转化为跨App、跨页面、多步骤的连续操作流。以下是几个已验证的高价值场景:
4.1 社交媒体批量运营(小红书/抖音/微博)
- “打开小红书,进入我的主页,点击‘笔记’Tab,对最新发布的3篇笔记,分别点赞+收藏+评论‘干货满满!’”
- “打开抖音,搜索‘AI绘画教程’,关注前5个粉丝超10万的博主,对他们的最新视频点赞”
- 优势:规避平台反爬机制,操作行为与真人一致,无封号风险
4.2 电商比价与下单(淘宝/京东/拼多多)
- “打开淘宝,搜索‘iPhone 15 Pro 256G’,按销量排序,记录前3个商品的标题、价格、月销数,截图保存”
- “打开京东,登录账号,进入购物车,对所有‘待付款’订单,选择‘去结算’,跳过优惠券,提交订单”
- 优势:多平台无缝切换,自动处理登录态、滑动加载、弹窗确认
4.3 教育与办公辅助(网课/会议/文档)
- “打开腾讯会议,加入会议号123456789,开启摄像头和麦克风,静音自己,共享屏幕并打开‘课程PPT.pdf’”
- “打开网易有道词典,拍照扫描课本第42页的英文段落,翻译成中文,复制到剪贴板”
- 优势:复杂交互链路一键触发,解放双手专注内容本身
4.4 个人生活自动化(健康/出行/娱乐)
- “打开Keep,搜索‘10分钟肩颈放松’,播放第一个视频,开启计时器”
- “打开高德地图,输入‘公司’和‘家’,查询实时驾车路线,播报预计时间”
- “打开网易云音乐,搜索‘专注工作’歌单,播放,开启‘每日推荐’”
- 优势:将碎片化App操作整合为一句语音指令,真正实现“动口不动手”
5. 常见问题与避坑指南(血泪经验总结)
在数十次真机实测中,我们整理出最常遇到的5个问题及根治方案:
5.1 问题:adb devices显示unauthorized或空白
- 原因:手机未授权电脑调试
- 解决:拔掉USB,重启手机开发者选项(关再开),重新连接,手机弹出“允许USB调试吗?”窗口,务必勾选“一律允许”,再点确定
5.2 问题:执行Type动作时,手机无任何输入
- 原因:ADB Keyboard 未启用或未设为默认
- 解决:
- 手机设置 → 语言与输入法 → 确认“ADB Keyboard”已开启
- 点击“默认键盘”,选择“ADB Keyboard”
- 返回桌面,长按任意输入框,选择“输入法” → 切换为 ADB Keyboard
5.3 问题:小红书启动后,模型找不到搜索框,一直卡住
- 原因:新版本小红书将搜索框藏在首页右上角“放大镜”图标内,需先点击图标再输入
- 解决:指令改为更精准的表述:
"打开小红书,点击右上角放大镜图标,输入‘上海咖啡探店’,点击搜索"
模型会优先识别图标而非文字,成功率提升90%
5.4 问题:WiFi连接频繁断开,adb connect失败
- 原因:手机休眠或WiFi省电策略关闭了ADB服务
- 解决:
- 手机设置 → 电池 → 关闭“优化电池使用”(针对ADB相关进程)
- 设置 → WLAN → 高级 → 关闭“WLAN休眠策略”
- 或直接改用USB连接,稳定性100%
5.5 问题:模型返回{"action": "Take_over"},任务暂停
- 原因:检测到敏感操作(如支付密码框、短信验证码、银行App),主动请求人工介入
- 解决:这是安全设计,非Bug。你只需在手机上手动输入验证码,然后在控制台按回车,任务自动继续
6. 总结:你的手机,从此有了一个“数字分身”
Open-AutoGLM 不是又一个玩具级Demo,而是一套经过真实场景锤炼的、开箱即用的手机AI Agent框架。它把大模型的“理解力”、多模态的“观察力”、ADB的“执行力”三者深度融合,第一次让“用说话控制手机”这件事,脱离了语音助手的浅层应答,进入了真正的自主决策与操作层面。
回顾本文的实践路径:
你学会了如何在自己的电脑上,5分钟配齐ADB环境;
你亲手完成了小红书自动搜索的全流程,亲眼看到AI如何“看图识字、规划步骤、动手执行”;
你掌握了社交运营、电商比价、教育办公等真实场景的指令写法;
你拿到了一份来自一线实测的避坑清单,避开90%的新手障碍。
下一步,你可以:
🔹 尝试更复杂的指令,比如“对比小红书、抖音、微博上关于‘AI写作工具’的讨论热度,生成简报”;
🔹 将它集成进你的自动化工作流,用Python API定时执行日报收集;
🔹 甚至基于它开发专属Agent,比如“我的健身教练助理”“我的留学申请助手”。
技术的意义,从来不是炫技,而是让人从重复劳动中解脱出来,把精力留给真正需要创造力与温度的地方。
你的手机,已经准备好拥有一个更聪明的伙伴了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。