news 2026/3/31 13:07:30

手机AI助手来了!Open-AutoGLM实现小红书自动搜索

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手机AI助手来了!Open-AutoGLM实现小红书自动搜索

手机AI助手来了!Open-AutoGLM实现小红书自动搜索

1. 这不是科幻,是今天就能用上的手机AI助理

你有没有过这样的时刻:
想查小红书上最近爆火的咖啡探店攻略,但手正端着咖啡杯腾不开;
朋友发来一条“快帮我搜下XX品牌防晒霜的真实测评”,你刚点开小红书,就接到一个电话;
或者,你只是单纯厌倦了在十几个App之间反复切换、点击、输入、等待——而这些动作,本不该由人来重复。

现在,这一切可以交给一个真正“看得懂、想得清、动得了”的AI助手。它不依赖预设脚本,不靠固定坐标点击,而是像真人一样——看屏幕、读文字、理解界面、规划步骤、动手操作

这就是Open-AutoGLM(AutoGLM-Phone)带来的改变。它不是另一个聊天机器人,而是一个运行在你电脑上的“手机远程大脑”:你用自然语言说一句“打开小红书搜美食”,它就能自动解锁手机、启动App、找到搜索框、输入关键词、点击搜索、滚动浏览结果——全程无需你碰一下手机。

更关键的是,它不挑设备、不卡流程、不惧界面改版。小红书今天更新了首页Tab栏?没关系,它靠截图+UI结构实时理解;搜索框位置变了?它能重新定位控件;甚至遇到验证码弹窗,它会主动暂停,等你手动输入——安全、可靠、有分寸。

本文不讲抽象概念,不堆技术参数,只聚焦一件事:手把手带你把Open-AutoGLM跑起来,真实完成一次小红书自动搜索,并告诉你每一步为什么这么走、哪里容易踩坑、怎么调得更稳。


2. 它到底怎么“看”手机、“想”步骤、“动”手指?

2.1 三步闭环:感知 → 规划 → 执行,缺一不可

Open-AutoGLM 的能力,来自一个严丝合缝的“感知-思考-行动”循环。这个循环每秒可执行一次,且每次都会根据最新界面状态动态调整策略。

  • 感知层:不只是截图,而是“读懂”屏幕
    它通过 ADB 同时获取三类信息:
    高清截图(PNG格式,保留所有视觉细节)
    UI结构树(XML格式,精确到每个按钮的坐标、文本、类型、是否可点击)
    当前Activity名(如com.xiaohongshu.main.MainActivity,确认App是否已启动)
    这三者结合,让模型既“看见”图标颜色和布局,又“知道”哪个区域是搜索框、哪个是返回键——就像人既用眼睛看,也用经验判断。

  • 规划层:把一句话拆解成可执行的“操作剧本”
    面对指令“打开小红书搜美食”,模型内部会生成一段思考链(通常包裹在<think>标签中):

    “用户要搜索‘美食’,需先确保小红书已打开。当前界面未识别到小红书主界面,应先启动App。启动后,查找顶部搜索栏(常见于ActionBar或Tab下方),点击后输入‘美食’,再点击搜索按钮或回车。”

  • 执行层:输出标准JSON动作,由ADB精准落地
    思考完成后,模型输出结构化指令,例如:

    { "action": "Launch", "package": "com.xiaohongshu.app" }

    { "action": "Tap", "element": [542, 187], "_metadata": "search_bar" }

    控制端收到后,直接调用adb shell input tap 542 187,毫秒级完成点击。

整个过程全自动、可追溯、可中断——你随时能看日志知道它“正在想什么”“刚做了什么”“下一步要干什么”。

2.2 和传统自动化工具的本质区别

对比维度传统UI自动化(如Appium)Open-AutoGLM
依赖前提必须提前写好元素定位器(ID/XPath/坐标),界面一改即失效仅需截图+UI结构,界面重排、文案微调、按钮换色均不影响识别
指令方式写代码:driver.find_element(By.ID, "search_btn").click()说人话:“点右上角放大镜图标”
容错能力找不到元素直接报错崩溃若未找到匹配控件,会主动尝试替代方案(如滑动查找、模糊匹配文本)或请求人工接管
学习成本需掌握编程、XPath、Android开发知识只需会用命令行、能连上手机、会写简单中文指令

一句话总结:Appium 是“按图纸施工的工人”,Open-AutoGLM 是“带眼睛和脑子的项目经理”。


3. 从零开始:三步搞定小红书自动搜索(实操指南)

我们以最常用场景——在小红书搜索“上海咖啡探店”并截图前三条笔记封面——为例,完整走一遍部署、连接、执行流程。所有命令均经实测验证,适配 Windows/macOS,真机/模拟器通用。

3.1 环境准备:5分钟配好你的“控制台”

硬件与基础软件
  • 一台电脑(Windows 10+/macOS 12+)
  • 一部安卓手机(Android 7.0+,建议 Android 10 以上体验更佳)
  • USB 数据线(首次配置必需)
  • Python 3.10+(检查命令:python --version
关键工具安装:ADB(安卓调试桥)

ADB 是连接电脑与手机的“神经中枢”。安装后,你的电脑才能向手机发指令。

  • Windows 用户

    1. 下载 Platform-tools(压缩包)
    2. 解压到任意文件夹,例如C:\adb
    3. Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\adb
    4. 打开新命令行窗口,输入adb version,看到版本号即成功
  • macOS 用户
    在终端执行:

    # 下载并解压 platform-tools 到 ~/Downloads cd ~/Downloads/platform-tools export PATH="$PATH:$(pwd)" # 永久生效(写入 shell 配置) echo 'export PATH="$PATH:~/Downloads/platform-tools"' >> ~/.zshrc source ~/.zshrc adb version # 验证

3.2 手机端设置:三步开启“被操控权限”

这是最容易卡住的环节,请严格按顺序操作:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”

  2. 开启USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试” → 弹出授权窗口时,勾选“始终允许”,点击“确定”

  3. 安装并启用 ADB Keyboard(关键!否则无法输入文字)

    • 下载 ADB Keyboard APK(推荐 v1.3)
    • 用USB连接手机,电脑端执行:
      adb install ADBKeyboard.apk
    • 手机设置 → 语言与输入法 → 虚拟键盘 → 勾选“ADB Keyboard” → 设为默认输入法

验证:断开USB,用WiFi连接后,在命令行输入adb shell input text "test",手机输入框应出现“test”。若无反应,回头检查第3步。

3.3 部署Open-AutoGLM:一行命令克隆,两行命令启动

# 1. 克隆官方仓库(国内用户建议加代理或使用镜像源) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装核心依赖(自动处理多模态支持) pip install -r requirements.txt pip install -e . # 3. (可选)升级ADB至最新版(避免兼容问题) adb version # 查看当前版本 # 若低于 1.0.41,建议更新

3.4 连接手机:USB or WiFi?这里给你最优解

  • USB直连(新手首选,稳定不掉线)
    手机用USB连电脑 → 命令行执行:

    adb devices # 正常输出类似:AERFUT4B08000806 device # 记下这串设备ID,后面要用
  • WiFi无线连接(适合长期使用,免线缆束缚)

    1. 先用USB连接,执行:
      adb tcpip 5555
    2. 拔掉USB线,确保手机与电脑在同一WiFi下
    3. 查看手机IP(设置 → 关于手机 → 状态 → IP地址)
    4. 电脑执行:
      adb connect 192.168.1.100:5555 # 替换为你的手机IP adb devices # 应显示 192.168.1.100:5555 device

3.5 执行小红书搜索:一条命令,全程自动

注意:首次运行需确保小红书App已安装在手机上(未登录也可,搜索功能无需账号)

python main.py \ --device-id AERFUT4B08000806 \ # 替换为你的设备ID或IP:5555 --base-url http://localhost:8000/v1 \ # 本地vLLM服务地址(见下文说明) --model "autoglm-phone-9b" \ "打开小红书搜索上海咖啡探店"
关键参数说明(小白友好版)
  • --device-id:就是adb devices显示的那一串字符,它是手机的“身份证号”
  • --base-url:指向AI模型服务的地址。如果你没有自建服务器,可直接使用官方提供的免费API端点(需注册获取Token,详见官方文档)
  • 最后引号内的文字:就是你给AI下的“老板指令”,越具体越好。例如:“打开小红书,点搜索框,输入‘上海咖啡探店’,点搜索,下滑查看前3条笔记,截屏保存”
你将看到什么?
  • 控制台实时打印:Checking system requirements... OK(环境检查通过)
  • 接着是<think>区块:模型正在推理“如何打开小红书”“搜索框在哪”
  • 然后是<execute>区块:输出{"action": "Launch", "package": "com.xiaohongshu.app"}等JSON
  • 手机同步响应:自动解锁 → 启动小红书 → 点击搜索栏 → 输入文字 → 点击搜索 → 滚动浏览
  • 任务完成后,控制台显示Task completed successfully!

小技巧:想让它执行完自动截图?在指令末尾加上“并截屏保存”。模型会识别该意图,调用adb shell screencap并将图片存到电脑指定目录。


4. 真实场景进阶:不止于搜索,还能做什么?

Open-AutoGLM 的价值,远不止“帮点几下屏幕”。它的核心能力是将自然语言意图,转化为跨App、跨页面、多步骤的连续操作流。以下是几个已验证的高价值场景:

4.1 社交媒体批量运营(小红书/抖音/微博)

  • “打开小红书,进入我的主页,点击‘笔记’Tab,对最新发布的3篇笔记,分别点赞+收藏+评论‘干货满满!’”
  • “打开抖音,搜索‘AI绘画教程’,关注前5个粉丝超10万的博主,对他们的最新视频点赞”
  • 优势:规避平台反爬机制,操作行为与真人一致,无封号风险

4.2 电商比价与下单(淘宝/京东/拼多多)

  • “打开淘宝,搜索‘iPhone 15 Pro 256G’,按销量排序,记录前3个商品的标题、价格、月销数,截图保存”
  • “打开京东,登录账号,进入购物车,对所有‘待付款’订单,选择‘去结算’,跳过优惠券,提交订单”
  • 优势:多平台无缝切换,自动处理登录态、滑动加载、弹窗确认

4.3 教育与办公辅助(网课/会议/文档)

  • “打开腾讯会议,加入会议号123456789,开启摄像头和麦克风,静音自己,共享屏幕并打开‘课程PPT.pdf’”
  • “打开网易有道词典,拍照扫描课本第42页的英文段落,翻译成中文,复制到剪贴板”
  • 优势:复杂交互链路一键触发,解放双手专注内容本身

4.4 个人生活自动化(健康/出行/娱乐)

  • “打开Keep,搜索‘10分钟肩颈放松’,播放第一个视频,开启计时器”
  • “打开高德地图,输入‘公司’和‘家’,查询实时驾车路线,播报预计时间”
  • “打开网易云音乐,搜索‘专注工作’歌单,播放,开启‘每日推荐’”
  • 优势:将碎片化App操作整合为一句语音指令,真正实现“动口不动手”

5. 常见问题与避坑指南(血泪经验总结)

在数十次真机实测中,我们整理出最常遇到的5个问题及根治方案:

5.1 问题:adb devices显示unauthorized或空白

  • 原因:手机未授权电脑调试
  • 解决:拔掉USB,重启手机开发者选项(关再开),重新连接,手机弹出“允许USB调试吗?”窗口,务必勾选“一律允许”,再点确定

5.2 问题:执行Type动作时,手机无任何输入

  • 原因:ADB Keyboard 未启用或未设为默认
  • 解决
    1. 手机设置 → 语言与输入法 → 确认“ADB Keyboard”已开启
    2. 点击“默认键盘”,选择“ADB Keyboard”
    3. 返回桌面,长按任意输入框,选择“输入法” → 切换为 ADB Keyboard

5.3 问题:小红书启动后,模型找不到搜索框,一直卡住

  • 原因:新版本小红书将搜索框藏在首页右上角“放大镜”图标内,需先点击图标再输入
  • 解决:指令改为更精准的表述:
    "打开小红书,点击右上角放大镜图标,输入‘上海咖啡探店’,点击搜索"
    模型会优先识别图标而非文字,成功率提升90%

5.4 问题:WiFi连接频繁断开,adb connect失败

  • 原因:手机休眠或WiFi省电策略关闭了ADB服务
  • 解决
    1. 手机设置 → 电池 → 关闭“优化电池使用”(针对ADB相关进程)
    2. 设置 → WLAN → 高级 → 关闭“WLAN休眠策略”
    3. 或直接改用USB连接,稳定性100%

5.5 问题:模型返回{"action": "Take_over"},任务暂停

  • 原因:检测到敏感操作(如支付密码框、短信验证码、银行App),主动请求人工介入
  • 解决:这是安全设计,非Bug。你只需在手机上手动输入验证码,然后在控制台按回车,任务自动继续

6. 总结:你的手机,从此有了一个“数字分身”

Open-AutoGLM 不是又一个玩具级Demo,而是一套经过真实场景锤炼的、开箱即用的手机AI Agent框架。它把大模型的“理解力”、多模态的“观察力”、ADB的“执行力”三者深度融合,第一次让“用说话控制手机”这件事,脱离了语音助手的浅层应答,进入了真正的自主决策与操作层面。

回顾本文的实践路径:
你学会了如何在自己的电脑上,5分钟配齐ADB环境;
你亲手完成了小红书自动搜索的全流程,亲眼看到AI如何“看图识字、规划步骤、动手执行”;
你掌握了社交运营、电商比价、教育办公等真实场景的指令写法;
你拿到了一份来自一线实测的避坑清单,避开90%的新手障碍。

下一步,你可以:
🔹 尝试更复杂的指令,比如“对比小红书、抖音、微博上关于‘AI写作工具’的讨论热度,生成简报”;
🔹 将它集成进你的自动化工作流,用Python API定时执行日报收集;
🔹 甚至基于它开发专属Agent,比如“我的健身教练助理”“我的留学申请助手”。

技术的意义,从来不是炫技,而是让人从重复劳动中解脱出来,把精力留给真正需要创造力与温度的地方。

你的手机,已经准备好拥有一个更聪明的伙伴了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/29 17:42:51

为什么选择Glyph?因为它让AI学会‘看书’

为什么选择Glyph&#xff1f;因为它让AI学会‘看书’ 你有没有想过&#xff0c;当AI面对一本几十万字的小说、一份上百页的技术文档&#xff0c;或者一整套PDF格式的合同&#xff0c;它到底是怎么“读”的&#xff1f;是像我们一样逐字扫过&#xff0c;还是有更聪明的办法&…

作者头像 李华
网站建设 2026/3/27 10:13:30

亲测Qwen-Image-Edit-2511图像漂移问题明显改善

Qwen-Image-Edit-2511图像漂移问题明显改善&#xff1f;我用三组对比图实测了真实效果 你有没有试过这样的情景&#xff1a;精心画好mask&#xff0c;输入“把西装换成休闲衬衫”&#xff0c;结果生成的人不仅衬衫变了&#xff0c;连脸型、发型、背景光影全跟着偏移——仿佛模…

作者头像 李华
网站建设 2026/3/29 10:14:02

GPEN支持哪些输入格式?常见图像类型兼容性测试

GPEN支持哪些输入格式&#xff1f;常见图像类型兼容性测试 你是不是也遇到过这样的问题&#xff1a;明明下载好了GPEN人像修复镜像&#xff0c;兴冲冲地把一张照片拖进去准备“一键变美”&#xff0c;结果报错说“Unsupported image format”&#xff1f;或者换了几种格式反复…

作者头像 李华
网站建设 2026/3/27 7:31:54

FSMN VAD显存不足?CPU模式部署也能高效运行实战案例

FSMN VAD显存不足&#xff1f;CPU模式部署也能高效运行实战案例 1. 为什么你不需要GPU也能跑好FSMN VAD 很多人第一次尝试部署FSMN VAD时&#xff0c;看到“模型来自FunASR”“支持CUDA加速”这类描述&#xff0c;下意识就去查显卡型号、装CUDA驱动、配cuDNN——结果发现&…

作者头像 李华
网站建设 2026/3/27 1:06:09

老照片修复神器来了!GPEN人像增强真实体验分享

老照片修复神器来了&#xff01;GPEN人像增强真实体验分享 你有没有翻出过泛黄卷边的老相册&#xff1f;那张1985年全家福&#xff0c;父亲的领口模糊成一片灰影&#xff0c;母亲眼角的皱纹被噪点吞没&#xff0c;连弟弟手里的搪瓷杯都只剩个朦胧轮廓——不是不想修&#xff0…

作者头像 李华
网站建设 2026/3/28 19:59:07

从手动到自动:MySQL5.7运维效率提升300%的秘诀

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个MySQL5.7自动化运维平台&#xff0c;包含自动备份恢复、性能监控告警、参数调优建议、版本升级等功能。要求提供可视化操作界面&#xff0c;支持定时任务设置&#xff0c;…

作者头像 李华