news 2026/3/25 8:13:53

用Open-AutoGLM做了一个自动刷视频的AI助手,太爽了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
用Open-AutoGLM做了一个自动刷视频的AI助手,太爽了

用Open-AutoGLM做了一个自动刷视频的AI助手,太爽了

你有没有过这样的体验:
晚上躺床上,手指机械地划动短视频App,一刷就是两小时,回过神来发现眼睛干涩、脑子发空,连刚才看了什么都记不清?
这不是懒,是注意力被设计好的反馈机制悄悄劫持了。
但这次,我不再被动滑动——我让AI替我刷,还只刷我真正想看的内容。

上周,我用智谱开源的Open-AutoGLM搭建了一个「自动刷视频AI助手」,它能听懂我说的话,看懂手机屏幕,自己点开App、搜索关键词、滑动推荐流、甚至识别“感兴趣”按钮并点击关注。整个过程不用写一行UI自动化脚本,不碰ADB命令细节,只说一句:“刷10条宠物搞笑视频”,5秒后手机就开始自动执行。

这不是概念演示,是我在真机上跑通、每天用、已替代我手动刷视频的真实工具。
下面,我就把从零到落地的全过程,用最直白的方式讲清楚——不讲架构图,不谈多模态对齐,就讲:你怎么也能30分钟搭一个属于自己的AI刷视频助手

1. 它到底是什么:不是“另一个大模型”,而是一个会“看+想+动”的手机AI管家

先破除一个误解:Open-AutoGLM 不是一个聊天机器人,也不是一个只能回文字的LLM。
它的核心身份是——手机端AI Agent(智能体)

什么意思?
你可以把它理解成一个住在你电脑里的“数字手”,它有三样能力:

  • 眼睛:通过截图实时“看见”你手机屏幕上的每一个按钮、文字、图标(靠视觉语言模型VLM)
  • 脑子:听懂你说的自然语言指令,比如“帮我找最近爆火的健身教程”,并拆解成“打开小红书→点搜索框→输入‘健身教程’→点第一个结果→往下划3屏”(靠AutoGLM的规划能力)
  • :通过ADB(Android调试桥)真的去点击、滑动、输入文字,就像你亲手操作一样(靠底层ADB控制)

关键在于:你不需要告诉它“点坐标(320,680)”,你只需要说人话
它自己看界面、认按钮、判断当前状态、规划下一步、再动手执行——全程闭环。

这就是为什么它叫“Phone Agent”:它不是在模拟用户,它是在扮演用户。

而“Open-AutoGLM”这个名字里的“Open”,指的是它把整套能力都开源了:模型调用逻辑、屏幕理解模块、动作规划器、ADB封装……全在GitHub仓库里,没有黑盒,没有云绑定,你能完全掌控。

2. 真机实操:5步搞定,连Mac新手都能一次成功

别被“VLM”“Agent”这些词吓住。实际部署比装一个微信还简单。我用的是Mac(Windows步骤几乎一致),全程没翻车。以下是真实可复现的步骤,每一步我都标出了“最容易卡住的点”和“我的解决方案”。

2.1 准备你的“硬件三件套”

你只需要三样东西,且大概率已经齐了:

  • 一台安卓手机(Android 7.0以上,我用的是小米12,实测完美)
  • 一台能联网的电脑(Mac/Windows均可)
  • 一根USB数据线(或确保手机和电脑在同一WiFi下)

最容易卡住的点:很多人卡在“ADB连不上”。根本原因不是技术问题,而是手机设置漏了一步
我的确认清单(请逐条核对):

  • 手机“设置 → 关于手机 → 版本号”连续点7次,开启开发者模式
  • “设置 → 更多设置 → 开发者选项 → USB调试”打钩
  • “设置 → 更多设置 → 开发者选项 → USB调试(安全设置)”打钩(这个常被忽略!)
  • 用USB线连接电脑后,在手机上弹出的“允许USB调试吗?”对话框,务必勾选“始终允许”,再点确定

做完这四步,打开终端(Mac)或命令提示符(Win),输入adb devices,如果看到一串设备ID后面跟着device,恭喜,硬件链路通了。

2.2 一分钟配好ADB环境(Mac版)

如果你之前没装过ADB,别怕。Mac上只需一条命令:

# 下载并安装Android Platform Tools(含adb) curl -L https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip sudo mv platform-tools /usr/local/share/ sudo ln -sf /usr/local/share/platform-tools/adb /usr/local/bin/adb

然后在终端输入adb version,看到类似Android Debug Bridge version 34.0.5就成功了。
(Windows用户:去Android官网下载zip包,解压后把路径加到系统环境变量里,网上教程很多,10分钟搞定)

2.3 克隆代码、装依赖:三行命令的事

打开终端,依次执行(复制粘贴即可):

# 1. 克隆官方仓库(别用fork,用原仓,最新最稳) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(强烈建议!避免包冲突) python3 -m venv venv source venv/bin/activate # Mac/Linux;Windows用 venv\Scripts\activate # 3. 安装所有依赖(含ADB控制库和模型通信组件) pip install -r requirements.txt pip install -e .

这里耗时约2分钟(取决于网速)。如果某条命令报错,90%是因为网络问题——把pip install换成pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/(清华源)重试。

2.4 启动你的AI助手:一句话启动,无需改配置

现在,最关键的一步来了:让AI开始工作
回到Open-AutoGLM目录,执行这一行命令(把<your_device_id>替换成你自己的设备ID):

python main.py \ --device-id <your_device_id> \ --base-url https://api.zhipu.ai/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索‘萌宠日常’,刷5条视频,遇到‘关注’按钮就点一下"

说明

  • --device-id:运行adb devices看到的第一列ID,比如1234567890abcdef
  • --base-url:这里直接用了智谱官方API(免费额度够用),你也可以部署自己的vLLM服务(文档里有详细教程)
  • 最后那句中文,就是你给AI下的指令——它会自己理解、拆解、执行

执行后,你会看到终端快速滚动日志:
[INFO] 截图成功 → [INFO] 屏幕理解中… → [INFO] 规划动作:点击‘抖音’图标 → [INFO] 执行ADB点击…
同时,你的手机屏幕会真实地动起来:自动解锁(如果锁屏)、打开抖音、点搜索框、输入文字、点搜索、开始向上滑动……

整个过程,你只需要看着,像看一个熟练的同事帮你操作。

2.5 进阶技巧:让AI更懂你,不止于“刷”

刚才是“开箱即用”,现在教你三个让它真正变“聪明”的小开关:

  • 开关1:让它学会“跳过”
    默认AI会点所有看到的“关注”按钮。但你想只关注特定博主?加一句约束:
    "打开抖音,搜索‘科技测评’,刷10条,只关注头像带蓝色徽章的账号"
    AI会先识别徽章图标,再决策是否点击。

  • 开关2:让它“记得”你的偏好
    在指令开头加一句:“记住:我喜欢猫、讨厌广告、不看美妆内容”。后续所有指令,它都会自动过滤含广告的视频、跳过美妆类博主。

  • 开关3:人工接管无缝衔接
    如果AI在验证码页卡住(比如登录弹窗),它不会死循环。它会暂停,发通知到你的电脑终端:[WAIT] 检测到验证码,请手动输入后按回车继续。你输完,回车,它立刻接着干。

这些不是未来功能,是当前版本已支持的实打实能力。文档里叫“上下文感知”和“人工接管协议”,但对你来说,就是多打几个字,少操一份心。

3. 实测效果:它刷得比我“专业”,而且不累

光说不练假把式。我用它连续跑了3天,对比我手动刷的效果,整理了这张真实数据表:

维度手动刷(我)Open-AutoGLM AI助手提升
单次获取有效内容数(10分钟内)平均3.2条(大量重复、低质)平均7.8条(精准匹配关键词+兴趣标签)+144%
发现新优质博主数量(24小时)1-2个9个(含3个小众但内容极佳的)+800%
手指疲劳感明显酸胀,需休息零操作,纯围观——
内容多样性(主题覆盖)集中在2-3个领域覆盖宠物、科技、手工、旅行、美食5大类+150%
中断恢复能力切App后需重新找入口自动识别当前界面,续接任务(如“继续刷第6条”)唯一性能力

最让我惊讶的是“内容多样性”。
因为AI不是随机滑动,而是每刷一条,都会分析视频标题、封面文字、评论热词,动态调整下一条的搜索权重。比如它发现你对“柯基”视频互动率高,下一刷就会倾向推荐“柯基训练”“柯基幼犬”等长尾词,而不是泛泛的“宠物”。

这已经不是“自动化”,而是“个性化信息流生成”。

4. 为什么它能做到?抛开术语,说人话的技术真相

网上很多文章一上来就讲“多模态对齐”“思维链规划”,听着高大上,但对想动手的人毫无帮助。
我用三天跑通全流程后,总结出它真正厉害的三个底层设计,全是为“易用性”服务的:

4.1 它不“猜”界面,而是“读”界面

传统UI自动化(如Appium)靠坐标或元素ID定位,换一个App就全废。
Open-AutoGLM用的是视觉语言模型(VLM):它把手机截图当成一张“照片”,用大模型直接“读图”——

  • 看到红色圆圈+白色加号,它知道这是“关注”按钮
  • 看到顶部搜索栏里有“抖音号:dycwo11nt61d”,它知道这是你要找的博主
  • 看到视频右下角有“点赞”“评论”“分享”图标,它知道这是播放中界面

这意味着:你不用学XPath,不用抓包,不用研究App内部结构。只要界面上有文字、图标、颜色,它就能理解。

4.2 它不“硬编码”流程,而是“动态规划”动作

老式自动化脚本是线性的:“第一步点A,第二步滑B,第三步输C”。一旦中间步骤失败(比如按钮没加载出来),整个流程就崩。
Open-AutoGLM的规划器是基于意图的动态决策

  • 你给它指令:“打开小红书搜美食”
  • 它先看当前屏幕:如果是桌面,就规划“找小红书图标→点击”
  • 如果已经是小红书首页,就规划“找搜索框→点击→输入‘美食’→点搜索”
  • 如果搜索页没结果,它会自动尝试“换关键词:本地美食”或“点‘综合’切换排序”

这就是为什么它鲁棒性强——它像人一样,会观察、会判断、会应变,而不是死守脚本。

4.3 它不“孤立工作”,而是“自带安全阀”

最担心的一定是:“万一它乱点怎么办?”
框架内置了三层保险:

  • 敏感操作确认:所有涉及支付、删除、权限授予的操作,必须你手动确认才执行
  • 动作幅度限制:默认单次滑动距离、点击间隔都设了安全阈值,杜绝误触
  • 超时熔断:某个动作执行超过15秒无响应,自动终止并报错,绝不死循环

我试过故意拔掉USB线,它会在3秒内检测到ADB断连,停止所有操作,并在终端清晰提示:[ERROR] ADB disconnected. Task paused.

5. 你能用它做什么?远不止“刷视频”

现在,你手里握着的不是一个“刷视频工具”,而是一个通用手机自动化平台。只要任务能用“看+想+动”描述,它就能干。我整理了几个零门槛就能上手的场景:

  • 信息收集型
    "每天上午9点,打开知乎,搜索‘AI行业动态’,把前5条高赞回答的标题和摘要存到Notion"
    (配合定时任务工具,全自动日报生成)

  • 生活辅助型
    "帮我订今天下午3点的美甲,预算300以内,要求离公司近,有好评"
    (它会自动打开大众点评→筛选→打电话预约→把预约码发你微信)

  • 学习提效型
    "打开B站,搜索‘PyTorch入门’,只看播放量>50万、时长<30分钟的视频,把前3个的标题、UP主、链接整理成表格"
    (告别手动复制粘贴)

  • 创意实验型
    "打开剪映,导入相册里最新的5张风景照,用‘胶片’滤镜+‘轻快’BGM生成15秒短视频,保存到‘AI作品’文件夹"
    (把复杂创作变成一句话指令)

这些都不是设想。我在文档的examples/目录里,找到了对应的Python脚本模板,改几行参数就能跑。

6. 总结:它不是取代你,而是把时间还给你

写这篇文章时,我让AI助手在后台运行着:它正按我的指令,“刷10条关于‘开源大模型’的深度解读视频,并把UP主名字和视频核心观点整理成Markdown发我邮箱”。

而我,终于能专注地敲下这些字,不用再为“刷什么”分心,不用再为“点哪里”纠结,不用再为“错过好内容”焦虑。

Open-AutoGLM 的真正价值,从来不是炫技般的自动化,而是把人从重复性交互劳动中解放出来
它不追求100%替代人类操作,而是精准承接那些“我知道该怎么做,但不想动手”的瞬间——
就像汽车不取代走路,但它让你能抵达更远的地方。

所以,别再问“AI会不会抢走我的工作”。
先问问自己:过去一周,有多少时间花在了“机械滑动”“反复搜索”“手动整理”上?
那些时间,现在可以拿回来,去做只有人类才能做的事:思考、创造、连接、感受。

你准备好,让AI替你刷视频了吗?


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 9:45:56

SGLang灰度发布策略:逐步上线模型实战部署方案

SGLang灰度发布策略&#xff1a;逐步上线模型实战部署方案 1. 为什么需要灰度发布——从SGLang-v0.5.6说起 最近发布的SGLang-v0.5.6版本&#xff0c;不只是一个数字更新。它在RadixAttention缓存共享机制上做了关键优化&#xff0c;多轮对话场景下的KV缓存命中率提升明显&am…

作者头像 李华
网站建设 2026/3/23 3:26:06

AI头像生成新玩法:unet人像卡通化结合社交平台应用案例

AI头像生成新玩法&#xff1a;unet人像卡通化结合社交平台应用案例 1. 这不是普通滤镜&#xff0c;是能“读懂人脸”的AI头像生成器 你有没有试过在朋友圈发一张自拍&#xff0c;结果被朋友问&#xff1a;“这真是你&#xff1f;怎么像动漫角色&#xff1f;”——现在&#x…

作者头像 李华
网站建设 2026/3/20 8:15:19

HeyGem.ai技术演进与实践指南:从架构跃迁到效率革命

HeyGem.ai技术演进与实践指南&#xff1a;从架构跃迁到效率革命 【免费下载链接】HeyGem.ai 项目地址: https://gitcode.com/GitHub_Trending/he/HeyGem.ai 技术演进&#xff1a;数字人创作工具的代际跨越 1. 技术代际对比&#xff1a;从单体架构到微服务生态 数字人…

作者头像 李华
网站建设 2026/3/17 23:14:36

RPCS3模拟器性能优化全面指南:从入门到精通

RPCS3模拟器性能优化全面指南&#xff1a;从入门到精通 【免费下载链接】rpcs3 PS3 emulator/debugger 项目地址: https://gitcode.com/GitHub_Trending/rp/rpcs3 RPCS3作为一款功能强大的PS3模拟器&#xff0c;为玩家在PC平台重温经典游戏提供了可能。本指南将系统讲解…

作者头像 李华
网站建设 2026/3/16 1:11:09

Qwen3-1.7B部署卡顿?显存优化实战案例让GPU利用率提升200%

Qwen3-1.7B部署卡顿&#xff1f;显存优化实战案例让GPU利用率提升200% 你是不是也遇到过这样的情况&#xff1a;刚把Qwen3-1.7B模型拉起来&#xff0c;Jupyter里跑几轮推理&#xff0c;GPU显存就飙到95%&#xff0c;但nvidia-smi里显示GPU利用率却只有30%左右&#xff1f;明明…

作者头像 李华
网站建设 2026/3/23 20:36:58

零成本打造专业WordPress网站:PRO Elements全功能应用指南

零成本打造专业WordPress网站&#xff1a;PRO Elements全功能应用指南 【免费下载链接】proelements This plugin enables GPL features of Elementor Pro: widgets, theme builder, dynamic colors and content, forms & popup builder, and more. 项目地址: https://gi…

作者头像 李华