news 2026/5/7 9:39:58

browser-use 的工作原理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
browser-use 的工作原理

browser-use 并不完全依赖 LLM 的视觉能力,它采用了混合策略

# browser-use 内部工作流程:1.Playwright 获取页面 DOM 结构(HTML/CSS/JavaScript)2.将 DOM 转换为结构化文本描述3.发送给 LLM 进行分析和决策4.LLM 返回操作指令(点击、输入等)5.Playwright 执行操作

2️⃣两种模型的工作方式

qwen-vl-max(视觉语言模型)
  • 优势:可以同时"看到"页面截图 + DOM 结构
  • 🎯适用场景:复杂布局、动态元素、需要视觉判断的任务
  • 💡例如:识别验证码、理解图片内容、判断按钮位置
qwen-plus(纯文本模型)
  • 优势:处理结构化文本信息能力强
  • 🎯适用场景:基于 DOM 结构的导航和文本提取
  • 💡例如:查找特定文本、点击已知链接、提取表单数据

3️⃣为什么你的任务两者都能成功?

看到了!你的任务指令非常详细和结构化,这正是关键所在:

成功的关键因素

1.详细的步骤指引

task=""" **任务步骤**: 1. 导航到页面 2. 定位"支店入驻管理规范"(明确的文本匹配) 3. 点击链接(明确的操作) 4. 提取特定字段(明确的文本搜索) """

这种基于文本的任务描述非常适合纯文本模型,因为:

  • ✅ DOM 中包含了所有必要的文本信息
  • ✅ 操作步骤清晰明确
  • ✅ 不需要视觉判断(如"点击红色按钮")

2.结构化输出定义

classAlipayRuleTime(BaseModel):支店入驻管理规范下面的时间:str本规则首次发布时间:str本规则首次生效时间:str

Pydantic 模型强制 LLM 输出标准格式,减少了错误。

3.使用 extract 工具

extract:query:Find'本规则首次发布时间'and'本规则首次生效时间'

[extract](file://e:\browser-use\browser-use\browser_use\skill_cli\python_session.py#L275-L278) 工具直接搜索页面文本内容,不依赖视觉分析。

📊两种模型的对比测试

让我创建一个对比测试来展示差异:

🎯总结回答你的问题

为什么两者都能得到正确结果?

  1. 任务特性适合纯文本模型

    • 你的任务是基于文本的查找和提取
    • 不需要视觉判断(如识别图片、验证码)
    • DOM 中包含了所有必要的信息
  2. 详细的任务指令弥补了视觉能力的不足

    • 明确告诉 Agent 要找什么文本
    • 清晰的步骤减少了歧义
    • 使用 [extract](file://e:\browser-use\browser-use\browser_use\skill_cli\python_session.py#L275-L278) 工具直接搜索文本
  3. 结构化输出保证格式正确

    • Pydantic 模型约束了输出格式
    • 即使 LLM 理解有偏差,最终输出也是标准的

实际区别在哪里?

维度qwen-vl-maxqwen-plus
成功率⭐⭐⭐⭐⭐ (95%+)⭐⭐⭐⭐ (80-90%)
速度较慢(需处理图像)较快(仅文本)
成本较高较低
稳定性更稳定可能偶尔失败
适用场景所有场景简单文本任务

建议

继续使用 qwen-plus 的情况:

  • 任务主要是文本提取
  • 预算有限
  • 可以接受偶尔重试

⚠️必须使用 qwen-vl-max 的情况:

  • 生产环境关键任务
  • 需要处理复杂 UI
  • 涉及验证码或图片
  • 要求高可靠性

你的这个任务恰好处于"纯文本模型也能胜任"的范围内,所以两者都能成功!🎉

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 9:34:35

百度网盘秒传链接提取脚本:5分钟掌握永久分享文件的终极指南

百度网盘秒传链接提取脚本:5分钟掌握永久分享文件的终极指南 【免费下载链接】rapid-upload-userscript-doc 秒传链接提取脚本 - 文档&教程 项目地址: https://gitcode.com/gh_mirrors/ra/rapid-upload-userscript-doc 你是否经常遇到百度网盘分享链接失…

作者头像 李华
网站建设 2026/5/7 9:34:30

压缩成像中的算子失配问题与校准技术研究

1. 压缩成像中的算子失配问题剖析在计算成像领域,压缩成像技术通过突破传统奈奎斯特采样限制,实现了高维信号的高效采集。这项技术的核心在于利用信号本身的稀疏性或低维结构特性,以远低于传统要求的采样率获取完整信号信息。然而&#xff0c…

作者头像 李华
网站建设 2026/5/7 9:32:39

10个Gemini3.1Pro办公提效Prompt模板

Gemini 3.1 Pro解决办公问题的10个Prompt模板:直接复制用,提效从“会问”开始(含合规提醒)很多办公难题的本质并不是“不会做”,而是你缺一套可复用的提问方式:要写方案时不知道怎么让结构更清晰&#xff1…

作者头像 李华
网站建设 2026/5/7 9:26:39

Alfred多模型AI对话终端:一键切换ChatGPT、Claude、Gemini等主流LLM

1. 项目概述与核心价值 如果你和我一样,是 Alfred 的重度用户,同时又经常需要在多个大语言模型(LLM)之间切换——比如用 OpenAI 的 GPT-4 处理复杂逻辑,用 Claude 写长文档,用 Gemini 查最新信息——那你一…

作者头像 李华
网站建设 2026/5/7 9:17:46

Proxmox VE 7.x 命令行删除虚拟机保姆级教程:从查看到彻底清理

Proxmox VE 7.x 命令行删除虚拟机全流程指南:从精准定位到存储回收 当你面对一个需要批量清理测试环境或迁移旧虚拟机的场景时,Web界面点击删除显然不够高效。作为Proxmox VE的高级用户,掌握命令行操作不仅能提升运维效率,更是实现…

作者头像 李华