一句话
OpenAI 在5月8日给 Codex 加了个 Chrome 浏览器插件。效果:AI 可以在后台独立操作浏览器标签页,执行搜索、抓取、填表、发布等任务,多标签并行,互不干扰。
1. 背景:之前的浏览器操控有什么问题?
在插件发布之前,Codex 操作浏览器有几种方式,各有短板:
Copy
方式 问题 ───────────────────────────────────── In-app browser 内置调试用浏览器,不是真实浏览器 Browser use 类似通用自动化,不够智能 Computer Use 能操控桌面应用,但和浏览器共享单个应用时不稳定 Playwright MCP 通用自动化引擎,需要逐步配置OpenAI 工程师的原话:
"Computer Use 可以在后台使用应用程序,但很难与 Codex 同时共享单个应用,尤其是浏览器。"
新插件解决了什么:
"新的 Chrome 插件允许 Codex 在不干扰你的情况下运行自己的标签页。子代理可以同时运行独立的标签页。"
2. 插件核心能力
2.1 三种浏览器操控方式对比
Copy
维度 In-app Browser Browser Use Chrome Extension (新插件) ───────────────────────────────────────────────────────────────────────── 本质 内置调试浏览器 通用自动化引擎 官方真实浏览器执行通道 是否真实浏览器 否 是 是 登录态 无 部分 完整继承 多标签并行 不支持 不支持 支持 子代理协同 不支持 不支持 支持 更新同步 不适用 手动 自动 调试成本 低 高 低2.2 权限控制
插件提供了精细的权限管理:
Copy
权限类型 功能 ──────────────────────── 标签页管理 查询、切换、固定标签页 历史记录 查看浏览历史 下载管理 控制文件下载(可配置允许/禁止的域名) 上传管理 控制文件上传 域名控制 允许/禁止特定网站2.3 运行状态指示
绿色图标 = Codex 已完全托管浏览器,可以执行操作。
3. 实测:7个真实场景
以下是博主「kate人不错」对 Codex Chrome 插件的7个实测任务。
任务1:搜索五一冷门旅游城市
Copy
任务:搜索至少20个帖子,整理结论 模型:GPT-5.5 medium + fast mode 耗时:3分41秒 结果:整理出重要城市、关注点、评论线索,附带详细表格和参考依据 评价:结论到位,远超预期任务2:搜索推特评价
Copy
任务:搜索互动量多的 Codex Chrome 插件帖子,至少50条汇总 耗时:约4分钟 过程: 1. AI 批量快速生成搜索关键词 2. 初步采集89条 3. 严格筛选后补充至50条 评价:搜索和筛选能力强,适合舆情分析场景任务3:登录GPT官网提问
Copy
任务:登录 chatgpt.com,选择 Pro 模型提问 过程: 1. 自动打开 GPT 官网 2. 优化提示词并提交 3. 每2分钟检查进度 耗时:6分多钟 评价:能操作已登录的真实网站任务4:批量处理5个Gemini页面
Copy
任务:打开5个 Gemini 页面,用 Extended Pro 生成不同内容 过程:Codex 逐个接管 Gemini 页面进行操作 耗时:3分多钟 发现:如果未明确提示"多标签并行",会逐个处理较慢 明确指令后可以高效并行任务5:总结Simon Willison四月文章
Copy
任务:总结技术博主 Simon Willison 2026年4月所有文章要点 挑战:服务器抓取被防护页拦截 解决:从浏览器 DOM 获取渲染后数据 结果: - 发现14篇正式长文 - 耗时3分多钟 - 总结121条内容 - 列出每篇文章标题与核心要点 评价:反爬能力强,不依赖服务端,直接从DOM拿数据任务6:京东淘宝比价
Copy
任务:搜索大疆DJI,整理销量最高三个店铺的价格表格 结果: - 京东:1分10秒完成,整理好价格表格 - 淘宝:触发站点安全策略,被禁止访问 替代方案:通过淘宝客户端 API 访问 发现:部分网站(如淘宝)有反自动化策略,需要额外处理任务7:自动生成发布小红书帖子
Copy
任务:搜索插件信息 → 写帖子 → 生成图片 → 自动发小红书 过程: 1. AI 搜索并撰写内容 2. ImageGen 生成配图(中文渲染质量高) 3. 上传图片 → 第一次因权限错误失败 4. 手动开启 "Allow access to file URLs" 5. 重新上传成功,撰写文案 耗时:约1分多钟完成到发布前一步 评价:端到端自动化能力很强,但权限配置需注意4. 技术分析
4.1 为什么比 Playwright 强?
Copy
# 定位差异 Playwright = { "定位": "通用浏览器自动化引擎", "优势": "稳定、可复现、可配置", "适合": "测试工程师、爬虫开发", "劣势": "需要逐步编写脚本,不智能", } Codex_Chrome_Extension = { "定位": "AI Agent 的真实浏览器执行通道", "优势": "理解自然语言、智能决策、多标签并行", "适合": "内容运营、市场调研、自动化办公", "劣势": "不适合需要精确复现的测试场景", } # 简单说: # Playwright = 你写代码让它按固定步骤执行 # Codex Chrome = 你用自然语言描述意图,它自己想办法完成4.2 多标签并行的实现
Copy
传统方式(串行): 用户 → 任务A → 完成 → 任务B → 完成 → 任务C → 完成 总耗时:A + B + C Codex Chrome(并行): 用户 → 任务A ─┬─ 标签页1 ├─ 任务B ── 标签页2 └─ 任务C ── 标签页3 总耗时:max(A, B, C)4.3 已知限制
Copy
limitations = { "反自动化网站": "淘宝等会触发安全策略,需要走API", "国内安装": "Chrome商店可能打不开,需要手动安装压缩包", "权限配置": "首次使用需手动开启文件URL访问权限", "复杂任务": "多标签并行需明确提示,否则会逐个处理", "子代理协同": "4个Agent玩画图游戏,协同能力有待提升", }5. 安装与使用
5.1 安装步骤
Copy
1. 打开 Codex,点击"电脑操控" 2. 找到 "Chrome 浏览器插件" 选项 3. 国内用户:下载压缩包,手动安装 海外用户:直接通过 Chrome 网上应用店安装 4. 安装后,在 Chrome 扩展程序中启用 5. 返回 Codex,确认绿色图标 = 连接成功5.2 提示词技巧
Copy
# 差的提示词(串行处理) "帮我搜索5个主题" # 好的提示词(并行处理) "打开5个标签页,并行搜索5个主题,每个标签页一个主题, 最后汇总结果" # 提高准确率的关键: # 1. 明确说"并行"和"多标签" # 2. 说清楚期望的输出格式(表格/列表) # 3. 给出具体数字(至少20条/50条)6. 对开发者的实际价值
6.1 适用场景
Copy
场景 价值评级 说明 ────────────────────────────────────────────────── 竞品分析/价格监控 ★★★★★ 批量爬取,整理表格 舆情收集/社交媒体监控 ★★★★★ 搜索+筛选+汇总 内容运营/草稿生成 ★★★★☆ 搜索+写作+配图 自动化测试(Web) ★★★☆☆ 简单场景够用,复杂场景用 Playwright 数据抓取 ★★★★☆ DOM级别抓取,反爬能力强 自动化办公 ★★★★☆ 填表、报销、邮件处理6.2 与现有工具的组合建议
Copy
# 推荐工具组合 工具栈 = { "日常办公自动化": "Codex Chrome 插件", "精确Web测试": "Playwright", "复杂数据抓取": "Scrapy + Codex Chrome 辅助", "内容生成": "Codex Chrome(搜索+写作)+ ImageGen(配图)", }7. 总结
| 维度 | 评价 |
|---|---|
| 安装便捷性 | 国内需手动,海外直接装 |
| 处理速度 | 极快,多标签并行 |
| 准确率 | 高,搜索和筛选能力强 |
| 反爬能力 | 通过DOM获取数据,绕过服务端拦截 |
| 多标签并行 | 支持,需明确提示 |
| 已登录网站 | 完整继承登录态 |
| 限制 | 部分网站有反自动化策略 |
核心价值:从"AI帮你写代码"进化到"AI帮你干活"。多标签并行 + 登录态继承 + 自然语言指令,让浏览器自动化进入了一个新阶段。
信息来源:Bilibili频道「kate人不错」「程序员晓刘」视频转写(2026-05-10)