Selenium反检测实战：让Chrome与Firefox浏览器绕过网站自动化识别-开发者社区

1. 项目概述：当浏览器有了“自我意识”

做Python数据分析或者自动化测试的朋友，对Selenium这个工具肯定不陌生。它就像一双无形的手，能帮你自动操作浏览器，完成数据抓取、表单填写、页面测试等一系列重复性工作。但不知道你有没有遇到过这样的尴尬场景：你精心编写的脚本，在本地跑得飞起，一放到目标网站上，要么被直接拒绝访问，要么操作几下就被识别出来，弹出一个验证码，甚至直接封掉IP。这时候，浏览器仿佛有了“自我意识”，它“知道”自己正在被一个叫Selenium的程序控制着。

这个问题在数据分析的爬虫环节、自动化测试的模拟用户行为环节，以及需要高频次、稳定访问网页数据的任何场景下，都至关重要。今天，我们就来深入聊聊这个核心痛点：如何让Chrome和FireFox浏览器“感觉”不到Selenium的存在，从而顺利绕过网站的反爬虫或反自动化检测机制。这不仅仅是加几个参数那么简单，而是一场与网站检测技术斗智斗勇的“伪装艺术”。无论你是数据分析师需要稳定获取数据源，还是测试工程师要模拟更真实的用户场景，掌握这些技巧都能让你的自动化脚本更加“隐形”和可靠。

2. 反检测的核心原理与浏览器指纹

在开始动手之前，我们必须先搞清楚，网站是怎么知道我们在用Selenium的？理解了对方的“侦察手段”，我们才能进行有效的“伪装”。

2.1 网站如何识别自动化脚本

网站开发者有一系列手段来探测自动化访问，这些手段统称为“浏览器指纹”检测。Selenium因为其工作方式，会在浏览器环境中留下一些独特的“指纹”痕迹。主要检测点包括：

WebDriver属性：这是最直接的标志。Selenium会通过window.navigator.webdriver这个JavaScript属性暴露自己。在普通用户手动打开的浏览器中，这个属性是undefined或者false；而在Selenium控制的浏览器中，它通常是true。很多反爬虫脚本第一件事就是检查这个属性。
浏览器特征参数：Selenium启动浏览器时，为了功能稳定或绕过一些限制，会添加一些特定的命令行参数，例如--enable-automation、--disable-blink-features=AutomationControlled等。这些参数本身或它们所导致的一些内部状态变化，可以被JavaScript探测到。
插件与扩展列表：Selenium为了禁用可能干扰自动化的浏览器扩展，通常会使用--disable-extensions参数。一个完全没有扩展的Chrome浏览器，在现实中是非常少见的（用户至少会安装广告拦截插件），这本身就是一个可疑信号。
语言、时区、屏幕分辨率等常规指纹：虽然这些不是Selenium特有的，但网站会综合采集这些信息来构建一个唯一的“指纹”。如果你的脚本所有请求都来自完全相同的指纹（比如相同的User-Agent、屏幕分辨率、时区），即使没有WebDriver属性，也容易被归类为机器人。
行为模式：真正的用户操作是有随机性的，比如鼠标移动轨迹带有弧度、点击前有微小的停顿、滚动速度不均匀等。而Selenium的默认操作是“瞬间完成”的，鼠标直接从A点跳到B点，这种过于“完美”和“机械”的行为模式很容易被高级检测系统识别。

2.2 我们的伪装目标

因此，我们的伪装目标非常明确，就是要系统地抹除或伪造这些“指纹”，让Selenium驱动的浏览器在各方面都无限接近一个真人用户手动操作的环境：

消除WebDriver属性：让navigator.webdriver返回undefined。
合理化启动参数：移除或替换那些明显的自动化参数。
模拟真实用户环境：添加合理的浏览器扩展、设置常见的用户配置。
人性化操作行为：引入随机延迟、模拟人类鼠标移动轨迹。

注意：需要明确的是，完全、永久地绕过所有检测是非常困难的，尤其是面对像Cloudflare、Distil等专业反爬服务时。我们的策略是提高检测门槛，从“一眼假”变成“需要仔细分析才可能发现”，从而应对大多数中小型网站或自研的简单检测逻辑。

3. Chrome浏览器的“隐身”实战配置

Chrome是目前市场占有率最高的浏览器，也是自动化任务的首选。下面我们一步步拆解如何深度伪装一个Chrome实例。

3.1 基础参数配置：移除明显痕迹

首先，我们通过ChromeOptions来配置浏览器启动参数。以下是一组经过实践检验的基础配置，旨在禁用一些常见检测点并优化性能。

from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() # 核心：尝试禁用自动化控制标志（新版Chrome必须） chrome_options.add_argument('--disable-blink-features=AutomationControlled') # 移除“Chrome正受到自动测试软件控制”的提示栏 chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"]) chrome_options.add_experimental_option('useAutomationExtension', False) # 避免被检测到无扩展状态：不禁用扩展，而是加载一个空白扩展或常见扩展 # chrome_options.add_argument('--disable-extensions') # 不要使用这个！ # 可以加载一个本地空白扩展文件夹来模拟有扩展 # chrome_options.add_argument('--load-extension=/path/to/empty_extension') # 其他优化与伪装参数 chrome_options.add_argument('--no-sandbox') # 在Linux/容器环境中常需，但会降低安全性 chrome_options.add_argument('--disable-dev-shm-usage') # 解决共享内存问题 chrome_options.add_argument('--disable-gpu') # 某些虚拟环境无GPU，避免崩溃 chrome_options.add_argument('--window-size=1920,1080') # 设定一个常见的窗口尺寸 chrome_options.add_argument('--lang=en-US') # 设置浏览器语言 chrome_options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36') # 设置一个常见的UA # 可选：以无头模式运行（不显示图形界面），但有些网站能检测无头模式 # chrome_options.add_argument('--headless=new') driver = webdriver.Chrome(options=chrome_options)

关键点解析：

--disable-blink-features=AutomationControlled：这是应对新版Chrome（79+）检测的关键参数，它会移除一些自动化特征。
excludeSwitches和useAutomationExtension：这两个实验性选项共同作用，旨在移除浏览器顶部的黄色警告栏，并禁用Chrome的自动化扩展，这是降低被检测概率的重要一步。
关于扩展：直接禁用扩展(--disable-extensions)是一个强烈的反模式信号。更优的做法是不设置此参数（允许加载），或者像注释中那样，指向一个你自己创建的、内容为空的扩展文件夹，这样浏览器会认为有扩展存在。

3.2 执行CDP命令：深度清除WebDriver痕迹

仅仅依靠启动参数还不够。我们需要使用Chrome DevTools Protocol (CDP) 在页面加载前执行JavaScript代码，直接修改或删除关键的检测属性。这是目前最有效的“去WebDriver化”手段。

# 接上面的代码，在创建driver之后 driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', { 'source': ''' Object.defineProperty(navigator, 'webdriver', { get: () => undefined }); // 覆盖plugins属性，使其返回非空长度 Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5] }); // 覆盖languages属性 Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); // 覆盖chrome对象（某些检测会看这个） window.chrome = { runtime: {}, // ... 可以添加其他chrome属性 }; ''' })

这段CDP命令的作用是在每个新文档（页面）加载之初就执行一段脚本，它重新定义了navigator.webdriver属性的getter方法，使其永远返回undefined。同时，它也伪造了plugins和languages属性，使其看起来更“正常”。window.chrome对象的覆盖则是为了应对一些检查chrome对象是否存在或是否包含某些特定运行时属性的检测脚本。

3.3 进阶伪装：使用Undetected-Chromedriver

如果你觉得手动配置CDP命令太麻烦，或者想获得更“开箱即用”的隐身效果，那么undetected-chromedriver这个第三方库是你的绝佳选择。它专门为此类场景设计，自动处理了上述大部分繁琐的配置。

import undetected_chromedriver as uc # 基本使用，非常简单 driver = uc.Chrome() # 你也可以进行一些自定义配置 options = uc.ChromeOptions() options.add_argument('--start-maximized') driver = uc.Chrome(options=options) # 然后像使用普通selenium driver一样使用它 driver.get('https://nowsecure.nl') # 这是一个著名的反爬测试网站，可用于验证效果

实操心得：undetected-chromedriver在社区中口碑很好，它能自动匹配Chrome版本并下载对应的驱动，同时内置了强大的反检测补丁。对于大多数项目，我建议直接使用它作为起点，可以节省大量调试时间。它的内部同样采用了CDP注入、参数优化等多种手段，比我们自己手动配置通常更全面、更及时（会跟随Chrome更新而更新）。

4. FireFox浏览器的伪装策略

虽然Chrome是主流，但FireFox在某些场景下也有其优势，或者目标网站可能对FireFox的检测不那么严格。Selenium对FireFox（通过GeckoDriver）的支持同样完善，伪装思路类似但具体实现有所不同。

4.1 FirefoxOptions 基础配置

Firefox的配置主要通过FirefoxOptions和FirefoxProfile来完成。

from selenium import webdriver from selenium.webdriver.firefox.options import Options from selenium.webdriver.firefox.firefox_profile import FirefoxProfile firefox_options = Options() # 设置一个常见的User-Agent user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/115.0" firefox_options.set_preference("general.useragent.override", user_agent) # 禁用自动化提示（Firefox也有类似提示） firefox_options.set_preference("dom.webdriver.enabled", False) firefox_options.set_preference("useAutomationExtension", False) # 其他可能暴露的偏好设置 firefox_options.set_preference("webdriver_assistant.enabled", False) firefox_options.set_preference("webdriver_assistant.auto_close", False) # 创建一个配置文件，并设置更多参数 profile = FirefoxProfile() # 启用JavaScript（默认就是启用的，这里演示设置方法） profile.set_preference("javascript.enabled", True) # 设置英语为首选语言 profile.set_preference("intl.accept_languages", "en-US, en") # 禁用Firefox的“跟踪保护”，有时它会干扰页面正常加载 profile.set_preference("privacy.trackingprotection.enabled", False) # 将配置文件和选项合并 firefox_options.profile = profile driver = webdriver.Firefox(options=firefox_options)

4.2 通过CDP清除Firefox的WebDriver属性

与Chrome类似，Firefox也支持CDP（但协议可能略有不同，Selenium封装后接口一致）。我们可以用类似的方法注入脚本。

# 在创建driver之后执行 driver.execute_script(""" Object.defineProperty(navigator, 'webdriver', { get: () => undefined }); """) # 注意：Firefox的CDP支持可能不如Chrome完善。 # 另一种更可靠的方法是在about:config中提前设置，但通过Selenium动态修改about:config比较困难。 # 因此，脚本注入和options中的preference设置是主要手段。

注意事项： Firefox的反检测生态相对Chrome简单一些，但并不意味着更容易。一些关键点：

dom.webdriver.enabled这个偏好设置至关重要，必须设为false。
Firefox的navigator对象中可能还有其他属性，如navigator.buildID，在某些检测中会被查验。如果需要，可以用同样的Object.defineProperty方法进行覆盖。
使用独立的FirefoxProfile对象可以更精细地控制浏览器行为，比如缓存、Cookie、插件等，模拟一个真实用户的长期使用环境。

5. 通用高级伪装技巧与人性化操作

完成了浏览器层面的基础伪装后，我们还需要在“行为”上更像一个人。否则，一个以恒定超快速度、毫无延迟地执行精确操作的“用户”，依然很可疑。

5.1 随机化与延迟策略

绝对不要使用time.sleep(固定秒数)这种死板的等待。应该引入随机性。

import random import time from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC def human_delay(min_sec=1, max_sec=3): """模拟人类操作间隔的随机延迟""" time.sleep(random.uniform(min_sec, max_sec)) # 使用示例 driver.get("https://example.com") human_delay(2, 5) # 等待页面加载，时间在2-5秒之间随机 # 查找元素并点击，前后都加入延迟 try: element = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, "myButton")) ) human_delay(0.5, 1.5) # 找到元素后，犹豫一下再点 element.click() human_delay(1, 2) # 点击后，等待一下 except Exception as e: print(f"操作出错: {e}")

5.2 模拟人类鼠标移动

Selenium的ActionChains可以用于模拟更复杂的鼠标行为，但默认的move_to_element是直线移动。我们可以将其拆分成多段带有随机偏移的移动，模拟人类的弧形轨迹。

from selenium.webdriver.common.action_chains import ActionChains import math def human_like_mouse_move(driver, element): """将鼠标以近似人类的轨迹移动到目标元素""" actions = ActionChains(driver) # 获取当前鼠标位置和目标元素位置（这里简化处理，实际需要计算） # 更复杂的实现可以生成贝塞尔曲线路径点 # 这里演示一个简单的多段移动 target_location = element.location_once_scrolled_into_view start_x, start_y = 0, 0 # 假设从(0,0)开始，实际应从driver获取当前鼠标位置 # 生成几个中间点（这里简化） # 实际应用中，可以计算一条从起点到终点的路径，并加入随机扰动 actions.move_by_offset(10, 15) actions.pause(random.uniform(0.05, 0.1)) actions.move_by_offset(target_location['x']//2 + random.randint(-5,5), target_location['y']//2 + random.randint(-5,5)) actions.pause(random.uniform(0.05, 0.1)) actions.move_to_element(element) # 最终移动到元素 actions.perform() human_delay(0.1, 0.3) # 移动完成后稍作停顿

5.3 管理浏览器指纹的“一致性”

如果你需要长时间运行脚本或访问多个网站，需要注意指纹的一致性。例如，不要在同一个会话中频繁切换User-Agent，不要在脚本中途改变屏幕分辨率（虽然通过Selenium很难做到）。最好的做法是，为每个独立的自动化任务会话（Session）设定一套固定的、合理的指纹参数（UA、语言、时区、屏幕尺寸等），并贯穿始终。

对于需要多账号或高匿名需求的场景，可以考虑结合使用浏览器配置文件（Profile）隔离。每个Profile保存一套独立的Cookie、缓存、扩展设置，配合不同的指纹参数，可以模拟出多个不同的“用户”。

6. 检测与验证：你的伪装成功了吗？

配置了这么多，怎么知道有没有效果呢？我们需要一些方法来验证。

6.1 使用测试网站

有一些网站专门用于检测浏览器自动化或显示你的浏览器指纹。

NowSecure：https://nowsecure.nl这是一个著名的反爬测试站，如果它没有弹出验证码或直接拒绝，说明基础伪装不错。
SannySoft：https://bot.sannysoft.com/这个网站会详细列出数十项检测结果，告诉你哪些属性可能暴露了自动化身份。这是调试的最佳工具。
指纹库展示站：像https://amiunique.org/fp或https://coveryourtracks.eff.org/可以展示你当前浏览器的详细指纹信息，帮助你对比伪装前后的差异。

操作流程：用你伪装好的Selenium驱动打开上述测试网站，查看结果。如果navigator.webdriver显示为true或检测到大量自动化特征，说明你的伪装还有漏洞，需要根据报告逐一修复。

6.2 自定义JavaScript检测脚本

你也可以在自己的页面中运行一些检测脚本，来验证关键属性。

# 在driver打开任意页面后执行 test_script = """ console.log('webdriver:', navigator.webdriver); console.log('plugins length:', navigator.plugins.length); console.log('userAgent:', navigator.userAgent); // 检查是否存在某些只在自动化环境中存在的变量或函数 try { console.log('_Selenium_IDE_Recorder:', window._Selenium_IDE_Recorder); } catch(e) {} // 返回一个综合结果 return { webdriver: navigator.webdriver, pluginsLength: navigator.plugins.length, userAgent: navigator.userAgent, language: navigator.language }; """ result = driver.execute_script(test_script) print("检测结果:", result) # 理想情况下，webdriver应为undefined，pluginsLength大于0，UA是你设置的。

7. 常见问题排查与实战心得

在实际操作中，你肯定会遇到各种各样的问题。这里记录一些典型的坑和解决方案。

7.1 问题速查表

问题现象	可能原因	解决方案
`navigator.webdriver`仍为`true`	CDP脚本未生效或注入时机不对；浏览器版本与驱动不匹配。	1. 确保`execute_cdp_cmd`在`driver.get()`之前执行。 2. 尝试使用`undetected-chromedriver`。 3. 检查Chrome和ChromeDriver版本是否匹配。
网站仍弹出验证码	行为模式被检测（如无延迟、直线鼠标移动）；IP地址被标记；综合指纹评分过高。	1. 增加操作随机延迟，模拟人类鼠标移动。 2. 考虑使用代理IP轮换。 3. 检查测试网站（如sannysoft）的详细报告，修复其他指纹问题。
Chrome启动崩溃或黑屏	缺少`--no-sandbox`或`--disable-dev-shm-usage`参数（常见于Linux服务器或无头环境）；GPU问题。	添加`--no-sandbox --disable-dev-shm-usage --disable-gpu`参数。注意`--no-sandbox`会降低安全性，仅用于测试环境。
无法加载本地扩展	扩展路径错误；扩展文件格式不正确。	确保路径是绝对路径，且文件夹内包含有效的`manifest.json`文件。可以从已安装的Chrome扩展程序目录复制一个，或自己创建一个最简单的。
Firefox驱动找不到	未指定`executable_path`或未将geckodriver放入系统PATH。	1. 下载对应版本的geckodriver。 2. 在代码中指定路径：`webdriver.Firefox(executable_path='/path/to/geckodriver', options=firefox_options)`。 3. 或将其所在目录添加到系统环境变量PATH中。
页面元素找不到	页面未加载完成；使用了错误的选择器；页面内容由JavaScript动态生成。	1. 使用`WebDriverWait`进行显式等待。 2. 使用浏览器开发者工具仔细检查元素选择器。 3. 等待动态内容加载完成后再查找。

7.2 实战心得与进阶建议

保持更新：浏览器和检测技术都在不断更新。今天有效的方法，明天可能就失效了。定期用测试网站验证你的脚本，并关注Selenium和undetected-chromedriver等工具的更新日志。
适度伪装：不要过度追求“完美隐身”。过于复杂的伪装脚本本身可能会引入新的特征。对于大多数数据分析爬虫任务，做到基础参数优化、清除webdriver属性、加上人性化延迟，就足以应对80%的网站了。
尊重robots.txt：在技术探讨之外，必须强调道德和法律边界。始终检查目标网站的robots.txt文件，尊重网站所有者关于爬虫的声明。不要对网站造成过大负荷（合理设置请求间隔），不要抓取明确禁止或涉及个人隐私的数据。
代理IP池：对于大规模爬取，IP地址是最容易被封禁的资源。结合代理IP池使用是必选项。确保你的代理IP是高质量的（住宅代理优于数据中心代理），并做好IP轮换和失败重试机制。
无头模式：虽然--headless模式节省资源，但越来越多的网站能检测到无头浏览器。如果遇到问题，可以尝试使用“有头”但最小化窗口的模式（--window-size设置小一点，或者使用--start-minimized参数），或者使用undetected-chromedriver提供的无头模式，它做了额外处理。
日志与监控：为你的自动化脚本添加详细的日志记录，记录每个关键步骤、遇到的异常、验证结果等。这有助于在脚本失效时快速定位问题所在。

浏览器自动化的“隐身”是一场持续的攻防战。没有一劳永逸的解决方案，核心在于理解检测原理，并系统地、有层次地应用各种伪装策略。从最基本的启动参数和CDP注入，到行为模拟和指纹管理，每一步都在提高脚本的隐蔽性和鲁棒性。希望这篇详细的指南能为你提供清晰的路径和实用的工具，让你在Python数据分析与自动化的道路上，更加顺畅地获取所需数据。

Selenium反检测实战：让Chrome与Firefox浏览器绕过网站自动化识别

1. 项目概述：当浏览器有了“自我意识”

2. 反检测的核心原理与浏览器指纹

2.1 网站如何识别自动化脚本

2.2 我们的伪装目标

3. Chrome浏览器的“隐身”实战配置

3.1 基础参数配置：移除明显痕迹

3.2 执行CDP命令：深度清除WebDriver痕迹

3.3 进阶伪装：使用Undetected-Chromedriver

4. FireFox浏览器的伪装策略

4.1 FirefoxOptions 基础配置

4.2 通过CDP清除Firefox的WebDriver属性

5. 通用高级伪装技巧与人性化操作

5.1 随机化与延迟策略

5.2 模拟人类鼠标移动

5.3 管理浏览器指纹的“一致性”

6. 检测与验证：你的伪装成功了吗？

6.1 使用测试网站

6.2 自定义JavaScript检测脚本

7. 常见问题排查与实战心得

7.1 问题速查表

7.2 实战心得与进阶建议

下载 | Windows Server 2022官方原版ISO映像！(6月更新、标准版、数据中心版、20348.5256)

做了两年跨境，我发现视觉这块正在从图片往视频往直播迁移

OBS直播教程：OBS美颜如何打开美妆功能介绍

3步解锁！智能课本解析工具让离线学习效率翻倍的秘密

2款老人最值得安装的软件工具APP，免费又实用！

Java毕业设计-基于 SpringBoot+Vue 的健身房管理系统的设计与实现基于 SpringBoot+Vue 的智能健身场馆运营管理系(源码+LW+部署文档+全bao+远程调试+代码讲解等)

1. 项目概述：当浏览器有了“自我意识”

2. 反检测的核心原理与浏览器指纹

2.1 网站如何识别自动化脚本

2.2 我们的伪装目标

3. Chrome浏览器的“隐身”实战配置

3.1 基础参数配置：移除明显痕迹

3.2 执行CDP命令：深度清除WebDriver痕迹

3.3 进阶伪装：使用Undetected-Chromedriver

4. FireFox浏览器的伪装策略

4.1 FirefoxOptions 基础配置

4.2 通过CDP清除Firefox的WebDriver属性

5. 通用高级伪装技巧与人性化操作

5.1 随机化与延迟策略

5.2 模拟人类鼠标移动

5.3 管理浏览器指纹的“一致性”

6. 检测与验证：你的伪装成功了吗？

6.1 使用测试网站

6.2 自定义JavaScript检测脚本

7. 常见问题排查与实战心得

7.1 问题速查表

7.2 实战心得与进阶建议

下载 | Windows Server 2022官方原版ISO映像！(6月更新、标准版、数据中心版、20348.5256)

做了两年跨境，我发现视觉这块正在从图片往视频往直播迁移

OBS直播教程：OBS美颜如何打开美妆功能介绍

3步解锁！智能课本解析工具让离线学习效率翻倍的秘密

2款老人最值得安装的软件工具APP，免费又实用！

Java毕业设计-基于 SpringBoot+Vue 的健身房管理系统的设计与实现 基于 SpringBoot+Vue 的智能健身场馆运营管理系(源码+LW+部署文档+全bao+远程调试+代码讲解等)

Java毕业设计-基于 SpringBoot+Vue 的健身房管理系统的设计与实现基于 SpringBoot+Vue 的智能健身场馆运营管理系(源码+LW+部署文档+全bao+远程调试+代码讲解等)