news 2026/5/3 0:07:44

python(爬虫selenium)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
python(爬虫selenium)

Selenium 是一款用于模拟浏览器行为的自动化测试工具,也是爬虫领域中处理动态渲染页面(如 JS 加载、Ajax 请求、登录验证等)的核心工具。

一、导入库

from selenium import webdriver from selenium.webdriver.edge.options import Options from selenium.webdriver.common.by import By import time # edge_options =Options() edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe" # ##edge浏览器的地址 driver = webdriver.Edge(options=edge_options)

1.导入相关库的函数

from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By

2.导入edge浏览器的内核

edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"

二、核心操作浏览器与页面控制

1.基础操作

打开页面driver.get("https://www.example.com")访问目标 URL
刷新页面driver.refresh()刷新当前页面
前进 / 后退driver.forward()/driver.back()模拟浏览器前进 / 后退
窗口大小driver.set_window_size(1920, 1080)设置窗口尺寸
全屏driver.maximize_window()窗口最大化
关闭窗口driver.close()关闭当前标签页
退出浏览器driver.quit()关闭所有标签页并退出驱动(必写,否则进程残留)

2.页面元素定位

定位元素是 Selenium 操作的基础,优先使用唯一标识(id/name),其次用 XPath/CSS 选择器,避免用索引(易变)。

IDfind_element(By.ID, "id值")driver.find_element(By.ID, "username")元素有唯一 ID
Namefind_element(By.NAME, "name值")driver.find_element(By.NAME, "password")元素有 name 属性
Class Namefind_element(By.CLASS_NAME, "类名")driver.find_element(By.CLASS_NAME, "btn-submit")类名唯一
Tag Namefind_element(By.TAG_NAME, "标签名")driver.find_element(By.TAG_NAME, "input")标签唯一(如单个 input)
Link Textfind_element(By.LINK_TEXT, "链接文本")driver.find_element(By.LINK_TEXT, "登录")精准匹配超链接文本
Partial Link Textfind_element(By.PARTIAL_LINK_TEXT, "部分文本")driver.find_element(By.PARTIAL_LINK_TEXT, "登")模糊匹配超链接
XPathfind_element(By.XPATH, "XPath表达式")driver.find_element(By.XPATH, '//*[@id="username"]')复杂定位(万能)
CSS Selectorfind_element(By.CSS_SELECTOR, "CSS表达式")driver.find_element(By.CSS_SELECTOR, "#username")高效定位(推荐)

3.元素交互

# 1. 点击元素(按钮/链接/复选框) btn_elem = driver.find_element(By.CLASS_NAME, "submit-btn") btn_elem.click() # 2. 获取元素属性/文本 elem = driver.find_element(By.XPATH, '//div[@class="content"]') print(elem.text) # 获取元素可见文本 print(elem.get_attribute("href")) # 获取href属性 print(elem.get_attribute("innerHTML")) # 获取内部HTML # 3. 输入文本(先清空再输入) input_elem = driver.find_element(By.ID, "username") input_elem.clear() # 清空输入框 input_elem.send_keys("test123") # 输入内容

执行Javascript 代码,可以将页面滚动到底部。
driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')

4.等待渲染

可以通过time函数用sleep方法等待

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 13:55:42

【优化】避免繁琐设置字符编码,简单C/C++中文处理方法

字符串字面量在C/C中的中文处理 一、字符串字面量的本质 在C/C中,字符串字面量是存储在静态内存区域的字符数组。其基本形式为: const char* str "中文字符";但直接使用窄字符(char)处理中文时,常因编码问题…

作者头像 李华
网站建设 2026/5/2 12:20:54

牛客周赛 Round 111

设一个数组 � { 2 , 3 , 4 , 3 , 5 , 1 } b{2,3,4,3,5,1},则 � ( � ) 2 3 4 5 14 L(b)234514, � ( � ) 1 5 6 R(b)156。 小芳希望小红构造一个长为 � …

作者头像 李华
网站建设 2026/5/1 3:39:32

定性与定量考核的结合

在现代企业管理中,如何科学、公正地评估员工绩效,始终是一个核心议题。要实现全面而准确的评估,关键在于将定量考核的客观性与定性考核的深刻性有效结合。 单纯的定量考核(“计件”)提供了“做什么”的客观数据&#x…

作者头像 李华
网站建设 2026/5/1 15:11:41

如何衡量团队产出效率

在现代组织中,团队的产出效率直接决定企业的竞争力与执行力。**要科学衡量团队产出效率,核心在于建立多维度的指标体系,将成果、过程与协作因素综合评估,以实现对绩效的量化与优化。**单纯用“工作量”或“加班时间”衡量团队贡献…

作者头像 李华
网站建设 2026/5/1 6:50:17

使用格子玻尔兹曼方法(LBM)模拟热扩散的Matlab代码

使用格子玻尔兹曼方法(LBM)模拟热扩散,Matlab代码格子玻尔兹曼方法(LBM)搞热扩散模拟其实挺有意思的,今天咱们用Matlab整一个简单的二维版本。先上核心思路:把温度场当作被动标量,用…

作者头像 李华