博客导语
XPath是爬虫行业通用解析语法,比BeautifulSoup速度快数倍,支持模糊匹配、层级匹配、多条件筛选,是企业爬虫首选解析方案。
一、XPath核心语法
//:全局查找任意节点/:绝对路径子节点@属性名:获取属性text():获取文本[@class="xxx"]:属性筛选contains():模糊匹配
二、lxml实战解析
from lxml import etree html = """ <div class="news"> <a href="detail.html">Python爬虫实战</a> </div> """ tree = etree.HTML(html) # 提取文本 text = tree.xpath("//a/text()") # 提取属性 href = tree.xpath("//a/@href") print(text, href)三、高阶模糊匹配
# 匹配class包含new的div tree.xpath('//div[contains(@class,"new")]')四、选型标准
简单页面、快速开发:BeautifulSoup
批量海量解析、复杂页面:XPath + lxml