news 2026/4/15 11:35:50

Python 3.10.5使用lxml库的xpath用法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Python 3.10.5使用lxml库的xpath用法

网上的都太旧了,所以把这个能用的给发出来了

""" 1.导入lxml 2.将获取到的网页内容转换为xml 3.通过Xpath来定位和解析页面中的内容 """ from lxml import html import re # 读取 HTML 文件 with open("douban.html", "r", encoding="utf-8") as f: page = f.read() # 解析 HTML tree = html.fromstring(page) # 先构建解析树(Element对象) titles=tree.xpath("//*[@class='title'][1]/text()") # 解析树调用xpath,正确! print(titles) rating_num=tree.xpath("//*[@class='rating_num'][1]/text()") print(rating_num) year=tree.xpath('//*[@id="content"]/div/div[1]/ol/li[3]/div/div[2]/div[2]/p[1]/text()') for item in year: # print(item.strip().search("")) numbers = re.findall(r'\d+', item.strip()) print(numbers) print("******************************") #定位到包含所有数据内容的元素 data_list=tree.xpath('//ol/li') #对定位到包含所有元素的列表便可遍历,得到包含单条数据的元素 for i in data_list: #提取单条数据中的详细内容 titles=i.xpath(".//span[@class='title'][1]/text()") score=i.xpath(".//span[@class='rating_num'][1]/text()") number=i.xpath(".//div/div[2]/div[2]/div/span[4]/text()") print('电影的名称',titles[0],score[0],'评价人数',number[0])
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 9:48:22

凡尔赛一波:凭这份阿里Java面试突击指南,我今年已经拿了9张Offer

2025即将过去,不知道大家都拿到Offer没有,如果没有的话,希望大家不要怪LZ凡尔赛了。LZ截止今天为止已经收到了第9家公司的Offer,这张的Offer的话给到28k*14薪。由于个人原因,LZ没有去这家公司,而是选择了其…

作者头像 李华
网站建设 2026/4/15 7:14:13

Langchain-Chatchat如何实现知识库变更通知功能?

Langchain-Chatchat如何实现知识库变更通知功能? 在企业知识管理日益复杂的今天,一个智能问答系统是否“聪明”,往往不在于它能回答多少问题,而在于它能否始终给出最新、最准确的答案。尤其是在法务、医疗、金融等对信息时效性要求…

作者头像 李华
网站建设 2026/4/13 15:30:14

Langchain-Chatchat如何实现知识库操作自动化脚本?

Langchain-Chatchat如何实现知识库操作自动化脚本? 在企业知识管理的日常实践中,一个常见的困境是:大量关键文档分散在共享盘、邮件附件和个人电脑中,每当员工需要查找某个政策条款或技术规范时,往往要花费数十分钟甚至…

作者头像 李华
网站建设 2026/4/13 17:29:59

Langchain-Chatchat构建人力资源政策问答机器人的实践

Langchain-Chatchat构建人力资源政策问答机器人的实践 在一家中型科技公司的人力资源部门,每天都会收到大量重复性咨询:年假怎么算?试用期能否请婚假?加班费的计算基数是什么?尽管这些信息都写在《员工手册》里&#x…

作者头像 李华
网站建设 2026/4/13 21:59:28

Langchain-Chatchat结合Apache Airflow调度任务

Langchain-Chatchat 结合 Apache Airflow 实现知识库自动化更新 在企业内部,每天都有新的政策发布、产品迭代和制度调整。然而,这些关键信息往往以 PDF、Word 或 PPT 的形式散落在各个共享目录中,员工想查一句“年假怎么休”却要翻遍三份文档…

作者头像 李华
网站建设 2026/4/14 2:07:59

nano banana pro绘图示例

对下面方案描述进行细化。稳产期预测稳定产量、稳产期持续时间,基于压力变化趋势 生产制度,使用LSTM/Transformer(捕捉压力 - 产量时序相关性)针对您提出的稳产期预测技术方案,以下是逻辑严密、专业细化的方案描述。该…

作者头像 李华