news 2026/4/2 23:41:37

爬取某网站的小说名(pyquery)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
爬取某网站的小说名(pyquery)

这个代码短且简单,主要就是展示一下pyquery的用法

代码就这么长,连三十行都不到,虽然简单,但我还是巨详细的说说

一、发送请求

第一步依然是发送请求,但在发送请求之前,我们爬取的这个小说网站有好多页小说,所以限制一下,就爬取前5页的,于是就需要for循环,就是下面这句

for i inrange(1, 6): url = f"https://b.faloo.com/y_0_0_0_0_6_1_{i}.html"

接着那句时伪装头,这句伪装头也可以放在for循环外边,主要是把python解释器伪装成浏览器,然后发送请求,不然服务器那边识别到你是python解释器发送的请求,就不给你响应,下面这句就是发送请求

response= requests.get(url,headers=headers)

,然后获得响应(response),话是这样说的,但你发送请求后,人家服务器那边到底有没有给你响应,你是不是需要验证一下,就是下面这句

if response.status_code==200:

二、解析网页

如果服务器那边给你回应了,那状态码就是200,接着就可以拿这pyquer对响应的HTML进行解析

html =pq(response.text)

三、定位

解析后就可以,对小说名称的位置进行定位,就是下面这句

items= html("div > div > div> h1").items()

依旧用的是CSS选择器,后面的items()方法时让items,变成一个可迭代对象,方便后面获取文档

四、获取内容并输出

foritem in items: # 小说名print(item.text())

既然上面已经说到items已经变成可迭代对象,那就进行遍历,遍历后的内容还不是需要的文档,还是HTML,需要用到text()方法,获取文档,然后输出,就行了

五、结果展示

当然五页的内容不止这些,这只是截了一部分

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/31 8:43:40

Nextcloud文件压缩下载实用指南:轻松管理云端文件

Nextcloud文件压缩下载实用指南:轻松管理云端文件 【免费下载链接】server ☁️ Nextcloud server, a safe home for all your data 项目地址: https://gitcode.com/GitHub_Trending/se/server 还在为Nextcloud中大量文件的下载而烦恼吗?想要一次…

作者头像 李华
网站建设 2026/3/23 6:37:38

YashanDB数据库的多活架构设计与实施经验分享

如何实现数据库的高可用性与强一致性,同时支持多实例并发读写,是当前数据库技术面临的重要挑战。多活架构作为解决方案,能够有效提升系统的容错能力和业务连续性,但其设计和实现复杂,尤其是在保障数据一致性、优化性能…

作者头像 李华
网站建设 2026/3/31 12:41:29

基于web的二手书交易平台设计与实开题报告

课题名称:温室恒温电子系统设计班级:电气工程及其自动化1201班学号:201025000002姓名:李四指导教师:张三本科学生毕业论文(设计)开题报告毕业论文(设计)题目:…

作者头像 李华
网站建设 2026/3/30 12:24:34

基于web的二手书交易平台设计与实现

摘 要 鉴于信息技术的飞速发展,构建全面的网络二手书交易平台已成为优化数据整合、利用与管理的首选方案。以二手书交易平台为典型实例,本研究对二手书交易管理的现状进行了深入剖析,旨在构建一个作为其核心的信息集成平台。二手书交易平台集…

作者头像 李华
网站建设 2026/4/2 13:58:05

GBase 8s 中 SYSTIMESTAMP 表达式介绍

在数据库开发中,获取和操作系统时间是一个常见的需求。GBase 8s 提供了 SYSTIMESTAMP 表达式,用于返回数据库系统的当前时间,包括年、月、日、时、分、秒和小数秒。本文将详细介绍 SYSTIMESTAMP 的使用方法、特点及实际应用示例,希…

作者头像 李华