爬虫毕设从零到一：新手入门实战与避坑指南-开发者社区

爬虫毕设从零到一：新手入门实战与避坑指南

摘要：许多计算机专业学生在完成爬虫毕设时，常因缺乏工程经验而陷入反爬绕过失败、数据结构混乱或程序崩溃等问题。本文面向新手，系统讲解如何基于 Python 构建一个结构清晰、可维护的爬虫项目，涵盖请求调度、解析策略、存储设计及基础反反爬处理。读者将掌握模块化开发方法，避免常见陷阱，并产出一份符合毕业设计规范的技术文档与可运行代码。

1. 背景痛点：为什么“能跑”≠“能毕业”

本科毕设里，爬虫选题看似门槛低，实则暗藏雷区。以下三类问题在答辩前集中爆发：

IP 封禁：连续高频请求导致目标站点返回 403，甚至永久拉黑校园网段，现场演示直接“社死”。
XPath 失效：前端改版后节点路径变化，解析规则硬编码在代码里，一跑就崩，临时手动改路径既狼狈又不可持续。
数据去重缺失：重复 URL 与重复 Item 未做幂等校验，数据库主键冲突，导致“10 万条”数据实际只有 3 万条有效，结果章节被导师质疑学术不严谨。

以上痛点共同指向一个根因：把“写脚本”当成“做系统”。毕设评审关注的不是“抓下来”，而是“如何持续、可维护、可验证地抓下来”。

2. 技术选型对比：Requests vs Scrapy、BeautifulSoup vs lxml

维度	Requests+BeautifulSoup	Scrapy+lxml
学习曲线	低，上手快	中等，需理解框架生命周期
并发性能	单线程，需手动实现并发	Twisted 异步，IO 复用
工程结构	脚本式，易写成“面条代码”	模块化，Item/Pipeline/中间件天然解耦
反爬扩展	需手写重试、降级、UA 池	中间件钩子即插即用
文档完整性	社区示例多，但碎片化	官方文档系统，毕设答辩易举证

结论：
若仅做一次性演示脚本，Requests 足够；若需“可扩展、可维护、可写入论文”，直接上 Scrapy 是性价比最高的选择。

3. 核心实现：用 Scrapy 搭一个“能毕业”的爬虫

3.1 项目骨架

graduate_crawler/ ├── graduate_crawler/ │ ├── __init__.py │ ├── items.py # 数据模型 │ ├── middlewares.py # 反爬中间件 │ ├── pipelines.py # 清洗、验证、存储 │ ├── settings.py # 全局配置 │ └── spiders/ │ ├── __init__.py │ └── paper_spider.py ├── scrapy.cfg └── docs/ # 自动生成 Sphinx 文档

3.2 Item：先定义“干净”的数据

# graduate_crawler/items.py import scrapy from scrapy import Field class PaperItem(scrapy.Item): title = Field() # 论文标题 authors = Field() # 作者列表 abstract = Field() # 摘要 pdf_url = Field() # PDF 直链 published_at = Field() # 发表日期 doi = Field() # 唯一标识，去重依据

要点：字段名与数据库列一一对应，类型与长度在 Pipeline 中二次校验，方便后续自动生成 ER 图写论文。

3.3 Spider：只关心“如何发现链接”

# graduate_crawler/spiders/paper_spider.py import scrapy from graduate_crawler.items import PaperItem from urllib.parse import urljoin class PaperSpider(scrapy.Spider): name = 'paper' allowed_domains = ['example.edu.cn'] start_urls = ['https://example.edu.cn/paper?page=1'] def parse(self, response): # 列表页：提取详情页链接 for href in response.css('a.detail::attr(href)').getall(): yield scrapy.Request(urljoin(response.url, href), callback=self.parse_detail) # 翻页：构造下一页 URL next_page = response.css('a.next::attr(href)').get() if next_page: yield scrapy.Request(urljoin(response.url, next_page), callback=self.parse) def parse_detail(self, response): item = PaperItem() item['title'] = response.css('h1::text').get(default='').strip() item['authors'] = response.css('span.author::text').getall() item['abstract'] = response.xpath('//div[@class="abstract"]/text()').get(default='').strip() item['pdf_url'] = response.urljoin(response.css('a.pdf::attr(href)').get()) item['published_at'] = response.css('time::attr(datetime)').get() item['doi'] = response.css('span.doi::text').re_first(r'doi:(10\.\d{4,}/.+)') yield item

技巧：

解析层只负责“拿”，不做“洗”，保持单一职责。
使用urljoin防止相对路径拼接错误，避免线下能跑、线上 404。

3.4 Middleware：统一解决“反爬”

# graduate_crawler/middlewares.py import random from graduate_crawler import settings class RotateUserAgentMiddleware: def process_request(self, request, spider): request.headers['User-Agent'] = random.choice(settings.USER_AGENT_POOL) return None class RetryOnNullMiddleware: """部分论文页字段缺失，默认重试一次，防止漏抓。""" def process_response(self, request, response, spider): if response.status == 200 and not response.css('h1::text').get(): return request.replace priority=request.priority + 1 return response

在settings.py中启用：

DOWNLOADER_MIDDLEWARES = { 'graduate_crawler.middlewares.RotateUserAgentMiddleware': 350, 'graduate_crawler.middlewares.RetryOnNullMiddleware': 540, }

3.5 Pipeline：数据清洗、验证、落库

# graduate_crawler/pipelines.py import pymongo from scrapy.exceptions import DropItem from datetime import datetime class ValidationPipeline: def process_item(self, item, spider): if not item.get('doi'): raise DropItem('Missing DOI') return item class MongoPipeline: def __init__(self, mongo_uri, mongo_db): self.mongo_uri, self.mongo_db = mongo_uri, mongo_db @classmethod def from_crawler(cls, crawler): return cls( mongo_uri=crawler.settings.get('MONGO_URI'), mongo_db=crawler.settings.get('MONGO_DB') ) def open_spider(self, spider): self.client = pymongo.MongoClient(self.mongo_uri) self.db = self.client[self.mongo_db] # 创建唯一索引，保证幂等 self.db.papers.create_index('doi', unique=True) def close_spider(self, spider): self.client.close() def process_item(self, item, spider): self.db.papers.replace_one( {'doi': item['doi']}, dict(item), upsert=True ) return item

关键点：

replace_one + upsert天然实现“存在更新，不存在插入”，保证断点续爬不重复。
在open_spider阶段建索引，既保证效率，又能在论文里写“性能优化”章节。

4. 完整可运行示例（含注释）

以下仓库目录已上传 Gitee，可直接克隆运行：

git clone https://gitee.com/yourname/graduate_crawler.git cd graduate_crawler pip install -r requirements.txt scrapy crawl paper -o papers.json

核心文件已在前文逐行给出，符合 Clean Code 原则：

函数不超过 20 行，命名自解释。
魔法数字统一收拢到settings.py。
所有 I/O 操作（网络、数据库）集中在中间件与 Pipeline，Spider 只负责生成请求与 Item，便于单元测试。

5. 性能与安全性考量

请求频率控制
在settings.py中统一设置：
```
DOWNLOAD_DELAY = 1.2 # 每次请求间隔 1.2 秒 RANDOMIZE_DOWNLOAD_DELAY = 0.5 CONCURRENT_REQUESTS = 8
```
既降低被封概率，又比单线程提升 6–8 倍吞吐，可在论文中给出对比曲线。
User-Agent 轮换
前文中间件已示例，池化 20 个以上真实浏览器 UA，并定期从 whatismybrowser 更新。
robots.txt 合规性
Scrapy 内置ROBOTSTXT_OBEY = True，默认遵守。若目标站点禁止抓取，需在论文里声明“已获书面授权”或改用官方 API，避免学术伦理风险。
日志与监控
开启LOG_LEVEL='INFO'并持久化到文件，方便在答辩现场展示“实时抓取量统计”截图，提高可信度。

6. 生产环境避坑指南

动态加载
若列表页通过 JS 渲染，优先寻找隐藏 API（XHR 过滤），返回 JSON 比解析 HTML 稳定；若必须执行 JS，采用 Scrapy+Playwright 中间件，但需在项目文档里注明浏览器内存占用，证明硬件成本可控。
验证码识别边界
学术场景不建议破解验证码，违反站点服务条款。真遇到验证码，应在论文中写明“人工打码+抓取任务拆分”，并评估抓取量仍满足统计需求，体现合规意识。
本地调试 vs 部署差异
校园网往往有防火墙，出站端口受限。提前在云服务器（学生机 9 元/月）部署 Docker 镜像，与本地使用同一docker-compose.yml，保证答辩现场可复现。附Dockerfile示例：
```
FROM python:3.11-slim WORKDIR /app COPY requirements.txt . RUN pip install -r requirements.txt COPY . . CMD ["scrapy", "crawl", "paper"]
```
数据规模声明
若最终仅抓取到 1 万条有效记录，可在论文中对比“全站 5 万条”的覆盖率，说明采样合理性，避免“数据量小”被质疑工作量不足。