告别手动点击！用Python+Selenium批量抓取AERONET气溶胶数据（附完整代码）-开发者社区

Python+Selenium全自动抓取AERONET气溶胶数据的工程实践

当研究团队需要分析全球大气气溶胶分布时，AERONET提供的基准观测数据成为不可或缺的参考资料。但面对数百个观测站点、跨越二十余年的数据记录，传统的手动下载方式不仅耗时耗力，还容易因操作失误导致数据遗漏。本文将分享一套经过实战检验的自动化解决方案，帮助研究者用技术手段解放双手。

1. 环境配置与工具选型

工欲善其事，必先利其器。我们选择的工具组合需要兼顾浏览器自动化与高效数据处理能力：

# 基础环境配置 pip install selenium beautifulsoup4 pandas numpy

核心组件说明：

Selenium 4.0+：处理动态网页交互的利器，支持现代浏览器无头模式
BeautifulSoup4：HTML解析神器，处理站点列表信息效率提升300%
Pandas：数据清洗与存储的最佳搭档，轻松处理CSV输出

注意：ChromeDriver版本需与本地Chrome浏览器严格匹配，否则会出现兼容性问题

常见环境配置问题解决方案：

问题现象	排查步骤	解决方案
ElementNotInteractable	检查元素是否在iframe中	切换frame上下文
StaleElementReference	验证页面是否刷新	重新定位元素
TimeoutException	检查网络延迟	调整显式等待时间

2. 动态页面交互核心技术

AERONET官网采用动态加载技术，常规请求无法获取完整数据。我们需要模拟真实用户操作流程：

from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import Select def set_date_range(driver, start_year, end_year): # 设置起始年份 start_select = Select(driver.find_element(By.ID, "Year1")) start_select.select_by_visible_text(str(start_year)) # 设置结束年份 end_select = Select(driver.find_element(By.ID, "Year2")) end_select.select_by_visible_text(str(end_year)) # 勾选AOD1.5数据 driver.find_element(By.NAME, "AOD15").click() # 提交查询 submit_btn = driver.find_element(By.NAME, "Submit") submit_btn.click()

关键交互点突破技巧：

使用XPath定位动态生成的元素
添加合理的等待策略避免操作过快
处理Cookie保持会话状态
应对403反爬机制的用户代理轮换方案

3. 多站点批量处理架构

高效获取全国站点数据需要建立系统化的处理流程：

站点列表获取
- 通过官网地图接口筛选地理区域
- 解析HTML获取站点基础信息
- 构建站点元数据CSV档案

时间范围验证

def validate_time_range(station_url): driver.get(station_url) year_options = driver.find_elements( By.XPATH, '//select[@id="Year1"]/option') available_years = [opt.text for opt in year_options] return min(available_years), max(available_years)

分布式下载策略
- 按年份划分下载任务
- 失败自动重试机制
- 断点续传功能实现

4. 异常处理与性能优化

在实际运行中，我们遇到了几个典型问题及解决方案：

404错误处理方案：

try: urllib.request.urlretrieve(url, filename) except urllib.error.HTTPError as e: if e.code == 404: print(f"文件不存在: {url}") log_error(station, year)

性能优化技巧：

启用Chrome无头模式节省资源
设置并发控制避免封禁
实现本地缓存机制减少重复请求

内存管理要点：

及时关闭不再使用的WebDriver实例
使用生成器处理大型文件列表
采用分块写入方式保存大数据集

5. 数据质量控制体系

自动化获取的数据需要经过严格校验：

完整性检查项目：

文件大小异常检测
时间连续性验证
站点覆盖度分析

常用数据校验方法对比：

方法	适用场景	实现复杂度
MD5校验	小文件验证	★★☆
记录数统计	表格数据	★☆☆
时间戳检查	时间序列	★★☆

def validate_data_file(filepath): df = pd.read_csv(filepath) required_columns = ['Date(dd-mm-yyyy)', 'AOD_500nm'] if not all(col in df.columns for col in required_columns): raise ValueError("缺少必要数据列") if df.empty: raise ValueError("空数据文件")

这套系统在某大气污染研究项目中，将原本需要2周的手动下载工作压缩到3小时内完成，且保证了数据100%的完整性和一致性。对于需要长期监测的研究团队，建议将脚本部署到云服务器，设置定时任务自动更新数据。

收藏备用｜2026秋招杀疯了！互联网算法80w+遍地，大模型才是涨薪密钥

2026年秋招的激烈程度，说是近五年之最也毫不夸张！各大互联网大厂彻底开启“抢人模式”，招聘力度拉满、薪资内卷升级，堪称神仙打架的巅峰现场——不仅岗位供给量同比上涨20%，核心技术岗薪资更是一路飙升，一家…

李华

ESP32轻量级Web服务器框架：快速构建物联网设备网络服务

1. 项目概述：一个为ESP32量身定制的轻量级服务器框架如果你手头有一块ESP32开发板，想用它做个能联网的小玩意儿，比如远程控制家里的灯、做个环境数据采集器，或者搭建一个简单的设备管理后台，那你大概率会面临一个选择&…

李华

高密度板字符难设？4套黄金方案，小空间也清晰美观

做高密度 PCB（0402/0201 密集、器件间距≤0.3mm），字符设置最头疼：放大字符遮挡元件、挤占布线空间；缩小字符模糊断线、辨识度低；线宽难匹配、布局易拥挤，良率徘徊在 75–85%，板子又丑…

李华

DeepSeek-v4正式上线！百万字上下文支持，国产大模型再进一步，性价比超高！

DeepSeek-v4预览版现已上线，支持百万字超长上下文，方便大文本处理。性能较前代提升，但与Claude Opus 4.7仍有差距。官方适配Claude Code、OpenClaw等Agent产品，API接口有微小改动。价格低至Claude的几十分之一，性价比极…

李华

SolonCode v.. 发布 - 编程智能体（新增子代理和浏览器能力）

简介 langchain中提供的chain链组件，能够帮助我门快速的实现各个组件的流水线式的调用，和模型的问答 Chain链的组成根据查阅的资料，langchain的chain链结构如下： $$Input \rightarrow Prompt \rightarrow Model \rightarrow Outp…

李华

用Python处理GEDI激光雷达数据：从HDF5文件到森林高度图（保姆级教程）

用Python处理GEDI激光雷达数据：从HDF5文件到森林高度图（保姆级教程） 当第一次接触GEDI激光雷达数据时，我被那些神秘的HDF5文件格式和复杂的波形数据结构弄得晕头转向。作为一位长期从事森林碳汇研究的生态学家，我深知…

李华