手把手教你用Uber H3和Folium制作交通事故热力图（附完整代码）-开发者社区

实战指南：基于Uber H3与Folium的交通事故热力图全流程解析

六边形网格系统正在成为地理空间分析的新标准工具。不同于传统的地理编码方法，Uber开源的H3库通过全球覆盖的六边形网格，为位置数据提供了更高效的处理和可视化方案。本文将带您从零开始，使用真实交通事故数据集，构建一个完整的空间分析流水线——从原始GPS坐标到交互式热力图展示。

1. 为什么选择H3进行地理空间分析

在开始技术实现之前，我们需要理解H3系统的独特价值。传统的地理编码方法如Geohash存在几个明显局限：不同精度级别的网格形状不一致，相邻网格间的距离计算复杂，且在极地区域会出现严重的形状畸变。H3通过全球统一的六边形网格体系解决了这些问题。

六边形在几何学上具有显著优势：相邻单元中心距离相等，边界共享更高效，面积一致性更好。这些特性使H3特别适合以下场景：

热点区域识别：如交通事故、犯罪事件或商业选址分析
动态定价系统：网约车、外卖等服务的区域化定价
物流路径优化：配送区域划分和路径规划
空间数据聚合：消除原始GPS数据的噪声和偏差

# H3与其他地理编码系统的对比 import pandas as pd comparison = pd.DataFrame({ '特性': ['形状一致性', '邻域距离', '极地表现', '面积一致性'], 'Geohash': ['差', '不等', '畸变严重', '差异大'], 'H3': ['优秀', '相等', '稳定', '高度一致'] }) print(comparison)

提示：H3提供了从0到15共16个分辨率级别，级别7（约0.74km²）适合城市级别的分析，而级别10（约0.015km²）则适合更精细的街区分析。

2. 环境准备与数据加载

我们将使用英国交通部公开的2016年交通事故数据集作为示例。首先确保安装必要的Python库：

pip install h3 folium pandas numpy scikit-learn

数据集包含每个事故的精确经纬度坐标、事故严重程度、天气条件等元数据。以下是加载和预处理数据的关键步骤：

import numpy as np import pandas as pd # 加载原始数据 accidents = pd.read_csv('dftRoadSafety_Accidents_2016.csv', usecols=['Accident_Index', 'Longitude', 'Latitude', 'Accident_Severity']) # 数据清洗：移除无效坐标 valid_coords = (accidents['Longitude'].between(-180, 180)) & \ (accidents['Latitude'].between(-90, 90)) accidents = accidents[valid_coords].copy() print(f"有效事故记录数: {len(accidents):,}")

典型的数据质量问题需要特别关注：

坐标超出合理范围的值
重复或缺失的记录
异常聚集的坐标点（如数据中心位置）

3. H3索引生成与空间聚合

将原始经纬度转换为H3索引是分析的核心步骤。H3索引实际上是一个64位的十六进制字符串，包含了位置和分辨率信息。

from h3 import h3 # 设置H3分辨率级别 (7级≈0.74km²) H3_RESOLUTION = 7 def add_h3_index(df): """为DataFrame添加H3索引列""" df['h3_index'] = df.apply( lambda row: h3.geo_to_h3(row['Latitude'], row['Longitude'], H3_RESOLUTION), axis=1 ) return df accidents = add_h3_index(accidents) # 统计每个六边形内的事故数量 hexagon_stats = accidents.groupby('h3_index').agg({ 'Accident_Index': 'count', 'Accident_Severity': 'mean' }).rename(columns={ 'Accident_Index': 'accident_count', 'Accident_Severity': 'average_severity' })

H3索引的优势在此显现：

相同六边形内的事故自动归为一组
无需复杂的空间连接操作
聚合结果可直接用于可视化

4. 结合DBSCAN的精确热点识别

虽然H3提供了空间聚合，但有时我们需要更精确地识别事故热点区域。DBSCAN聚类算法可以补充H3的不足：

from sklearn.cluster import DBSCAN # 准备聚类输入数据 coords = np.radians(accidents[['Latitude', 'Longitude']].values) # 设置DBSCAN参数 (50米半径，至少10个事故点) earth_radius = 6371000 # 地球半径(米) dbscan = DBSCAN( eps=50/earth_radius, # 转换为弧度 min_samples=10, metric='haversine' ) accidents['cluster'] = dbscan.fit_predict(coords) # 过滤噪声点(聚类标签为-1) hotspots = accidents[accidents['cluster'] != -1] print(f"识别出{hotspots['cluster'].nunique()}个热点区域")

DBSCAN与H3的结合策略：

先用H3进行粗粒度空间分区
在每个H3六边形内应用DBSCAN精细聚类
将聚类结果映射回H3系统

5. 使用Folium创建交互式热力图

Folium库让我们能够轻松创建Leaflet地图的Python接口。以下是构建多层可视化地图的关键代码：

import folium from folium.plugins import HeatMap # 创建基础地图 (以数据中点为中心) map_center = [hotspots['Latitude'].mean(), hotspots['Longitude'].mean()] m = folium.Map(location=map_center, zoom_start=12) # 添加H3六边形层 for h3_index, count in hexagon_stats['accident_count'].items(): # 跳过事故数少的区域 if count < 5: continue # 获取六边形边界坐标 boundary = h3.h3_to_geo_boundary(h3_index) # 根据事故数量设置颜色 color = '#ff0000' if count > 20 else '#ff9999' folium.Polygon( locations=boundary, color=color, fill=True, fill_opacity=0.4, weight=1, tooltip=f'事故数: {count}' ).add_to(m) # 添加DBSCAN热点层 HeatMap( data=hotspots[['Latitude', 'Longitude']], radius=15, blur=10, max_zoom=13 ).add_to(m) # 添加图层控制 folium.LayerControl().add_to(m) # 保存为HTML文件 m.save('accident_hotspots.html')

地图设计的最佳实践：

使用半透明填充色显示H3六边形
热力图半径应与H3分辨率协调
添加悬停提示(tooltip)增强交互性
提供图层控制让用户自由切换

6. 高级技巧与性能优化

当处理大规模数据集时，性能成为关键考量。以下是几个实用优化技巧：

内存优化策略：

# 使用更高效的数据类型 dtypes = { 'Longitude': 'float32', 'Latitude': 'float32', 'h3_index': 'category' # H3索引适合用分类类型 } accidents = accidents.astype(dtypes)

并行处理加速H3转换：

from multiprocessing import Pool def parallel_geo_to_h3(args): lat, lon = args return h3.geo_to_h3(lat, lon, H3_RESOLUTION) with Pool() as pool: coords = list(zip(accidents['Latitude'], accidents['Longitude'])) accidents['h3_index'] = pool.map(parallel_geo_to_h3, coords)

可视化优化技巧：

对H3六边形使用渐变色系反映事故密度
添加时间滑块展示事故时间分布
结合MarkerCluster显示个别事故点

7. 实际业务应用扩展

本技术方案可轻松适配多种业务场景：

零售选址分析：

将事故数据替换为客流量数据
结合POI信息分析商业潜力
识别高流量低竞争区域

城市安全评估：

# 计算每个行政区域的安全评分 def safety_score(row): accidents = row['accident_count'] severity = row['average_severity'] return np.log(accidents) * severity hexagon_stats['safety_score'] = hexagon_stats.apply(safety_score, axis=1)

物流路径规划：