基于机器学习(ML)和PyQt可视化的恶意流量检测系统的完整实现,包括了抓包、协议解析、特征提取、模型训练、实时预测以及告警系统等功能,适合用作本科毕设项目。
主要功能点:
- 实时抓包:
- 使用
scapy进行网络流量抓包。你可以选择真实抓包(需要管理员权限)或者使用模拟流量数据进行测试。(当前演示的是使用模拟流量数据测试的) - 协议解析:
- 解析不同协议的数据包(如 TCP、UDP、HTTP)。从抓包中提取每个包的关键信息,如源端口、目标端口、TCP标志位、IP协议类型等。
- 特征提取与模型训练:
- 根据捕获的数据包提取相关的流量特征(如包长度、端口、TCP标志等),并利用这些特征训练一个恶意流量分类模型。这里使用了轻量级的
XGBoost算法来进行分类。 - SHAP 可解释性:
- SHAP(Shapley Additive Explanations)用于解释模型的决策过程。可以为每个预测输出生成一个 HTML 可视化报告,帮助分析哪些特征对分类结果影响最大。
- PyQt5 流量监控仪表盘:
- 使用 PyQt5 创建一个简单的 GUI,显示流量统计、实时预测结果以及告警信息。图形界面上会显示实时的流量数据、恶意流量的预测结果,以及历史告警列表。
- 恶意流量告警:
- 当检测到恶意流量(根据模型的预测和阈值),系统会自动触发告警,显示在 GUI 界面上,并提供历史告警记录。
项目目录结构
malicious-traffic-detection/ ├─ requirements.txt # 依赖库 ├─ README.md # 项目说明文档 ├─ run.py # 程序入口 ├─ config.py # 配置文件 ├─ capture.py # 网络抓包模块 ├─ parser.py # 协议解析模块 ├─ features.py # 特征提取模块 ├─ model.py # 机器学习模型模块 ├─ explain.py # SHAP 解释模块 ├─ alerts.py # 告警模块 ├─ gui.py # PyQt GUI模块 ├─ synthetic_data.py # 合成数据生成(用于训练) └─ utils.py # 工具类(例如时间戳获取)
关键代码文件:
capture.py:负责实时抓包。使用scapy进行抓包并通过回调函数处理每个数据包,将其传递给后续模块进行分析。parser.py:从抓取的包中提取原始的协议数据(如 IP、端口、标志位等)。features.py:将协议解析后的数据转换为机器学习模型所需的特征格式。model.py:训练恶意流量分类模型,并保存和加载模型。使用XGBoost算法进行训练,保存为.joblib文件。explain.py:使用 SHAP 为每个预测结果生成可解释报告。alerts.py:管理恶意流量的告警系统。当模型预测流量为恶意时,触发告警并在 GUI 中显示。gui.py:使用 PyQt5 创建 GUI,展示实时流量数据、分类预测结果以及历史告警。
使用方法:
- 安装依赖:
- 在项目根目录下执行:
pip install -r requirements.txt
- 运行程序:
- 默认情况下,程序使用模拟数据(无需管理员权限)进行测试。你可以运行:
python run.py
- 如果需要使用真实网络数据进行抓包,可以修改
config.py中的SIMULATE = False并且确保你有管理员权限(Linux 系统需要sudo权限,Windows 系统需要管理员权限)。 - 训练模型:
- 你可以通过合成数据或真实数据来训练模型。
model.py中的train_from_dataframe函数会读取特征数据,并训练出一个XGBoost模型。如果你使用的是合成数据,可以使用synthetic_data.py生成训练数据。 - 可解释性分析:
explain.py提供了基于 SHAP 的模型解释功能。你可以为每个预测生成详细的 SHAP 可视化报告,帮助理解模型如何做出分类决策。
项目扩展和创新点:
- 模型优化:可以尝试其他机器学习模型(如
RandomForest、SVM)进行比较,并优化模型参数以提高分类效果。 - 实时学习:引入在线学习算法,实时更新模型,提高系统的自适应能力。
- 高级特征:引入更多的流量特征,例如流量速率、流量方向、DNS请求等,以提高模型的检测能力。
- 告警策略:可以加入更多的告