机器学习中的模型选择、生产管道与降维技术
1. 信用卡欺诈检测模型选择与生产管道
在信用卡欺诈检测任务中,我们对集成模型进行了评估。从精确率 - 召回率曲线、平均精确率和 auROC 曲线来看,集成模型并没有带来性能上的提升。因此,我们选择了独立的 LightGBM 梯度提升模型用于生产,因为它更为简单。
在为新交易创建处理管道之前,我们先对 LightGBM 模型在测试集上区分欺诈交易和正常交易的能力进行了可视化。从预测概率图来看,该模型能较好地为实际欺诈交易赋予高欺诈概率,为正常交易赋予低欺诈概率,但偶尔也会出现误判。
接下来我们设计了一个简单的生产管道,用于处理新的交易数据,具体步骤如下:
1.加载数据:将新数据导入到名为newData的数据框中。
2.特征缩放:对特定特征进行缩放处理。
# first, import new data into a dataframe called 'newData' # second, scale data # newData.loc[:,featuresToScale] = sX.transform(newData[featuresToScale])- 生成预测:使用已经训练好的 LightGBM 模型进行预测。
#