python基础（逻辑回归例题）-开发者社区

一、参数选择

在逻辑回归建模中，“过拟合”是绕不开的坑——当模型在训练数据上表现完美，却在新数据上一塌糊涂时，大概率是模型复杂度超出了数据所能支撑的范围。而惩罚因子（也叫正则化参数），正是我们解决过拟合、平衡模型拟合度与泛化能力的核心工具。

1.通过LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000)函数C参数的选择最优惩罚因子。通过K折交叉验证cross_val_score(lr,x_train_w,y_train_w,cv=8,scoring='recall')函数来实现。

scores=[] #不同参数下的验证集评分 c_range=[0.01,0.1,1,10,100] for i in c_range: lr=LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000) score=cross_val_score(lr,x_train_w,y_train_w,cv=8,scoring='recall') score_m=sum(score)/len(score) scores.append(score_m) print(score_m) best_c=c_range[np.argmax(scores)] print("最优惩罚因子",best_c) lr=LogisticRegression(C=best_c,penalty='l2',solver='lbfgs',max_iter=1000) lr.fit(x_train_w,y_train_w) from sklearn import metrics train_predict=lr.predict(x_train_w) print(metrics.classification_report(y_train_w,train_predict))#获得混淆矩阵的准确值，召回值。 cm_plot(y_train_w,train_predict).show() test_predict=lr.predict(x_test_w) print(metrics.classification_report(y_test_w,test_predict,digits=6))#获得混淆矩阵的准确值，召回值。 cm_plot(y_test_w,test_predict).show()

二、下采样

下采样的核心是“削减多数类样本”，将不同类别的数量平衡一下，减少多的类别的数量

在案例中使用代码：

x_train_w=train_data[train_data['Class']==1]
y_train_w=train_data[train_data['Class']==0]
y_train_w=y_train_w.sample(len(x_train_w))

使用sample函数从y_train_w中抽取x_train_w的数量。

data=pd.read_csv("creditcard.csv") scaler=StandardScaler() data['Amount']=scaler.fit_transform(data[['Amount']]) data=data.drop(['Time'],axis=1)#axis=1，表示删除列 x=data.drop('Class',axis=1) y=data.Class x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=0) train_data=x_train train_data['Class']=y_train x_train_w=train_data[train_data['Class']==1] y_train_w=train_data[train_data['Class']==0] y_train_w=y_train_w.sample(len(x_train_w)) data_c=pd.concat([x_train_w,y_train_w]) x_train_w_1=data_c.drop('Class',axis=1) y_train_w_1=data_c.Class scores=[] c_range=[0.01,0.1,1,10,100] for i in c_range: lr=LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000) score=cross_val_score(lr,x_train_w_1,y_train_w_1,cv=10,scoring='recall') score_m=sum(score)/len(score) scores.append(score_m) print(score_m) best_c=c_range[np.argmax(scores)] print("最优因子：",best_c) lr=LogisticRegression(C=best_c,penalty='l2',solver='lbfgs',max_iter=1000) lr.fit(x_train_w_1,y_train_w_1)

三、过采样

上采样的核心是“扩充少数类样本”

我们可以使用SMOTE（合成少数类过采样技术）——在少数类样本的特征空间中，找到每个样本的k个近邻，通过插值生成新的少数类样本（如样本A和样本B的近邻，新样本=A+rand(0,1)*(B-A)）

from imblearn.over_sampling import SMOTE oversampler=SMOTE(random_state=100)#保证数据拟合效果，随机种子 os_x_train,os_y_train=oversampler.fit_resample(x_train,y_train)#人工拟合数据

你还在为Rust-PHP扩展报错崩溃？：3种高效解决方案立即上手

第一章：Rust-PHP 扩展的版本适配在构建基于 Rust 编写的 PHP 扩展时，版本兼容性是确保扩展稳定运行的关键因素。PHP 的内部 API 随版本迭代频繁变化，而 Rust 通过 php-rs 或 ext-php-rs 等绑定库与 Zend 引擎交互，因此必须精确匹配…

李华

仅限高级开发者：PHP 8.6扩展开发文档未公开的7个核心结构体

第一章：PHP 8.6 扩展开发概览 PHP 8.6 作为 PHP 语言持续演进的重要版本，进一步优化了扩展开发的接口稳定性与性能表现。该版本在延续 Zend 引擎高效特性的基础上，引入了更清晰的扩展注册机制和增强的类型支持，使 C 语言编写的原生…

李华

多传感器信息融合，卡尔曼滤波算法的轨迹跟踪与估计 AEKF——自适应扩展卡尔曼滤波算法

多传感器信息融合，卡尔曼滤波算法的轨迹跟踪与估计AEKF——自适应扩展卡尔曼滤波算法 AUKF——自适应无迹卡尔曼滤波算法 UKF——无迹卡尔曼滤波算法三种不同的算法实现轨迹跟踪轨迹跟踪这活儿听起来高端，实际干起来全是坑。传感器数据像一群不听话的…

李华

【NGS数据质控黄金法则】：10个R语言关键步骤确保分析可靠性

第一章：NGS数据质控的核心意义与R语言优势高通量测序（NGS）技术的迅猛发展为基因组学研究提供了前所未有的数据规模，但原始测序数据中常包含接头污染、低质量碱基和PCR重复等问题，直接影响后续分析的准确性。因此&#…

李华

boost获取dll导出函数调用(C++源码)

1、概述 boost获取dll导出函数并调用，4个步骤。 1、包含头文件 2、加载dll 3、获取函数地址 4、调用函数与windows 的GetProcessAdress方式相比，感觉boost更麻烦一点，于是用ai搜索了下区别，我觉得其中一个好处就是支持跨平台吧。由于boost::dll::shared_library::get&…

李华

基于三菱fxPLC和组态王燃油锅炉控制系统带解释的梯形图程序，接线图原理图图纸，io分配

基于三菱fxPLC和组态王燃油锅炉控制系统带解释的梯形图程序，接线图原理图图纸，io分配，组态画面最近在车间搞了个燃油锅炉控制系统的改造项目，用三菱FX3U PLC搭组态王上位机。这套系统最关键的就是锅炉压力稳如老狗，必…

李华