数值型特征选择：机器学习中的降维与模型优化-开发者社区

1. 数值型特征选择的核心价值

在机器学习项目中，我们经常会遇到包含数百甚至数千个特征的数据集。上周处理一个金融风控项目时，原始数据集包含客户交易的387个特征，其中超过80%都是数值型变量。这种高维数据直接喂给模型不仅会大幅增加计算成本，更会导致"维度诅咒"（Curse of Dimensionality）——即随着特征空间维度的增加，数据变得极其稀疏，模型性能反而下降。

数值型特征选择（Feature Selection for Numerical Data）就是解决这个痛点的关键技术。与特征提取（如PCA）不同，特征选择保留原始特征的可解释性，这对金融、医疗等需要模型透明度的领域尤为重要。我经手的一个医疗诊断项目，通过特征选择将CT影像特征从1200个精简到47个关键特征，模型准确率反而提升了8%，因为去除了大量冗余噪声。

2. 特征选择方法全景图

2.1 过滤式方法（Filter Methods）

过滤式方法在训练模型前，通过统计指标评估特征重要性。它们计算速度快，适合作为初步筛选：

Pearson相关系数：衡量线性关系的最基础指标。在电商用户行为分析中，我发现用户"月均点击次数"与购买转化率的相关系数达0.62，而"注册时长"仅0.08，后者可直接剔除。但要注意它只能检测线性关系，且对异常值敏感。

互信息（Mutual Information）：能捕捉任意统计关系。用sklearn.feature_selection.mutual_info_regression计算时，建议设置n_neighbors=3（默认5）以获得更稳定的估计。在房价预测中，它成功识别出"学区房"与"地铁距离"的非线性交互作用。

方差阈值：简单但实用。某次处理传感器数据时，发现15%的特征方差接近0，因为它们来自故障传感器。使用VarianceThreshold(threshold=0.1)一键清除，但要注意先做标准化，否则量纲会影响判断。

2.2 包裹式方法（Wrapper Methods）

包裹式方法通过模型表现评估特征子集，效果更好但计算成本高：

递归特征消除（RFE）：配合线性回归或SVM使用。关键参数是step（每次删除的特征数），对于超过500个特征的数据，建议设为5%-10%。在广告CTR预测中，我用RFE(estimator=LogisticRegression(), n_features_to_select=30)从200个特征中筛选出最优子集。

顺序特征选择（SFS）：分前向和后向两种。使用mlxtend库时，设置floating=True允许特征回溯调整。处理时间序列预测时，前向选择比后向选择快3倍，因为初始特征相关性高。

2.3 嵌入式方法（Embedded Methods）

模型训练过程自动进行特征选择，平衡效率与效果：

Lasso回归：通过L1正则化产生稀疏解。调参时建议用ElasticNetCV自动平衡L1/L2比例。在信用评分卡开发中，Lasso将原始400个特征压缩到35个，且各特征的系数可直接用于评分权重。

树模型特征重要性：XGBoost的get_score()方法输出特征重要性。注意要设置importance_type='gain'（默认是weight），这样能真实反映特征对模型精度的贡献。某次比赛中使用plot_importance()可视化发现，前10%的特征贡献了80%的预测力。

3. 实战中的高阶技巧

3.1 处理高相关特征群

当特征间相关系数>0.9时，可采用以下策略：

聚类分析：用层次聚类（scipy.cluster.hierarchy）将特征分组
每组选代表：取组内与目标变量相关性最高的特征
或用聚合特征：如对5个高度相关的温度传感器数据取移动平均

3.2 稳定性评估

用sklearn.feature_selection.GenericUnivariateSelect配合交叉验证：

selector = GenericUnivariateSelect(score_func=f_classif, mode='k_best', param=10) cv_results = cross_val_score(selector, X, y, cv=5) print(f"特征选择稳定性：{np.mean(cv_results):.2f}±{np.std(cv_results):.2f}")

3.3 特征交互检测

对于数值型特征，可用sklearn.preprocessing.PolynomialFeatures生成交互项后筛选。在电商场景中，发现"浏览时长×折扣力度"这个交互特征的预测力比原始特征高40%。

4. 完整工作流示例

以Kaggle房价预测数据为例：

# 数据准备 num_features = X.select_dtypes(include=['int64','float64']) scaler = RobustScaler() # 对异常值鲁棒 X_scaled = scaler.fit_transform(num_features) # 第一阶段：过滤法 selector = VarianceThreshold(threshold=0.1) X_high_var = selector.fit_transform(X_scaled) # 第二阶段：嵌入式方法 lasso = LassoCV(alphas=np.logspace(-3, 0, 50), cv=5) lasso.fit(X_high_var, y) selected = np.where(lasso.coef_ != 0)[0] # 获取非零系数特征 # 第三阶段：包裹式方法 final_features = X_high_var[:, selected] rfe = RFECV(estimator=RandomForestRegressor(), step=5, cv=5, scoring='neg_mean_squared_error') rfe.fit(final_features, y)

5. 避坑指南

数据泄漏：所有特征选择必须在训练集上进行！常见错误是在全数据集计算相关系数后再划分train/test
量纲陷阱：方差阈值、Lasso等受特征尺度影响，务必先做标准化（StandardScaler/MinMaxScaler）
时间序列特殊处理：需用时间窗划分，不能用随机CV。某次预测股价时，错误地使用ShuffleSplit导致效果虚高30%
分类问题注意事项：对于类别型目标变量，ANOVA F值比互信息更稳定。使用f_classif时注意各组样本量要平衡
特征重要性解释：树模型的特征重要性存在偏差，连续特征、高基数特征会被高估。可用sklearn.inspection的permutation_importance验证

6. 工具链推荐

可视化：seaborn.clustermap绘制特征相关性热图
自动化：feature-engine库的DropCorrelatedFeatures、SmartCorrelationSelection
高级方法：sklearn.feature_selection.SelectFromModel支持任意带coef_或feature_importances_的模型
分布式处理：Dask-ML的feature_importance支持大数据集

在最近一个银行反欺诈项目中，通过组合使用Lasso（筛选）、RFECV（精炼）和业务规则（人工验证），将特征数量从689降至22个，模型KS值提升0.15，同时推理速度加快7倍。记住：好的特征选择不是追求最少特征，而是找到预测力与简洁性的平衡点。