news 2026/4/11 13:04:39

Math - 中心化,标准化和归一化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Math - 中心化,标准化和归一化

归一化(Normalization)是把数据或物理量转换为无量纲或统一尺度的处理,使不同来源、不同量纲或不同量级的数据具有可比性,便于比较、加权、融合与后续计算。典型情形包括:把数值缩放到[0, 1]或[-1, 1]区间,或将分布调整为具有零均值、单位方差的形式;在信号处理中,也常把频率按奈奎斯特频率归一化到[0, 1]以便设计与比较。

常见方法公式与适用场景

方法

公式

输出范围/性质

典型用途与注意

Min-Max 缩放

x' = (x − X_min) / (X_max − X_min)

[0, 1](可推广到[a, b])

特征缩放、图像处理;对异常值敏感,新增数据可能改变极值

Z-score 标准化

x' = (x − μ) / σ

均值0、标准差1

假设近似正态、算法需稳定尺度的场景(如SVM、KNN、神经网络

以上方法在不同学科中还有变体与扩展,选择取决于数据分布、业务约束与算法需求。

与标准化中心化的区别

* 归一化:强调把特征缩放到固定区间(如[0, 1])或满足特定约束(如概率和为1),常由极值或分布参数决定,属于“重缩放”。

* 标准化(Z-score):把特征转换为零均值、单位方差,强调分布层面的对齐,属于“重缩放+平移”。

* 中心化:仅做减均值(x' = x − μ),不改变尺度。

信号处理与图像处理:以奈奎斯特频率归一化频率到[0, 1]便于滤波器设计与比较;图像像素强度归一化到[0, 1]便于显示、融合与相似度计算。

概念与作用

在数据分析与机器学习中,标准化指对特征做中心化与缩放,使特征具有零均值、单位方差(Z-score),或将数据线性缩放到固定区间(Min-Max)。其核心目的是消除量纲差异、提升可比性,并改善基于距离或梯度的算法的收敛速度与稳定性。典型地,Z-score 转换公式为:z = (x − μ) / σ;Min-Max 为:x' = (x − X_min) / (X_max − X_min)。需要注意,标准化通常会改变数据的分布范围与数值尺度,因此应保存所用的均值/标准差/极值等参数以便一致地应用于新数据。

常用方法公式与适用场景

Min-Max 标准化(线性映射到[0,1]或[a,b])

* 公式:x' = (x − X_min)/(X_max − X_min);若映射到[a,b]:x' = a + (b − a)·(x − X_min)/(X_max − X_min)。

* 适用:需要固定输出范围(如图像像素[0,255]→[0,1])、距离度量或神经网络输入。

* 优点:直观、保留单调关系;缺点:对异常值敏感,新增数据可能越界。

Z-score 标准化(均值0、标准差1)

* 公式:z = (x − μ)/σ。

* 适用:特征单位不同、可能存在未知极值/离群值、或算法假设近似正态(如回归、SVM、KNN、PCA、神经网络)。

* 优点:消除量纲、稳健于未知边界;缺点:均值与标准差受异常值影响。

* 术语边界

* 中心化:x' = x − μ(仅平移,均值变0,方差不变)。

* 标准化(Z-score):中心化后再按标准差缩放(均值0、标准差1)。

* 归一化(常见口语):多指Min-Max 缩放到固定区间;在不少资料中也作为“标准化/缩放”的泛称,需结合上下文辨析。

* 与数据清洗的关系

* 标准化不替代清洗。应先处理缺失值、异常值、重复与错误,再做标准化,以避免参数估计被污染。

* 方法选择速览

* 需要固定范围(如0–1)或图像/可视化:优先Min-Max。

* 单位不同、存在离群或未知极值、做距离/协方差/PCA相关分析:优先Z-score。

流程建议

1. 数据清洗:处理缺失/异常/重复/错误,统一单位与编码。

2. 探索分布:绘制直方图/箱线图,评估偏度/峰度与异常值。

3. 选择方法:依据模型与业务约束在Min-Max / Z-score / 分位数等中取舍。

4. 拟合与转换:在训练集上拟合(计算μ、σ、min、max或分位数),再转换验证/测试/线上数据,避免数据泄露。

5. 记录与复用:持久化scaler/参数与版本,保证推理一致性。

6. 评估与回溯:用统计描述与可视化核验标准化效果,必要时回滚或调整方法。


z分数(z-score),也叫标准分数(standard score)是一个数与平均数的差再除以标准差的过程。在统计学中,标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。

z分数可以回答这样一个问题:"一个给定分数距离平均数多少个标准差?"在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数。 z分数是一种可以看出某分数在分布中相对位置的方法。

z分数能够真实的反映一个分数距离平均数的相对标准距离。如果我们把每一个分数都转换成z分数,那么每一个z分数会以标准差为单位表示一个具体分数到平均数的距离或离差。将成正态分布的数据中的原始分数转换为z分数,我们就可以通过查阅z分数在正态曲线下面积的表格来得知平均数与z分数之间的面积,进而得知原始分数在数据集合中的百分等级。一个数列的各z分数的平方和等于该数列数据的个数,并且z分数的标准差和方差都为1.平均数为0.

Z分数的应用主要有:①表示各原始数据在数据组中的相对位置;②对于正态数据,可表示该数据以下或以上数据的比例,具体说可以求解诸如分数线问题或人数比例问题;③表示标准化测验的分数;④用于异常值的取舍。标准分数在学生教育评价中常有以下五种应用:纵横比较、成绩等级化、标准转化、等级比例确定、品质评定数量化。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/6 23:54:16

SSH远程访问Miniconda-Python3.10容器进行模型训练

SSH远程访问Miniconda-Python3.10容器进行模型训练 在深度学习项目日益复杂的今天,一个常见的痛点是:本地笔记本跑不动大模型,而一旦换到远程服务器,又面临环境不一致、依赖冲突、“在我机器上明明能跑”的尴尬局面。更别提训练到…

作者头像 李华
网站建设 2026/4/10 0:38:07

使用Miniconda构建可重复的学术研究计算环境

使用Miniconda构建可重复的学术研究计算环境 在今天的数据驱动科研时代,一个常见的尴尬场景是:你在本地调通了模型、跑出了理想结果,信心满满地把代码发给合作者,对方却回复一句——“跑不起来”。不是缺这个包,就是版…

作者头像 李华
网站建设 2026/4/9 22:14:03

风投预测企业AI明年将强劲增长——再次

自OpenAI发布ChatGPT并引发AI创新和关注浪潮以来,已经过去了三年。从那时起,乐观主义者定期声称AI将成为企业软件行业的关键部分,因此企业AI初创公司在大量投资的支持下如雨后春笋般涌现。但企业仍在努力看到采用这些新AI工具的好处。麻省理工…

作者头像 李华
网站建设 2026/4/3 1:47:38

Miniconda创建环境时添加注释和元数据的方法

Miniconda环境管理中的元数据实践:让每个环境都“自带说明书” 在AI项目开发中,你是否遇到过这样的场景?服务器上列着十几个Conda环境:py38, gpu_env, test2, nlp-v2……没人记得哪个是训练BERT模型用的,哪个只是临时测…

作者头像 李华
网站建设 2026/4/8 16:52:38

如何在Miniconda环境中配置PyTorch与CUDA加速

如何在Miniconda环境中配置PyTorch与CUDA加速环境管理的现代实践:为什么选择 Miniconda? 在深度学习项目中,最让人头疼的往往不是模型设计本身,而是“在我机器上明明能跑”的环境问题。你有没有遇到过这样的场景:刚克隆…

作者头像 李华
网站建设 2026/3/31 13:54:28

在Miniconda环境中安装OpenCV进行图像预处理操作

在Miniconda环境中安装OpenCV进行图像预处理操作 你有没有遇到过这样的情况:刚写好的图像处理脚本,在同事电脑上一跑就报错?cv2 模块找不到,或者 numpy 版本不兼容,甚至因为系统缺少某个 C 库直接崩溃。这类“在我机器…

作者头像 李华