news 2026/5/13 7:09:07

机器学习中的熵

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习中的熵

摘要:本文探讨了熵在机器学习中的应用,重点介绍了其在决策树算法中的作用。熵用于衡量数据集的纯度或随机性,通过香农熵公式计算。决策树利用熵选择最优分割点,以生成同质性更强的子集。文章还提供了Python实现示例,使用鸢尾花数据集演示熵的计算过程,得出初始熵值为1.585,反映了三个类别的分布随机性。熵的概念源于热力学,现已成为机器学习中重要的数据分割指标。

目录

机器学习中的熵

熵的计算方法

示例计算

熵在决策树中的应用

Python 实现熵的计算

代码实现

代码说明

运行结果


机器学习中的熵

熵源于热力学,后被应用于信息论、统计学和机器学习等多个领域。在机器学习中,熵用于衡量数据集的纯度或随机性,尤其在决策树算法中,用于确定数据分割方式,以生成同质性更强的子集。本文将介绍机器学习中的熵、其特性及 Python 实现。

熵被定义为系统混乱度或随机性的度量。在决策树中,熵用于衡量节点的纯度:若一个节点中的所有样本都属于同一类别,则该节点为 “纯节点”,熵值为 0;若样本均匀分布在多个类别中,则节点纯度低、熵值高。

熵的计算方法

计算熵需先确定数据集中每个类别的概率。设 p(i) 为样本属于第 i 类的概率,若数据集包含 k 个类别,则系统的总熵(记为 H(S))按香农熵公式计算:

示例计算

假设有一个含 100 个样本的数据集,其中 60 个属于 A 类,40 个属于 B 类。则 A 类概率为 0.6,B 类概率为 0.4,数据集的熵为:

熵在决策树中的应用

决策树算法中,熵的核心作用是选择 “最优分割点”—— 目标是找到能使分割后子集总熵最低的分割方式,从而让子集的同质性最强。

具体流程如下:

1.计算整个数据集的初始熵 H(S);

2.针对每个特征(如 X1、X2)的所有可能分割方式,计算分割后的加权熵:

  • 对特征 X1 分割:
  • 对特征 X2 分割:

其中,p1​,p2​,p3​,p4​ 为各子集的样本占比,H(S1),H(S2),H(S3),H(S4) 为各子集的熵;

3.选择总熵最低的分割方式

生成决策树的子节点;

4.递归重复上述过程,直至所有节点为纯节点或满足停止条件。

Python 实现熵的计算

以下结合 scikit-learn 的 “鸢尾花(iris)数据集”,演示熵的计算过程:

代码实现

from sklearn.datasets import load_iris import numpy as np # 加载鸢尾花数据集 iris = load_iris() # 提取特征数据和标签(标签表示花的类别) X = iris.data y = iris.target # 定义熵计算函数 def entropy(y): n = len(y) # 样本总数 # 统计每个类别的样本数量 _, counts = np.unique(y, return_counts=True) # 计算每个类别的概率(占比) probs = counts / n # 按香农熵公式计算熵 return -np.sum(probs * np.log2(probs)) # 计算鸢尾花数据集标签的熵 target_entropy = entropy(y) # 输出结果(保留3位小数) print(f"标签熵值: {target_entropy:.3f}")

代码说明

  1. 加载数据集:使用load_iris()加载鸢尾花数据集,包含 3 个类别、150 个样本;
  2. 熵计算函数entropy(y)
    • 统计标签中每个类别的样本数量;
    • 计算每个类别的概率(占比);
    • 代入香农熵公式计算总熵;
  3. 输出结果:计算并打印数据集标签的熵值。

运行结果

执行上述代码后,输出如下:

plaintext

标签熵值: 1.585

该结果表明,鸢尾花数据集的初始熵为 1.585,反映了数据集中 3 个类别的分布随机性。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 5:46:48

ELISpot Plus:Mouse IL-4 (ALP)--简洁高效,节省时间

在免疫学研究中,细胞因子的检测对于理解免疫应答机制、评估疫苗效果以及探索疾病机制至关重要。其中,IL-4作为一种重要的Th2型细胞因子,在过敏反应、自身免疫性疾病和抗寄生虫免疫中扮演着关键角色。为了更准确地检测小鼠体内的IL-4水平&…

作者头像 李华
网站建设 2026/5/10 5:46:13

看完就会:10个降AIGC平台测评,自考降AI率必备攻略

在当前的学术写作环境中,AI生成内容(AIGC)已经成为了论文审查的重要指标之一。无论是自考还是研究生阶段,如何有效降低AIGC率、去除AI痕迹,同时保持文章的语义通顺和逻辑严谨,成为了每位写作者必须面对的挑…

作者头像 李华
网站建设 2026/5/10 5:46:47

比特币撕裂,以太坊削藩

问教链,试试看👉【刘教链有问有答】 * * * 一觉醒来,很多人觉得天要塌了。 市场之内:大饼(BTC)倒栽葱,不受控制地坠落,已经逼近7万刀警戒线。以太(ETH)马上就…

作者头像 李华
网站建设 2026/5/10 5:46:15

少见!横断面研究登上BMJ正刊,武汉大学学者是如何做到的?

源自风暴统计网:一键统计分析与绘图的AI网站2026年2月4日,武汉大学中南医院胡争教授与华中科技大学同济医学院附属武汉市中心医院田训主任团队的一篇横断面研究发表在医学顶刊《BMJ》(医学一区top,IF42.7)主刊上。横断…

作者头像 李华