news 2026/4/15 16:24:32

5.4 信息论核心概念:熵、互信息与KL散度

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
5.4 信息论核心概念:熵、互信息与KL散度

5.4 信息论核心概念:熵、互信息与KL散度

信息论为定量分析信息的产生、传输、存储和处理提供了严格的数学框架。在人工智能领域,信息论的概念和方法不仅为理解通信和编码问题奠定基础,更重要的是,它们提供了衡量不确定性、信息内容和概率分布之间差异的基本工具,从而深刻影响了机器学习、深度学习、数据压缩和推断等多个分支。本节将系统阐述信息论中三个最核心且互相关联的概念:互信息Kullback-Leibler散度,并详细说明它们在人工智能模型构建与分析中的关键作用。

5.4.1 熵:不确定性的度量

熵是信息论中最基本的概念,它量化了一个随机变量的不确定性或“信息含量”。

  1. 定义:对于一个定义在有限字母表X\mathcal{X}X上的离散随机变量XXX,其概率质量函数为P(x)P(x)P(x)香农熵定义为:
    H(X)=−∑x∈XP(x)log⁡P(x) H(X) = -\sum_{x \in \mathcal{X}} P(x) \log P(x)H(X)=xXP(x)logP(x)
    其中,对数通常以2为底,此时熵的单位是比特;或以自然常数eee为底,单位是纳特。该定义要求约定0log⁡0=00 \log 0 = 00log0=0,因为lim⁡p→0+plog⁡p=0\lim_{p \to 0^+} p \log p = 0limp0+plogp=0。熵H(X)H(X)H(X)可以理解为,为了确定随机变量XXX的具体取值,平均所需提问的“是/否”问题的最小数量(在最优编码下)[1]。

  2. 性质与解释

    • 非负性H(X)≥0H(X) \ge 0H(X)0。等号成立当且仅当XXX以概率1取某个值(即确定性事件,无不确定性)。
    • 上界:对于定义在∣X∣|\mathcal{X}|X个元素上的随机变量,H(X)≤log⁡∣X∣H(X) \le \log |\mathcal{X}|H(X)logX。等号成立当且仅当XXX服从均匀分布。这意味着均匀分布具有最大不确定性。
    • 连续随机变量的微分熵:对于连续随机变量XXX及其概率密度函数p(x)p(x)p(x)微分熵定义为h(X)=−∫Xp(x)log⁡p(x)dxh(X) = -\int_{\mathcal{X}} p(x) \log p(x) dxh(X)=Xp(x)logp(x)dx。微分熵不具备离散熵的所有性质(例如,它可能为负值),但其相对大小和变化在许多分析中仍有意义。
  3. 联合熵与条件熵

    • 联合熵:衡量一对随机变量(X,Y)(X, Y)(X,Y)联合分布的不确定性:
      H(X,Y)=−∑x,yP(x,y)log⁡P(x,y) H(X, Y) = -\sum_{x, y} P(x, y) \log P(x, y)H(X,Y)=x,yP(x,y)logP(x,y)
    • 条件熵:衡量在已知随机变量YYY取值条件下,随机变量XXX剩余的不确定性:
      H(X∣Y)=∑yP(y)H(X∣Y=y)=−∑x,yP(x,y)log⁡P(x∣y) H(X | Y) = \sum_{y} P(y) H(X | Y=y) = -\sum_{x, y} P(x, y) \log P(x | y)H(XY)=yP(y)H(XY=y)=x,yP(x,y)logP(xy)
      可以证明:H(X,Y)=H(Y)+H(X∣Y)=H(X)+H(Y∣X)H(X, Y) = H(Y) + H(X | Y) = H(X) + H(Y | X)H(X,Y)=H(Y)+H(XY)=H(X)+H(YX)。这被称为链式法则

5.4.2 互信息:变量间依赖关系的度量

互信息量化了两个随机变量之间相互依赖的程度,或者说,知道一个变量的值能为预测另一个变量的值提供多少信息。

  1. 定义:随机变量XXXYYY之间的互信息定义为:
    I(X;Y)=∑x∈X∑y∈YP(x,y)log⁡P(x,y)P(x)P(y) I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} P(x, y) \log \frac{P(x, y)}{P(x)P(y)}I<

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 7:14:34

第6.3节 数值计算稳定性:浮点误差、病态条件与数值微分

第6.3节 数值计算稳定性:浮点误差、病态条件与数值微分 在人工智能算法的实现过程中,无论是训练深度神经网络还是求解大规模线性系统,最终都依赖于计算机的有限精度算术。这种有限性使得计算结果与理论真值之间存在不可避免的差异,这种差异统称为数值误差。数值计算稳定性…

作者头像 李华
网站建设 2026/4/15 7:01:22

如何用Kotaemon提升大模型回答的准确率和可信度?

如何用Kotaemon提升大模型回答的准确率和可信度&#xff1f; 在企业纷纷拥抱生成式AI的今天&#xff0c;一个尖锐的问题始终悬而未决&#xff1a;我们真的能信任大模型给出的答案吗&#xff1f;尤其是在金融、医疗、法律这类容错率极低的领域&#xff0c;一句看似合理却毫无依据…

作者头像 李华
网站建设 2026/4/14 18:20:54

Kotaemon客户投诉处理话术生成

Kotaemon客户投诉处理话术生成 在金融、电商和电信等行业&#xff0c;客服系统每天要面对成千上万的用户咨询与投诉。一个常见的场景是&#xff1a;用户愤怒地发来消息&#xff0c;“你们上个月多扣了我50块钱&#xff01;”——这时候&#xff0c;如何快速、准确、得体地回应&…

作者头像 李华
网站建设 2026/4/15 7:02:38

Kotaemon支持Markdown格式输出吗?技术文档利器

Kotaemon支持Markdown格式输出吗&#xff1f;技术文档利器 在智能系统日益渗透企业核心流程的今天&#xff0c;如何让AI生成的内容不仅准确可信&#xff0c;还能直接投入生产使用——比如自动生成一份结构清晰、可读性强的技术文档——已成为衡量一个RAG框架实用性的关键标准。…

作者头像 李华
网站建设 2026/4/15 7:02:38

JDK升级指南

一 JDK升级工具-EMT4J 1.1 工具介绍 EMT4J is a project that aims to simplify the Java version migration. At the moment, this project focuses on three LTS (i.e. Long-Term-Support) versions: 8, 11, 17 and 21. Therefore, if you want to migrate your applicatio…

作者头像 李华
网站建设 2026/4/12 6:08:08

上海样册设计指南,如何让企业样册脱颖而出

上海样册设计指南&#xff1a;如何让企业样册脱颖而出小编说&#xff1a;在上海这样竞争激烈的商业环境中&#xff0c;一份出色的企业样册不仅是信息的载体&#xff0c;更是品牌无声的代言人。许多企业在寻找设计服务时&#xff0c;常常困惑于如何让自己的样册在众多同类中脱颖…

作者头像 李华