news 2026/3/1 6:04:47

周志华《机器学习—西瓜书》六

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
周志华《机器学习—西瓜书》六

周志华《机器学习—西瓜书》六

六、神经网络模型

6-1、神经网络

什么是神经网络?
  • "神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应! IT.Kohonen,1988,Neural Networks 创刊号
  • 神经网络是一个很大的学科领域,本课程仅讨论神经网络与机器学习的交集,即“神经网络学习”亦称“连接主义(connectionism)”学习
“简单单元”神经元模型

M-P 神经元模型 [McCulloch and Pitts,1943]

注意:圆圈的里面的弧线是输入加权结果大于阈值的意思

神经网络学得的知识蕴含在连接权与阈值中

神经元激活函数
  • 理想激活函数是阶跃函数,0表示抑制神经元,而1表示激活神经元阶
  • 阶跃函数具有不连续、不光滑等不好的性质,常用的是 Siamoid函数

Sigmoid函数(即S型函数sigmoid(x)=11+e−x\text{sigmoid}(x) = \frac{1}{1+e^{-x}}sigmoid(x)=1+ex1) 的核心优势是连续光滑、可导,这是它替代阶跃函数的关键,具体好性质包括:

  1. 连续且光滑
    阶跃函数是不连续的(在 ( x=0 ) 处突变),而Sigmoid在全体实数域上连续、处处可导,这满足了神经网络梯度下降优化的需求(梯度需要连续的函数来计算)。
  2. 值域在(0,1)之间
    输出结果可以自然地被解释为“概率”(比如在二分类任务中,输出接近1表示正类,接近0表示负类),符合分类任务的概率语义。
  3. 导数易计算
    其导数可以用自身表示:sigmoid′(x)=sigmoid(x)⋅(1−sigmoid(x))\text{sigmoid}'(x) = \text{sigmoid}(x) \cdot (1 - \text{sigmoid}(x))sigmoid(x)=sigmoid(x)(1sigmoid(x)),计算效率高,适合神经网络的反向传播。
  4. 单调性
    函数单调递增,能保持输入信号的“强弱”趋势(输入越大,输出越接近1;输入越小,输出越接近0)。

6-2、万有逼近能力

多层前馈网络结构
核心定义
  • 多层网络:包含隐层的网络。
  • 前馈网络:神经元之间不存在同层连接,也不存在跨层连接(信号仅从输入层→隐层→输出层单向传递)。
  • 功能单元:隐层和输出层的神经元又被称为“功能单元”。
结构图示

关键性质:万有逼近性

多层前馈网络有强大的表示能力 (“万有逼近性”)

仅需一个包含足够多神经元的隐层,多层前馈神经网络就能以任意精度逼近任意复杂度的连续函数(来源:[Hornik et al., 1989])。

待解决问题

隐层神经元的数量设置是未决问题(Open Problem),实际应用中常用“试错法”调整。

6-3、缓解过拟合

核心策略包括两种:

1. 早停(early stopping)
  • 核心逻辑:通过监控训练过程,提前终止训练以避免模型过度拟合训练数据。

  • 常见触发条件

    • 训练误差连续aaa轮的变化小于阈值bbb
    • 结合验证集:当训练误差持续降低,但验证误差开始升高时(说明模型已开始拟合训练集噪声),停止训练。
2. 正则化(regularization)
  • 核心逻辑:在模型的误差目标函数中加入“网络复杂度惩罚项”,限制模型的复杂度,避免过拟合。
  • 示例公式

E=λ1n∑k=1nEk+(1−λ)∑iwi2E = \lambda \frac{1}{n}\sum_{k=1}^{n} E_k + (1-\lambda) \sum_{i} w_i^2E=λn1k=1nEk+(1λ)iwi2

其中:

  • 1n∑k=1nEk\frac{1}{n}\sum_{k=1}^{n} E_kn1k=1nEk是训练误差项;
  • ∑iwi2\sum_{i} w_i^2iwi2是网络复杂度惩罚项(通常是连接权值的平方和);
  • λ\lambdaλ是平衡两项的权重系数。
  • (1−λ)∑iwi2(1-\lambda) \sum_{i} w_i^2(1λ)iwi2偏好较小的连接权和阈值,使网络输出更“光滑”,降低对训练数据噪声的敏感性。

6-4、神经网络简史

神经网络发展回顾
  1. 萌芽期(1940年代)

    • 1943年:M-P模型(模拟神经元的数学模型)
    • 1945年:Hebb学习规则(神经元连接强度的更新规则)
  2. 繁荣期(1956-1969年左右)

    • 1958年:感知机(首个可训练的神经网络模型)
    • 1960年:Adaline(自适应线性神经元)
  3. 冰河期(1969年后)

    • 1969年:Minsky & Papert出版《Perceptrons》,指出感知机仅能解决线性可分问题,限制了其应用,导致神经网络研究遇冷。
  4. 再繁荣期(1984-1997年左右)

    • 1983年:Hopfield网络(递归神经网络)
    • 1986年:BP算法(反向传播,解决多层网络训练问题)
  5. 沉寂期(1997年后)

    • SVM等统计学习方法兴起,神经网络研究热度下降。
  6. 当前繁荣期(2012年至今)

    • 深度学习兴起,成为主流研究方向。

补充:发展呈现“热十三-冷十五-热十三”的交替模式,技术瓶颈与新方法突破是阶段转换的核心原因。

例如:CNN(卷积神经网络)
  1. 理论基础

    • 信号处理中的卷积(1903年已出现)
    • 1962年:Hubel & Wiesel发现猫视皮层的局部感受野机制(为CNN的卷积层提供生物学启发)
  2. 技术雏形

    • 1982年:福岛邦彦在神经网络中引入卷积操作
    • 1989年:Y. LeCun用BP算法训练卷积网络,CNN基本成型
    • 1995年:LeCun与Bengio完整描述CNN结构
    • 1998年:CNN用于支票手写字符识别(首次实用化)
  3. 深度学习热潮的触发

    • 2006年:Hinton提出无监督逐层训练,解决深层模型训练难题
    • 2009年:H. Lee等用无监督逐层训练优化CNN
    • 2012年:Hinton研究组的8层CNN在ImageNet竞赛中获胜,引发深度学习广泛应用。

总结

坚持!!!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/14 19:35:05

29、深入探索Ubuntu系统:多方面实用指南

深入探索Ubuntu系统:多方面实用指南 一、系统启动设置优化 在使用双系统时,有时会遇到默认操作系统排序下滑的问题。若Windows不再是默认启动系统,可通过以下操作解决: 1. 打开启动管理器(StartUp-Manager)。 2. 重新选择Windows作为默认操作系统。 启动管理器还能更…

作者头像 李华
网站建设 2026/2/28 20:42:56

33、Ubuntu社区资源、参与方式及常见问题解决指南

Ubuntu社区资源、参与方式及常见问题解决指南 一、Ubuntu社区资源 Ubuntu社区拥有丰富的资源,能让用户及时了解社区动态、获取技术支持和参与交流。以下是一些重要的社区资源: 1. Ubuntu Weekly Newsletter :网址为https://wiki.ubuntu.com/UbuntuWeeklyNewsletter/ ,该…

作者头像 李华
网站建设 2026/2/27 4:34:09

终极指南:3步解决Armbian音频配置难题

终极指南:3步解决Armbian音频配置难题 【免费下载链接】build Armbian Linux Build Framework 项目地址: https://gitcode.com/GitHub_Trending/bu/build 还在为单板计算机上的声音问题困扰吗?本文将为你提供完整的Armbian音频配置解决方案&#…

作者头像 李华
网站建设 2026/2/23 19:09:09

B站视频下载终极指南:5步轻松保存4K超清内容

B站视频下载终极指南:5步轻松保存4K超清内容 【免费下载链接】bilibili-downloader B站视频下载,支持下载大会员清晰度4K,持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 还在为无法保存B站精彩视频而…

作者头像 李华
网站建设 2026/2/28 23:11:46

68.7%合成数据驱动,KORMo-10B如何重构韩语AI生态?

68.7%合成数据驱动,KORMo-10B如何重构韩语AI生态? 【免费下载链接】KORMo-10B-sft 项目地址: https://ai.gitcode.com/hf_mirrors/KORMo-Team/KORMo-10B-sft 导语 韩国KAIST团队发布的108亿参数全开源双语大模型KORMo-10B,以68.74%合…

作者头像 李华