news 2026/6/2 19:49:27

pytorch深度学习笔记

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
pytorch深度学习笔记

目录

摘要

1.神经网络的梯度计算

2.梯度下降法(Gradient Descent)


摘要

本篇文章继续学习尚硅谷深度学习教程,学习内容是神经网络的梯度计算,代码实现用梯度下降法

1.神经网络的梯度计算

在神经网络的学习中,梯度的计算非常重要。神经网络中的梯度,指的就是损失函数关于权重参数的梯度。我们以一个单层的简单网络为例,形状为2×3,权重参数为W,损失函数记为L。那么它的权重参数和梯度为:

这里,梯度也是一个2×3的矩阵,其中各个元素由L关于W中各元素的偏导数构成。

代码如下:

import numpy as np from common.functions import softmax,cross_entropy_error from common.gradient import numerical_gradient class simpleNet: def __init__(self): self.W = np.random.randn(2,3) def forward(self, x): a= x @ self.W return softmax(a) def loss(self, x, t): y = self.forward(x) loss = cross_entropy_error(y, t) return loss x = np.array([0.6, 0.9]) t = np.array([0, 0, 1]) net = simpleNet() f = lambda w: net.loss(x, t) dW = numerical_gradient(f, net.W) print(dW)

测试:

2.梯度下降法(Gradient Descent

梯度下降法(Gradient Descent是一种用于最小化目标函数的迭代优化算法。核心是沿着目标函数(如损失函数)的负梯度方向逐步调整参数,从而逼近函数的最小值。梯度方向指示了函数增长最快的方向,因此负梯度方向是函数下降最快的方向。

具体来说,我们初始找到函数f(x1,x2)的一个点(x1,x2),按下式进行更新

这样就可以沿着负梯度方向,找到一个新的点(x1',x2'),让函数值更小。这里的η表示每次的更新量,在神经网络的学习过程中,就代表了一次学习的步长(一次学习多少、多大程度去更新参数),称为学习率(learning rate)。学习率需要预先设定好,过大或过小都会导致学习效果不佳。

梯度下降法可以代码实现如下:

import numpy as np import matplotlib.pyplot as plt from common.gradient import numerical_gradient def gradient_descent(f, init_x, lr=0.01, step_num=100): x = init_x #保存x变化 x_history = [] for i in range(step_num): x_history.append( x.copy() ) grad = numerical_gradient(f, x) x -= lr * grad return x, np.array(x_history)

案例测试

#定义目标函数f(x)=x1^2+x2^2 def f(x): return x[0]**2 + x[1]**2 if __name__ == '__main__': init_x=np.array([-3.0,4.0]) #超参数 lr=0.1 num_iter=20 #梯度下降法计算最小值 x, x_history = gradient_descent(f, init_x, lr, num_iter) print("最小值点为:",x)

测试

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 22:13:03

Langchain-Chatchat在跨境电商知识库中的应用探索

Langchain-Chatchat在跨境电商知识库中的应用探索 在跨境电商行业,每天都有成千上万的客服问题涌向支持团队:“这个国家能退货吗?”“清关需要哪些文件?”“欧盟VAT怎么算?”而答案往往散落在PDF手册、内部邮件、政策更…

作者头像 李华
网站建设 2026/6/2 7:24:30

如何使用华为云国际站代理商BRS进行数据备份?

使用华为云国际站代理商 BRS 进行数据备份,核心是通过BRS 云备份 CBR 联动,实现 “生产侧备份 跨区域复制 容灾恢复” 的全链路数据保护,代理商负责方案设计、权限管控、策略配置、加密审计与演练复盘,保障备份数据的一致性、安…

作者头像 李华
网站建设 2026/6/1 3:42:28

Langchain-Chatchat与BI工具集成实现智能查询

Langchain-Chatchat与BI工具集成实现智能查询 在企业数据爆炸式增长的今天,决策者不再满足于翻阅静态报表或等待IT部门生成定制分析。他们希望像问助手一样直接提问:“上季度华东区销售额怎么样?”并立刻获得包含数据、趋势和背景解释的完整回…

作者头像 李华
网站建设 2026/6/2 17:06:53

计算机小程序毕设实战-基于springboot+微信小程序校园学生兼职系统基于SpringBoot的微信小程序校内兼职系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/2 17:15:59

基于FPGA的CORDIC算法实现:输出sin和cos波形(Quartus II版本)

No.26 基于FPGA的cordic算法实现,输出sin和cos波形(quartusii版本),包括程序操作录像,算法程序 CORDIC为Coordinate rotation digital computer的缩写,来自于J.E.Volder发表于1959年的论文中,是一种不同于“paper and penci\"思路的一种…

作者头像 李华
网站建设 2026/5/30 20:23:25

企业架构之TOGAF 方法论入门与实战指南(2)

在当今数字化转型的浪潮中,企业 IT 系统变得越来越复杂。系统之间不仅要打通,还要灵活应对业务的快速变化。作为技术管理者或架构师,我们经常面临这样的灵魂拷问:如何确保 IT 建设不偏离业务战略?如何避免系统重复建设…

作者头像 李华