pytorch深度学习笔记16-开发者社区

摘要

1.AdaGrad

2.RMSProp

3.Adam

摘要

本篇文章继续学习尚硅谷深度学习教程，学习内容是AdaGrad，RMSProp，Adam

1.AdaGrad

AdaGrad（Adaptive Gradient，自适应梯度）会为每个参数适当地调整学习率，并且随着学习的进行，学习率会逐渐减小。

h：历史梯度的平方和

这里就表示了梯度的平方和，即，这里的表示对应矩阵元素的乘法。

使用AdaGrad时，学习越深入，更新的幅度就越小。如果无止境地学习，更新量就会变为0，完全不再更新。

AdaGrad的代码实现如下：

class AdaGrad: def __init__(self, lr=0.01): self.lr = lr self.h = None def update(self, params, grads): if self.h is None: self.h = {} for key, val in params.items(): self.h[key] = np.zeros_like(val) for key in params.keys(): self.h[key] += grads[key] * grads[key] params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)

2.RMSProp

RMSProp（Root Mean Square Propagation，均方根传播）是在AdaGrad基础上的改进，它并非将过去所有梯度一视同仁的相加，而是逐渐遗忘过去的梯度，采用指数移动加权平均，呈指数地减小过去梯度的尺度。

h：历史梯度平方和的指数移动加权平均
：权重

3.Adam

Adam（Adaptive Moment Estimation，自适应矩估计）融合了Momentum和AdaGrad的方法。

：学习率
：一次动量系数和二次动量系数
：迭代次数，从1开始

如何用云服务器搭建PUBG服务器？

云服务器搭建PUBG服务器完整指南一、服务器配置要求硬件配置推荐根据PUBG游戏的性能需求，建议选择以下配置：最低配置：CPU：Intel Core i5-4430 / AMD FX-6300内存：8GB RAM存储：50GB可用空间（推荐…

李华

短剧广告联盟APP开发：数据对接与播放量、广告曝光量、收益联动统计方案

在短剧广告联盟APP的商业化体系中，播放量、广告曝光量与收益数据是衡量运营效果的核心指标，而三者的联动统计与精准对接，更是实现 “内容优化 - 广告策略调整 - 收益提升” 的关键前提。多数短剧APP 在开发阶段易陷入 “数据割裂、统计延迟、…

李华

paperxie 科研绘图：从流程图到专业图表，一键搞定学术可视化的 “高效工具”

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/aippt https://www.paperxie.cn/drawinghttps://www.paperxie.cn/drawing 学术写作中，“图表可视化” 是让研究成果更直观的关键 —— 但多数科研人员常陷入 “不会用专业绘图软件”“图表不符…