优化器:提升训练效率的关键
动态学习率衰减与初始学习率
在使用动态学习率衰减时,通常一个不错的做法是,选择一个比平常更大的初始学习率 γ0。由于 γ 会逐渐减小,这样一般不会产生问题,并且有望加快初始阶段的收敛速度。不过,并没有固定的规则表明哪种方法效果更佳。每个案例和数据集都有所不同,因此总是需要进行一些测试,以确定哪个参数值能产生最佳结果。
常见优化器概述
到目前为止,我们使用梯度下降法来最小化成本函数,但这并非最有效的方法。对该算法进行一些改进,可以使其更快、更高效。这是一个非常活跃的研究领域,有大量基于不同思想的算法可用于加速学习过程。下面将介绍最具指导意义且广为人知的几种优化器:Momentum、RMSProp 和 Adam。
指数加权平均
为了理解 Momentum(以及部分 RMSProp 和 Adam)的基本思想,首先需要了解什么是指数加权平均。
假设你每天测量一个量 θ(比如你所在地区的温度),会得到一系列测量值 θi,其中 i 从 1 到某个数 N。我们递归地定义一个量 vn 如下:
- (v_0 = 0)
- (v_1 = \beta v_0+(1 - \beta)\theta_1)
- (v_2 = \beta v_1+(1 - \beta)\theta_2)
- 一般地,第 n 项可以写成 (v_n=\beta v_{n - 1}+(1 - \beta)\theta_n)
将其展开,不采用递归形式:
- (v_2=\beta^2 v_0+(1 - \beta)\beta\theta_1+(1 - \beta)\thet