RMSProp

RMSProp 算法(Hinton,2012)修改 AdaGrad 以在非凸情况下表现更好,它改变梯度累积为指数加权的移动平均值,从而丢弃距离较远的历史梯度信息。RMSProp 与 Adadelta 的移动均值更新方式十分相似:

\[E[g^2]_{t}=0.9 E[g^2]_{t-1}+0.1 g_{t}^2\]

RMSProp参数更新公式如下,其中\(\eta\)是学习率, \(g_{t}\)是当前参数的梯度

\[\theta_{t+1}=\theta_{t}-\frac{\eta}{\sqrt{E[g^2]_{t}+\epsilon}}g_{t}\]

RMSprop将学习速率除以梯度平方的指数衰减平均值。Hinton建议\(\gamma\)设置为0.9,默认学习率\(\eta\)为0.001