RMSprop与Adam算法

文章目录RMSprop算法(Root mean squre)Adam(Adaptive moment estimation) 优化算法（将RMSprop和动量梯度结合在一起）超参数的选择RMSprop算法(Root mean squre)其基本思想和动量梯度下降法一样，也是为了消除梯度下降时纵轴方向的摆动而尽量不太影响水平轴，然后我们使用更大的learning rate 来高效的优化模型.这里我们

不爱写程序的程序猿

2548人浏览 · 2021-02-25 12:58:38

不爱写程序的程序猿 · 2021-02-25 12:58:38 发布

文章目录

RMSprop算法(Root mean squre)

其基本思想和动量梯度下降法一样，也是为了消除梯度下降时纵轴方向的摆动而尽量不太影响水平轴，然后我们使用更大的learning rate 来高效的优化模型.
在这里插入图片描述

这里我们使用参数w来表示水平方向参数b来表示竖直方向那么 RMSprop的实现过程就是：

On iteration t:

compute dw,db on every mini-batch

$S_{d_w}=\beta_2 S_{dw}+(1-\beta_2){d_w}^2$

$S_{d_b}=\beta_2 S_{db}+(1-\beta_2){d_b}^2$

$\omega=\omega-α\frac{d_w}{\sqrt{S_{dw}}}$

$b=b-α\frac{db}{\sqrt{S_{db}}}$

其原理就在于当摆动较大时，说明dw较大，所以后面参数w就会减少的更多而db较小

后面也基本不会发生什么变化

这里的w和b这是我们设定的一个参数，实际使用过程中，我们需要建立的直觉是哪些参数是纵向相关的，哪些参数是横向相关的，然后对其使用根均值平方方法.

一个实现的细节是： $\omega=\omega-α\frac{d_w}{\sqrt{S_{dw}}+\epsilon}$

$\epsilon 被加上的原因是保持数值的稳定性，防止其除以了一个过于接近0的数$

$其一个较为合理的值是10^{-8}$

Adam(Adaptive moment estimation) 优化算法（将RMSprop和动量梯度结合在一起）

将两个算法结合在一起，可以有效地适应不同的神经网络结构

在这里插入图片描述

超参数的选择

在这里插入图片描述

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐