深度学习-基于Python语言和Tensorflow平台第15章-优化器的选择与设置课件.pptx

上传人(卖家):三亚风情 文档编号:3530930 上传时间:2022-09-12 格式:PPTX 页数:21 大小:2.41MB
下载 相关 举报
深度学习-基于Python语言和Tensorflow平台第15章-优化器的选择与设置课件.pptx_第1页
第1页 / 共21页
深度学习-基于Python语言和Tensorflow平台第15章-优化器的选择与设置课件.pptx_第2页
第2页 / 共21页
深度学习-基于Python语言和Tensorflow平台第15章-优化器的选择与设置课件.pptx_第3页
第3页 / 共21页
深度学习-基于Python语言和Tensorflow平台第15章-优化器的选择与设置课件.pptx_第4页
第4页 / 共21页
深度学习-基于Python语言和Tensorflow平台第15章-优化器的选择与设置课件.pptx_第5页
第5页 / 共21页
点击查看更多>>
资源描述

1、Email:谢琼优化器的选择与设置第15章深度学习基于Python语言和Tensorflow平台了解优化器的作用了解学习率调节的作用010203target目标了解主流优化器的特点目 录 导 航123优化器在神经网络训练中的作用主流优化器简介优化器的对比与选择Contents优化器的作用优化器在神经网络的训练中具有相当重要的地位,它的主要作用是根据误差函数的计算结果来调节可变参数,使得神经网络的输出越来越符合预期。目前为止,我们用的优化器一直是RMSProp,这是一个优秀的优化器,还有许多其他的优化器可用知识补充:梯度下降算法神经网络调节可变参数是依据反向传播算法的,但其实反向传播算法主要是用

2、于将最终计算出来的误差反向依次传递到神经网络的各层,真正控制参数调节原则的是“梯度下降”(Gradient Descent)算法误差loss是可变参数w的函数,即loss=f(w)调节神经网络的目标是获得loss最小时的w值wmin梯度就是该切线的斜率但误差函数的曲线并非总是如此简单需要避免最终结果在较高的“谷底”知识补充:学习率对训练的影响学习率控制的是调节可变参数的幅度,是优化器的一个参数设置项。形象地说,学习率代表下山的步幅,越大越快,但容易走过头目 录 导 航123优化器在神经网络训练中的作用主流优化器简介优化器的对比与选择Contents普通梯度下降算法普通梯度下降普通梯度下降(Gr

3、adient Gradient DesentDesent,简称,简称GDGD)算法是最基本的也最简单的优化算法,)算法是最基本的也最简单的优化算法,其其特特点是每一步的步长是一定的(点是每一步的步长是一定的(学习率不变学习率不变),每一步),每一步都都计算梯度并保持计算梯度并保持不断不断下降,使下降,使得误差逐步变小,直至梯度变平或再次变大得误差逐步变小,直至梯度变平或再次变大。随机梯度下降算法随机梯度下降(Stochastic Gradient Descent,简称SGD)的方法则是仅随机使用一组数据来进行梯度计算,也就是下山过程中每次走的一步带有一定的随机性,这样可以比普通梯度下降算法节省

4、很多时间,但缺陷是有更大的可能陷入局部最优解(即到达非最低的谷底)批量梯度下降算法批量梯度下降(Batch Gradient Descent,简称BGD,有时也叫迷你批量梯度下降算法)算法是综合了普通梯度下降和随机梯度下降算法之后折中的一种方法。在这种方法中,每次会从全部训练数据中选取其中的一部分来进行训练之后再进行梯度计算。可以看出,批量梯度下降算法理论上应该比随机梯度下降算法准确度稍高但速度稍慢。动量优化算法动量优化算法主要的改进是在进行梯度计算时,增加了一个动量参数来一定程度上保持前一次的方向。动量即“惯性”,类似奔跑下山时,虽然随时会调整方向,但受到惯性的影响,还是会保持一定的方向或者

5、说改变方向会较慢。使用动量优化算法,因为可以保持“下山”的大方向不变,理论上可以加快随机梯度下降算法的速度。内斯特洛夫梯度加速算法内斯特洛夫梯度加速(Nesterov Accelerated Gradient,简称NAG)算法是对动量优化算法的进一步改进,它对动量的改变根据下一步的情况做了一定的预测,从而加速了动量算法的梯度下降过程。Adagrad算法Adagrad算法是一种可以自己调节学习率的算法,随着梯度调整的过程,学习率会逐步下降,这样可以避免一些学习率过大导致的跳过最优解的情况。同时,Adagrad算法对可变参数会自动根据一定的规则来使用不同的调整幅度。Adadelta和RMSProp

6、算法Adadelta和RMSProp这两种算法非常类似,都是对Adagrad算法的一个改进,它们试图解决Adagrad算法中对学习率过于激进而单调的不断减少带来的问题。Adam算法Adam(Adaptive Moment Estimation,可变动量估算)算法是对每一个可变参数都计算动态学习率的算法。Adam算法同时使用了动量和学习率自适应,结合了两类算法的优点,是目前首要推荐的算法目 录 导 航123优化器在神经网络训练中的作用主流优化器简介优化器的对比与选择Contents优化率效率比对总的来说,Adam是首选,RMSProp和Adadelta可以作为备选,普通梯度下降算法相对最慢优化器

7、的选择与调节optimizer=tf.train.GradientDescentOptimizer(0.001)除了选择合适的优化器之外,优化器的学习率参数是最不可忽视的因素,当训练结果始终无法提升的时候,可以适当调节学习率试试互助互利 共同进步深度学习 基于Python语言和Tensorflow平台更多样书申请和资源下载需求,请登录人邮教育社区()海量图书方便查询免费申请样书下载配套资源优惠购书成为作者囊括各大品类,您想要的应有尽有教师免费申请样书,我们将安排快递迅速送达教学视频、PPT课件、教学案例、习题答案、模拟试卷等丰富资源免费下载教师可以申请最低折扣学生直接优惠购买图书欢迎写文章投稿,我们强大的编辑团队将为您提供专业和高效的编辑出版服务

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(深度学习-基于Python语言和Tensorflow平台第15章-优化器的选择与设置课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|