1、第四章深度学习中的正则化4.2参数范数惩罚4.3参数绑定与参数共享of3114.4提前终止和Bagging4.1正则化的概念与意义4.1正则化的概念与意义第四章深度学习中的正则化of3121什么是正则化?反演计算中必须面对的问题:如果一个问题的解不存在、不唯一、不稳定,那么求解得到的结果可信吗?解决的办法之一:前苏联Tikonov(吉洪诺夫)等学者提出的解决线性不适定问题的正则化方法 主要思想:将问题限定在某个较小的范围内,以“邻近”的适定问题的解去逼近原问题的解。4.1正则化的概念与意义第四章深度学习中的正则化of3131什么是正则化?机器学习中算法的一个核心问题:算法的设计,不仅在训练数据
2、上表现好,并且能在新输入上泛化好。正则化:显式地设计为减少测试误差的学习策略。可能会以增大训练误差为代价。在深度学习的背景下,大多数正则化策略都会对损失估计进行正则化。损失估计的正则化以偏差的增加换取方差的减少。一个有效的正则化是有利的“交易”,也就是能显著减少方差而不过度增加偏差。4.1正则化的概念与意义第四章深度学习中的正则化of314 样本样本含噪含噪问题:用问题:用足够高阶的模足够高阶的模型,有可能将含噪的样本无误差型,有可能将含噪的样本无误差地拟合起来,但得到的结果与真地拟合起来,但得到的结果与真值差距很大。其结果是,阶数越值差距很大。其结果是,阶数越高误差越小但模型的泛化性能越高误
3、差越小但模型的泛化性能越差。差。以函数插值为例,考虑样本数据的个数与待定系数的个数相等时的插值问题。2正则化用来干嘛的?深刻理解过拟合问题(Over fitting/Over determined)4.1正则化的概念与意义第四章深度学习中的正则化of315 样本样本不含不含噪噪问题:用问题:用足够高阶的模型,有足够高阶的模型,有可能可将的可能可将的样本无误差地拟样本无误差地拟合起来,合起来,但对于与插值样本差异较大的新样本,得到但对于与插值样本差异较大的新样本,得到的结果与真值的结果与真值差距差距可能很大可能很大。其结果是,阶数越高误差越小但模型的泛化性能越差。其结果是,阶数越高误差越小但模型
4、的泛化性能越差。龙格(Runge)现象10100100,()()()()()()iiikikk iikLxf x l xxxl xxx4.1正则化的概念与意义第四章深度学习中的正则化of316过拟合问题(Over fitting/Over determined)的本质:模型的阶数大于系统的实际阶数。4.1正则化的概念与意义第四章深度学习中的正则化of317分类情形欠拟合 恰好 过拟合正则化策略:就是为了防止过拟合!高偏差 高方差4.1正则化的概念与意义第四章深度学习中的正则化of3180miXR 1,2,iN系统输入:1id R理想输出:F X拟合函数:标准差项:显然,只用 Es(F)作为目标
5、函数进行优化,可以得到误差最小的拟合函数,但无法避免过拟合问题。为此,Tikhonov 提出了“正则项”:正则项:式中:D是线性微分算子 Ec(F)减小即拟合函数 F 的梯度减小,意味着在满足误差最小的同时还要求拟合结果足够“平坦”,因此,正则项也称为“平滑项”。22111122NNSiiiiiiEFdydFX 212CEFFD3TikhonovTikhonov 正则化4.1正则化的概念与意义第四章深度学习中的正则化of319正则化问题:寻找使目标函数寻找使目标函数:达到最小的函数 F(X)。自变量是函数 F(X),故函数 E(F)是一个泛函。2211122NSCiiiE FEFEFdFFXD
6、用于在平滑性和误差之间权衡:(1)大的 得到的拟合函数更加平滑但拟合误差大;(2)小的 拟合误差小但拟合函数不够平滑。4.1正则化的概念与意义第四章深度学习中的正则化of3110用于分类。取不同的 值,对比“覆盖”误差和面积的区别两类分类作为曲面拟合问题 给定两类二维样本的采样点(100点)如图所示。第一类样本(红)的类别取值为+1;第二类样本(绿)的类别取值为-1。2211122SCNiiiE FEFEFdFFXD4.1正则化的概念与意义第四章深度学习中的正则化of3111用于输入为2维的数据进行分类。加上正则想,取不同的 值,对比“覆盖”误差和面积的区别。=0.1=0.34.1正则化的概念
7、与意义第四章深度学习中的正则化of3112参数范数惩罚(Parameter Norm Penalties)、约束优化的范数惩罚(Norm Penalties as Constrained Optimization)数据集扩充(Dataset Augmentation)噪声稳健性(Noise Robustness)半任务学习(Semi-Task Learning)多任务学习(Multi-Task Learning)提早结束(Early Stopping)参数尝试和参数共享(Parameter Trying and Parameter Sharing)稀疏表示Sparse Representati
8、ons)Dropout对抗训练(Adversarial Training)流形切线(Manifold Tangent)套装和其他综合方法(Bagging and Other Ensemble Methods),等等。深度学习中的正则化形式:第四章深度学习中的正则化4.1正则化的概念与意义4.3参数绑定与参数共享of31134.4提前终止和Bagging4.2参数范数惩罚of31144.2参数范数惩罚第四章深度学习中的正则化1.L2 参数正则化 假设不存在偏置参数,就是w,目标函数为 梯度为of31154.2参数范数惩罚第四章深度学习中的正则化使用梯度下降更新权重,得即可见,由于L2正则项的加入
9、,在梯度更新之前,都会收缩权重向量权重衰减的方式会给整个训练过程带来什么样的影响?of31164.2参数范数惩罚第四章深度学习中的正则化没有L2正则化的情况下,设目标函数取最小训练误差时的权重向量为w*,即of31174.2参数范数惩罚第四章深度学习中的正则化解得设H有特征值分解:of31184.2参数范数惩罚第四章深度学习中的正则化即L2正则化,使Hessian的特征值分布变为平缓,以克服优化问题的病态问题,并使权重w取值范围得到约束,可以防止过拟合。L2参数正则化优化解效果 参数在原优化目标函数等高线与L2球的相切处求得最优解可见,参数向量沿着由H 的特征向量所对应的轴进行缩放。缩放因子:
10、of31194.2参数范数惩罚第四章深度学习中的正则化1.L1 参数正则化与L2一样分析of31204.2参数范数惩罚第四章深度学习中的正则化of31214.2参数范数惩罚第四章深度学习中的正则化of31224.2参数范数惩罚第四章深度学习中的正则化of31234.2参数范数惩罚第四章深度学习中的正则化L2正则化:L1正则化:第四章深度学习中的正则化4.1正则化的概念与意义4.2参数范数惩罚of31244.4提前终止和Bagging4.3参数绑定与参数共享4.3参数绑定与参数共享of3125 参数范数惩罚:正则化参数使其彼此接近,即对模型参数之间的相关性进行惩罚,而更流行的方法是强迫某些参数相
11、等。由于我们将各种模型或模型组件解释为共享唯一的一组参数,这种正则化方法通常被称为参数共享(parameter sharing)。如深度卷积神经网络。参数共享的一个显著优点是,只有参数(唯一一个集合)的子集需要被存储在内存中。可能可以显著减少模型所占用的内存。第四章深度学习中的正则化第四章深度学习中的正则化4.1正则化的概念与意义4.2参数范数惩罚4.3参数绑定与参数共享of31264.4提前终止和Bagging4.4 提前终止和Baggingof3127第四章深度学习中的正则化(1)提前终止 提前终止的目的是为了防止过拟合,当网络训练到某个epoch后,测试误差又有了小幅度的增大。这说明此时
12、发生了过拟合。提前终止:在测试误差开始上升之前,就停止训练,即使此时训练尚未收敛(即训练误差未达到最小值)。4.4提前终止和Baggingof3128第四章深度学习中的正则化(2)Bagging算法 Bagging是通过结合几个模型降低泛化误差的技术。基本思想:对于一个复杂的学习任务,我们首先构造多个简单的学习模型,然后再把这些简单模型组合成一个高效的学习模型(表决)。(“三个臭皮匠顶个诸葛亮”)采用该策略的技术被称为集成方法。4.4提前终止和Baggingof3129第四章深度学习中的正则化假设我们有k个回归模型,在这些回归模型中的每个例子上的误差均是=v 所有集成模型的平均预测的误差是集成预测器平方误差的期望是4.4提前终止和Baggingof3130第四章深度学习中的正则化=v 即of3131感谢聆听
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。