最新BP算法介绍汇总课件.ppt_163文库

资源描述

1、BP算法介绍激活函数执行对该神经元所获得的网络输入的变换，激活函数执行对该神经元所获得的网络输入的变换，也可以称为激励函数、活化函数：也可以称为激励函数、活化函数：o=f（net）1、线性函数（、线性函数（Liner Function）f（net）=k*net+c netooc if netf（net）=k*netif|net|0为一常数，被称为饱和值，为该神经元的最大输为一常数，被称为饱和值，为该神经元的最大输出。出。-net o if netf（net）=-if net、均为非负实数，均为非负实数，为阈值为阈值二值形式：二值形式：1if netf（net）=0if net 双极形式：双极形

2、式：1if netf（net）=-1if net -onet0压缩函数（压缩函数（Squashing Function）和逻辑斯特函数）和逻辑斯特函数（Logistic Function）。）。f（net）=a+b/(1+exp(-d*net)a，b，d为常数。它的饱和值为为常数。它的饱和值为a和和a+b。最简单形式为：最简单形式为：f（net）=1/(1+exp(-d*net)函数的饱和值为函数的饱和值为0和和1。S形函数有较好的增益控制形函数有较好的增益控制 a+b o(0,c)netac=a+b/2生物神经网生物神经网六个基本特征六个基本特征神经元及其联接神经元及其联接、信号传递信号传递

3、、训练训练、刺激刺激与与抑制、累积效果抑制、累积效果、阈值阈值。人工神经元的基本构成人工神经元的基本构成xn wnx1 w1x2 w2net=XW激活函数与激活函数与M-P模型模型线性函数、非线性斜面函数、线性函数、非线性斜面函数、阈值函数阈值函数 S形函数形函数 M-P模型模型x2 w2 fo=f（net）xn wnnet=XWx1 w1x1x2xno1o2omwnmw11w1mw2mwn1输出层输出层输入层输入层W=（wij）输出层的第输出层的第j个神经元的网络输入记为个神经元的网络输入记为netj：netj=x1w1j+x2w2j+xnwnj其中其中,1 j m。取。取NET=（net

4、1，net2，netm）NET=XWO=F（NET）输出层输出层x1o1w11w1mx2o2w2mxnomwn1输入层输入层VV=（vij）NET=XW+OVO=F（NET）时间参数时间参数神经元的状态在主时钟的控制下同步变化神经元的状态在主时钟的控制下同步变化考虑考虑X总加在网上的情况总加在网上的情况NET（t+1）=X（t）W+O（t）VO(t+1)=F(NET(t+1)O（0）=0考虑仅在考虑仅在t=0时加时加X的情况。的情况。稳定性判定稳定性判定输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xn层次划分层次划分信号只被允许从较低层流向较高层。信号只被允许从较低层流向较高层。

5、层号确定层的高低：层号较小者，层次较层号确定层的高低：层号较小者，层次较低，层号较大者，层次较高。低，层号较大者，层次较高。输入层输入层：被记作第：被记作第0层。该层负责接收来自层。该层负责接收来自网络外部的信息网络外部的信息输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xn第第j层层：第：第j-1层的直接后继层（层的直接后继层（j0），它直接接），它直接接受第受第j-1层的输出。层的输出。输出层输出层：它是网络的最后一层，具有该网络的：它是网络的最后一层，具有该网络的最大层号，负责输出网络的计算结果。最大层号，负责输出网络的计算结果。隐藏层隐藏层：除输入层和输出层以外的其它各层叫：

6、除输入层和输出层以外的其它各层叫隐藏层。隐藏层不直接接受外界的信号，也不隐藏层。隐藏层不直接接受外界的信号，也不直接向外界发送信号直接向外界发送信号输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xn约定约定 :输出层的层号为该网络的层数：输出层的层号为该网络的层数：n层网络，或层网络，或n级网络。级网络。第第j-1层到第层到第j层的联接矩阵为第层的联接矩阵为第j层联接矩阵，输出层对应的矩层联接矩阵，输出层对应的矩阵叫输出层联接矩阵。今后，在需要的时候，一般我们用阵叫输出层联接矩阵。今后，在需要的时候，一般我们用W（j）表示第表示第j层矩阵层矩阵。输出层输出层隐藏层隐藏层输入层输入层o

7、1o2omx1x2xnW(1)W(2)W(3)W(h)输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xnW(1)W(2)W(3)W(h)非线性激活函数非线性激活函数 F(X)=kX+CF(X)=kX+CF F3 3(F(F2 2(F(F1 1(XW(XW(1)(1)W)W(2)(2)W)W(3)(3)x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxn如果将输出信号反馈到输入端如果将输出信号反馈到输入端,就可构成一个多层就可构成一个多层的循环网络。的循环网络。输入的原始信号被逐步地加强、被修复。输入的原始信号被逐步地加强、被修复。大脑的大脑的短期记忆特征短期记忆特征:看到的东

8、西不是一下子就从看到的东西不是一下子就从脑海里消失的。脑海里消失的。稳定稳定：反馈信号会引起网络输出的不断变化。我们：反馈信号会引起网络输出的不断变化。我们希望这种变化逐渐减小，并且最后能消失。当变希望这种变化逐渐减小，并且最后能消失。当变化最后消失时，网络达到了平衡状态。如果这种化最后消失时，网络达到了平衡状态。如果这种变化不能消失，则称该网络是不稳定的。变化不能消失，则称该网络是不稳定的。人工神经网络最具有吸引力的特点是它的学习能力。人工神经网络最具有吸引力的特点是它的学习能力。1962年，年，Rosenblatt给出了人工神经网络著名的学习给出了人工神经网络著名的学习定理：人工神经网络可

9、以学会它可以表达的任何东定理：人工神经网络可以学会它可以表达的任何东西。西。人工神经网络的表达能力大大地限制了它的学习能力。人工神经网络的表达能力大大地限制了它的学习能力。人工神经网络的学习过程就是对它的训练过程人工神经网络的学习过程就是对它的训练过程无导师学习无导师学习(Unsupervised Learning)与无导师训练与无导师训练(Unsupervised Training)相对应相对应抽取样本集合中蕴含的统计特性抽取样本集合中蕴含的统计特性，并以神经元之间的，并以神经元之间的联接权的形式存于网络中。联接权的形式存于网络中。有导师学习有导师学习(Supervised Learnin

10、g)与有导师训练与有导师训练(Supervised Training)相对应。相对应。输入向量与其对应的输出向量构成一训练。输入向量与其对应的输出向量构成一训练。有导师学习的训练算法的主要步骤包括：有导师学习的训练算法的主要步骤包括：1）从样本集合中取一个样本（从样本集合中取一个样本（Ai，Bi）；）；2）计算出网络的实际输出计算出网络的实际输出O；3）求求D=Bi-O；4）根据根据D调整权矩阵调整权矩阵W；5 5）对每个样本重复上述过程，直到对整个样本集来说，对每个样本重复上述过程，直到对整个样本集来说，误差不超过规定范围。误差不超过规定范围。Widrow和和Hoff的写法的写法：Wij(t

11、+1)=Wij(t)+(yj-aj(t)oi(t)也可以写成：也可以写成：Wij(t+1)=Wij(t)+Wij(t)Wij(t)(t)=joi(t)(t)j=yj-aj(t)(t)Grossberg的写法为：的写法为：Wij(t)=a(t)=ai i(t)(o(t)(oj j(t)-W(t)-Wijij(t)(t)更一般的更一般的Delta规则为：规则为：Wij(t)=g(ai(t)，yj，oj(t)，Wij(t)1 概述概述 2 基本基本BP算法算法 3 算法的改进算法的改进 4 算法的实现算法的实现 5 算法的理论基础算法的理论基础 6 几个问题的讨论几个问题的讨论 1、BP算法的出现算

12、法的出现非循环多级网络的训练算法非循环多级网络的训练算法UCSD PDP小组的小组的Rumelhart、Hinton和和Williams1986年年独立地给出了独立地给出了BP算法清楚而简单的描述算法清楚而简单的描述1982年，年，Paker就完成了相似的工作就完成了相似的工作1974年，年，Werbos已提出了该方法已提出了该方法2、弱点、弱点：训练速度非常慢、局部极小点的逃离问题、：训练速度非常慢、局部极小点的逃离问题、算法不一定收敛。算法不一定收敛。3、优点：、优点：广泛的适应性和有效性。广泛的适应性和有效性。4、BP网络主要用于1）函数逼近：用输入向量和相应的输出向量训练一个网络逼近一

13、个函数。2）模式识别：用一个特定的输出向量将它与输入向量联系起来。3）分类：把输入向量以所定义的合适方式进行分类。4）数据压缩：减少输出向量维数以便于传输或存储。1 网络的构成网络的构成神经元的网络输入：神经元的网络输入：neti=x1w1i+x2w2i+xnwni神经元的输出：神经元的输出：netenetfo11)()1()()1(1)(22ooooeenetfnetnet应该将应该将net的值尽量控制在收敛比较快的范围内的值尽量控制在收敛比较快的范围内可以用其它的函数作为激活函数，只要该函数是处处可导的可以用其它的函数作为激活函数，只要该函数是处处可导的 0.5f(net)0.25o0

14、 1 1（0,0.5）net（0,0）oneteo11x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnW(1)W(2)W(3)W(L)BP网的结构网的结构输入向量、输出向量的维数、网络隐藏层的层数输入向量、输出向量的维数、网络隐藏层的层数和各个隐藏层神经元的个数的决定和各个隐藏层神经元的个数的决定实验：增加隐藏层的层数和隐藏层神经元个数不实验：增加隐藏层的层数和隐藏层神经元个数不一定总能够提高网络精度和表达能力。一定总能够提高网络精度和表达能力。BPBP网一般都选用二级网络。网一般都选用二级网络。x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnWV样本：样本：(输入向量

15、，理想输出向量输入向量，理想输出向量)权初始化：权初始化：小随机数与饱和状态；不同保证网络可以小随机数与饱和状态；不同保证网络可以学。学。1 1、向前传播阶段：、向前传播阶段：（1）从样本集中取一个样本）从样本集中取一个样本(Xp，Yp)，将，将Xp输入网输入网络；络；（2）计算相应的实际输出）计算相应的实际输出Op：Op=Fl(F2(F1(XpW(1)W(2)W(L)2 2、向后传播阶段、向后传播阶段误差传播阶段：误差传播阶段：（1）计算实际输出）计算实际输出Op与相应的理想输出与相应的理想输出Yp的差；的差；（2）按极小化误差的方式调整权矩阵。）按极小化误差的方式调整权矩阵。（3）网络关

16、于第）网络关于第p p个样本的误差测度：个样本的误差测度：mjpjpjpoyE1221（4）网络关于整个样本集的误差测度：网络关于整个样本集的误差测度：ppEE1、输出层权的调整、输出层权的调整wpq=wpq+wpqwpq=qop=fn(netq)(yq-oq)op=oq(1-oq)(yq-oq)op wpqANpANq第第L-1层层第第L层层wpq ANpANqANhvhppk-11kwp1wpqqkwpmmk第第k-2层层第第k层层第第k-1层层pk-1的值和的值和1k，2k，mk 有关有关不妨认为不妨认为pk-1通过权通过权wp1对对1k做出贡献，做出贡献，通过权通过权wp2对对2k做出

17、贡献，做出贡献，通过权通过权wpm对对mk做出贡献。做出贡献。pk-1=fk-1(netp)(wp11k+wp22k+wpmm k)vhp=vhp+vhp vhp=pk-1ohk-2=fk-1(netp)(wp11k+wp22k+wpmmk)ohk-2=opk-1(1-opk-1)(wp11k+wp22k+wpmmk)ohk-2ANpANqANhvhppk-11kwp1wpmqkwpqmk第第k-2层层第第k层层第第k-1层层基本基本BP算法算法 neti=x1w1i+x2w2i+xnwninetenetfo11)()1()()1(1)(22ooooeenetfnetnetx1o1输出层输出层

18、隐藏层隐藏层输入层输入层x2o2omxnWV样本样本权初始化权初始化向前传播阶段向前传播阶段Op=Fn(F2(F1(XpW(1)W(2)W(n)误差测度误差测度mjpjpjpoyE1221向后传播阶段向后传播阶段误差传播阶段误差传播阶段输出层权的调整输出层权的调整wpq=qop=fn(netq)(yq-oq)op=oq(1-oq)(yq-oq)op隐藏层权的调整隐藏层权的调整ANpANqANhvhppk-11kwp1wpqqkwpmmkvhp=opk-1(1-opk-1)(wp11k+wp22k+wpmmk)ohk-2样本集：样本集：S=(X1,Y1),(,(X2,Y2),),(,(Xs,Y

19、s)基本思想基本思想：逐一地根据样本集中的样本逐一地根据样本集中的样本(Xk,Yk)计算出实际输出计算出实际输出Ok和误差测和误差测度度E1，对，对W(1)，W(2)，W(L)各做一次调整，重复这个循环，各做一次调整，重复这个循环，直到直到Ep do 4.1 4.1 E=0;4.2 对对S中的每一个样本（中的每一个样本（Xp,Yp）：）：4.2.1 计算出计算出Xp对应的实际输出对应的实际输出Op；4.2.2 计算出计算出Ep；4.2.3 E=E+Ep；4.2.4 根据相应式子调整根据相应式子调整W(L)；4.2.5 k=L-1；4.2.6 while k0 do 4.2.6.1 根据相应式子

20、调整根据相应式子调整W(k)；4.2.6.2 k=k-1 4.3 E=E/2.0 1、BP网络接受样本的顺序对训练结果有较大影响。它网络接受样本的顺序对训练结果有较大影响。它更偏爱较后出现的样本更偏爱较后出现的样本2、给集中的样本安排一个适当的顺序，是非常困难的。给集中的样本安排一个适当的顺序，是非常困难的。3、样本顺序影响结果的原因：样本顺序影响结果的原因：分别依次分别依次4、用用(X1,Y1)，（，（X2,Y2），），（，（Xs,Ys）的）的总效果总效果修改修改W(1)，W(2)，W(L)。w(k)ij=p w(k)ij1 for k=1 to L do1.1 初始化初始化W(k)；2 初

21、始化精度控制参数初始化精度控制参数；3 E=+1;4 while E do 4.1 E=0;4.2 对所有的对所有的i，j，k：w(k)ij=0；4.3 对对S中的每一个样本（中的每一个样本（Xp,Yp）：）：4.3.1 计算出计算出Xp对应的实际输出对应的实际输出Op；4.3.2 计算出计算出Ep；4.3.3 E=E+Ep；4.3.4 对所有对所有i，j根据相应式子计算根据相应式子计算p w(L)ij；4.3.5 对所有对所有i，j：w(L)ij=w(L)ij+p w(L)ij；4.3.6 k=L-1；4.3.7 while k0 do4.3.7.1 对所有对所有i,j根据相应式子计算根据相

22、应式子计算p w(k)ij；4.3.7.2 对所有对所有i,j：w(k)ij=w(k)ij+p w(k)ij；4.3.7.3 k=k-1 4.4 对所有对所有i，j，k：w(k)ij=w(k)ij+w(k)ij;4.5 E=E/2.0 较好地解决了因样本的顺序引起的精度问题和训练的较好地解决了因样本的顺序引起的精度问题和训练的抖动问题抖动问题收敛速度：比较慢收敛速度：比较慢偏移量：给每一个神经元增加一个偏移量来加快收敛偏移量：给每一个神经元增加一个偏移量来加快收敛速度速度冲量冲量：联接权的本次修改要考虑上次修改的影响，以联接权的本次修改要考虑上次修改的影响，以减少抖动问题减少抖动问题主要

23、数据结构主要数据结构WH，m 输出层的权矩阵；输出层的权矩阵；Vn，H 输入（隐藏）层的权矩阵；输入（隐藏）层的权矩阵；m输出层各联接权的修改量组成的向量；输出层各联接权的修改量组成的向量；H隐藏层各联接权的修改量组成的向量；隐藏层各联接权的修改量组成的向量；O1隐藏层的输出向量；隐藏层的输出向量；O2输出层的输出向量；输出层的输出向量；(X，Y)一个样本。一个样本。用不同的小伪随机数初始化用不同的小伪随机数初始化W，V；初始化精度控制参数初始化精度控制参数；学习率；学习率；循环控制参数循环控制参数E=+1；循环最大次数；循环最大次数M；循环次；循环次数控制参数数控制参数N=0；while E

24、&N0，此时，此时wij0取取ijwEE0wijijjjijwnetnetEwE而其中的而其中的 kkkjjownet所以，所以，iijkkkjijjowowwnetijijkkkjjijjjijonetEwownetEwnetnetEwE令令jjnetE所以所以wij=joi为学习率为学习率oj=f(netj)容易得到容易得到)net(fnetojjj)net(foEnetooEnetEjjjjjjj从而从而)()(22()21(21212jjjjjjjjmkkkjoyoyooyooyoE所以，所以，)net(f)oy(jjjj故，当故，当ANj为输出层的神经元时，它对应为输出层的神经元时，

25、它对应的联接权的联接权wij应该按照下列公式进行调整：应该按照下列公式进行调整：ijjjijijijijo)oy)(net(fwowwjjjjjnetooEnetE)net(fnetojjj)net(foEjjjm1k2kk)oy(21E函数netk=hH1iiikowhH1kjkkj)onetnetE(oEjkjH1iiikjkwoowonethojo2o1oHhnetk是是 oj下一级的神下一级的神经元的网络输入经元的网络输入hhH1kjkkH1kjkkjwnetEonetnetEoE hH1kjkkjwoEkknetE)net(fw)net(foEjH1kjkkjjjh)net(fwjH

26、1kjkkjhijH1kjkkijo)net(fwwhijH1kjkkijijo)net(fwwwh收敛速度问题收敛速度问题局部极小点问题局部极小点问题逃离逃离/避开局部极小点避开局部极小点：修改修改W、V的初值并不是总有效。的初值并不是总有效。逃离逃离统计方法；统计方法；Wasserman，1986将将Cauchy训练与训练与BP算算法结合起来，可以在保证训练速度不被降低的情况下，找法结合起来，可以在保证训练速度不被降低的情况下，找到全局极小点。到全局极小点。网络瘫痪问题网络瘫痪问题在训练中，权可能变得很大，这会使神经元的网络输入变得在训练中，权可能变得很大，这会使神经元的网络输入变

27、得很大，从而又使得其激活函数的导函数在此点上的取值很很大，从而又使得其激活函数的导函数在此点上的取值很小。根据相应式子，此时的训练步长会变得非常小，进而小。根据相应式子，此时的训练步长会变得非常小，进而将导致训练速度降得非常低，最终导致网络停止收敛将导致训练速度降得非常低，最终导致网络停止收敛稳定性问题稳定性问题用修改量的综合实施权的修改用修改量的综合实施权的修改连续变化的环境，它将变成无效的连续变化的环境，它将变成无效的步长问题步长问题 BP网络的收敛是基于无穷小的权修改量网络的收敛是基于无穷小的权修改量步长太小，收敛就非常慢步长太小，收敛就非常慢步长太大，可能会导致网络的瘫痪和不稳定步长太大，可能会导致网络的瘫痪和不稳定自适应步长，使得权修改量能随着网络的训练而不断变化。自适应步长，使得权修改量能随着网络的训练而不断变化。1988年，年，Wasserman 此课件下载可自行编辑修改，仅供参考！此课件下载可自行编辑修改，仅供参考！感谢您的支持，我们努力做得更好！谢谢感谢您的支持，我们努力做得更好！谢谢

展开阅读全文