人工神经网络课程nn04课件.ppt

上传人(卖家):晟晟文业 文档编号:4167943 上传时间:2022-11-16 格式:PPT 页数:43 大小:622.54KB
下载 相关 举报
人工神经网络课程nn04课件.ppt_第1页
第1页 / 共43页
人工神经网络课程nn04课件.ppt_第2页
第2页 / 共43页
人工神经网络课程nn04课件.ppt_第3页
第3页 / 共43页
人工神经网络课程nn04课件.ppt_第4页
第4页 / 共43页
人工神经网络课程nn04课件.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、第2章 前馈型人工神经网络M-P模型感知机模型与学习算法多层感知机网络自适应线性单元与网络非线性连续变换单元组成的前馈网络BP算法2022-11-162.3 非线性连续变换单元组成的网络 由非线性连续变换单元组成的前馈网络,简称为BP(Back Propagation)网络。1.网络的结构与数学描述 2.(i).非线性连续变换单元3.对于非线性连续变换单元,其输入、输出变换函数是非线性、单调上升、连续的即可。但在BP网络中,我们采用S型函数:)(111111)(ijnjijixwuiiijnjijiieeufyxwsu2022-11-162.3 非线性连续变换单元组成的网络函数 是可微的,并且

2、这种函数用来区分类别时,其结果可能是一种模糊的概念。当 时,其输出不是1,而是大于0.5的一个数,而当 时,输出是一个小于0.5的一个数。若用这样一个单元进行分类,当输出是0.8时,我们可认为属于A类的隶属度(或概率)为0.8时,而属于B类的隶属度(或概率)为0.2。)(uf)(ufu)(1)()11()(ufufeufu0u0u2022-11-162.3 非线性连续变换单元组成的网络(ii).网络结构与参数 下面以四层网络为例来介绍BP网络的结构和参数,一般情况类似。1x2xnx1y2ymy1 x2 x1nx1 x2 x2 nxlkilkkjjimTmnTnnTnnTnwwwRyyyyRxx

3、xxRxxxxRxxxx,),(),(),(),(212121212211阈值:连接权:网络输出:第二隐层输出:第一隐层输出:网络输入:jiwkjwlkw 2022-11-162.3 非线性连续变换单元组成的网络 网络的输入输出关系为:显然可以将阈值归入为特别的权,从而网络的参数可用 表示(为一个集合)。上述网络实现了一个多元连续影射:2111211,2,1),(,2,1),(,2,1),(njlklklnjkjkjknijijijmlxwfynkxwfxnjxwfxmnRRWxFy:),(WW2022-11-162.3 非线性连续变换单元组成的网络(iii).网络的学习问题学习的目标:通过网

4、络(或 )来逼近一个连续系统,即连续变换函数 。学习的条件:一组样本(对)对于样本对 ,存在 使得 对于所有样本的解空间为:),(WxF)(xG),(,),(),(2211NNyxyxyxSiWmmnnnnnnnpRWWxFypiii222111,),(WiNiWW1),(iiyx2022-11-162.3 非线性连续变换单元组成的网络(iv).Kolmogorov定理Kolmogorov定理(映射神经网络存在定理,1950s)给定任何连续函数 ,则 能够被一个三层前馈神经网络所实现,其中网络的隐单元数为 。注意:定理未解决构造问题。)(,1,0:xfyRfmnf12 n1x2xnx1z2z1

5、2 nz1y2ymy为正有理数。为常数,为连续函数,为连续单调递增函数,其中jjnjkkinijjgmkzgynjjjxz,2,1),(12,2,1,)(12112022-11-162.3 非线性连续变换单元组成的网络2.BP学习算法(i).基本思想 BP算法属于 学习律,是一种有监督学习:对于辅助变量并将阈值归入权参数:则有:(误差)网络实际输出:理想输出或导师值),样本输入:ErroryyytttxxxNNN,(,212121llkkjjwxwxwx ,1,1,1000000)(),(),(21000knklkninjljkjkijijxwfyxwfxxwfx2022-11-162.3 非

6、线性连续变换单元组成的网络考虑第 个样本的误差:进一步得总误差:引入权参数矩阵:和总权参数向量:212)(21|21lmllytytENlmllNNytytEE121121)(21|21)1()1()1(2121)(,)(,)(nmlknnkjnnjiwwwWWW1011(,)TsgcdvecWvecwwwwvecWWW2022-11-162.3 非线性连续变换单元组成的网络根据总误差得到一般性的梯度算法:终止规则:这里用梯度法可以使总的误差向减小的方向变化,直到 或梯度为零结束。这种学习方式使权向量 达到一个稳定解,但无法保证 达到全局最优,一般收敛到一个局部极小解。gssgsggssgNs

7、gsgsgNwEwwEEwxtWEwEwxtWEE,2,11)(),(),(E)0(?0,0EEEWE2022-11-162.3 非线性连续变换单元组成的网络(ii).BP算法的推导 令 为迭代次数,则得一般性梯度下降法:其中 为学习率,是一个大于零的较小的实数。先考虑对于 的偏导数:0njijijikjkjkjlklklkwEnwnwwEnwnwwEnwnw)()1()()1()()1(000000lkw )()()(2011knklklkNllllklllNllkxwuxufytwuuyyEwE2022-11-162.3 非线性连续变换单元组成的网络在上式中,为第 个样本输入网络时,的对应

8、值。另外令则:为了方便,引入记号:kx kx )1()(1)()(lllllyyufufuf)1()(lllllyyytkNllklklklkxnwwEnwnw)()()1(1000niijijjjnjjkjkkknkklklllxwuufxxwuufxxwuufy000),(),(),(122022-11-162.3 非线性连续变换单元组成的网络对于 的偏导数,我们有:kjwlkmllkkkklkmllkjNkjkklkNmlljkklklllNmlljklkllNmllkjkkkklllNmllkjwxxxxwxxxxwxxxwyyytxufwufytwuuxxuuyyEwE)1()1()

9、1()1()1()()()()(11111111111 其中2022-11-162.3 非线性连续变换单元组成的网络这样我们有:类似的推导可得:(iii).BP算法Step 1.赋予初值:Step 2.在 时刻,计算 及其广义误差 jNkkjkjxnwnw)()1(100knkkjjjjjknkkjjiNjjijiwxxxxwxnwnw 1111100)1()1()()1(其中),(,0),5.0)()0(lkkjjisgsgwwwwRandomwlkjyxx,12,2,1,;,2,1,;,2,1,njnkmljkl 0n2022-11-162.3 非线性连续变换单元组成的网络Step 3.修

10、正权值:Step 4.计算修正后的误差:若 ,算法结束,否则返回到Step 2。iNjjijijNkkjkjkNllklkxnwnwxnwnwxnwnw100100100)()1()()1()()1(),),1()1(010 xtnEnENW|,0()1(0sgwEnE或预先给定)2022-11-162.3 非线性连续变换单元组成的网络BP算法的讨论:a).这里的梯度是对于全部样本求的,因此是一种批处理算法,即 Batch-way,它符合梯度算法,稳定地收敛到总误差的一个极小点而结束。(注意:按总误差小于 可能导致算法不收敛.)b).实际中更常用的是对每个样本修改,即自适应算法,当每次样本是随

11、机选取时,可通过随机逼近理论证明该算法也是收敛的。特点是收敛速度快。C).为了使得算法既稳定,又具有快的收敛速度,可以使用批处理与自适应相补充的算法,即选取一组样本(远小于全部样本)进行计算梯度并进行修正,其它不变。2022-11-162.3 非线性连续变换单元组成的网络3.BP网络误差曲面的特性 BP网络的误差公式为:是一种非线性函数,而多层的BP网络中 又是上一层神经元状态的非线性函数,用 表示其中一个样本对应的误差,则有:可见,与 有关,同时也与所有样本对有关,即与 有关。211)(21lNmllytE)(llufyluENlmllxtEExtEytE121),(),()(21WW),(

12、,),(),(2211NNyxyxyxSEW2022-11-162.3 非线性连续变换单元组成的网络假定样本集 给定,那么 是 的函数。在前面考虑的4层网络中,权值参数的总个数为:那么在加上 这一维数,在 维空间中,是一个具有极其复杂形状的曲面。如果在考虑样本,其形状就更为复杂,难于想象。从实践和理论上,人们得出了下面三个性质:(i).平滑区域 误差广义误差)1()(lllllyyyt平滑区域SEW)1()1()1(2211mnnnnnnWE1WnE2022-11-162.3 非线性连续变换单元组成的网络(ii).全局最优解 不唯一 中的某些元素进行置换依然是全局最优解,这从右边的简单模型可以

13、看出。(iii).局部极小 一般情况下,BP算法会收敛到一个局部极小解,即:当 ,算法以希望误差收敛;当 ,算法不以希望误差收敛,但可按梯度绝对值小于预定值结束。*W*W1x2x1 x2 x),(21Wxxfy 00)(WWn)(0WE)(0WE2022-11-162.3 非线性连续变换单元组成的网络4.算法的改进(i).变步长算法(是由一维搜索求得)Step 1.赋予初始权值 和允许误差 ;Step 2.在时刻 ,计算误差 的负梯度(方向):Step 3.若 ,结束;否则从 出发,沿 做一维搜索,求出最优步长 :Step 4.,转 Step 2。)0(W00n)(0nE W)()(00|)(

14、nnEdWWW|)(0nd)(0nW)(0nd)(0n)(minarg)()(000ndnEnW)(0000)()()1(ndnnnWW2022-11-162.3 非线性连续变换单元组成的网络步长(学习率)的确定方法:(a).求最优解:对 求导数,并令其为零,直接求解:(b).迭代修正法:令 0)()(00ndnWE)(0n)()(0)(00nEdnEEnWW0110,0,,其中EifEifoldoldnew2022-11-162.3 非线性连续变换单元组成的网络(ii).加动量项 为了防止震荡并加速收敛,可采用下述规则:注意注意:上式类似于共轭梯度法的算式,但是这里 不共轭。因此可能出现误差

15、增加的现象,即 ,这时可令 ,即退回到原来的梯度算法。000()0000()(1)00000000(1)()()()(1)()()()()()()(1),01)nnnnnn dnnnnddnnnnn WWWWWWWW(其中为动量项()1()(00,nndd0E02022-11-162.3 非线性连续变换单元组成的网络(iii).加入 因子 当算法进入平坦区,即 ,则 。为了消除或减弱这种现象,引入 因子,使得:(iv).模拟退火方法 在所有权上加一个噪声,改变误差曲面的形状,使用模拟退火的机制,使算法逃离局部极小点,达到全局最优而结束。0)1(llyy|lu201,/,11 exp()nlll

16、kkllklyuwxu2022-11-162.3 非线性连续变换单元组成的网络5.BP网络的设计(i).输入输出层的设计 BP网络输入、输出层单元个数是完全根据实际问题来设计的,我们分三种情况讨论:A.系统识别 这时输入单元个数为 ;输入单元个数为 。XYmnRRXFy:)(Fnm2022-11-162.3 非线性连续变换单元组成的网络B.分类问题(a).若 ,则令 ,这样输出层仅需要一个单元。(b).若 ,则令:这样输出层则需要 个单元。(c).二进制编码方法 对 进行二进制编码,编码位数为,),(,),(),(212211miNNCCCttxtxtxSjiCt)0(jtijiCt),其余分

17、量为个分量为第01()0,0,1,0,0(jtTimmCCC,212022-11-162.3 非线性连续变换单元组成的网络 ,这样输出层仅需 个单元。(ii).隐单元数与映射定理1989年,R.Hecht-Nielson证明了任何一个闭区间内的连续函数都可以用一个三层(仅有一个隐层)BP网络来逼近(任意给定精度)。引理2.1 任意给定一个连续函数 及精度 ,必存在一个多项式 ,使得不等式 对任意 成立。引理2.2 任意给定一个周期为 的连续函数 及精度 ,必存在一个三角函数多项式 ,使得 对于 成立。m2logm2log),(baCg0)(xp|)()(|xpxg,bax2Cg20)(xT|)

18、()(|xTxgRx2022-11-162.3 非线性连续变换单元组成的网络在 维空间中,任一向量 都可表示为 其中 为 的一个正交基。同样考虑连续函数空间 或 ,必然存在一组正交函数序列 ,那么对 ,则 nnnecececx2211,21neeenRx1)(kkx,)(bacxg为傅里叶系数。其中则有或对dxexgcxecececxgcxgxxcxcxgikxkNNNkikxkkikxkikxkkFFNNkkkkkk2222211)()()(,)()()()()(,bac2c2022-11-162.3 非线性连续变换单元组成的网络当 充分大时,对每个 成立:进一步考虑 中的多元连续函数:根据

19、傅立叶级数展开理论,若则同样存在一个 步傅立叶级数和函数:Nx)0(|)()(|)(2xgxgecxgNFFikxNNkkNF)1,0()(,1,0:)(nncxgRxg)1,0(ncndxdxxgn1,01|)(|11112(,)2(,)(,)niiTjnnnik xNNNNiKxFkkkkkNkNKNNgx N gcece N2022-11-162.3 非线性连续变换单元组成的网络其中系数为:并且当 时,满足即 在 可以完全收敛达到 。现在考虑对一个任意连续映射:其中 ,则 的每个分量也都可以用上面的傅立叶级数表示,依此就可以得到下面的影射定理(定理中所考虑的三层网络输出单元为线性单元)。

20、dxexgcnTnxiKkk1,02)(1)(),(xggNxgFN),(gxgF)(xgmnRxh1,0:)()1,0()(),(,),()(1njncxhxhxhxhn1,0)(xh2022-11-162.3 非线性连续变换单元组成的网络映射定理(Hecht-Nielsen):给定任意精度 ,对于一个连续影射 ,其中:那么必存在一个三层BP神经网络来逼近函数,使得在每点上的误差不超过 。证明:由于输出单元是独立 的,分别与 的每个分量 函数相对应,我们仅需要 对单个输出单元和分量函 数来证明。mnRxh1,0:)(ndxdxxhn1,01|)(|01x2xnx1y2ymy)(xh2022-

21、11-162.3 非线性连续变换单元组成的网络根据傅立叶级数理论,对于 的分量 ,则其中 是 的 步傅立叶级数和函数:下面证明傅立叶级数中任意三角函数可以用三层BP子网络来逼近,那么通过傅立叶级数的线性组合就可以保证用三层BP网络来逼近函 。考虑结构为 的三层BP网络,其输出为:njFjxhNxgxh 1,0),0(|),()(|1),(jFhNxgN12(,)2,(,)(,),TnNNiKxFjkkkKNNgx N hce dxexhcnTnxiKjkk1,02)(111nn)(xh)(xhj)(xhj)(xhj2022-11-162.3 非线性连续变换单元组成的网络 我们来证明输出函数 能

22、够逼近任何三角函数:令考虑函数 ,当 ,趋向于单位阶跃函数(见右图),则 为一些近似单位阶跃函数 的线性叠加,故当 充分)(111jknkjknjjxwfwyy)(),22()sin()2sin(111jjjjjknkjknlllTTuuxwedxkxKuuxK)(jjufj)(jjuf1)(),(11jjnjjufwuWS1nju2022-11-162.3 非线性连续变换单元组成的网络大时,我们可将区间 充分的细分,选取 和 ,使得 ,或 即得:对于 ,我们有下面的展开:,ed)0(|)sin(),(|2uuWSjj211|)2sin()(|1xKxwfwTjknkjknjj)2sin()(

23、111xKxwfwTjknkjknjj)(xhj2022-11-162.3 非线性连续变换单元组成的网络)2cos()2sin()2cos()2sin()2cos()2(sin(),()(),(),(),(),(),(),(),(),(2xKbxKaixKbxKaxKixKcechNxgxhTKNNNNKTKTKNNNNKTKTNNNNKTKNNNNKxiKKjFjT02022-11-162.3 非线性连续变换单元组成的网络使用充分多的隐单元,可得令),(),()(),(),(KKKKKKKKKNNNNKKuWSbuWSaxy)2cos()2sin()(),(),(xKbxKaxhTNNNNK

24、KTKF证毕)1,0(|),()(cos(),()(sin(|)()(|)()(|)()(|)()()()(|)()(|),(),(21),(),(nKNNNNKKKKKKKKKKKNNNNKKKKFjFFjFFjjxbauWSubuWSuaxhxhxyxhxhxhxyxhxhxhxyxh2022-11-162.3 非线性连续变换单元组成的网络(iii).隐单元数的选择隐单元数:小,结构简单,逼近能力差,不收敛;大,结构复杂,逼近能力强,收敛慢。对于用作分类的三层BP网络,可参照多层感知机网络的情况,得到下面设计方法:(a).其中 为样本个数,选取满足上式最小的 。(b).)0,(,1101i

25、nniinNniN1n10,2,1(1aamnnnn21log2022-11-162.3 非线性连续变换单元组成的网络(iv).网络参数初始值的选取 初试权:随机,比较小(接近于0),保证状态值较小,不在平滑区域内。6.BP网络的应用(i).模式识别、分类。用于语音、文字、图象的识别,用于医学图象的分类、诊断等。(ii).函数逼近与系统建模。用于非线性系统的建模,拟合非线性控制曲线,机器人的轨迹控制,金融预测等。2022-11-162.3 非线性连续变换单元组成的网络(iii).数据压缩。在通信中的编码压缩和恢复,图象数据的压缩和存储及图象特征的抽取等。例1.手写数字的识别 由于手写数字变化很

26、大,有传统的 统计模式识别或句法识别很难得到 高的识别率,BP网络可通过对样本的学习得到较高的学习率。为了克服字体大小不同,我们选取这些数字的一些特征值作为网络输入。(可提取)特征如:1,2,3,7:具有两个端点;0,6,8,9:具有圈;2:两个端点前后;2022-11-162.3 非线性连续变换单元组成的网络对于一个样本,若具有那个特征,所对应的特征输入单元取值为1,否则为0。我们可选择34个特征,即输入单元个数为34。输出可取10个单元,即1个输出单元对应一个数字(该单元输出为1,其它为0)。如果选取200个人所写的1000个样本进行学习,使用三层BP网络,隐层单元数 应如何选择呢?根据前

27、面的经验公式,可得到下面结果:1n10min1000101ninni2022-11-162.3 非线性连续变换单元组成的网络在实际中,我们选择 。通过对1000个样本的学习所得到的网络对6000个手写数字的正确识别率达到95%。例2.非线性曲线的拟合。在控制中往往希望产生一些非线性的输出输入关系。例如,已知一个机械臂取物的轨迹,根据这个轨迹可计算出机械臂关节的角度 和 (两个关节),按照机械臂的 要求应该反演计算出驱动马达的力或频率这是一个相当复杂的计算问题。但我们可634log17844211naanmn141n122022-11-162.3 非线性连续变换单元组成的网络采用BP网络对一些样

28、本的学习得到这些非线性曲线的拟合,根本无须知道机械臂的动力学模型。在一维情况下,就是拟合 ,其中 表示 角,为所对应的马达驱动力。在某些位置,我们容易得到这些对应值,因此可以得到足够的样本。)(xgy xyxy2022-11-162.3 非线性连续变换单元组成的网络例3.数据压缩BP网络相当于一个编码、解码器,越小,压缩率越小,但太小可能达不到唯一译码的要求。)压缩率(的编码对nnnnxxGunnuuuuuFymnxyTn211121log/)(,),(,11x1x2xnxnx2x1u2u1nu1n2022-11-162.3 非线性连续变换单元组成的网络作业:1.推导k层前馈网络的BP算法,并且考虑跨层连接的权值。2.采用2-2-1结构的前馈网络通过BP算法求解XOR问题,其中逼近精度 。3.采用2-m-1结构的前馈网络通过BP算法来逼近定义于 连续函数 ,其中逼近精度 。请按均匀格点选择10000个样本点,随机选取5000个作为训练样本,且剩余的5000个作检测样本。根据该学习问题,可选取三种不同的m值,并观察所得网络在检测样本上的误差变化。20,12212()1/(1)yf xxx0.0010.012022-11-16

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(人工神经网络课程nn04课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|