《人工神经网络理论、设计及应用》课件第三章bp设计.ppt-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

《人工神经网络理论、设计及应用》课件第三章bp设计.ppt

1、第三章第三章前馈人工神经网络前馈人工神经网络误差反传（误差反传（BPBP）算法的改进）算法的改进与与BPBP网络设计网络设计3.43.4基于基于BPBP算法的多层前馈网络模型算法的多层前馈网络模型p三层三层BPBP网络网络 o1 ok ol W1 Wk Wl y1 y2 yj ym V1 Vm x1 x2 xi xn-1 xn输入层输入层隐层隐层输出层输出层p模型的数学表达模型的数学表达输入向量：输入向量：X=(x1,x2,xi,xn)T隐层输出向量：隐层输出向量：Y=(y1,y2,yj,ym)T输出层输出向量：输出层输出向量：O=(o1,o2,ok,ol)T期望输出向量：期望输出向量：d=

2、(d1,d2,dk,dl)T输入层到隐层之间的权值矩阵：输入层到隐层之间的权值矩阵：V=(V1,V2,Vj,Vm)隐层到输出层之间的权值矩阵：隐层到输出层之间的权值矩阵：W=(W1,W2,Wk,Wl)各个变量之间如何建立联系，来描述整个网络？各个变量之间如何建立联系，来描述整个网络？神经网络的学习神经网络的学习p学习的过程：学习的过程：神经网络在外界输入样本的刺激下不断改变网神经网络在外界输入样本的刺激下不断改变网络的连接权值乃至拓扑结构，以使网络的输出络的连接权值乃至拓扑结构，以使网络的输出不断地接近期望的输出。不断地接近期望的输出。p学习的本质：学习的本质：对可变权值的动态调整对可变权值的

3、动态调整p学习规则：学习规则：权值调整规则，即在学习过程中网络中各神经权值调整规则，即在学习过程中网络中各神经元的连接权变化所依据的一定的调整规则。元的连接权变化所依据的一定的调整规则。pBPBP算法是一种学习规则算法是一种学习规则)()()()(ttd,t,trjjjXXWWBPBP算法的基本思想算法的基本思想p学习的类型：有导师学习学习的类型：有导师学习p核心思想：核心思想：将输出误差将输出误差以某种形式以某种形式通过隐层向输入层逐层反传通过隐层向输入层逐层反传p学习的过程：学习的过程：信号的正向传播信号的正向传播误差的反向传播误差的反向传播将误差分摊给各层的所有将误差分摊给各层的所有单

4、元各层单元的误单元各层单元的误差信号差信号修正各单元权修正各单元权值值BPBP算法的学习过程算法的学习过程p正向传播：正向传播：输入样本输入层各隐层输出层输入样本输入层各隐层输出层p判断是否转入反向传播阶段：判断是否转入反向传播阶段：若输出层的实际输出与期望的输出（教师信号）不若输出层的实际输出与期望的输出（教师信号）不符符p误差反传误差反传误差以某种形式在各层表示修正各层单元误差以某种形式在各层表示修正各层单元的权值的权值p网络输出的误差减少到可接受的程度网络输出的误差减少到可接受的程度进行到预先设定的学习次数为止进行到预先设定的学习次数为止建立权值变化量与误差之间的关系建立权值变化量与误

5、差之间的关系p输出层与隐层之间的连接权值调整输出层与隐层之间的连接权值调整p隐层和输入层之间的连接权值调整隐层和输入层之间的连接权值调整jkjkwEwj=0,1,2,m;k=1,2,l (3.4.9a)ijijvEvi=0,1,2,n;j=1,2,m (3.4.9b)式中负号表示梯度下降，常数式中负号表示梯度下降，常数(0,1)表示比例系数，反映了训表示比例系数，反映了训练速率。可以看出练速率。可以看出BP算法属于算法属于学习规则类，这类算法常被称为学习规则类，这类算法常被称为误差的梯度下降误差的梯度下降(Gradient Descent)算法。算法。初始化 V、W、Emin,、q=1，p=1

6、,E=0输入样本，计算各层输出：m21jfyTjj,.,),(XVl21kfoTjk,.,),(YW计算误差：P1pl1k2kkod21E)(计算各层误差信号：l21koo1odkkkk,.,)(okm21jyy1wjjl1kjkokyj,.,)(调整各层权值：m10jl21kjyokjkwjkw,.,.,n10 xm21jxvviyjijij,.,.,Y p 增 1,q 增 1 pP？N N E=0,p=1 EEmin Y 结束BP算法的程序实现算法的程序实现(1)初始化；初始化；PppPRMEEE11(4)计算各层误差信号；计算各层误差信号；(5)调整各层权值；调整各层权值；(6)检查是否

7、对所有样本完成一次检查是否对所有样本完成一次轮训；轮训；(7)检查网络总误差是否达到精检查网络总误差是否达到精度要求。度要求。(2)输入训练样本对输入训练样本对X Xp、d dp计算各层输出；计算各层输出；(3)计算网络输出误差；计算网络输出误差；BP算法的程序实现算法的程序实现初始化 V、W计数器 q=1，p=1输入第一对样本计算各层输出计算误差：P1pl1k2kkod21E)(Y p 增 1 pP？N用 E 计算各层误差信号调整各层权值 q 增 1 N ErmsEmin E=0,p=1 Y 结束然后根据总误差计算各层的误差然后根据总误差计算各层的误差信号并调整权值。信号并调整权值。P

8、1pl1k2pkpkod21E)(总另一种方法是在所有样本输另一种方法是在所有样本输入之后，计算网络的总误差：入之后，计算网络的总误差：多层前馈网的主要能力多层前馈网的主要能力(1)非线性映射能力非线性映射能力多层前馈网能学习和存贮大量输入多层前馈网能学习和存贮大量输入-输出模输出模式映射关系，而无需事先了解描述这种映射关式映射关系，而无需事先了解描述这种映射关系的数学方程。只要能提供足够多的样本模式系的数学方程。只要能提供足够多的样本模式对供对供BP网络进行学习训练，它便能完成由网络进行学习训练，它便能完成由n维维输入空间到输入空间到m维输出空间的非线性映射。维输出空间的非线性映射。多层

9、前馈网的主要能力多层前馈网的主要能力(2)泛化能力泛化能力当向网络输入训练时未曾见过的非样本数据当向网络输入训练时未曾见过的非样本数据时，网络也能完成由输入空间向输出空间的正确时，网络也能完成由输入空间向输出空间的正确映射。这种能力称为多层前馈网的泛化能力。映射。这种能力称为多层前馈网的泛化能力。(3)容错能力容错能力输入样本中带有较大的误差甚至个别错误对网输入样本中带有较大的误差甚至个别错误对网络的输入输出规律影响很小。络的输入输出规律影响很小。误差曲面与误差曲面与BP算法的局限性算法的局限性误差函数的可调整参误差函数的可调整参数的个数数的个数nw等于各层权值等于各层权值数加上阈值数，

10、即：数加上阈值数，即：)1()1(mlnmnw 误差误差E是是nw+1维空间中维空间中一个形状极为复杂的曲面，一个形状极为复杂的曲面，该曲面上的每个点的该曲面上的每个点的“高度高度”对应于一个误差值，每个点对应于一个误差值，每个点的坐标向量对应着的坐标向量对应着nw个权值，个权值，因此称这样的空间为误差的因此称这样的空间为误差的权空间。权空间。误差曲面的分布误差曲面的分布BPBP算法的局限性算法的局限性p 曲面的分布特点曲面的分布特点-算法的局限性算法的局限性p(1)(1)存在平坦区域存在平坦区域-误差下降缓慢，影响收敛速度误差下降缓慢，影响收敛速度p(2)(2)存在多个极小点存在多个极小点-

11、易陷入局部最小点易陷入局部最小点曲面分布特点曲面分布特点1 1：存在平坦区域：存在平坦区域p平坦误差的梯度变化小接近于零okjokikywE存在平坦区域的原因分析存在平坦区域的原因分析p 接近于零的情况分析接近于零的情况分析p造成平坦区的原因：造成平坦区的原因：各节点的净输入过大各节点的净输入过大 f(x)1.0 0.5x0)1()(kkkkokoood30mjjjkywok对应着误差的某个谷点对应着误差的某个谷点平坦区平坦区曲面分布特点曲面分布特点2 2：存在多个极小点：存在多个极小点 p误差梯度为零误差梯度为零p多数极小点都是局部极小，即使是全局极多数极小点都是局部极小，即使是全局

12、极小往往也不是唯一的。小往往也不是唯一的。单权值单权值双权值双权值曲面分布特点曲面分布特点2 2：存在多个极小点：存在多个极小点pBPBP算法算法以误差梯度下降为权值调整原则以误差梯度下降为权值调整原则p误差曲面的这一特点误差曲面的这一特点使之无法辨别极小点的性质使之无法辨别极小点的性质p导致的结果：导致的结果：因而训练经常陷入某个局部极小点而不能因而训练经常陷入某个局部极小点而不能自拔，从而使训练无法收敛于给定误差。自拔，从而使训练无法收敛于给定误差。标准标准BPBP算法的改进引言算法的改进引言p 误差曲面的形状固有的误差曲面的形状固有的p 算法的作用是什么？算法的作用是什么？调整权值，找到

13、最优点调整权值，找到最优点p 那么如何更好地调整权值？那么如何更好地调整权值？利用算法使得权值在更新的过程中，利用算法使得权值在更新的过程中，走走合适的合适的路径，比如跳出平坦区来提高收敛速度，跳出局部路径，比如跳出平坦区来提高收敛速度，跳出局部最小点等等最小点等等p 如何操作？如何操作？需要在进入平坦区或局部最小点时进行一些判断，需要在进入平坦区或局部最小点时进行一些判断，通过改变某些参数来使得权值的调整更为合理。通过改变某些参数来使得权值的调整更为合理。标准的标准的BPBP算法内在的缺陷：算法内在的缺陷：易形成局部极小而得不到全局最优；易形成局部极小而得不到全局最优；训练次数多使得学习效率

14、低，收敛速度慢；训练次数多使得学习效率低，收敛速度慢；隐节点的选取缺乏理论指导；隐节点的选取缺乏理论指导；训练时学习新样本有遗忘旧样本的趋势。训练时学习新样本有遗忘旧样本的趋势。针对上述问题，国内外已提出不少有效的改进算法，针对上述问题，国内外已提出不少有效的改进算法，下面仅介绍其中下面仅介绍其中3 3种较常用的方法。种较常用的方法。3.53.5标准标准BPBP算法的改进算法的改进p改进改进1 1：增加动量项：增加动量项p改进改进2 2：自适应调节学习率：自适应调节学习率p改进改进3 3：引入陡度因子引入陡度因子改进改进1 1：增加动量项：增加动量项p提出的原因：提出的原因：标准标准BPBP算

15、法只按算法只按t t时刻误差的梯度降方时刻误差的梯度降方向调整，而没有考虑向调整，而没有考虑t t时刻以前的梯度时刻以前的梯度方向方向从而常使训练过程发生振荡，收从而常使训练过程发生振荡，收敛缓慢。敛缓慢。p方法：方法：)1()(ttWXW为动量系数，一般有为动量系数，一般有(0 0，1 1)改进改进1 1：增加动量项：增加动量项p实质：实质：从前一次权值调整量中取出一部分迭加到本从前一次权值调整量中取出一部分迭加到本次权值调整量中次权值调整量中p作用：作用：动量项反映了以前积累的调整经验，对于动量项反映了以前积累的调整经验，对于t t时刻的调整起阻尼作用。时刻的调整起阻尼作用。当误差曲面出现

16、骤然起伏时，可减小振荡趋当误差曲面出现骤然起伏时，可减小振荡趋势，提高训练速度。势，提高训练速度。改进改进2 2：自适应调节学习率：自适应调节学习率p提出的原因：提出的原因：标准标准BPBP算法中，学习率算法中，学习率也称为步长，确定也称为步长，确定一个从始至终都合适的最佳学习率很难。一个从始至终都合适的最佳学习率很难。平坦区域内，平坦区域内，太小会使训练次数增加；太小会使训练次数增加；在误差变化剧烈的区域，在误差变化剧烈的区域，太大会因调整量太大会因调整量过大而跨过较窄的过大而跨过较窄的“坑凹坑凹”处，使训练出现处，使训练出现振荡，反而使迭代次数增加。振荡，反而使迭代次数增加。改进改进2 2

17、：自适应调节学习率：自适应调节学习率p基本思想：基本思想：自适应改变学习率，使其根据环境变化增大或自适应改变学习率，使其根据环境变化增大或减小。减小。p基本方法：基本方法：设一初始学习率，若经过一批次权值调整后使设一初始学习率，若经过一批次权值调整后使总误差总误差，则本次调整无效，且，则本次调整无效，且=(1 1 1)。改进改进3 3：引入陡度因子引入陡度因子p提出的原因：提出的原因：误差曲面上存在着平坦区域。误差曲面上存在着平坦区域。权值调整进入平坦区的原因是神经元输出进权值调整进入平坦区的原因是神经元输出进入了转移函数的饱和区。入了转移函数的饱和区。p基本思想：基本思想：如果在调整进入平坦

18、区后，设法压缩神经元如果在调整进入平坦区后，设法压缩神经元的净输入，使其输出退出转移函数的不饱和的净输入，使其输出退出转移函数的不饱和区，就可以改变误差函数的形状，从而使调区，就可以改变误差函数的形状，从而使调整脱离平坦区。整脱离平坦区。改进改进3 3：引入陡度因子引入陡度因子p 基本方法：基本方法：在原转移函数中引入一个陡度因子在原转移函数中引入一个陡度因子当发现当发现EE接近零而接近零而d-od-o仍较大时，可判断已进入仍较大时，可判断已进入平坦区，此时令平坦区，此时令11；当退出平坦区后，再令当退出平坦区后，再令=1=1。/11neteo o 1 =1 1 21 net 0改进改进3

19、3：引入陡度因子引入陡度因子作用分析：作用分析：1 1：netnet坐标压缩了坐标压缩了倍，倍，神经元的转移函数曲线的敏感神经元的转移函数曲线的敏感区段变长，从而可使绝对值较区段变长，从而可使绝对值较大的大的netnet退出饱和值。退出饱和值。=1=1：转移函数恢复原状，对转移函数恢复原状，对绝对值较小的绝对值较小的netnet具有较高的灵具有较高的灵敏度。敏度。应用结果表明该方法对于提高应用结果表明该方法对于提高BPBP算法的收敛速度十分有效。算法的收敛速度十分有效。o 1 =1 1 21 net 0总结总结p基于基于BPBP算法的多层前馈网络模型算法的多层前馈网络模型pBPBP算法的实现

20、算法的实现基本思想基本思想推导过程推导过程程序实现程序实现pBPBP学习算法的功能学习算法的功能pBPBP学习算法的局限性学习算法的局限性pBPBP学习算法的改进学习算法的改进3.6 BP网络设计基础p一一、训练样本集的准备、训练样本集的准备1.1.输入输出量的选择输入输出量的选择2.2.输入量的提取与表示输入量的提取与表示3.3.输出量的表示输出量的表示p二、输入输出数据的归一化二、输入输出数据的归一化p三、网络训练与测试三、网络训练与测试1 输出量的选择p 输出量输出量:代表系统要实现的功能目标代表系统要实现的功能目标系统的性能指标系统的性能指标分类问题的类别归属分类问题的类别归属非线性

21、函数的函数值非线性函数的函数值一一、训练样本集的准备、训练样本集的准备输入量的选择p输入量选择的两条基本原则必须选择那些对输出影响大且能够检测必须选择那些对输出影响大且能够检测或提取的变量或提取的变量各输入变量之间互不相关或相关性很小各输入变量之间互不相关或相关性很小一一、训练样本集的准备、训练样本集的准备输入输出量的性质输入输出量的性质p从输入、输出量的性质来看，可分为两类：一从输入、输出量的性质来看，可分为两类：一类是数值变量，一类是语言变量。类是数值变量，一类是语言变量。数值变量数值变量的值是数值确定的连续量或离散量。的值是数值确定的连续量或离散量。语言变量语言变量是用自然语言表示的

22、概念，其是用自然语言表示的概念，其“语语言值言值”是用自然语言表示的事物的各种属性。是用自然语言表示的事物的各种属性。当选用语言变量作为网络的输入或输出变量时，当选用语言变量作为网络的输入或输出变量时，需将其语言值转换为离散的数值量。需将其语言值转换为离散的数值量。一一、训练样本集的准备、训练样本集的准备2.输入量的提取与表示XC=(111100111)T XI=(111100111)T XT=(111100111)T(1)文字符号输入文字符号输入一一、训练样本集的准备、训练样本集的准备x(t)xn x1 t 0 1 2 3 4 5 n（2）曲线输入）曲线输入TpnpipppxxxxX),

23、.,.,(21p=1,2,P一一、训练样本集的准备、训练样本集的准备(3)(3)函数自变量输入函数自变量输入一般有几个输入量就设几个分量，一般有几个输入量就设几个分量，1 1个输入个输入分量对应分量对应1 1个输入层节点。个输入层节点。(4)(4)图象输入图象输入在这类应用中，一般先根据识别的具体目的在这类应用中，一般先根据识别的具体目的从图象中提取一些有用的特征参数，再根据从图象中提取一些有用的特征参数，再根据这些参数对输入的贡献进行筛选，这种特征这些参数对输入的贡献进行筛选，这种特征提取属于图象处理的范畴。提取属于图象处理的范畴。一一、训练样本集的准备、训练样本集的准备3.输出量的表示

24、(1)“n中取中取1”表示法表示法 “n中取中取1”是令输出向量的分量数等于类别数，输入样本被判是令输出向量的分量数等于类别数，输入样本被判为哪一类，对应的输出分量取为哪一类，对应的输出分量取1，其余，其余 n-1 个分量全取个分量全取0。例如，。例如，用用0001、0010、0100和和1000可分别表示优、良、中、差可分别表示优、良、中、差4个类别。个类别。(2)“n-1”表示法表示法如果用如果用n-1个全为个全为0的输出向量表示某个类别，则可以节省一个的输出向量表示某个类别，则可以节省一个输出节点。例如，用输出节点。例如，用000、001、010和和100也可表示优、良、中、差也可表示

25、优、良、中、差4个类别。个类别。(3)数值表示法数值表示法对于渐进式的分类，可以将语言值转化为二值之间的数值表示。对于渐进式的分类，可以将语言值转化为二值之间的数值表示。数值的选择要注意保持由小到大的渐进关系，并要根据实际意义拉数值的选择要注意保持由小到大的渐进关系，并要根据实际意义拉开距离。开距离。一一、训练样本集的准备、训练样本集的准备二、输入输出数据的归一化二、输入输出数据的归一化归一化也称为或标准化，是指通过变换处理将网归一化也称为或标准化，是指通过变换处理将网络的输入、输出数据限制在络的输入、输出数据限制在0，1或或-1，1区间内。区间内。进行归一化的主要原因：进行归一化的主要

26、原因：归一化的方法：归一化的方法：进行归一化的主要原因：p 网络的各个输入数据常常具有不同的网络的各个输入数据常常具有不同的物理意义和不物理意义和不同的量纲同的量纲，归一化给各输入分量以同等重要的地位；，归一化给各输入分量以同等重要的地位；p BPBP网的神经元均采用网的神经元均采用SigmoidSigmoid转移函数，变换后可防转移函数，变换后可防止因净输入的绝对值过大而使神经元输出止因净输入的绝对值过大而使神经元输出饱和饱和，继而，继而使权值调整进入误差曲面的平坦区；使权值调整进入误差曲面的平坦区；p SigmoidSigmoid转移函数的输出在转移函数的输出在0101或或-11-11之间

27、。之间。教师信教师信号号如不进行归一化处理，势必使数值大的输出分量如不进行归一化处理，势必使数值大的输出分量绝绝对误差对误差大，数值小的输出分量绝对误差小。大，数值小的输出分量绝对误差小。二、输入输出数据的归一化二、输入输出数据的归一化归一化的方法：将输入输出数据变换为将输入输出数据变换为0，1区间的值常用以下变换式区间的值常用以下变换式minmaxminxxxxxii其中，xI代表输入或输出数据，xmin代表数据变化的最小值，xman代表数据的最大值。将输入输出数据变换为将输入输出数据变换为-1，1区间的值常用以下变换式区间的值常用以下变换式2minmaxxxxmid)(minmax21xx

28、xxxmidii其中，xmid代表数据变化范围的中间值。二、输入输出数据的归一化二、输入输出数据的归一化三、网络训练与测试网络的性能好坏主要看其是否具有很好的泛化能网络的性能好坏主要看其是否具有很好的泛化能力，对泛化能力的测试不能用训练集的数据进行，而要力，对泛化能力的测试不能用训练集的数据进行，而要用训练集以外的测试数据来进行检验。用训练集以外的测试数据来进行检验。x2 *x1三、网络训练与测试三、网络训练与测试在隐节点数一定的情况下，为获得好的泛化能力，在隐节点数一定的情况下，为获得好的泛化能力，存在着一个最佳训练次数。存在着一个最佳训练次数。均方误差测试数据训练数据训练次数三、网络训练与测试三、网络训练与测试

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？