第3章-神经元、感知器和BP网络(1)课件.ppt_163文库

资源描述

1、课程名：智能控制技术课程名：智能控制技术1第三章第三章神经网络控制神经网络控制神经网络是在生物功能启示下建立起来的一种数据处神经网络是在生物功能启示下建立起来的一种数据处理技术。它是由大量简单神经元互连而构成的一种计算结构，理技术。它是由大量简单神经元互连而构成的一种计算结构，在某种程度上模拟生物神经系统的工作过程，从而具备解决在某种程度上模拟生物神经系统的工作过程，从而具备解决实际问题的能力。实际问题的能力。特点特点:（1）非线性映射逼近能力。非线性映射逼近能力。任意的连续非线性函数映射关系任意的连续非线性函数映射关系可由多层神经网络以任意精度加以逼近。可由多层神经网络以任意精度加以逼近

2、。课程名：智能控制技术课程名：智能控制技术2（2）自适应性和自组织性自适应性和自组织性。神经元之间的连接具有多样性，各神神经元之间的连接具有多样性，各神经元之间的连接强度具有可塑性，网络可以通过学习与训练进行自经元之间的连接强度具有可塑性，网络可以通过学习与训练进行自组织，以适应不同信息处理的要求。组织，以适应不同信息处理的要求。（3）并行处理性。并行处理性。网络各单元可同时进行类似的处理，整个网络网络各单元可同时进行类似的处理，整个网络的信息处理方式是大规模并行的，可以大大加快对信息处理的速度。的信息处理方式是大规模并行的，可以大大加快对信息处理的速度。（4）分布存储和容错性。分布存储和容

3、错性。信息在神经网络内的存储按内容分布于信息在神经网络内的存储按内容分布于许多神经元中，而且每个神经元存储多种信息的部分内容。网络的许多神经元中，而且每个神经元存储多种信息的部分内容。网络的每部分对信息的存储具有等势作用，部分的信息丢失仍可以使完整每部分对信息的存储具有等势作用，部分的信息丢失仍可以使完整的信息得到恢复，因而使网络具有容错性和联想记忆功能。的信息得到恢复，因而使网络具有容错性和联想记忆功能。（5）便于集成实现和计算模拟。便于集成实现和计算模拟。神经网络在结构上是相同神经元神经网络在结构上是相同神经元的大规模组合，特别适合于用大规模集成电路实现。的大规模组合，特别适合于用大规模集

4、成电路实现。课程名：智能控制技术课程名：智能控制技术33-1 神经网络的基本概念神经网络的基本概念一一. . 生物神经元模型生物神经元模型3.1.1 神经元模型神经元模型脑神经元由细胞体、树突和轴突构脑神经元由细胞体、树突和轴突构成。细胞体是神经元的中心，它一般又成。细胞体是神经元的中心，它一般又由细胞核、细胞膜等组成。树突是神经由细胞核、细胞膜等组成。树突是神经元的主要接受器，它主要用来接受信息。元的主要接受器，它主要用来接受信息。轴突的作用主要是传导信息，它将信息轴突的作用主要是传导信息，它将信息从轴突起点传到轴突末梢。从轴突起点传到轴突末梢。1 1、组成、组成轴突末梢与另一个神经元

5、的树突或轴突末梢与另一个神经元的树突或胞体构成一种突触的机构。通过突触实胞体构成一种突触的机构。通过突触实现神经元之间的信息传递。现神经元之间的信息传递。课程名：智能控制技术课程名：智能控制技术4 具有两种常规具有两种常规工作状态工作状态：兴奋与抑制。：兴奋与抑制。当传入的神经冲动使细胞膜电位升高超过阈值时，细胞进入兴奋状态，当传入的神经冲动使细胞膜电位升高超过阈值时，细胞进入兴奋状态，产生神经冲动并由轴突输出；产生神经冲动并由轴突输出；当传入的神经冲动使膜电位下降低于阈值时，细胞进入抑制状态，没当传入的神经冲动使膜电位下降低于阈值时，细胞进入抑制状态，没有神经冲动输出。有神经冲动输出。

6、 2. 生物神经元工作状态生物神经元工作状态课程名：智能控制技术课程名：智能控制技术5二二. . 人工神经元模型人工神经元模型人工神经网络是利用物理器件来模拟生物神经网络的人工神经网络是利用物理器件来模拟生物神经网络的某些结构和功能。某些结构和功能。xxnj1jnj? )f( )jy.ww1f ( )-1. 1. 人工神经元的人工神经元的输入输出变换关系为输入输出变换关系为: )( ) 1 , ( 0010jjjjjinijiinijijsfywxxwxws jwjif ( ) 其中其中: : 称为阈值称为阈值称为连接权系数称为连接权系数称为输出变换函数称为输出变换函数。课程名：智能控制技术

7、课程名：智能控制技术62. 常用的输入输出变换函数常用的输入输出变换函数神经元模型的输出函数，它是一个非动态的非线性函数，用神经元模型的输出函数，它是一个非动态的非线性函数，用以模拟神经细胞的兴奋、抑制以及阈值等非线性特性。以模拟神经细胞的兴奋、抑制以及阈值等非线性特性。这些非线性函数具有两个这些非线性函数具有两个显著的特征，一是它的突变性，显著的特征，一是它的突变性，二是它的饱和性，这正是为了二是它的饱和性，这正是为了模拟神经细胞兴奋过程中所产模拟神经细胞兴奋过程中所产生的神经冲动以及疲劳等特性。生的神经冲动以及疲劳等特性。课程名：智能控制技术课程名：智能控制技术72321wwW5 .

8、 211X642X413X某两输入、单输出的某两输入、单输出的单节点感知器单节点感知器的连接权值的连接权值样本样本，为一类（感知器输出为为一类（感知器输出为1），），为另一类（感知器输出为为另一类（感知器输出为-1），），样本样本试求阀值试求阀值T。（。（T为绝对值最小的整数，为绝对值最小的整数，转移函数采用符号函数转移函数采用符号函数）课堂练习课堂练习课程名：智能控制技术课程名：智能控制技术8解：单节点两输入感知器的输出为：解：单节点两输入感知器的输出为：)23sgn()sgn(212211TxxTxwxw根据题意：根据题意：1x时：时： 053T得得 2T2x时：时： 01212T得得 0

9、T3x时：时： 083T得得 5T25T为将样本按要求分两类，为将样本按要求分两类，根据题意选，根据题意选3T课程名：智能控制技术课程名：智能控制技术93.1.2 人工神经元网络人工神经元网络人工神经网络是一个并行和分布式的信息处理网络结构，该网络结人工神经网络是一个并行和分布式的信息处理网络结构，该网络结构一般由许多个神经元组成，每个神经元有一个单一的输出，它可以构一般由许多个神经元组成，每个神经元有一个单一的输出，它可以连接到很多其它的神经元，其输入有多个连接通路，每个连接通路对连接到很多其它的神经元，其输入有多个连接通路，每个连接通路对应一个连接权系数。应一个连接权系数。 1.1.对于

10、每个结点有一个状态变量对于每个结点有一个状态变量xj 一一. .人工神经元网络的组成原理人工神经元网络的组成原理 2. 结点结点 i 到结点到结点j有一个连接权系数有一个连接权系数wji 3.对于每个结点有一个阈值对于每个结点有一个阈值j 4. 对于每个结点定义一个变换函数对于每个结点定义一个变换函数)(jiijixwf)( ji 严格说来，神经网络是一个具有如下性质的有向图。严格说来，神经网络是一个具有如下性质的有向图。其中：其中：课程名：智能控制技术课程名：智能控制技术10二二. .典型的神经网络结构：典型的神经网络结构：根据神经元之间连接的拓扑结构上的不同，可将神经网络结构分根据神经元

11、之间连接的拓扑结构上的不同，可将神经网络结构分为两大类：层状结构和网络结构。层状结构的神经网络是由若干层组为两大类：层状结构和网络结构。层状结构的神经网络是由若干层组成，每层中有一定数量的神经元，相邻层中神经元单向联接，一般同成，每层中有一定数量的神经元，相邻层中神经元单向联接，一般同层内的神经元不能联接。层内的神经元不能联接。1、前向网络（前馈网络）前向网络（前馈网络）下面介绍几种常见的网络结构下面介绍几种常见的网络结构: :2、反馈网络、反馈网络课程名：智能控制技术课程名：智能控制技术11 即网状结构，在这种神经即网状结构，在这种神经网络结构中，任何两个神经网络结构中，任何两个神经元之

12、间都可能双向联接。元之间都可能双向联接。 4.4.混合型网络混合型网络在前向网络基础上，在同层、在前向网络基础上，在同层、部分神经元之间也可双向联接。部分神经元之间也可双向联接。3.3.相互结合型网络相互结合型网络课程名：智能控制技术课程名：智能控制技术123-2 监督学习及前馈神经网络监督学习及前馈神经网络具有分层的结构。最前面一层是输入层，中间是具有分层的结构。最前面一层是输入层，中间是隐层，最后一层是输出层。其信息从输入层依次向上隐层，最后一层是输出层。其信息从输入层依次向上传递，直至输出层。这样的结构称为前馈网络。传递，直至输出层。这样的结构称为前馈网络。 3.2.1 感知器网络感

13、知器网络感知器感知器(perceptron) 是最简单的前馈网络，也是是最简单的前馈网络，也是早期仿生学的研究成果，主要功能是用于对不同的输早期仿生学的研究成果，主要功能是用于对不同的输入模式进行分类。入模式进行分类。课程名：智能控制技术课程名：智能控制技术13一、单层感知器网络一、单层感知器网络也就是按照不同特征的分类结果。也就是按照不同特征的分类结果。是具有单层神经元、采用线性阈值函数的前馈网络。是具有单层神经元、采用线性阈值函数的前馈网络。通过对权值的训练，可使感知器对一组线性可分的输入模通过对权值的训练，可使感知器对一组线性可分的输入模式（矢量）进行有效的分类。式（矢量）进行有

14、效的分类。xx xxn12 T 是输入特征向量，是输入特征向量，图中图中 wjixiyj 是是到到的连接权，的连接权， yj (j=1, 2, , m) 是输出量是输出量。1.1.单层感知器的基本结构单层感知器的基本结构x1x2xn. . . . .y1y2yw11w12wmwwmn12m1nm1课程名：智能控制技术课程名：智能控制技术142.2.单层感知器的输入输出变换关系单层感知器的输入输出变换关系由于按不同特征的分类是互相独立的，因而可以由于按不同特征的分类是互相独立的，因而可以取出其中的一个神经元来讨论。取出其中的一个神经元来讨论。 1jinijijxws 00 。为动量项

15、因子，为动量项因子，。)1()()1()() 1(kDkDkwkw)(/)(kwEkD10根据经验数据根据经验数据动量项因子取动量项因子取0.95比较适比较适合。合。)()() 1(kaDkwkw引入前：引入前：引入后：引入后：课程名：智能控制技术课程名：智能控制技术392 2、自适应调节学习率、自适应调节学习率设一初始学习率，若经过一批次权值调整后使设一初始学习率，若经过一批次权值调整后使总误差总误差，则本次调整无效，且，则本次调整无效，且降低降低；若若经过一批次权值调整后使总误差经过一批次权值调整后使总误差，则本次，则本次调整有效，且调整有效，且增大增大。标准标准BP算法问题：

16、算法问题：学习率学习率为一常数，很难确定一为一常数，很难确定一个从始到终都合适的最佳个从始到终都合适的最佳学习率。如误差曲面平坦区学习率。如误差曲面平坦区太小会使训练次数增加；而太小会使训练次数增加；而误差变化剧烈的区域误差变化剧烈的区域太大太大会使训练出现振荡。解决方法如下：会使训练出现振荡。解决方法如下：课程名：智能控制技术课程名：智能控制技术403 3、引入陡度因子、引入陡度因子标准标准BP算法问题：算法问题：误差曲面存在平坦误差曲面存在平坦区，其原因是神经元输区，其原因是神经元输出进入了转移函数的饱出进入了转移函数的饱和区。和区。解决思路：解决思路：压缩神经元净输入，压缩

17、神经元净输入，使其输出退出饱和区。使其输出退出饱和区。 o 1 =1 1 21 net 0课程名：智能控制技术课程名：智能控制技术41 实现这一思路的具体实现这一思路的具体作法是，在原转移函数中作法是，在原转移函数中引入一个陡度因子引入一个陡度因子/11xeo o 1 =1 1 21 x 0 当发现当发现E接近零而接近零而目标与实际输出仍较大时，目标与实际输出仍较大时，可判断已进入平坦区，此可判断已进入平坦区，此时令时令1；退出平坦区后，退出平坦区后，再令再令=1。11：转移转移函数曲线敏函数曲线敏感区变长；感区变长；=1=1：转移函转移函数恢复原状。数恢复原状。课程名：智能控制技术课程名：智

18、能控制技术424 4、误差函数的改进、误差函数的改进 21()12(,)kkkkkkkkEdOOEf d OOdf 原原误误差差函函数数：，当当时时，常常数数，造造成成麻麻痹痹现现象象。可可选选用用其其它它误误差差函函数数，只只需需当当时时有有最最小小值值即即可可。1111(1)log(1)log21211kkkkkkkkkkddEOdOOOdEO B Ba au um m等等人人1 19 98 88 8年年提提出出当当时时，0 0；当当时时，该该式式发发散散，所所以以能能克克服服麻麻痹痹现现象象。课程名：智能控制技术课程名：智能控制技术43(1) 产生数据样本集产生数据样本集 (2) 确

19、定网络的类型和结构确定网络的类型和结构 (3) 训练和测试训练和测试 3.2.3 神经网络的训练神经网络的训练课程名：智能控制技术课程名：智能控制技术44(1) 产生数据样本集产生数据样本集这里包括原始数据的收集、数据分析、变量选择以这里包括原始数据的收集、数据分析、变量选择以及数据的预处理。及数据的预处理。首先要在大量的原始测量数据中确定出最主要的输首先要在大量的原始测量数据中确定出最主要的输入模式。这就需要对原始数据进行统计分析，检验它们入模式。这就需要对原始数据进行统计分析，检验它们之间的相关性。找出其中最主要的量作为输入。之间的相关性。找出其中最主要的量作为输入。课程名：智能控制

20、技术课程名：智能控制技术45 在确定了最重要的输入量后，需进行在确定了最重要的输入量后，需进行尺度变换尺度变换和预和预处理。尺度变换常常将它们变换到处理。尺度变换常常将它们变换到 -1, 1或或0, 1 的范围。的范围。在进行尺度变换前必须先检查是否存在异常点（或称在进行尺度变换前必须先检查是否存在异常点（或称野野点点），这些点必须剔除。），这些点必须剔除。对于一个复杂问题应该对于一个复杂问题应该选择多少数据选择多少数据，这也是一个，这也是一个很关键的问题。系统的输入输出关系就包含在这些数据很关键的问题。系统的输入输出关系就包含在这些数据样本中。所以一般说来，取的数据越多，学习和训练的样本中

21、。所以一般说来，取的数据越多，学习和训练的结果便越能正确反映输入输出关系。结果便越能正确反映输入输出关系。课程名：智能控制技术课程名：智能控制技术46 但是但是选太多选太多的数据将增加收集、分析数据以及网络训的数据将增加收集、分析数据以及网络训练的所付的代价。练的所付的代价。选太少选太少的数据则可能得不到正确的结果。的数据则可能得不到正确的结果。事实上数据的多少取决于许多因素，如网络的大小、事实上数据的多少取决于许多因素，如网络的大小、网络测试的需要以及输入输出的分布等。其中网络大小最网络测试的需要以及输入输出的分布等。其中网络大小最关键。通常较大的网络需要较多的训练数据。关键。通常较大的网

22、络需要较多的训练数据。一个经验规则是：训练模式应是连接权总数的一个经验规则是：训练模式应是连接权总数的5至至10倍。倍。课程名：智能控制技术课程名：智能控制技术47 在神经网络训练完成后，需要有另外的测试数据来对在神经网络训练完成后，需要有另外的测试数据来对网络加以检验，测试数据应是独立的数据集合。网络加以检验，测试数据应是独立的数据集合。最简单的方法是：最简单的方法是：将收集到的可用数据随机地分成两将收集到的可用数据随机地分成两部分，譬如说其中三分之二用于网络的训练，另外三分之部分，譬如说其中三分之二用于网络的训练，另外三分之一用于将来的测试，随机选取的目的是为了尽量减小这两一用于将来的

23、测试，随机选取的目的是为了尽量减小这两部分数据的相关性。部分数据的相关性。影响数据大小的另一个因素影响数据大小的另一个因素是输入模式和输出结果的是输入模式和输出结果的分布，对数据预先加以分类可以减少所需的数据量。相反，分布，对数据预先加以分类可以减少所需的数据量。相反，数据稀薄不匀甚至互相覆盖则势必要增加数据量。数据稀薄不匀甚至互相覆盖则势必要增加数据量。课程名：智能控制技术课程名：智能控制技术48(2) 确定网络的类型和结构确定网络的类型和结构在训练神经网络之前，首先要确定所选的网络类型。在训练神经网络之前，首先要确定所选的网络类型。若主要用于模式分类，尤其是线性可分的情况，则可若主要

24、用于模式分类，尤其是线性可分的情况，则可采用较为简单的感知器网络；采用较为简单的感知器网络；若主要用于函数估计，则可应用若主要用于函数估计，则可应用BP网络。网络。实际上，神经网络的类型很多，需根据问题的性质和实际上，神经网络的类型很多，需根据问题的性质和任务的要求来合适地选择网络类型。一般是从已有的网络任务的要求来合适地选择网络类型。一般是从已有的网络类型中选用一种比较简单而又能满足要求的网络。类型中选用一种比较简单而又能满足要求的网络。课程名：智能控制技术课程名：智能控制技术49 在网络的类型确定后，剩下的问题是选择网络在网络的类型确定后，剩下的问题是选择网络的结构和参数。的结构和参

25、数。以以BP网络为例，需选择网络的层数、每层的节网络为例，需选择网络的层数、每层的节点数、初始权值、阈值、学习算法、节点变换函数点数、初始权值、阈值、学习算法、节点变换函数及参数、学习率及动量项因子等参数。这里有些项及参数、学习率及动量项因子等参数。这里有些项的选择的选择有一些指导原则，但更多的是靠经验和试凑。有一些指导原则，但更多的是靠经验和试凑。课程名：智能控制技术课程名：智能控制技术50 具体选择有如下具体选择有如下两种方法：两种方法： a. 先设置较少先设置较少节点节点，对网络进行训练，并测试网络的，对网络进行训练，并测试网络的逼近误差，然后逐渐增加逼近误差，然后逐渐增加节点节点数

26、，直到测试的误差不再数，直到测试的误差不再有明显减小为止。有明显减小为止。对于具体问题若确定了输入和输出变量后，网络输对于具体问题若确定了输入和输出变量后，网络输入层和输出层的节点个数也便随之确定了。对于入层和输出层的节点个数也便随之确定了。对于隐层隐层的的层数可首先考虑只选择一个隐层。剩下的问题是如何选层数可首先考虑只选择一个隐层。剩下的问题是如何选择隐层的节点数。择隐层的节点数。其选择原则是：其选择原则是：在能正确反映输入输在能正确反映输入输出关系的基础上，尽量选取较少的隐层节点数，而使网出关系的基础上，尽量选取较少的隐层节点数，而使网络尽量简单。络尽量简单。课程名：智能控制技术课程名：

27、智能控制技术51 b. 先设置较多的节点，在对网络进行训练时，采用先设置较多的节点，在对网络进行训练时，采用如下的误差代价函数如下的误差代价函数jiqqijQqninjqijQpiPpnipifwEwxdEqqQ,)(111)(2)(11 )(211 引入第二项的作用相当于引入一个引入第二项的作用相当于引入一个“遗忘遗忘”项，项，其目的是为了其目的是为了使训练后的连接权系数尽量小使训练后的连接权系数尽量小，可求得，可求得这时这时对对的梯度为的梯度为fE)(qijw)(sgn )()()(qijqijqijfwwEwE 课程名：智能控制技术课程名：智能控制技术52 利用该梯度可以求得相应的学

28、习算法。利用该学利用该梯度可以求得相应的学习算法。利用该学习算法，在训练过程中只有那些习算法，在训练过程中只有那些确实必要的连接权才确实必要的连接权才予以保留予以保留，而那些，而那些不很必要的连接将逐渐衰减为零不很必要的连接将逐渐衰减为零。最后可去掉那些影响不大的连接权和相应的最后可去掉那些影响不大的连接权和相应的节点节点，从，从而得到一个适当规模的网络结构。而得到一个适当规模的网络结构。若采用上述任一方法选择得到的隐层节点数太多。若采用上述任一方法选择得到的隐层节点数太多。这时这时可考虑采用二个隐层可考虑采用二个隐层。为了达到相同的映射关系，。为了达到相同的映射关系，采用二个隐层的节点总数

29、常常可比只用一个隐层时少采用二个隐层的节点总数常常可比只用一个隐层时少。课程名：智能控制技术课程名：智能控制技术53 (3) (3) 训练和测试训练和测试在训练过程中对训练样本数据需要反复地使用。在训练过程中对训练样本数据需要反复地使用。对所有样本数据正向运行一次并反传修改连接权一次称对所有样本数据正向运行一次并反传修改连接权一次称为为一次训练一次训练( (或一次学习或一次学习) )，这样的训练需要反复地进行，这样的训练需要反复地进行下去直至获得合适的映射结果。通常训练一个网络需要下去直至获得合适的映射结果。通常训练一个网络需要成百上千次。成百上千次。应该注意，并非训练的次数越多越好。应该

30、注意，并非训练的次数越多越好。课程名：智能控制技术课程名：智能控制技术54 训练网络的目训练网络的目的的在于找出蕴含在样本数据中的输入在于找出蕴含在样本数据中的输入和输出之间的本质联系，从而对于未经训练的输入也能和输出之间的本质联系，从而对于未经训练的输入也能给出合适的输出，即给出合适的输出，即具备泛化功能具备泛化功能。由于所收集的数据都是包含噪声的，训练的次数过由于所收集的数据都是包含噪声的，训练的次数过多，网络将包含噪声的数据都记录了下来，但是对于新多，网络将包含噪声的数据都记录了下来，但是对于新的输入数据却不能给出合适的输出，也即并不具备很好的输入数据却不能给出合适的输出，也即并不具备很好的泛化功能。的泛化功能。课程名：智能控制技术课程名：智能控制技术55 从从如下如下误差曲线可以看误差曲线可以看出，在用测试数据检验时，出，在用测试数据检验时，均方误差开始逐渐减小，当均方误差开始逐渐减小，当训练次数再增加时，测试检训练次数再增加时，测试检验误差反而增加。误差曲线验误差反而增加。误差曲线上极小点所对应的即为恰当上极小点所对应的即为恰当的训练次数，若再训练即为的训练次数，若再训练即为“过度训练过度训练”了。了。

展开阅读全文