1、第六章 多层神经网络2n神经网络定义神经网络定义 一个神经网络是一个由简单处理元构成的规模宏大的并行分布式处理器。天然具有存储经验知识和使之可用的特性。n神经网络与人脑的相似性神经网络与人脑的相似性: a .神经网络获取的知识是从外界环境中学习得来。 b .互连神经元的连接强度,即突触权值,用于存储获取的知识。3n神经元模型神经元模型 a. 突触权值b .加法器净激活c. 激活函数mx2x1x1kw2kwkmw0kw(.)fky输入信号输入信号突触权值突触权值偏置偏置输出输出求和结点求和结点激活函数激活函数)(01kkkmjjkjknetfywxwnet4n前馈运算定义:前馈运算定义:a.无反
2、馈,可用一有向无环图表示。b.图的节点分为两类,即输入节点与计算单元。c.每个计算单元可有任意个输入,但只有一个输出,而输出可耦合到任意多个其他节点的输入。前馈网络通常分为不同的层,第i层的输入只与第i-1层的输出相联。d.输入和输出节点由于可与外界相连,直接受环境影响,称为可见层,而其他的中间层则称为隐层。如图。5n 激活函数:激活函数:隐单元对它的各个输入进行加权求和运算而形成标量的“净激活”(net activation,或简称net)。也就是说,净激活是输入信号与隐含层权值的内积。 下面介绍几种常用的激活函数:n符号函数:符号函数:0011)(kkknetifnetifnetfnetk
3、1(0)( )hardlim( )0(0)naf nnn0)(knetf6)exp(11)(kkanetnetf21 ,0212121 , 1)(kkkkknetnet,netnetnetf)(knetfnetk0.50.5n 分段线性函数:分段线性函数:n igmoidigmoid 函数:函数:076.2.1 6.2.1 一般的前馈运算一般的前馈运算n显然,我们可以把之前的讨论推广为更多的更多的输入单元、其他的非线性函数、任意多个输出单元。在分类方面,我们有c个输出单元,每个类别一个,每个输出单元产生的信号就是判别式函数gk(x). 判别函数如下:6.2.2 6.2.2 多层网络的表达能力多
4、层网络的表达能力n戈尔莫戈罗夫证明了:只要选取适当的函数,任何连续函数g(x)都呆以定义在单位超立方体上,即可以表示为:n可惜的是,上述构造性的描述确实显示任期望函数都可以通过一个三层网络来执行,但它更多的价值在理论方面,而实用意义不大。8n误差反向传播学习分为四个过程误差反向传播学习分为四个过程: : a.模式顺传播:一个输入向量作用于网络感知节点,它的影响经过网络一层接一层的传播。最后,产生一个输出作为网络的实际响应。在前向通过中,网络的突触权为固定的。 b.误差逆传播:在反向通过中,突触权值全部根据误差修正规则调整。 c.记忆训练:反复学习过程,也就是根据教师示教的希望输出与网络实际输出
5、的误差调整连接权的过程。 d.学习收敛:网络全局误差收敛于极小值的过程。9神经元神经元j j的输出的输出)(jjnetfy神经元神经元j j的净激活的净激活xwjjnet连接权初始化连接权初始化学习模式提供学习模式提供给网络给网络计算输出层的计算输出层的输入输出输入输出n模式顺传播模式顺传播: :10n误差传播阶段误差传播阶段 (1)计算训练误差: (2)按与LMS算法类似的方式对突触权值w应用一个修正值 隐含层到输出层学习规则: 输入层到隐含层学习规则: 212zt21)(21)(ckkkztwJjkkkjkkjynetfztyw)()(ijckkkjijjixnetfwxw)(111更新学
6、习模式更新学习模式计算输出层各计算输出层各神经元的误差神经元的误差计算隐含层各计算隐含层各神经元的误差神经元的误差调整输出层到调整输出层到隐含层的连接隐含层的连接权权调整隐含层到调整隐含层到输入层的连接输入层的连接权权更新学习次数更新学习次数判断误差或判断误差或学习次数学习次数126.3.36.3.3BPBP网络网络学习曲线学习曲线6.3.26.3.2训练协议训练协议 广义地说,有监督的训练就是给出一个类别标记已知的模式训练集找到网络输出,并调整权值以使实际输出更加接近于期望的目标值。三种最有用的“训练协义”是:随机训练、成批训练和在线训练。13n 小型的网络:小型的网络:14 n较大型的网络
7、:较大型的网络:高维空间里局部极小值问题有所不同:在学习中,高维空间可以给系统提供更多的方式(维数、或自由度)以“避开”障碍或局部极小值。权值数越过剩,网络越不可能陷入局部极小值。但存在过拟和问题。n 关于多重极小:关于多重极小:局部极小问题,当误差较低时,非全局极小是可以接受的。15n隐含层到输出层是一个线性判别函数,多层神经网络所提供的新的计算能力可以归因于输入层到隐含层单元上的表示的非线性弯曲能力。n随着学习的进行,输入层到隐含层的权值在数量上增加,隐含层单元的非线性弯曲扭曲了从输入层到隐含层单元的空间映射。16n贝叶斯理论与神经网络贝叶斯理论与神经网络 尽管多层神经网显得有点专门化,我
8、们可以证明,当采用均方差准则进行反向传播训练,且样本数量趋于无穷极限时,多层神经网可产生一个相应于贝叶斯理论判别函数的最小二乘判别。 n作为概率的输出作为概率的输出 实际生活时常不满足无限个训练数据,这时可以作概率逼近。其中一个方法是softmax方法,即选择指数型的办理出单元非线性函数,并对每种模式将输出和归一化为1.0,并用0-1目标信号进行训练: 17n投影寻踪回归:投影寻踪回归:n广义叠加模型:广义叠加模型:n多元自适应回归样条(多元自适应回归样条(MARSMARS):):18n激活函数激活函数BP网络中每一个神经元的 需要关于神经元的激活函数 的导数知识。要导数存在,则需要函数 连续
9、。常用的例子为sigmoid函数,主要有两种形式:1. logistic函数2. 双曲正切函数)(f)(fjjjnetaanetnetf,0)exp(11)(0),( )tanh()(babnetanetfjj19n冲量项冲量项 实验表明:增加隐含层的层数和隐含层神经元个数不一定总能够提高网络精度和表达能力。 BP网一般都选用三层网络。20n权值初始化权值初始化 a.初始权值的选择对于局部极小点的防止和网络收敛速度的提高均有一定程度的影响,如果初始权值范围选择不当,学习过程一开始就可能进入“假饱和”现象,甚至进入局部极小点,网络根本不收敛。 b.在前馈多层神经网络的BP算法中,初始权、阈值一般
10、是在一个固定范围内按均匀分布随机产生的。一般文献认为初始权值范围为-11之间,初始权、阈值的选择因具体的网络结构模式和训练样本不同而有所差别,一般应视实际情况而定。 c.本书中考虑有d个输入单元,假设用相同的分布初始化权值,那么输入权值的范围为: d.隐含层输出权值:dwdji11HkjHnwn1121n学习率学习率学习率参数 越小,从一次迭代到下一次迭代的网络突触权值的变化量就越小,轨迹在权值空间就越光滑。然而,这种改进是以减慢学习速度为代价的。另一方面,如果我们让 的值太大以加速学习速度的话,结果有可能使网络的突触权值的变化量不稳定。22n冲量项冲量项一个既要加快学习速度又要保持稳定的简单
11、方法是修改delta法则,使它包括冲量项(惯量项): a是冲量常数,通常是正数。)()() 1()(nynnwnwijjiji23n权值衰减权值衰减 网络的权值大致分两类:对网络具有很大影响的权值和对网络影响很少或者根本没有影响的权值。后者常常造成网络推广性差。复杂性正则化的使用鼓励多余权值取得接近0,提高泛化能力。n训练方式训练方式 a.随机训练:模式是随机地从训练集中取出的,权值也根据不同的模式进行更新 b.成批训练: 所有的模式已在训练之前全部送往网络中。 c.在线训练:每种模式只提供一次,不需要存储器来保存模式24n误差准则函数误差准则函数 原来的平方误差准则是最常见的训练准则,然而,
12、其他的训练准则有时候也有一些好处。下面介绍两个有用的准则函数: 互熵(cross entropy):(可用来度量概率分布间的“距离”) 基于闵可夫斯基误差: 可通过选择R值来调节分类器的局部性:R值越小,分类器的局部性越强。25n牛顿法:牛顿法:在梯度下降中使用牛顿法,可利用下式迭代计算w的值:(其中H为赫森矩阵)nQuickpropQuickprop算法算法: : Quickprop算法中权值假设为独立的。可以证明,这种方法可导出如下的权值更新规则:其中的导数是由m和m-1次迭代估计得出26n共轭梯度法共轭梯度法共轭条件: ,其中H为赫森矩阵 在第m步的下降方向是梯度方向加上一个沿着前面的下
13、降方向的元素: 各项间的相互比例由 控制。通常它可以用如下两个公式中的一个来计算: Fletcher-Reeves: Polak-Ribiere:27n径向基函数网络径向基函数网络 径向基函数(radial basis function,RBF)网络的设计可以看作是一个高维空间中的曲线拟和(逼近)问题。 这里考虑插值函数(内核)的通用形式 ,该函数的变量是从中心 到输入变量 的欧氏距离,称为RBF。函数 可以有多种形式,例如:)(icxf222)(icxxf)21exp()(22iicxxficxf28n卷积网络卷积网络29n递归网络递归网络30n级数相关技术级数相关技术31n正则化正则化 构造一个新的准则函数,该函数不仅取决于典型的训练误差,还决于分类器 复杂程度: 参数 的大小决定了正则项作用的强弱程度。nWaldWald统计法统计法 其基本思想是:我们可以估计出模型中的某个参数的重要性,然后就可以消除最不重要的参数了。比如在网络中,这样的参数可以是某个权值。其主要方法有最佳脑损伤(OBD)和最佳脑外科(OBS)法.