1、第一讲第一讲 神经网络基本原理神经网络基本原理 主要内容主要内容n 人工神经网络的提出人工神经网络的提出n 人工神经网络的研究发展人工神经网络的研究发展n 人工神经网络基本要素人工神经网络基本要素 神经元介绍神经元介绍 神经元作用函数神经元作用函数 神经元之间的连接形式神经元之间的连接形式 网络的学习网络的学习(训练训练)n 感知器神经网络感知器神经网络 人工神经网络人工神经网络(简称神经网络,(简称神经网络,Neural Network)是模拟人脑)是模拟人脑思维方式的数学模型。思维方式的数学模型。 神经网络是在现代生物学研究人脑组织成果的基础上提出的,用来神经网络是在现代生物学研究人脑组织
2、成果的基础上提出的,用来模拟人类大脑神经网络的结构和行为模拟人类大脑神经网络的结构和行为。神经网络反映了人脑功能的基本。神经网络反映了人脑功能的基本特征,如并行信息处理、学习、联想、模式分类、记忆等。特征,如并行信息处理、学习、联想、模式分类、记忆等。 20世纪世纪80年代以来,人工神经网络(年代以来,人工神经网络(ANN,Artificial Neural Network)研究取得了突破性进展。)研究取得了突破性进展。神经网络控制是将神经网络与控制神经网络控制是将神经网络与控制理论相结合而发展起来的智能控制方法。理论相结合而发展起来的智能控制方法。它已成为智能控制的一个新的它已成为智能控制的
3、一个新的分支,为解决复杂的非线性、不确定、未知系统的控制问题开辟了新途分支,为解决复杂的非线性、不确定、未知系统的控制问题开辟了新途径。径。人工神经网络的提出人工神经网络的提出 3/65 目前,关于神经网络的定义尚不统一,按美国神经网络学家目前,关于神经网络的定义尚不统一,按美国神经网络学家Hecht Nielsen 的观点,的观点,神经网络的定义神经网络的定义是:是:“神经网络是由多个非常简单神经网络是由多个非常简单的处理单元彼此按某种方式相互连接而形成的计算机系统,该系统靠其的处理单元彼此按某种方式相互连接而形成的计算机系统,该系统靠其状态对外部输入信息的动态响应来处理信息状态对外部输入信
4、息的动态响应来处理信息”。综合神经网络的来源。综合神经网络的来源特点和各种解释,它可简单地表述为:特点和各种解释,它可简单地表述为:人工神经网络是一种旨在模仿人人工神经网络是一种旨在模仿人脑结构及其功能的信息处理系统。脑结构及其功能的信息处理系统。 作为一门活跃的边缘性交叉学科,神经网络的研究与应用正成为人作为一门活跃的边缘性交叉学科,神经网络的研究与应用正成为人工智能、工智能、 认识科学、认识科学、 神经生理学、神经生理学、 非线性动力学等相关专业的热点。非线性动力学等相关专业的热点。近十几年来,针对神经网络的学术研究大量涌现,它们当中提出上百种近十几年来,针对神经网络的学术研究大量涌现,它
5、们当中提出上百种的神经网络模型,其应用涉及模式识别的神经网络模型,其应用涉及模式识别联想记忆、信号处理、自动控联想记忆、信号处理、自动控制制组合优化组合优化故障诊断及计算机视觉等众多方面,取得了引人注目的故障诊断及计算机视觉等众多方面,取得了引人注目的进展。进展。 人工神经网络的提出人工神经网络的提出 4/65(1)(1)第一次热潮第一次热潮(40-60(40-60年代未年代未) 1943) 1943年年, ,美国心理学家美国心理学家W.McCullochW.McCulloch和数和数学家学家W.PittsW.Pitts在提出了一个简单的神经元模型,即在提出了一个简单的神经元模型,即MPMP模
6、型。模型。19581958年,年,F.RosenblattF.Rosenblatt等研制出了感知机。等研制出了感知机。(2)低潮低潮(70- -80年代初年代初) ):人工智能的创始人之一:人工智能的创始人之一Minsky和和Papert 对以对以感知器为代表的网络系统的功能及局限性从数学上做了深入研究,于感知器为代表的网络系统的功能及局限性从数学上做了深入研究,于1969年发表了轰动一时年发表了轰动一时Perceptrons 一书,指出简单的线性感知器一书,指出简单的线性感知器的功能是有限的,它无法解决线性不可分的两类样本的分类问题。开始的功能是有限的,它无法解决线性不可分的两类样本的分类问
7、题。开始了神经网络发展史上长达了神经网络发展史上长达10 年的低潮期。年的低潮期。 (3)第二次热潮:第二次热潮:1982年,美国物理学家年,美国物理学家J.J.Hopfield提出提出Hopfield模型模型,它是一个互联的非线性动力学网络,它是一个互联的非线性动力学网络. .他解决问题的方法是一种反复运他解决问题的方法是一种反复运算的动态过程算的动态过程, ,这是符号逻辑处理方法所不具备的性质这是符号逻辑处理方法所不具备的性质. . 1987年首届国年首届国际际A ANN大会在圣地亚哥召开,国际大会在圣地亚哥召开,国际A ANN联合会成立,创办了多种联合会成立,创办了多种A ANN国国际刊
8、物。际刊物。神经网络研究的发展神经网络研究的发展5/65人工神经网络基本要素人工神经网络基本要素 人工神经网络人工神经网络( (简称神经网络简称神经网络) )是由人工神经元是由人工神经元( (简称神经元简称神经元) )互互 连组成的网络,它是从微观结构和功能上对人脑的抽象、简化,是模连组成的网络,它是从微观结构和功能上对人脑的抽象、简化,是模 拟人类智能的一条重要途径,反映了人脑功能的若干基本特征,如并拟人类智能的一条重要途径,反映了人脑功能的若干基本特征,如并 行信息处理、学习、联想、模式分类、记忆等。行信息处理、学习、联想、模式分类、记忆等。 人工神经网络(人工神经网络(ANN)可看成是以
9、人工神经元为节点,用有向加权)可看成是以人工神经元为节点,用有向加权弧连接起来的有向图。弧连接起来的有向图。 在此有向图中,在此有向图中,人工神经元人工神经元就是对生物神经元的模拟,而就是对生物神经元的模拟,而有向弧有向弧则则是轴突是轴突突触突触树突对的模拟。树突对的模拟。有向弧的权值有向弧的权值表示相互连接的两个人表示相互连接的两个人工神经元间相互作用的强弱。工神经元间相互作用的强弱。 6/65 每个小圆圈表示一个每个小圆圈表示一个神经元神经元。各个神经。各个神经元之间的连接并不只是一个单纯的传送元之间的连接并不只是一个单纯的传送信号的通道,而是在每对神经元之间的信号的通道,而是在每对神经元
10、之间的连接上有一个加权系数,这个加权系数连接上有一个加权系数,这个加权系数起着生物神经系统中神经元的突触强度起着生物神经系统中神经元的突触强度的作用,它可以加强或减弱上一个神经的作用,它可以加强或减弱上一个神经元的输出对下一个神经元的刺激。这个元的输出对下一个神经元的刺激。这个加权系数通常称为加权系数通常称为权值权值。 在神经网络中,连接权值并非固定不变,而是按照一定的在神经网络中,连接权值并非固定不变,而是按照一定的规则和规则和学习学习算法算法进行自动修改。这也体现出神经网络的进行自动修改。这也体现出神经网络的“进化进化”行为。行为。 人工神经网络基本要素人工神经网络基本要素7/65 神经元
11、模型、数量及互连模式确定了神经网络的结构,而神经网络结神经元模型、数量及互连模式确定了神经网络的结构,而神经网络结构和学习算法又决定了其信息处理的能力。构和学习算法又决定了其信息处理的能力。 最初的神经网络只由输入层和输出层组成。这种结构的神经网络信息处最初的神经网络只由输入层和输出层组成。这种结构的神经网络信息处理能力极为有限,不能进行复杂的计算。后来在这种结构的基础上引入了理能力极为有限,不能进行复杂的计算。后来在这种结构的基础上引入了隐含层,大大地提高了神经网络的计算能力。隐含层,大大地提高了神经网络的计算能力。 研究表明由具有研究表明由具有Sigmoid型作用函数的隐含层和具有线性作用
12、函数的输型作用函数的隐含层和具有线性作用函数的输出层构成的三层神经网络,经过训练后,可以以任意精度逼近绝大多数的出层构成的三层神经网络,经过训练后,可以以任意精度逼近绝大多数的函数。函数。 在人工神经网络设计及应用研究中,通常需要考虑三个方面的内容,在人工神经网络设计及应用研究中,通常需要考虑三个方面的内容,即神经元作用函数、神经元之间的连接形式和网络的学习神经元作用函数、神经元之间的连接形式和网络的学习(训练训练)。人工神经网络基本要素人工神经网络基本要素8/65人工神经网络基本要素人工神经网络基本要素 神经元神经元 1、生物神经元的结构、生物神经元的结构 神经细胞是构成神经系统的基本单元,
13、称之为生物神经元,简称神神经细胞是构成神经系统的基本单元,称之为生物神经元,简称神经元。神经元由细胞体及其发出的许多突起构成。经元。神经元由细胞体及其发出的许多突起构成。细胞体细胞体内有细胞核,内有细胞核,突起突起的作用是传递信息。作为引入输入信号的若干个突起称为的作用是传递信息。作为引入输入信号的若干个突起称为“树突树突”或或“晶枝晶枝” ,而作为输出端的突起只有一个称为,而作为输出端的突起只有一个称为“轴突轴突” 。一个神经。一个神经元的轴突末梢经过多次分支,最后每一小支的末端膨大呈杯状或球状,元的轴突末梢经过多次分支,最后每一小支的末端膨大呈杯状或球状,叫做突触小体。这些突触小体可以与多
14、个神经元的细胞体或树突相接触,叫做突触小体。这些突触小体可以与多个神经元的细胞体或树突相接触,形成形成突触突触。 每个神经元的突触数目有所不同,而且各神经元之间的连接强度每个神经元的突触数目有所不同,而且各神经元之间的连接强度和极性有所不同,并且都可调整,基于这一特性,和极性有所不同,并且都可调整,基于这一特性,人脑具有存储信息的人脑具有存储信息的功能功能。图。图1.1 生物神经元的结构生物神经元的结构9/65 大脑Brain图1.1 生物神经元结构神经生理学和神经解剖学的研究神经生理学和神经解剖学的研究结果表明,结果表明,神经元是脑组织的基神经元是脑组织的基本单元,是神经系统结构与功能本单元
15、,是神经系统结构与功能的单位的单位。人工神经网络基本要素人工神经网络基本要素 神经元神经元10/652、人工神经元结构、人工神经元结构神经元是构成神经网络的最基本单元(构件)。神经元是构成神经网络的最基本单元(构件)。人工神经元模型应该具有生物神经元的六个基本特性。人工神经元模型应该具有生物神经元的六个基本特性。1)神经元及其联接;)神经元及其联接;2)神经元之间的联接强度决定信号传递的强弱;)神经元之间的联接强度决定信号传递的强弱;3)神经元之间的联接强度是可以随训练改变的;)神经元之间的联接强度是可以随训练改变的;4)信号可以是起刺激作用的,也可以是起抑制作用的;)信号可以是起刺激作用的,
16、也可以是起抑制作用的;5)一个神经元接受的信号的累积效果决定该神经元的状态;)一个神经元接受的信号的累积效果决定该神经元的状态;6) 每个神经元可以有一个每个神经元可以有一个“阈值阈值”。人工神经网络基本要素人工神经网络基本要素 神经元神经元10/6511/65n 单输入神经元单输入神经元对照生物神经元网络结构,可以得到一个单输入神经元如图所示。其权值对照生物神经元网络结构,可以得到一个单输入神经元如图所示。其权值 w w 对应对应于突触的连接强度,细胞体对应于累加器和作用函数,神经元输出于突触的连接强度,细胞体对应于累加器和作用函数,神经元输出 y y 即轴突的信即轴突的信号。号。 u图中:
17、是指神经元的输入;是指连接权值; 是神经元的阈值;是神经元的净输入;是作用函数;是神经元的输出。wx)(xfy)(xfuwxy神经元的输出神经元的输出 y=f(wy=f(w* *u+u+ ) )人工神经网络基本要素人工神经网络基本要素 神经元神经元12/65可见,神经元的实际输出还取决于所选择的作用函数可见,神经元的实际输出还取决于所选择的作用函数f(x)。神经元的阈值可。神经元的阈值可以看作为一个输入值是常数以看作为一个输入值是常数1对应的连接权值。根据实际情况,也可以在神对应的连接权值。根据实际情况,也可以在神经元模型中忽略它。关于作用函数的选择将在后面详细讨论。在上述模型经元模型中忽略它
18、。关于作用函数的选择将在后面详细讨论。在上述模型中,中,w和和是神经元可调节的标量参数。设计者可以依据一定的学习规则来是神经元可调节的标量参数。设计者可以依据一定的学习规则来调整它调整它。n多输入神经元多输入神经元生物学研究结果表明一个神经元不止一个输入,每个神经元约与生物学研究结果表明一个神经元不止一个输入,每个神经元约与10104 410105 5个神经元个神经元通过突触连接。可见,神经元具有多输入特性。通过突触连接。可见,神经元具有多输入特性。一般结构如右图一般结构如右图1.21.2所示:所示:人工神经网络基本要素人工神经网络基本要素 神经元神经元)*(wyiiuf图图1.2 1.2 多
19、输入神经元多输入神经元13/65 3 3、人工神经网络模型、人工神经网络模型19431943年由美国心理学家年由美国心理学家Warren McCullochWarren McCulloch和数理逻辑学家和数理逻辑学家Walter PittsWalter Pitts首先提出了一个简单的多输入人工神经元模型,被称为首先提出了一个简单的多输入人工神经元模型,被称为MPMP的人工神经元的人工神经元模型。模型。神经网络拉开了研究的序幕。神经网络拉开了研究的序幕。 1958 1958 年年RosenblattRosenblatt在原有在原有 MPMP模型的基础上增加了学习机制。他提模型的基础上增加了学习机
20、制。他提出的出的感知器模型感知器模型,它把神经网络的研究从纯理论探讨引向了从工程上的,它把神经网络的研究从纯理论探讨引向了从工程上的实现。实现。人工神经网络基本要素人工神经网络基本要素 神经元神经元14/65n MPMP神经元的结构模型神经元的结构模型i)(ixf1uiw1ixiy2ujunuiw2jiwniw与第与第 i i 个神经元连接的其它神经元的输出;个神经元连接的其它神经元的输出;是非线性函数,又称为作用函数。是非线性函数,又称为作用函数。njuuuu,21)(ixf图中:图中:y yi i是第是第 i i 个神经元的输出,个神经元的输出,它可与其它多个神经元连接;它可与其它多个神经
21、元连接;nijiiiwwww,21分别是指其它神经元与第分别是指其它神经元与第i i个神经元个神经元连接权值:连接权值:是第是第 i i 个神经元的阈值个神经元的阈值;i是第是第 i i 个神经元的净输入;个神经元的净输入;ix分别是指分别是指 这是一个多输入单输出的非线性信息处理单元。其这是一个多输入单输出的非线性信息处理单元。其主要特点主要特点是是把神经元把神经元输入信号的加权和与其阈值相比较,以确定神经元的输出输入信号的加权和与其阈值相比较,以确定神经元的输出。如果加权和小于阈。如果加权和小于阈值,则神经元输出为零;如果加权和大于阈值,则神经元输出为值,则神经元输出为零;如果加权和大于阈
22、值,则神经元输出为1 1。人工神经网络基本要素人工神经网络基本要素 神经元神经元15/65第第 i i 个神经元的输出为:个神经元的输出为: 设设)(1ijnjjiiuwfyijnjjiiuwx1,则则)(iixfy f(x)f(x)是作用函数,也称激发函数。是作用函数,也称激发函数。 MP神经元模型中作用函数为神经元模型中作用函数为单位阶跃函数单位阶跃函数,见图,见图1.2所示所示。 )(xf10 x图1.2人工神经网络基本要素人工神经网络基本要素 神经元神经元16/65人工人工神经元在输入信号作用下产生输出信号的规律由神经元神经元在输入信号作用下产生输出信号的规律由神经元功能函数功能函数f
23、给出给出(也称也称激活函数或转移函数或作用函数激活函数或转移函数或作用函数),这是神经元模型的外特性。它包含,这是神经元模型的外特性。它包含了从输入信号到净输入、再到激活值、最终产生输出信号的过程。综合了净了从输入信号到净输入、再到激活值、最终产生输出信号的过程。综合了净输入、输入、f 函数的作用。函数的作用。f 函数形式多样,利用它们的不同特性可以构成功能各函数形式多样,利用它们的不同特性可以构成功能各异的神经网络。异的神经网络。 在神经元模型中,作用函数除了单位阶跃函数之外,还有其在神经元模型中,作用函数除了单位阶跃函数之外,还有其它形式。它形式。常见的神经元功能函数有:常见的神经元功能函
24、数有:n非对称型非对称型Sigmoid函数函数 xexf11)(非对称型非对称型Sigmoid函数如图函数如图 1.3(a)所示,可以用下式表示所示,可以用下式表示神经元功能函数非对称型Sigmoid函数 17/650,11)(xexf Sigmoid函数也称为函数也称为S型作用函数,是可微分的。有时为了需要,也可表达为型作用函数,是可微分的。有时为了需要,也可表达为如下的形式:如下的形式: , 见图 1.3(b)。式中, 。2)(xf10 x)(xf10 x12图 1.3(b)图 1.3(a)神经元功能函数非对称型Sigmoid函数 18/65n 对称型对称型Sigmoid函数函数 对称型对
25、称型Sigmoid函数如图函数如图1.4,可以用式表示,可以用式表示 见图见图1.4(a)xxeexf11)(0,11)(xxeexf式中,式中, =2=2。见图见图1.4(b)一般形式一般形式:图1.4(a)图1.4(b)神经元功能函数对称型Sigmoid函数 19/65n 对称型阶跃函数对称型阶跃函数 图所示的作用函数,为对称型阶跃函数,也称之为符号函数。如右图图所示的作用函数,为对称型阶跃函数,也称之为符号函数。如右图1.5可以可以表示为:表示为: 0,10,1)(xxxf采用阶跃作用函数的神经元,称为采用阶跃作用函数的神经元,称为阈值逻辑单元。阈值逻辑单元。如右图1.5图1.5神经元功
26、能函数对称型阶跃函数 20/65 n 线性函数线性函数 线性作用函数的输出等于输入,即线性作用函数的输出等于输入,即 : xxfy)(饱和线性作用函数:饱和线性作用函数:110010)(xxxxxfy对称饱和线性作用函数对称饱和线性作用函数:各函数图见图各函数图见图1.6神经元功能函数线性函数 21/65 线性作用函数如图所示线性作用函数如图所示 )(xf10 x)(xf0 x)(xf10 x1线性线性 饱和线性对称饱和线性饱和线性对称饱和线性 图1.6神经元功能函数线性函数 22/65n 高斯函数高斯函数 图所示的作用函数是高斯函数,可以表示为:图所示的作用函数是高斯函数,可以表示为: 式中
27、的式中的 反映出高斯函数的宽度。反映出高斯函数的宽度。 )(22)(xexf0)(xfx神经元功能函数高斯函数 23/65 神经网络强大的计算功能是通过神经元的互连而达到的。它一个复杂神经网络强大的计算功能是通过神经元的互连而达到的。它一个复杂的互连系统,单元之间的互连模式将对网络的性质和功能产生重要影响。的互连系统,单元之间的互连模式将对网络的性质和功能产生重要影响。互连模式也称为拓扑结构,它种类繁多,这里介绍一些典型的神经网络拓互连模式也称为拓扑结构,它种类繁多,这里介绍一些典型的神经网络拓扑结构扑结构。 根据神经元的拓扑结构形式不同,神经网络可分成以下两大类:根据神经元的拓扑结构形式不同
28、,神经网络可分成以下两大类: n 前向网络前向网络(前馈网络前馈网络) 人工神经网络的拓扑结构 网络可以分为若干网络可以分为若干“层层”,各层按信号传输先后顺序依次排列,第,各层按信号传输先后顺序依次排列,第 i 层的神经元只接受第层的神经元只接受第(i -1)层神经元给出的信号,各神经元之间没有反层神经元给出的信号,各神经元之间没有反馈。前馈型网络可用一有向无环路图表示,如图馈。前馈型网络可用一有向无环路图表示,如图1.7所示:所示:24/65图1.7 可以看出,输入节点并无计算功能,只是为了表征输入矢量各元素值。可以看出,输入节点并无计算功能,只是为了表征输入矢量各元素值。各层节点表示具有
29、计算功能的神经元,称为各层节点表示具有计算功能的神经元,称为计算单元计算单元。每个计算单元可以。每个计算单元可以有任意个输入,但只有一个输出,它可送到多个节点作输入。称有任意个输入,但只有一个输出,它可送到多个节点作输入。称输入节点输入节点层层为第零层。计算单元的各节点层从下至上依次称为第为第零层。计算单元的各节点层从下至上依次称为第1 至第至第N 层,由此层,由此构成构成 N 层前向网络。层前向网络。 第一节点层与输出节点统称为第一节点层与输出节点统称为“可见层可见层”,而其他中间层,而其他中间层 则称为隐含则称为隐含层,这些神经元称为隐节点。层,这些神经元称为隐节点。BP网络就是典型的前向
30、网络。网络就是典型的前向网络。25/65互连型神经网络 图1.8(b)反馈网络反馈网络 典型的反馈型神经网络如图典型的反馈型神经网络如图1.8(a),每个节点都表示一个计算单元,同时,每个节点都表示一个计算单元,同时接受外加输入和其它各节点的反馈输入,每个节点也都直接向外部输出。接受外加输入和其它各节点的反馈输入,每个节点也都直接向外部输出。Hopfield 网络即属此种类型。在某些反馈网络中,各神经元除接受外加网络即属此种类型。在某些反馈网络中,各神经元除接受外加输入与其它各节点反馈输入之外,还包括自身反馈。有时,反馈型神经输入与其它各节点反馈输入之外,还包括自身反馈。有时,反馈型神经网络也
31、可表示为一张完全的无向图,如图网络也可表示为一张完全的无向图,如图 1.8( b )。图中,每一个连接都。图中,每一个连接都是双向的。这里,第是双向的。这里,第i 个神经元对于第个神经元对于第j 个神经元的反馈与第个神经元的反馈与第j 至至i 神经元神经元反馈之突触权重相等,也即反馈之突触权重相等,也即wij= wji 。图1.8(a)26/65 在在无反馈的无反馈的前向网络前向网络中,信号一旦通过某个神经元,过程就结束了。中,信号一旦通过某个神经元,过程就结束了。而在而在反馈网络反馈网络中中,信号要在神经元之间反复往返传递,神经网络处在一种,信号要在神经元之间反复往返传递,神经网络处在一种不
32、断改变状态的动态过程中。它将从某个初始状态开始,经过若干次的变不断改变状态的动态过程中。它将从某个初始状态开始,经过若干次的变化,才会到达某种平衡状态,根据神经网络的结构和神经元的特性,还有化,才会到达某种平衡状态,根据神经网络的结构和神经元的特性,还有可能进入周期振荡或其它如浑沌等平衡状态。可能进入周期振荡或其它如浑沌等平衡状态。 以上介绍了两种最基本的人工神经网络结构,实际上,人工神经网络以上介绍了两种最基本的人工神经网络结构,实际上,人工神经网络还有许多种连接形式,例如,从输出层到输入层有反馈的前向网络,同层还有许多种连接形式,例如,从输出层到输入层有反馈的前向网络,同层内或异层间有相互
33、反馈的多层网络内或异层间有相互反馈的多层网络等等,如下图。等等,如下图。 互连型神经网络互连型神经网络 27/65 神经网络的工作过程主要分为神经网络的工作过程主要分为学习期和工作期学习期和工作期两个阶段:在两个阶段:在学习期学习期,神,神经元之间的连接权值按照一定的学习规则进行自动调整,调整的目标是使性经元之间的连接权值按照一定的学习规则进行自动调整,调整的目标是使性能函数达到最小。当性能指标满足要求时,学习过程结束;在能函数达到最小。当性能指标满足要求时,学习过程结束;在工作期工作期,神经,神经网络中各神经元的连接权值固定,由网络输入信号计算出网络的输出结果。网络中各神经元的连接权值固定,
34、由网络输入信号计算出网络的输出结果。 由于人工神经网络的由于人工神经网络的“知识知识”主要存储在网络中各神经元之间的连接权主要存储在网络中各神经元之间的连接权系数上,因此根据神经元的输入状态、连接权值及网络学习的评价标准来调系数上,因此根据神经元的输入状态、连接权值及网络学习的评价标准来调整连接权系数,即可完成学习过程。需要说明的是整连接权系数,即可完成学习过程。需要说明的是神经网络的学习神经网络的学习是按照一是按照一定的定的学习规则学习规则和和学习方式学习方式进行的。进行的。各种学习算法的研究,在人工神经网络理各种学习算法的研究,在人工神经网络理论与实践发展过程中起着重要作用。当前,人工神经
35、网络研究的许多课题都论与实践发展过程中起着重要作用。当前,人工神经网络研究的许多课题都致力于学习算法的改进、更新和应用。致力于学习算法的改进、更新和应用。人工神经网络的学习(训练)人工神经网络的学习(训练)n神经网络学习机理神经网络学习机理28/65学习规则是修正神经元之间连接强度或加权系数的算法,使获得知识结学习规则是修正神经元之间连接强度或加权系数的算法,使获得知识结构适用周围环境的变换构适用周围环境的变换 。目前,神经网络常用的学习规则,主要有目前,神经网络常用的学习规则,主要有Hebb学习规则、学习规则、 学习规则及概率式学习规则等。学习规则及概率式学习规则等。 n 联想式学习联想式学
36、习Hebb规则规则 由由 Hebb 提出来的,是最早,最著名的训练算法,至今仍在各种神经网提出来的,是最早,最著名的训练算法,至今仍在各种神经网络模型中起着重要作用。络模型中起着重要作用。Hebb规则假定规则假定:当两个细胞同时兴奋时,他们当两个细胞同时兴奋时,他们之间的连接强度应该增强,这条规则与之间的连接强度应该增强,这条规则与“条件反射条件反射”学说一致,后来得学说一致,后来得到了神经细胞学说的证实。到了神经细胞学说的证实。Hebb学习是一类相关学习,算法的学习是一类相关学习,算法的基本思想基本思想是:如果有两个神经元同时是:如果有两个神经元同时兴奋,则它们之间的连接强度的增强与它们的激
37、励的乘积成正比。兴奋,则它们之间的连接强度的增强与它们的激励的乘积成正比。学习规则Hebb规则 29/65在在Hebb学习规则中,学习信号简单地等于神经元的输出:学习规则中,学习信号简单地等于神经元的输出:即即用用yi(k)表示单元表示单元i 在在k 时刻的激活值(输出),时刻的激活值(输出),yj (k)表示单元表示单元j在在 k 时刻的时刻的激活值,激活值,wij(k)表示单元表示单元i到单元到单元j的的连接权值连接权值,则,则Hebb学习规则学习规则可表示如下:可表示如下: WWij ij(k)=W(k)=Wij ij(k+1)-W(k+1)-Wij ij(k)=(k)= * *y yi
38、 i(k) (k) * *y yj j(k+1),(k+1),式中式中为学习速率为学习速率上式表明,权值调整量与输入输出的乘积成上式表明,权值调整量与输入输出的乘积成正比。显然,经常出现的输入模式将对权正比。显然,经常出现的输入模式将对权向量有较大的影响。在这种情况下,向量有较大的影响。在这种情况下,Hebb学习规则需预先设置权饱和值,以防止输入学习规则需预先设置权饱和值,以防止输入和输出正负始终一致时出现权值无约束增长。和输出正负始终一致时出现权值无约束增长。ijijwiyjy)(k)y*(k)(w(f1)(kyn1iijij30/65n 纠正误差式学习纠正误差式学习Delta( )学习规则
39、学习规则 如图给出的神经网络结构)(0ku)(1ku)(kun)(kyi)(kdi)(0kwi)(1kwi)(kwni)(kei其中其中 是输入时第是输入时第 i 个神经元在个神经元在 k 时刻的实际输时刻的实际输出,出, 表示相应的期望输表示相应的期望输出,则误差信号为出,则误差信号为 )(kyi)(ku)(kdi)()()(kykdkeiiiDelta()学习规则 纠正误差学习的最终目的是使基于纠正误差学习的最终目的是使基于ei(k)的目标函数达到的目标函数达到最小,以使神经网络中的每一个输出单元的实际输出逼最小,以使神经网络中的每一个输出单元的实际输出逼近于期望输出。近于期望输出。31/
40、65可见,目标函数一旦确定,可见,目标函数一旦确定,纠正误差学习过程实质纠正误差学习过程实质上就是一个典型的函数最上就是一个典型的函数最优化过程。这样就可以用函数最优化求解方法来纠正误差。通常目标函数可优化过程。这样就可以用函数最优化求解方法来纠正误差。通常目标函数可以定义为下列以定义为下列误差准则函数误差准则函数:iiikykdkE2)()(21)(其中,是神经网络中第其中,是神经网络中第 i 个神经元的期望输出个神经元的期望输出(教师信号教师信号);为神经网络中第为神经网络中第 i 个神经元的实际输出;个神经元的实际输出;)(kdi)()()(kkfkyiuw 是神经网络中第是神经网络中第
41、 i 个神经元的作用函数;个神经元的作用函数;w(k)是与第是与第 i 个神经元的权值向量,即个神经元的权值向量,即Tniiikwkwkwk)(,),(),()(10wu(k)为输入向量,即为输入向量,即Tnkukukuk)(,),(),()(10uDelta学习规则 32/65现在的问题是如何调整权值现在的问题是如何调整权值 ,使准则函数最小。由多变量函数求极值问题可知,使准则函数最小。由多变量函数求极值问题可知,若沿着准则函数的负梯度方向不断调正若沿着准则函数的负梯度方向不断调正 值,可以使值,可以使 达到最小。即达到最小。即 )(kw)(kE)(kwE)()()(kwkEkwijij)(
42、)(kk uw实际就是第实际就是第 i 个神经元的净输入个神经元的净输入 ,那么,那么)(kxi)()()()()()()()()()()()()()(kukxfkekukxkykykEkwkxkxkEkwkEjiijiiiijiiij定义误差传播系数定义误差传播系数 为为)()()()()()()()(kxfkekxkykykEkxkEiiiiii于是可以得到于是可以得到wij(k)的修正量为的修正量为)()(kukwjij 学习规则又称误差修正规则。学习规则又称误差修正规则。规则是根据的负梯度方向调整神经元间的连接规则是根据的负梯度方向调整神经元间的连接权值,因此能够使误差函数权值,因此能
43、够使误差函数E达到最小值。达到最小值。Delta学习规则 其中是其中是 功能函数功能函数f的导数要求功能函数可导,因此它只适用于有导师学习的导数要求功能函数可导,因此它只适用于有导师学习中,定义功能函数为连续函数的情况。中,定义功能函数为连续函数的情况。(k)xfi33/65 利用大量利用大量神经元神经元相互连接组成的相互连接组成的人工神经网络人工神经网络,将显示出人脑的,将显示出人脑的若干特征,人工神经网络也具有初步的自适应与自组织能力。在学习若干特征,人工神经网络也具有初步的自适应与自组织能力。在学习或训练过程中改变突触权重或训练过程中改变突触权重w wijij值,以适应周围环境的要求。同
44、一网络值,以适应周围环境的要求。同一网络因学习方式及内容不同可具有不同的功能。因学习方式及内容不同可具有不同的功能。人工神经网络是一个具有人工神经网络是一个具有学习能力的系统,可以发展知识,以至超过设计者原有的知识水平学习能力的系统,可以发展知识,以至超过设计者原有的知识水平。通常,它的学习通常,它的学习( (或训练或训练) ) 方式可分为两种,一种是方式可分为两种,一种是有监督有监督(supervised) (supervised) 或称有导师的学习或称有导师的学习,这时利用给定的样本标准进行分类,这时利用给定的样本标准进行分类或模仿;另一种是或模仿;另一种是无监督无监督(unsupervi
45、sed) (unsupervised) 学习或称无导师学习学习或称无导师学习,这时,这时,只规定学习方式或某些规则,而具体的学习内容随系统所处环境只规定学习方式或某些规则,而具体的学习内容随系统所处环境( (即输即输入信号情况入信号情况) )而异,系统可以自动发现环境特征和规律性,具有更近似而异,系统可以自动发现环境特征和规律性,具有更近似于人脑的功能。于人脑的功能。人工神经网络学习方式人工神经网络的学习方式 n 有监督学习有监督学习(SL-Supervised Learning) 网络的输出有一个评价的标准,网络将实际输出和评价标准进行比较,由其网络的输出有一个评价的标准,网络将实际输出和评
46、价标准进行比较,由其误差信号决定连接权值的调整。误差信号决定连接权值的调整。)(0ku)(1ku)(kun)(kyiNN)(kdi)(kei评价标准是由外界提示给网络的,相当于由有一位知道正确结果的教评价标准是由外界提示给网络的,相当于由有一位知道正确结果的教师示教给网络,称为有导师学习师示教给网络,称为有导师学习35/65n 无监督的学习无监督的学习(ULS-Unsupervised Learning) 自我调整,不存在外部环境的示教,也不存在来自外部环境的反馈来指示网络期自我调整,不存在外部环境的示教,也不存在来自外部环境的反馈来指示网络期望输出什么或者当前输出是否正确,又称为无导师学习望
47、输出什么或者当前输出是否正确,又称为无导师学习)(0ku)(1ku)(kun)(kyiNN人工神经网络的学习方式 36/65n 感知器神经网络结构感知器神经网络结构 单层感知器模型单层感知器模型 1958年,美国学者年,美国学者Frank Rosenblatt 首次定义了一个具有单层计首次定义了一个具有单层计算单元的神经网络结构,取名为感知器。如果包括输入层在内,应算单元的神经网络结构,取名为感知器。如果包括输入层在内,应为两层。单计算节点感知器结构如图为两层。单计算节点感知器结构如图1.10。 单神经元感知器结构与单神经元感知器结构与McCulloch和和Pitts提出的提出的M-P神经元模
48、型十神经元模型十分分 相似,相似,它们之间的区别在于它们之间的区别在于神经元间连接权的变化神经元间连接权的变化。感知器的连接权。感知器的连接权定义为可变的,这样感知器就被赋予了学习的特性。定义为可变的,这样感知器就被赋予了学习的特性。图1.10感知器感知器神经网络神经网络37/65对于图1.10给出的感知器神经元,其净输入净输入及输出输出为 若令 ,则其中:和是感知器神经元的输出和阈值阈值;)(2211xfyuwuwuwuwxnniiniwwww21w)(uwfyyxy是输入与神经元之间的权值向量权值向量; 是感知器的输入向量感知器的输入向量;niwwww21wTnuuu21u)(f是感知器神
49、经元的作用函数作用函数,这里取阶跃函数。即0001)(xxxf感知器感知器神经网络神经网络38/65 为了便于分析,以为了便于分析,以二输入单神经元感知器二输入单神经元感知器为例说明感知器的分类性能。此时,为例说明感知器的分类性能。此时,类别界限为:类别界限为:02211uwuw 由于单神经元感知器作用函数是阶跃函数,其输出只能是由于单神经元感知器作用函数是阶跃函数,其输出只能是0或或1。感知器。感知器主要用作模式分类。主要用作模式分类。 当神经元净输入当神经元净输入x0 时时 f(x)=0 ,当净输入,当净输入x0 时时f(x)=1 。可见,单神经。可见,单神经元感知器可以将输入向量分为两类
50、,类别界限为元感知器可以将输入向量分为两类,类别界限为02211nniiuwuwuwuw 若将若将w1、w2和和 看作为确定的参数,那么上式实质上在输入向量空间看作为确定的参数,那么上式实质上在输入向量空间(u1,u2) 中定义了一条直线。该直线一侧的输入向量对应的网络输出为中定义了一条直线。该直线一侧的输入向量对应的网络输出为0,而直线另一侧的输入向量对应的网络输出则为而直线另一侧的输入向量对应的网络输出则为1。两点决定一条直线,。两点决定一条直线, 为了获得这条直线,只要找出该直线与空间坐标轴的交点即可。为了获得这条直线,只要找出该直线与空间坐标轴的交点即可。感知器感知器神经网络神经网络感