人工神经网络ANN方法简介医学课件.ppt_163文库

资源描述

1、大脑与神经细胞、神经细胞与神经大脑与神经细胞、神经细胞与神经细胞构成了庞大天文数字量级的细胞构成了庞大天文数字量级的高高度复杂的网络系统度复杂的网络系统。也正是有了这。也正是有了这样的样的复杂巨系统复杂巨系统，大脑才能担负起，大脑才能担负起人类认识世界和改造世界的任务。人类认识世界和改造世界的任务。“世界上最大的未开发疆域，是我世界上最大的未开发疆域，是我们两耳之间的空间。们两耳之间的空间。”（美国汉诺（美国汉诺威保险公司总裁比尔威保险公司总裁比尔奥伯莱恩）奥伯莱恩）生物系统是世界上生物系统是世界上最为复杂的系统最为复杂的系统。生物神经系统活动和脑的功能，其生物神经系统活动和脑的功能，其复杂

2、性是难以想象复杂性是难以想象的。的。人大脑平均只有人大脑平均只有3磅左右。磅左右。只占身体重量比例的只占身体重量比例的1/30；使眼睛可以辨别使眼睛可以辨别1000万种细万种细微的颜色；微的颜色；使肌肉使肌肉(如果全部向同一个如果全部向同一个方向运动方向运动)产生产生25吨的拉力；吨的拉力；是由是由100亿个脑细胞和亿个脑细胞和10兆兆个神经交汇丛组成。整个大脑个神经交汇丛组成。整个大脑的神经网络足足有的神经网络足足有10英里长。英里长。“你的大脑就像一个沉睡的巨人。你的大脑就像一个沉睡的巨人。”（英国的心理学家、教育家（英国的心理学家、教育家托尼托尼布赞）布赞）“如果我们迫使头脑开足如果我们

3、迫使头脑开足1/4的马力，我们就会毫不费力地学的马力，我们就会毫不费力地学会会40种语言，把整个百科全书从头到尾背下来，还可以完成十种语言，把整个百科全书从头到尾背下来，还可以完成十几个大学的博士学位。几个大学的博士学位。”（前苏联学者伊凡）（前苏联学者伊凡）一个正常的大脑记忆容量有大约一个正常的大脑记忆容量有大约6亿本书的知识总量，相当于一部大亿本书的知识总量，相当于一部大型电脑储存量的型电脑储存量的120万倍万倍大脑使你从出生开始每一秒钟可存储大脑使你从出生开始每一秒钟可存储1000条信息，直到老死为止条信息，直到老死为止全世界的电话线路的运作只相当于大约一粒绿豆体积的脑细胞全世界的电

4、话线路的运作只相当于大约一粒绿豆体积的脑细胞即使世界上记忆力最好的人，其大脑的使用也没有达到其功能的即使世界上记忆力最好的人，其大脑的使用也没有达到其功能的1%人类的知识与智慧，仍是人类的知识与智慧，仍是“低度开发低度开发”！人的大脑是个无尽！人的大脑是个无尽宝藏，可惜的是每个人终其一生，都忽略了如何有效地发挥它宝藏，可惜的是每个人终其一生，都忽略了如何有效地发挥它的的“潜能潜能”潜意识中激发出来的能量。潜意识中激发出来的能量。重新构造人脑，并让其代替人类完成相应的工作。重新构造人脑，并让其代替人类完成相应的工作。（无数科幻故事）（无数科幻故事）探索智能的奥秘探索智能的奥秘“观察、学习、理解

5、和认识的能力观察、学习、理解和认识的能力”(牛津大辞典牛津大辞典)“理解和各种适应性行为的能力理解和各种适应性行为的能力”(韦氏大辞典韦氏大辞典)智能是个体有目的的行为、合理的思维、以及有效的适应环境智能是个体有目的的行为、合理的思维、以及有效的适应环境的综合能力；也可以说是个体认识客观事物和运用知识解决问的综合能力；也可以说是个体认识客观事物和运用知识解决问题的能力。题的能力。与认识客观事物、客观世界和自我的能力；与认识客观事物、客观世界和自我的能力；通过通过获得经验、积累知识的能力；获得经验、积累知识的能力；理解知识、理解知识、知识和经验分析、解决问题的能力；知识和经验分析、解决问题的能力

6、；联想、联想、判断、决策的能力；、判断、决策的能力；运用运用进行抽象、概括的能力；进行抽象、概括的能力；以上以上5点是人类智能的基本能力。点是人类智能的基本能力。发现、发明、创造、创新的能力；发现、发明、创造、创新的能力；实时、迅速、合理地应付复杂环境的能力；实时、迅速、合理地应付复杂环境的能力；预测、洞察事物发展、变化的能力。预测、洞察事物发展、变化的能力。以上以上3点是前点是前5种能力新的综合表现形式。种能力新的综合表现形式。“人工智能（人工智能（Artificial Intelligence）”1956年初次引入年初次引入人工智能研究怎样人工智能研究怎样用计算机模仿人脑用计算机模仿人脑

7、从事推理、设计、思从事推理、设计、思考、学习等思维活动，以解决和处理较复杂的问题。考、学习等思维活动，以解决和处理较复杂的问题。目的之一：增加人类探索世界、推动社会前进的能力目的之一：增加人类探索世界、推动社会前进的能力通过制造和使用工具来加强和延伸人类的生存、发展。通过制造和使用工具来加强和延伸人类的生存、发展。目的之二：进一步认识自己。目的之二：进一步认识自己。用物化的智能来考察和研究人脑智能的物质过程和规律。用物化的智能来考察和研究人脑智能的物质过程和规律。1991年，人工智能学家年，人工智能学家D.Krish在在Int.J.Artificial Intelligence上提出人工智能

8、的上提出人工智能的5个基本问题：个基本问题：知识和概念化是否人工智能的核心？知识和概念化是否人工智能的核心？认知能力能否与载体分开来研究？认知能力能否与载体分开来研究？认知的轨迹是否可以用类自然语言来描述？认知的轨迹是否可以用类自然语言来描述？学习能力能否与认知分开来研究？学习能力能否与认知分开来研究？所有的认识是否有一种统一的结构？所有的认识是否有一种统一的结构？对以上对以上5个基本问题的不同回答已经形成个基本问题的不同回答已经形成3个主要的学术流派：个主要的学术流派：符号主义（符号主义（Symbolicisim）联结主义（联结主义（connetionism）行为主义（行为主义（action

9、ism）即传统的人工智能，认为人工智能源于数理逻辑，主张以知即传统的人工智能，认为人工智能源于数理逻辑，主张以知识为基础，通过推理来进行问题求解，在研究方法上采用计算识为基础，通过推理来进行问题求解，在研究方法上采用计算机模拟人类认知系统功能的功能模拟方法机模拟人类认知系统功能的功能模拟方法 Simon、Minsky和和Newell等认为，人和计算机都是一个物理等认为，人和计算机都是一个物理符号系统，因此可用计算机的符号演算来模拟人的认知过程；符号系统，因此可用计算机的符号演算来模拟人的认知过程；作为智能基础的知识是可用符号表示的一种信息形式，因此作为智能基础的知识是可用符号表示的一种信息形式

10、，因此人人工智能的核心问题是知识表示、知识推理和知识运用的信息处工智能的核心问题是知识表示、知识推理和知识运用的信息处理过程理过程。符号主义对符号符号主义对符号系统的描述系统的描述又称又称仿生学派仿生学派，认为人工智能源于仿生学，人思维的基本单，认为人工智能源于仿生学，人思维的基本单元是神经元，而非符号处理过程，主张用大脑工作模式取代符元是神经元，而非符号处理过程，主张用大脑工作模式取代符号操作的电脑工作模式；号操作的电脑工作模式；智能的本质是联结机制。神经网络是一个由大量简单的处理智能的本质是联结机制。神经网络是一个由大量简单的处理单元组成的高度复杂的大规模非线性自适应系统；单元组成的高度

11、复杂的大规模非线性自适应系统；“结构功能结构功能”的研究方法：认为功能、结构和智能行为是的研究方法：认为功能、结构和智能行为是密切相关的；密切相关的；1943年，年，McCulloch和和Pitts从神经元入手研究神从神经元入手研究神经网络模型经网络模型MP模型模型。此为人工神经网络研究之此为人工神经网络研究之始。始。人工神经网络（人工神经网络（Artificial Neural Network，ANN）从四个方）从四个方面刻画人脑的基本特征：面刻画人脑的基本特征：（1）、）、模仿生物神经元的功能，构造人工神经元的联结网络模仿生物神经元的功能，构造人工神经元的联结网络Cell bodyAxon

12、NucleusSynapse突触突触Dendrite树突树突（2）、）、人脑神经元既有局部的计算和存储功能，又通过联结构成统一人脑神经元既有局部的计算和存储功能，又通过联结构成统一的系统，人脑的计算建立在该系统的大规模并行模拟处理基础的系统，人脑的计算建立在该系统的大规模并行模拟处理基础之上。之上。ANN以具有局部计算能力的神经元为基础，同样实现信息的大以具有局部计算能力的神经元为基础，同样实现信息的大规模并行处理。规模并行处理。（3）、）、大脑对信息的记忆是通过改变突触的联结强度来实现并分布存大脑对信息的记忆是通过改变突触的联结强度来实现并分布存储。储。ANN模拟信息的大规模分布存储。模拟信

13、息的大规模分布存储。（4）、）、后天的训练使得人脑具有很强的自组织和自适应性。后天的训练使得人脑具有很强的自组织和自适应性。ANN根据人工神经元网络的结构特性，使用不同的训练过程，根据人工神经元网络的结构特性，使用不同的训练过程，自动从自动从“实践实践”（即训练样本）中获取相关知识，并存储在系（即训练样本）中获取相关知识，并存储在系统中。统中。“进化主义学派进化主义学派”、“控制论学派控制论学派”；认为人工智能来源于认为人工智能来源于控制论控制论，智能取决于感知和行动。提出，智能取决于感知和行动。提出智能行为的智能行为的“感知动作感知动作”模式模式，采用，采用行为模拟方法行为模拟方法；对符号主

14、义、联结主义采取批判的态度；（智能不需要知识、对符号主义、联结主义采取批判的态度；（智能不需要知识、表示和推理，只需要与环境交互作用）表示和推理，只需要与环境交互作用）80年代诞生智能控制和智能机器人系统学科（年代诞生智能控制和智能机器人系统学科（R.A.Brooks），为机器人研究开创了新的方法。），为机器人研究开创了新的方法。联结主义学派与高速发展的计算机技术相结合，发展为联结主义学派与高速发展的计算机技术相结合，发展为，是人工智能在，是人工智能在1980年代后的深化和发展年代后的深化和发展计算智能：借助现代计算机技术模拟人的智能控制、生命演计算智能：借助现代计算机技术模拟人的智能控制、

15、生命演化过程和人的智能行为，从而进行信息获取、处理、应用的化过程和人的智能行为，从而进行信息获取、处理、应用的理论和方法理论和方法计算智能是以数学模型、计算模型为基础，以分布、并行、计算智能是以数学模型、计算模型为基础，以分布、并行、仿生计算为特征，包含数据、算法和实现的信息系统仿生计算为特征，包含数据、算法和实现的信息系统计算智能强调模型的建立和构成，强调系统的自组织、自学计算智能强调模型的建立和构成，强调系统的自组织、自学习和自适应习和自适应计算智能的计算智能的3个主要分支：个主要分支：（模拟智能产生与作用赖以存在的结构）（模拟智能产生与作用赖以存在的结构）（模拟生命生成过程与智能进

16、化过程）（模拟生命生成过程与智能进化过程）（模拟智能的表现行为）（模拟智能的表现行为）人工神经网络是受生物神经网络的启发构造而成。人工神经网络是受生物神经网络的启发构造而成。James（心理学心理学，1890年）年）：大脑皮层每一点的活力产生：大脑皮层每一点的活力产生于其它点势能释放的综合效能，即其它点的于其它点势能释放的综合效能，即其它点的兴奋次数兴奋次数、强度强度和和所接受的能量所接受的能量。大脑含大脑含1011个神经元，它们通过个神经元，它们通过 1015个联结构成一个网络。个联结构成一个网络。每个神经元具有独立的接受、处理和传递电化学信号的能力，每个神经元具有独立的接受、处理和传递电化

17、学信号的能力，这种传递由神经通道来完成。这种传递由神经通道来完成。树突从细胞体伸向其它神经元，神经元之间接受信号的联结点树突从细胞体伸向其它神经元，神经元之间接受信号的联结点为突触。通过突触输入的信号起着兴奋为突触。通过突触输入的信号起着兴奋/抑制作用。当细胞体接抑制作用。当细胞体接受的累加兴奋作用超过某阈值时，细胞进入兴奋状态，产生冲受的累加兴奋作用超过某阈值时，细胞进入兴奋状态，产生冲动，并由轴突输出。动，并由轴突输出。Cell bodyAxonNucleusSynapse突触突触Dendrite树突树突神经元及其联结神经元及其联结神经元之间的联结强度决定信号传递的强弱神经元之间的联结

18、强度决定信号传递的强弱神经元之间的联结强度可以随训练而改变神经元之间的联结强度可以随训练而改变信号分为兴奋型和抑制型信号分为兴奋型和抑制型一个神经元接受的信号的累计效果决定该神经元的状态一个神经元接受的信号的累计效果决定该神经元的状态每个神经元有一个阈值每个神经元有一个阈值w1 Z=wixiw2wnx1x2xny=f(wixi-)轴突轴突突触突触树突树突内核内核轴突轴突第一阶段第一阶段1943年，心理学家年，心理学家McCulloch和数学家和数学家Pitts对神经元进行形式化研究，提对神经元进行形式化研究，提出了神经元的数学模型出了神经元的数学模型MP模型模型。1944年，年，D.O

19、.Hebb提出改变神经元联结强度的提出改变神经元联结强度的Hebb学习规则学习规则，至今仍然，至今仍然是人工神经网络学习算法的一个基本原则。是人工神经网络学习算法的一个基本原则。1957年，年，Rosenblatt首次引进感知器首次引进感知器(Perceptron)概念来模拟生物的感知、概念来模拟生物的感知、学习能力。学习能力。1962年，年，Widros提出用于自适应系统的连续取值的线性网络。提出用于自适应系统的连续取值的线性网络。第二阶段第二阶段1969年，年，M.L.Minsky和和S.Papert从理论上证明了当时单隐含层感知器网络从理论上证明了当时单隐含层感知器网络模型无法解决的许多

20、简单问题，包括最基本的模型无法解决的许多简单问题，包括最基本的“异或异或(XOR)”问题。使问题。使ANN理论的发展进入一个低谷；理论的发展进入一个低谷；1974年，年，Webos提出提出BP学习理论；学习理论；S.Grossberg提出自适应共振理论（提出自适应共振理论（ART）。）。第三阶段第三阶段突破性进展：突破性进展：1982年，年，CalTech的物理学家的物理学家J.Hopfield提出提出Hopfield神经网络神经网络系统系统(HNNS)模型，提出能量函数的概念，用非线性动力学方法来研究模型，提出能量函数的概念，用非线性动力学方法来研究ANN，开拓了开拓了ANN用于联想记忆和优

21、化计算的新途径；用于联想记忆和优化计算的新途径；1988年，年，McClelland和和Rumelhart利用多层反馈学习算法解决了利用多层反馈学习算法解决了“异或异或（XOR）”问题。问题。多输入、多输出的多层无环图，同一层间无联结。多输入、多输出的多层无环图，同一层间无联结。神经元分层排列，组成输入层、中间层（隐层）、输出层神经元分层排列，组成输入层、中间层（隐层）、输出层从输出层到输入层存在反馈的前向网。从输出层到输入层存在反馈的前向网。在无反馈前向网中同一层内存在神经元间的联结回路。在无反馈前向网中同一层内存在神经元间的联结回路。任意两个神经元间都可能存在有向联结。任意两个神经元间都可

22、能存在有向联结。网络处在动态中，直至达到某一平衡态、周期态或者混沌状态。网络处在动态中，直至达到某一平衡态、周期态或者混沌状态。感知器（感知器（Perceptron）：最早被设计并实现的人工神经网络。）：最早被设计并实现的人工神经网络。W.McCulloch和和W.Pitts总结生物神经元的基本生理特征，提出总结生物神经元的基本生理特征，提出一种简单的数学模型与构造方法，建立了一种简单的数学模型与构造方法，建立了阈值加权和模型阈值加权和模型，简，简称称M-P模型模型(“A Logical Calculus Immanent in Nervous Activity”,Bulletin of Ma

23、thematical Biophysics,1943(5):115133）。人工神经元模型是人工神经元模型是M-P模型的基础。模型的基础。Warren McCulloch（18981969）Walter Pitts(19231969)神经元及其联结神经元及其联结神经元之间的联结强度决定信号传递的强弱神经元之间的联结强度决定信号传递的强弱神经元之间的联结强度可以随训练而改变神经元之间的联结强度可以随训练而改变信号分为兴奋型和抑制型信号分为兴奋型和抑制型一个神经元接受的信号的累计效果决定该神经元的状态一个神经元接受的信号的累计效果决定该神经元的状态每个神经元有一个阈值每个神经元有一个阈值

24、突触突触树突树突突触突触树突树突内核内核轴突轴突模拟神经元的首要目标：输入信号的加权和模拟神经元的首要目标：输入信号的加权和（生物神经元的一阶特征）（生物神经元的一阶特征）人工神经元可以接受一组来自系统中其它神经元的输入信号，人工神经元可以接受一组来自系统中其它神经元的输入信号，每个输入对应一个权重，所有输入的加权和决定该神经元的激每个输入对应一个权重，所有输入的加权和决定该神经元的激活状态。每个权就相当于突触的联结强度。活状态。每个权就相当于突触的联结强度。w1 wi xiw2wnx1x2xnXWxwXuii)(多输入、单输出的加权和结构多输入、单输出的加权和结构设设X=(x1,x2,xn

25、)表示表示n个输入，个输入，W=(w1,w2,wn)表示它表示它们对应的联结权重。们对应的联结权重。故神经元所获得的输入信号累计效果为：故神经元所获得的输入信号累计效果为：1,niiiu Xw xW X称称u(X)为整合函数。为整合函数。w1 wi xiw2wnx1x2xn神经元获得网络输入信号后，信号累计效果整合函数神经元获得网络输入信号后，信号累计效果整合函数u(X)大于大于某阈值某阈值时，神经元处于激发状态；反之，神经元处于抑制状时，神经元处于激发状态；反之，神经元处于抑制状态。态。构造构造激活函数激活函数，用于表示这一转换过程。要求，用于表示这一转换过程。要求是是-1,1之间之间的

26、单调递增函数。的单调递增函数。激活函数激活函数通常为通常为3种类型，由此决定了神经元的输出特征。种类型，由此决定了神经元的输出特征。激活函数激活函数为符号函数：为符号函数：0,10,1)sgn()(uuuu1-1u 激活函数激活函数为分段线性函数：为分段线性函数：21,12121,21,1)(uuuuu1-1u 激活函数激活函数为为Sigmoid函数，其特点是单调递增、光滑且具函数，其特点是单调递增、光滑且具有渐近值，具有解析上的优点和神经生理学特征。有渐近值，具有解析上的优点和神经生理学特征。112)(ueuuueeu11)(1-1u将人工神经元的基本模型与激活函数将人工神经元的基本

27、模型与激活函数结合，即结合，即McCulloch Pitts模型。模型。w1 u=wixiw2wnx1x2xny=(u(X)-)1niiiyu Xw x“The conceptual scheme for learning in this context is a machine with an input channel for figures,a pair of YES and NO output indicators,and a reinforcement or reward button that the machines operator can use to indicate h

28、is approval or disapproval of the machines behavior.”M.L.Minsky and S.A.Papert,“Perceptron”(1988)ANN学习定理学习定理ANN可以学会它表达的任何东西。可以学会它表达的任何东西。（Rosenblatt，1962年）年）ANN的表达能力有限，其学习能力也受到限制。的表达能力有限，其学习能力也受到限制。ANN的学习过程就是训练过程，在将训练样本集输入到网络的的学习过程就是训练过程，在将训练样本集输入到网络的过程中，按照一定的方式来调整神经元之间的联结权重值，使过程中，按照一定的方式来调整神经元之间的联结

29、权重值，使得网络能够将训练样本集的内涵以联结权重矩阵的方式存储起得网络能够将训练样本集的内涵以联结权重矩阵的方式存储起来，从而使得网络在接受输入时，能够给出适当的输出。来，从而使得网络在接受输入时，能够给出适当的输出。有监督的学习（有监督的学习（Supervised learning）无监督的学习（无监督的学习（Unsupervised learning）感知器的学习是有监督的学习。学习的问题归结为求权重系数感知器的学习是有监督的学习。学习的问题归结为求权重系数W=(w1,w2,wn)和阈值和阈值的问题。的问题。基本思想：逐步将训练集中的样本输入到网络中，根据当前输基本思想：逐步将训练集中的

30、样本输入到网络中，根据当前输出结果和理想输出结果之间的差别来调整网络中的权重值。出结果和理想输出结果之间的差别来调整网络中的权重值。w1 u=wixiw2wnx1x2xny=(u(X)-)设设X=(x1,x2,xn)表示表示n个输入，个输入，W=(w1,w2,wn)表示它表示它们对应的联结权重。假设取们对应的联结权重。假设取符号函数为激活函数符号函数为激活函数，此为经典的此为经典的M-P模型：模型：0,10,1)sgn()(uuuuw1 u=wixiw2wnx1x2xn+1 or-11,0sgn()sgn(,)1,0uyu XW Xu训练集的样本（输入向量、输出值）为：训练集的样本（输入向量、

31、输出值）为：txxxX,.,21tyyyY,.,21t为样本数目。其中，为样本数目。其中，tkxxxxknkkk,.,2,1,.,21tkyk,.,2,11 重复下列过程，直至训练完成：重复下列过程，直至训练完成：对训练集中的每一个样本对训练集中的每一个样本(xk,yk)，重复如下过程重复如下过程：输入输入xk 计算计算若输出不正确，则若输出不正确，则初始化权重向量初始化权重向量W=(w1,w2,wn)，不妨取，不妨取w1=w2=,=wn=1 tkxwynikii,.,2,1,sgn1kiiikiiixwwyifxwwyif,1,1Marvin MinskyMIT Media Lab an

32、d MIT AI LabToshiba Professor of Media Arts and SciencesProfessor of E.E.and C.S.,M.I.Tminskymedia.mit.edu1969年，年，Minsky和和Papert在在“Perceptron”一书中从理论一书中从理论上证明单层感知器无法解决上证明单层感知器无法解决许多简单的问题，包括许多简单的问题，包括“异异或或(XOR)”问题。使得问题。使得ANN理理论的发展在论的发展在197080年代处年代处于低潮。导致政府和企业资于低潮。导致政府和企业资助减少，研究人员撤退助减少，研究人员撤退othersyxif

33、yxf,1,0),(f(x,y)y01x001110是一个双输入、单输出问题。对应的单层感知器为：是一个双输入、单输出问题。对应的单层感知器为：xyabzax+by=xy无论如何选择参数无论如何选择参数a，b，都无法满足划分。这种由单层，都无法满足划分。这种由单层感知器不能表达的问题称为感知器不能表达的问题称为线性不可分问题线性不可分问题。考虑考虑n个自变量的二值函数，当个自变量的二值函数，当n 4时，线性不可分的函数个数时，线性不可分的函数个数远远超过线性可分函数的个数远远超过线性可分函数的个数。自变量个数函数的个数线性可分函数的个数144216143256104465,5361,882

34、54.3 10994,57261.8 10195,028,134（R.O.Windner,1960）表明单层感知器不能表达的问题的数量远远超过它可以表达的表明单层感知器不能表达的问题的数量远远超过它可以表达的问题的数量问题的数量。一个单层网络可以将空间划分成两部分，用多个单层网络组一个单层网络可以将空间划分成两部分，用多个单层网络组合在一起，并用其中的一个去综合其它单层网络的结果，构合在一起，并用其中的一个去综合其它单层网络的结果，构成一个二层网络，即可用来在空间划分出一个封闭或开放的成一个二层网络，即可用来在空间划分出一个封闭或开放的凸域（子空间）。凸域（子空间）。x1z0 xnz1zn 设

35、有设有c 1个感知器，其中第个感知器，其中第k个感知器的输出为个感知器的输出为yk；对于；对于输入信号输入信号x=(x1,x2,xn)，每个感知器有，每个感知器有d个输入个输入uj(x)，j=1,2,d。1kcx1xnx2u1(x)u2(x)ud(x)x3wk1wk2wk3yk输入层输入层输出层输出层一个单层前向网可表示为：一个单层前向网可表示为：ckxuwxuwxykkkdjjkjk,.,2,1)(,1：激活函数；：激活函数；wk=(wk1,wk2,wkd)：第：第k个感知器的权重系数；个感知器的权重系数；k：第：第k个感知器的阈值；个感知器的阈值；u=(u1,u2,ud)：基函数：基函数x

36、 Rn，u(x)Rd若记若记wk0=k，u0=1，则上式变换为：，则上式变换为：ckxuwxydjjkjk,.,2,10 记记yk(wk;x)为第为第k个感知器当权重系数为个感知器当权重系数为wk Rd，输入为，输入为x Rn时的输出。时的输出。设训练集为设训练集为A=(x,t )|=1,2,N，其中，其中表示训练集表示训练集数据编号，数据编号，x Rn为输入，为输入，t Rc为输出，为输出，tk 为第为第k个感知器的个感知器的期望输出。期望输出。基于训练集基于训练集A的误差函数定义为：的误差函数定义为：NckkkktxwywE112;21)(学习的目标就是求学习的目标就是求wk，k=1,2

37、,c，使得误差函数，使得误差函数E(w)取最取最小值：小值：)(minwEA这就是这就是。单层前向网的学习原理本质上仍是感知器的学习原理。单层前向网的学习原理本质上仍是感知器的学习原理。关于基函数关于基函数u(x)，对学习集的每一个数据，记：，对学习集的每一个数据，记：dduuuxuxuxuu,.,)(),.,(),(2121其中其中 =1,2,N。由此，定义学习集。由此，定义学习集A的扩展集的扩展集B：NtuB,.,2,1),(不妨假设激活函数不妨假设激活函数为恒等函数，此时网络为线性单层前向网。为恒等函数，此时网络为线性单层前向网。由此写出误差函数：由此写出误差函数：Nckkkdjjkj

38、NckkdjjkjtuwtuwwE112111202121)(优化的目标函数为：优化的目标函数为：)(minwEB根据最小二乘法求解目标函数。根据最小二乘法求解目标函数。由多元函数取极值的必要条件，有：由多元函数取极值的必要条件，有：djckwwEkj,.,1,0;,.,10)(jNdikikikjutuwwwE 10)(010 jNdikikiutuwNjkdiNjikiutuuw101写成矩阵形式写成矩阵形式UTUUWTTcdccddwwwwwwwwwW.102212011110NdNNdduuuuuuuuuU.102212011110NcNNcctttttttttT.2122221112

39、11解的形式为：解的形式为：1UUUTWTT解存在的条件？解存在的条件？（略）（略）多层前向网的结构特点：多层前向网的结构特点：1、允许网络具有数层相连的处理单元；、允许网络具有数层相连的处理单元；2、联结是从前一层的每一个节点到下一层所有节点，不存在、联结是从前一层的每一个节点到下一层所有节点，不存在其它联结；其它联结；3、同一层内的节点之间不存在联结；、同一层内的节点之间不存在联结；4、不含任何反馈，故输出可以用输入和权重来表示。、不含任何反馈，故输出可以用输入和权重来表示。L层神经网络：具有层神经网络：具有L层可调节权重参数层可调节权重参数12M21x1xNNx2y112cy2ycW(1

40、)W(2)输入层输入层(X)隐层隐层(Z)输出层输出层(Y)双层前向网模型：具有两层可调节参数且同层无联结的不含反双层前向网模型：具有两层可调节参数且同层无联结的不含反馈的人工神经网络。馈的人工神经网络。X层层输入层输入层Y层层输出层输出层Z层层隐层隐层两层可调节权重参数：两层可调节权重参数：W(1)、W(2)设输入层的输入为设输入层的输入为(x1,x2,xn)Rn。首先考察隐层，设隐层神经元的激活函数为首先考察隐层，设隐层神经元的激活函数为。第。第j个隐层个隐层神经元的整合函数为神经元的整合函数为aj、输出值为、输出值为zj：MjazxwxwajjNiijiNijijij,.,2,10)1(

41、1)1()1()1(jiw第第1层（隐层）层（隐层）权重矩阵中第权重矩阵中第i个个输入联结到第输入联结到第j个个隐神经元的权重隐神经元的权重)1(j第第j个隐神经元的个隐神经元的阈值阈值12M21x1xNNx2y112cy2ycW(1)W(2)输入层输入层(X)隐层隐层(Z)输出层输出层(Y)同样考察输出层，设输出层神经元的激活函数为同样考察输出层，设输出层神经元的激活函数为。第。第k个个输出神经元以输出神经元以z=(z1,z2,zM)RM为输入，其整合函数为为输入，其整合函数为bk、输出值为输出值为yk：ckbyzwzwbkkMjjkjMjkjkjk,.,2,10)2(1)2()2()2(k

42、jw第第2层（输出层）层（输出层）权重矩阵中第权重矩阵中第j个隐神经元联个隐神经元联结到第结到第k个输出个输出神经元的权重神经元的权重第第k个输出神经元个输出神经元的阈值的阈值)2(k12M21x1xNNx2y112cy2ycW(1)W(2)输入层输入层(X)隐层隐层(Z)输出层输出层(Y)联合得到双层前向网的输出表达式：联合得到双层前向网的输出表达式：12M21x1xNNx2y112cy2ycW(1)W(2)输入层输入层(X)隐层隐层(Z)输出层输出层(Y)ckxwwxwwyMjNiijikjMjkNijijikjk,.,2,1,00)1()2(1)2(1)1()1()2(记为：记为：xWW

43、Ty;,)2()1()2()1(为简化计，考虑两类的分类问题。为简化计，考虑两类的分类问题。设设A、B是分类空间是分类空间Rd中两个不相交的集合。考虑离散型双层前中两个不相交的集合。考虑离散型双层前向网向网T(W(1),W(2),(1),(2);x)，取其激活函数，取其激活函数、为符号函数为符号函数sgn(u)。BxAxxWWT,1,1);,()2()1()2()1(该双层前向网的学习目标是，对该双层前向网的学习目标是，对(A,B)求求(W(1),W(2),(1),(2)使得：使得：求解上述方程。求解上述方程。多层前向网的学习原理：基于适当定义的误差函数，在网络中多层前向网的学习原理：基于适

44、当定义的误差函数，在网络中调整权重矩阵和阈值等参数，使得误差函数极小化。调整权重矩阵和阈值等参数，使得误差函数极小化。与单层前向网和感知器相比较，多层前向网由于隐层的存在，与单层前向网和感知器相比较，多层前向网由于隐层的存在，无法判别隐层神经元对输入误差的直接影响（无法知道隐层神无法判别隐层神经元对输入误差的直接影响（无法知道隐层神经元的理想输出值）。因此，对参数权重矩阵和阈值的调整遇经元的理想输出值）。因此，对参数权重矩阵和阈值的调整遇到困难。到困难。12M21 x1N y112c y2 yc W(1)W(2)输入层输入层(X)隐层隐层(Z)输出层输出层(Y)x2 xN解决方案解决方案计算两

45、个传播方向：计算两个传播方向：“前向传播前向传播(Forward propagation)”：输入：输入xi进入网络，按照进入网络，按照信息在网络中前进移动的方向，逐次计算信息在网络中前进移动的方向，逐次计算aj，zj直至输出直至输出yk的的过程；（输入向输出方向的前向传播）过程；（输入向输出方向的前向传播）“后向传播后向传播(Back propagation)”：利用输出层的误差来估计输：利用输出层的误差来估计输出层的直接前导层的误差，再依次估计更前一层的误差，获得出层的直接前导层的误差，再依次估计更前一层的误差，获得所有各层的误差估计。（输出误差向输入方向的后向传播）所有各层的误差估计。（

46、输出误差向输入方向的后向传播）（Rumelhart,Hinton&Williams,1986）12M21 x1N y112c y2 yc W(1)W(2)输入层输入层(X)隐层隐层(Z)输出层输出层(Y)x2 xN设学习集有设学习集有T个样本，记为个样本，记为x,t，=1,2,T，其中：，其中：ccNNRttttRxxxx,.,.,2121输入输入理想输出理想输出ccRyyyy,.,21计算实际输出，记为：计算实际输出，记为：实际输出实际输出显然有：显然有：2,11)()(lwEwETlijlij因此只需讨论某一个样本点的误差传播，以下略去上标因此只需讨论某一个样本点的误差传播，以下略去上标

47、。故误差函数为：故误差函数为：TckkkTcTtyyyyEEE112121121,.,MjazxwxwajjNiijiNijijij,.,2,10)1(1)1()1(ckbyzwzwbkkMjjkjMjkjkjk,.,2,10)2(1)2()2(已知下列记号：已知下列记号：又定义第又定义第k个输出神经元和第个输出神经元和第j个隐层神经元的个隐层神经元的为：为：MjaEckbEjjkk,.,2,1,.,2,1,)1()2(输出层误差率输出层误差率隐层误差率隐层误差率由微分链式法则，计算可得：由微分链式法则，计算可得：ckkkjjjjckjkkkkjjwaazzbbyyEaE1)2()2(1)1(

48、输出层误差率输出层误差率隐层误差率隐层误差率kkkkkkkyEbbyyEbE)2(因此，得到：因此，得到：ijjijjjijkkjkkkjxwaaEwEzwbbEwE)1()1()1()2()2()2()2(k)1(j)1()2(jikjwEwE(1)(2)kjijEwEw取步长因子为固定步长取步长因子为固定步长，得到学习规则：，得到学习规则：TijjiTjkkjxwzw1)1()1(1)2()2(其中其中 k(2)、k(1)均与均与有关，有关，k=1,2,c；j=0,1,M；i=0,1,N。已知已知D Rn是一个凸集。求解无约束优化问题是一个凸集。求解无约束优化问题)(minxfDx就是寻

49、求就是寻求x*D使得使得)()(minxfxfDx若若f(x)为连续可微凸函数，问题归结为求解为连续可微凸函数，问题归结为求解nRxf00)(可运用可运用Newton迭代法数值求解。迭代法数值求解。（但（但f(x)的凸性难以保证，求解也非常困难的凸性难以保证，求解也非常困难）构造逐次使目标函数值下降的搜索算法：构造逐次使目标函数值下降的搜索算法：,.1,01kxfxxkkkk满足：满足：0kkkxfxf1 k0：步长因子步长因子设学习集有设学习集有T个样本，记为个样本，记为x,t，=1,2,T，其中：，其中：ccNNRttttRxxxx,.,.,2121输入输入理想输出理想输出又设又设k=1,

50、2,c；j=0,1,M；i=0,1,N。对于给定的。对于给定的 =1,2,T，指标，指标仍然不标出。仍然不标出。初始化权重矩阵和阈值初始化权重矩阵和阈值wji(1)(0)、wkj(2)(0)（已包含（已包含阈值）阈值），选择学习效率，选择学习效率。设第设第t次迭代值次迭代值wji(1)(t)、wkj(2)(t)已知，已知，（1）前向过程：对）前向过程：对 =1,2,T，依次计算：，依次计算：（2）后向过程：利用公式）后向过程：利用公式对对 =1,2,N，依次计算，依次计算kkjjybza,)1()2(,jkkkkyEb)2(ckkkjjjwa1)2()2()1(设第设第t次迭代值次迭代值wj

展开阅读全文