1、神经网络和遗传算法神经网络和遗传算法 概述与应用的研究概述与应用的研究 主讲人:苏主讲人:苏 丹丹 2022年8月15日主要介绍以下四方面的内容:主要介绍以下四方面的内容:1 1、数据挖掘(、数据挖掘(DMDM)2 2、人工神经网络(、人工神经网络(ANNANN)3 3、遗传算法(、遗传算法(GAGA)4 4、基于神经网络和遗传算法的应用简介、基于神经网络和遗传算法的应用简介 证券预测技术证券预测技术一、技术的产生一、技术的产生 随着数据库技术的迅速发展以及数据库管理系随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们不再满足于仅从数据库系统实统的广泛应用,人们不再满足于仅从数据库系统
2、实现数据的录入、查询、统计等功能,希望能够对激现数据的录入、查询、统计等功能,希望能够对激增的数据进行更高层次的分析,进而发现数据中存增的数据进行更高层次的分析,进而发现数据中存在的关系和规则,根据现有的数据预测未来的发展在的关系和规则,根据现有的数据预测未来的发展趋势。挖掘数据背后隐藏的知识的手段就成为了改趋势。挖掘数据背后隐藏的知识的手段就成为了改变变“数据爆炸但知识贫乏数据爆炸但知识贫乏”现象的现象的“杀手锏杀手锏”。二、数据仓库(二、数据仓库(Data WarehouseData Warehouse)数据仓库数据仓库就是将多个数据源收集的信息存放在一个一致的模式下就是将多个数据源收集的
3、信息存放在一个一致的模式下 可独立成产品,自己有相对简单的数据分析机制。可独立成产品,自己有相对简单的数据分析机制。可为可为KDDKDD作数据准备,相当于作数据准备,相当于KDDKDD的数据清理。的数据清理。注意:注意:KDDKDD可以不需数据仓库而用自己的数据清理模块可以不需数据仓库而用自己的数据清理模块数据源数据源数据源数据源数据源数据源清理清理变换变换集成集成装入装入数数据据仓仓库库查询和分析工具查询和分析工具客户客户客户客户三、数据挖掘的定义三、数据挖掘的定义 数据挖掘(数据挖掘(Data MiningData Mining)就是从)就是从大量的、不大量的、不完全的、有噪声的、模糊的、
4、随机的完全的、有噪声的、模糊的、随机的实际应用数据实际应用数据中,提取隐含在其中的、人们事先不知道的、但又中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和是潜在有用的信息和知识知识的过程。的过程。数据挖掘定义含义:数据源必须是真实的、大数据挖掘定义含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。现放之四海皆准的知识,仅支持特定的发现问题。何谓知识?何谓知识?人们把概念、规则、模式、规
5、律和约束等看作人们把概念、规则、模式、规律和约束等看作知识,把数据看作是形成知识的源泉。知识,把数据看作是形成知识的源泉。原始数据可以是结构化的、半结构化的,甚至原始数据可以是结构化的、半结构化的,甚至是分布在网络上的异构型数据。是分布在网络上的异构型数据。发现的知识可以被用于信息管理,查询优化,发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维决策支持和过程控制等,还可以用于数据自身的维护。护。四、支持数据挖掘的技术基础四、支持数据挖掘的技术基础 1 1、对数据挖掘进行支持的三种基础技术:对数据挖掘进行支持的三种基础技术:海量数据搜集海量数据搜集 强大的多处
6、理器计算机强大的多处理器计算机 数据挖掘算法数据挖掘算法 2 2、激发数据挖掘开发、应用和研究的技术理由:、激发数据挖掘开发、应用和研究的技术理由:超大规模数据库的出现;超大规模数据库的出现;先进的计算机技术;先进的计算机技术;对巨大量数据的快速访问;对巨大量数据的快速访问;对这些数据应用精深的统计方法计算的能力。对这些数据应用精深的统计方法计算的能力。五、数据挖掘技术的演变过程五、数据挖掘技术的演变过程 1 1、机器学习机器学习 机器学习的过程就是将一些已知的并已被成机器学习的过程就是将一些已知的并已被成 功解决的问题作为功解决的问题作为范例范例输入计算机,机器通过学输入计算机,机器通过学
7、习这些范例习这些范例总结并生成相应的规则总结并生成相应的规则,这些规则具,这些规则具 有通用性,使用它们可以解决某一类的问题。有通用性,使用它们可以解决某一类的问题。2 2、知识工程知识工程 直接给计算机输入已被代码化的直接给计算机输入已被代码化的规则规则,而计,而计 算机是通过使算机是通过使用这些规则来解决某些问题用这些规则来解决某些问题。3 3、知识发现知识发现 (Knowledge discovery in databaseKnowledge discovery in database,KDD)KDD)在神经网络理论的指导下,人们把所有从源数在神经网络理论的指导下,人们把所有从源数据中挖
8、掘模式或联系的方法取名为知识发现,并用据中挖掘模式或联系的方法取名为知识发现,并用KDDKDD来描述整个数据发掘的过程,而用数据挖掘来描来描述整个数据发掘的过程,而用数据挖掘来描述使用挖掘算法进行数据挖掘的子过程述使用挖掘算法进行数据挖掘的子过程。由此可见,由此可见,数据挖掘是一门交叉学科,它把人数据挖掘是一门交叉学科,它把人们对数据的应用从简单查询,提升到从数据中挖掘们对数据的应用从简单查询,提升到从数据中挖掘知识,提供决策支持,汇聚了数据库、人工智能、知识,提供决策支持,汇聚了数据库、人工智能、数理统计、可视化、并行计算等方面的技术,形成数理统计、可视化、并行计算等方面的技术,形成新的技术
9、热点。新的技术热点。1 1、学习领域知识、学习领域知识2 2、相关知识和目标、相关知识和目标3 3、选择数据、选择数据4 4、数据清理、数据清理5 5、数据转换、数据转换6 6、提取特征、提取特征7 7、选挖掘功能、选挖掘功能8 8、选算法、选算法9 9、挖掘模式、挖掘模式1010、评价结果,知识表达、评价结果,知识表达1111、可视化,转换、可视化,转换1212、知识发现、知识发现KDD Process:关键步骤关键步骤早期预处理早期预处理数据预处理数据预处理挖挖 掘掘后期处理后期处理Data mining:the core of knowledge discovery process.Da
10、ta CleaningData IntegrationDatabasesData WarehouseTask-relevant DataSelectionData MiningPattern Evaluation KDDKDD思想思想 1 1 真理在数据中真理在数据中v哲学思想哲学思想 -”-”实事求是实事求是”。“实事实事”-数据,数据,“是是”-知识,规律,知识,规律,“求求”-发现、挖掘。发现、挖掘。专家系统是专家系统是“唯专家唯专家”的。的。KDDKDD“唯数据唯数据”的。的。KDDKDD思想思想 2 2 训练数据训练数据包含真理的数据包含真理的数据训练数据例子分析训练数据例子分析(专
11、家系统观点专家系统观点)v假定假定10001000次行车记录,其中快车有次行车记录,其中快车有200200次,次,常速常速800800次共肇事次共肇事1010次,肇事记录中有次,肇事记录中有7 7次是次是快车。快车。v专家系统专家系统:先请教一位交通管理专家,将先请教一位交通管理专家,将(历历史史)经验表达到知识库。历史经验经验表达到知识库。历史经验:“:“十次肇十次肇事九次快事九次快”,得出下列规则:,得出下列规则:v专家系统结论专家系统结论v IF IF 肇事肇事 THEN THEN 开了快车开了快车 置信度置信度90%90%v(不正确的经验)不正确的经验)KDDKDD实事求是地挖掘车速和
12、安全的关联实事求是地挖掘车速和安全的关联(1)1000(1)1000个记录中快车出现个记录中快车出现200200次。次。v数据库对数据库对“快车快车”事件的支持度事件的支持度=200/1000=20%=200/1000=20%v肇事肇事 且且 快车的事件占快车的事件占0.7%0.7%(2)10(2)10次肇事中快车出现次肇事中快车出现7 7次,则次,则“肇事、快车肇事、快车”的置信度为的置信度为70%70%。vR1R1:肇事、快车,支持度:肇事、快车,支持度 0.7%0.7%,置信度,置信度70%70%vKDDKDD真理在训练数据中,真理在训练数据中,训练数据经过数训练数据经过数清理、核对数据
13、、除噪,节约时空。清理、核对数据、除噪,节约时空。KDDKDD思想思想3 3测试测试 -实践是检验真理的标准实践是检验真理的标准v用另一组测试数据来测试和修正。用另一组测试数据来测试和修正。v测试数据测试数据从从10001000号号19991999号共号共10001000项。快车项。快车记录记录200200次,肇事记录次,肇事记录1010次,肇事记录中次,肇事记录中9 9次为快车。次为快车。v规则规则R1R1与这组数据与这组数据不吻合不吻合。用增量挖掘技术,它把。用增量挖掘技术,它把新的新的10001000个记录增加到图个记录增加到图1 1上,得到上,得到20002000个记录中个记录中快车出
14、现快车出现400400次,快车且肇事支持度为次,快车且肇事支持度为0.8%0.8%,2020次次肇事记录中共肇事记录中共1616次是快车的。于是得出下列规则:次是快车的。于是得出下列规则:vR2R2:快车、肇事,支持度为:快车、肇事,支持度为0.8%0.8%,置信度为,置信度为80%80%v测试修正的规则测试修正的规则R2R2在在更大范围更大范围内给出了内给出了更准确更准确的精的精度。度。六、数据挖掘与传统分析方法的区别六、数据挖掘与传统分析方法的区别 数据数据挖掘与传统的数据分析(如查询、报表、挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是联机应用分析)的本质区别是数据挖掘是
15、在没有明数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识确假设的前提下去挖掘信息、发现知识。数据挖掘。数据挖掘所得到的信息应具有所得到的信息应具有先前未知、有效和可实用先前未知、有效和可实用三个三个特征。特征。先前未知的信息是指该信息是预先未曾预料到先前未知的信息是指该信息是预先未曾预料到的的,既数据挖掘是要发现那些不能靠直觉发现的信既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。的信息越是出乎意料,就可能越有价值。七、数据挖掘的过程七、数据挖掘的过程 1、确定业务对象、确定
16、业务对象 2、数据准备、数据准备 1)数据的选择数据的选择 2)数据的预处理数据的预处理 3)数据的转换数据的转换 3、数据挖掘、数据挖掘 4、结果分析、结果分析 5、知识的同化、知识的同化 将得到的知识集成到业务信息系统组织结构中将得到的知识集成到业务信息系统组织结构中Data Mining and Business Intelligence 商务智能金字塔商务智能金字塔Increasing potentialto supportbusiness decisions向上向上更宏观更宏观决策决策上面是老板上面是老板下面是打工仔下面是打工仔不同层次的用户不同层次的用户End UserBusine
17、ss Analyst DataAnalystDBADecision Making 决策决策Data Presentation表达表达Visualization TechniquesData Mining 挖掘挖掘Information DiscoveryData Exploration 统计等等统计等等Statistical Summary,Querying,and Reporting预处理预处理/集成集成,数据仓库数据仓库Data Sources 数据源数据源Paper,Files,Web documents,Scientific experiments,Database SystemsDa
18、ta Mining:Confluence of Multiple Disciplines 同学们常常要扮演同学们常常要扮演 标注红色的几个专家标注红色的几个专家Data MiningDatabase TechnologyStatisticsMachineLearningPatternRecognitionAlgorithmOtherDisciplinesVisualization数学家数学家模式识别模式识别图像图形图像图形AI专家专家数据库专家数据库专家算法算法其他其他八、数据挖掘的内容八、数据挖掘的内容 1 1、关联知识(关联知识(Association)2 2、分类知识分类知识(Class
19、ificationClustering)3 3、预测型知识(预测型知识(Prediction)4 4、偏差型知识偏差型知识(Deviation)九、数据挖掘常用技术九、数据挖掘常用技术 统计分析方法统计分析方法、决策树、决策树、神经网络、神经网络、遗传算、遗传算 法、粗糙集法、粗糙集(Rough Set)v数据库分析和决策支持数据库分析和决策支持市场分析和管理:市场分析和管理:市场营销,顾客关系,菜篮子分析风险分析和管理:风险分析和管理:天气预报,保险业,股市分析诈骗预测和管理诈骗预测和管理v其他应用其他应用Test mining,Web analysis智能查询回答智能查询回答间谍搜集的情报
20、间谍搜集的情报22十、数据挖掘的应用十、数据挖掘的应用关联规则的挖掘关联规则的挖掘关联规则的挖掘关联规则的挖掘双项统计双项统计支持度支持度 啤酒,面饼啤酒,面饼 2 2 烤鸭,面饼烤鸭,面饼 2 2 烤鸭,面酱烤鸭,面酱 3 3 面饼,面酱面饼,面酱 2 2从双项统计中看出,从双项统计中看出,6060%的的顾客买了烤鸭和面酱。顾客买了烤鸭和面酱。40%40%的顾客同时买了烤鸭、面的顾客同时买了烤鸭、面饼和面酱。饼和面酱。关联规则的挖掘关联规则的挖掘于是可得出下列三条规则:于是可得出下列三条规则:vR1R1:烤鸭:烤鸭面饼、面酱。支持度面饼、面酱。支持度40%40%,置信度为,置信度为66.6%
21、66.6%vR2R2:面饼:面饼烤鸭、面酱。支持度烤鸭、面酱。支持度40%40%,置信度为,置信度为66.6%66.6%vR3R3:面酱:面酱面饼、烤鸭。支持度面饼、烤鸭。支持度40%40%,置信度为,置信度为50%50%例如例如v用用R1R1,将烤鸭降价以促销面饼、面酱,很可能会破产,将烤鸭降价以促销面饼、面酱,很可能会破产v用用R2R2,将面饼降价,以促销烤鸭,可能会发财;,将面饼降价,以促销烤鸭,可能会发财;v用用R3R3,引不起顾客的热情。,引不起顾客的热情。分类知识的挖掘分类知识的挖掘例例 住房分配住房分配(1)(1)输入输入:训练数据集训练数据集(2)(2)输出输出从训练数据中从训
22、练数据中 发现发现 一个分房计分公式一个分房计分公式(知识知识)(3)(3)调用特征选择过程调用特征选择过程 比较张三与张比较张三与张C C,李四与李,李四与李D D,王五与王,王五与王E E发现身高、发现身高、体重与住房无关,删去。体重与住房无关,删去。(4)(4)交互生成加权机制交互生成加权机制Total=PTotal=Pi iF Fi i,其中,其中F Fi i为各条为各条 件化值,件化值,P Pi i为加权值,为加权值,总分为应住面积总分为应住面积。(5)(5)根据训练数据,调整加权。例如张三及类似与张根据训练数据,调整加权。例如张三及类似与张 三条件的应住三条件的应住8585平方米等
23、,使得在训练集中各记平方米等,使得在训练集中各记 录的录的PPi iF Fi i刚好在应住面积的分数段中。刚好在应住面积的分数段中。(6)(6)用测试数据测试和修改公式用测试数据测试和修改公式Total=PTotal=Pi iF Fi i。(7)(7)公式公式Total=PTotal=Pi iF Fi i 就是从数据中就是从数据中“挖挖”出来的分出来的分类类 知识,可以推广使用。知识,可以推广使用。分类知识的挖掘分类知识的挖掘基于决策树的分类基于决策树的分类例高校招生:德智体三标准例高校招生:德智体三标准(门限值门限值)。决策树。决策树德德不合格不合格0.1%智智(总分总分)99.9%不合格不
24、合格60%体体39.9%不合格不合格6.9%录取录取33%基于决策树的分类基于决策树的分类v上述决策树把上述决策树把德育放在第一位德育放在第一位。绝大多数考。绝大多数考生都符合标准。第一节点生都符合标准。第一节点(德育德育)分流后,候分流后,候选空间并未迅速减少选空间并未迅速减少(信息增益小信息增益小)v如果把智育节点提前,可在第一步将候选集如果把智育节点提前,可在第一步将候选集缩小到缩小到1/31/3,提高整个系统效率。,提高整个系统效率。v事实上的招生过程采用了这一方法。事实上的招生过程采用了这一方法。v决策树分类技术研究节点集的选择,节点的决策树分类技术研究节点集的选择,节点的次序,门限
25、值的确定公式等等,其目的是使次序,门限值的确定公式等等,其目的是使分类比较准确,比较快。分类比较准确,比较快。一、人脑信息处理机制一、人脑信息处理机制 生物神经系统是一个有高度组织和相互作用的生物神经系统是一个有高度组织和相互作用的数量巨大的细胞组织群体。人类大脑的神经细胞大数量巨大的细胞组织群体。人类大脑的神经细胞大约在约在10101111一一10101313个左右。神经细胞也称神经元,是神个左右。神经细胞也称神经元,是神经系统的基本单元,它们按不同的结合方式构成了经系统的基本单元,它们按不同的结合方式构成了复杂的神经网络。通过神经元及其联接的可塑性,复杂的神经网络。通过神经元及其联接的可塑
26、性,使得大脑具有学习、记忆和认知等各种智能。使得大脑具有学习、记忆和认知等各种智能。神经元由细胞体和延伸部分组成。延伸部分按神经元由细胞体和延伸部分组成。延伸部分按功能分有两类,一种称为树突,占延伸部分大多数,功能分有两类,一种称为树突,占延伸部分大多数,用来接受来自其他神经元的信息;另一种用来传递用来接受来自其他神经元的信息;另一种用来传递和输出信息,称为轴突。和输出信息,称为轴突。生物神经元之间的相互连接从而让信息传递的生物神经元之间的相互连接从而让信息传递的部位称为部位称为突触突触。突触的联接是。突触的联接是可塑可塑的,也就是说突的,也就是说突触特性的变化是受到外界信息的影响或自身生长过
27、触特性的变化是受到外界信息的影响或自身生长过程的影响。程的影响。多个神经元以突触联接形成了一个神经网络。多个神经元以突触联接形成了一个神经网络。生物神经网络的功能决不是单个神经元生理和信息生物神经网络的功能决不是单个神经元生理和信息处理功能的简单叠加,而是一个有层次的、多单元处理功能的简单叠加,而是一个有层次的、多单元的动态信息处理系统。的动态信息处理系统。二、人工神经网络二、人工神经网络(Artificial Neural Networks)定义定义 人工神经网络的研究出发点是以生物神经元学说为基人工神经网络的研究出发点是以生物神经元学说为基础的。础的。人工神经网络是一个并行、分布处理结构,
28、由具有局人工神经网络是一个并行、分布处理结构,由具有局部内存处理单元部内存处理单元(PE)(PE)及其联接的无向讯号通道互连而成。及其联接的无向讯号通道互连而成。每个每个PEPE有一个单一的输出联接,这个输出可以根据需要被有一个单一的输出联接,这个输出可以根据需要被分支成希望个数的许多并行联接,且这些并行联接都输出分支成希望个数的许多并行联接,且这些并行联接都输出相同的信号,即相应相同的信号,即相应PEPE的信号,信号的大小不因分支的多的信号,信号的大小不因分支的多少而变化。少而变化。PEPE的输出信号可以是任何需要的数学模型,每的输出信号可以是任何需要的数学模型,每个个PEPE中进行的操作必
29、须是完全局部的。也就是说,它必须中进行的操作必须是完全局部的。也就是说,它必须仅仅依赖于经过输入联接到达处理单元的所有输入信号的仅仅依赖于经过输入联接到达处理单元的所有输入信号的当前值和存储在当前值和存储在PEPE局部内存中的值。局部内存中的值。三、人工神经网络的组成要素三、人工神经网络的组成要素 1 1、一组处理单元(、一组处理单元(PEPE或或ANAN););2 2、处理单元的激活状态(、处理单元的激活状态(a ai i););3 3、每个处理单元的输出函数(、每个处理单元的输出函数(f fi i););4 4、处理单元之间的联接模式;、处理单元之间的联接模式;5 5、传递规则(、传递规则
30、(wwijijo oi i););6 6、把处理单元的输入及当前状态结合起来产生激、把处理单元的输入及当前状态结合起来产生激 活值的激活规则(活值的激活规则(F Fi i););7 7、通过经验修改联接强度的学习规则;、通过经验修改联接强度的学习规则;8 8、系统运行的环境(样本集合)。、系统运行的环境(样本集合)。四、人工神经网络的特点四、人工神经网络的特点 1 1、人工神经网络是一个非线性的有向图,图中含有可以通、人工神经网络是一个非线性的有向图,图中含有可以通 过改变权大小来存放模式的加权边,并且可以从不完整过改变权大小来存放模式的加权边,并且可以从不完整 的或未知的输入找到模式。的或未
31、知的输入找到模式。2 2、人工神经网络可以根据所在的环境去改变它的行为。、人工神经网络可以根据所在的环境去改变它的行为。3 3、不同的人工神经网络模型,有不同的学习、不同的人工神经网络模型,有不同的学习/训练算法。训练算法。4 4、由于其运算的不精确性,表现成、由于其运算的不精确性,表现成“去噪音、容残缺去噪音、容残缺”的能的能 力,利用这种不精确性,实现模式的自动分类。力,利用这种不精确性,实现模式的自动分类。5 5、信息的分布存提供容错功能、信息的分布存提供容错功能 1)1)当其中某一个或某几个点被破坏时,信息仍可被存取当其中某一个或某几个点被破坏时,信息仍可被存取2)2)系统在受到局部损
32、伤时还可以正常工作系统在受到局部损伤时还可以正常工作3)3)对一类网来说,当它完成学习后,如果再让它学习新的对一类网来说,当它完成学习后,如果再让它学习新的 东西,这时就会破坏原来已学会的东西。东西,这时就会破坏原来已学会的东西。五、人工神经网络的应用五、人工神经网络的应用 人们主要将其用于语音、视觉、知识处理、人们主要将其用于语音、视觉、知识处理、辅助决策等方面。辅助决策等方面。在数据压缩、模式匹配、系统建模、模糊在数据压缩、模式匹配、系统建模、模糊控制、求组合优化问题的最佳解的近似解(不控制、求组合优化问题的最佳解的近似解(不是最佳近似解)等方面也有较好的应用。是最佳近似解)等方面也有较好
33、的应用。六、人工神经网络基本模型六、人工神经网络基本模型 1 1、标准标准MPMP模型模型 njijjiivwu1)(iiufv 神经元神经元i与与j之间的连接强度,称之间的连接强度,称连接权连接权神经元神经元j的输出,即神经元的输出,即神经元i的一个输入的一个输入神经元神经元i的阈值的阈值神经元神经元i的活跃值,即神经元状态的活跃值,即神经元状态激活激活(励励)函数函数激活激活(励励)函数函数f f作用:作用:实现对该神经元所获得的网络输入的变换,表实现对该神经元所获得的网络输入的变换,表 达了神经元的输入输出特性。达了神经元的输入输出特性。形式:形式:1)1)线性函数线性函数 f f(ne
34、tnet)=k=k*net+cnet+c netooc2)2)非线性斜面函数非线性斜面函数 if netf(net)=k*net if|net|0为一常数,被称为饱和值,为该神经元的最大输出。为一常数,被称为饱和值,为该神经元的最大输出。3)3)阈值函数、阶跃函数阈值函数、阶跃函数-net o if netf(net)=、均为非负实数,均为非负实数,为阈值为阈值 -if net 二值形式:二值形式:双极形式:双极形式:1if net 1 if netf(net)=f(net)=0if net -1 if net 4)4)S形函数形函数MP模型使用的激励函数模型使用的激励函数 最简单形式为:最简
35、单形式为:f(net)=1/(1+exp(-d*net)函数的饱和值为函数的饱和值为0和和1,S形函数有较好的增益控制形函数有较好的增益控制o-0neta+b o(0,c)netac=a+b/2阶跃函数阶跃函数S形函数形函数2、感知器模型感知器模型 感知器是一种早期的神经网络模型,感知器中感知器是一种早期的神经网络模型,感知器中第一次引入了学习的概念,使人脑所具备的学习功第一次引入了学习的概念,使人脑所具备的学习功能在基于符号处理的数学到了一定程度的模拟。能在基于符号处理的数学到了一定程度的模拟。1)1)简单感知器简单感知器 简单感知器模型仍是简单感知器模型仍是MPMP模型的结构,但它通过模型
36、的结构,但它通过采用采用监督学习监督学习来逐步增强模来逐步增强模式划分的能力,达到所式划分的能力,达到所谓学习的目的。谓学习的目的。感知器处理单元对感知器处理单元对n n个输入进行加权和操作个输入进行加权和操作v v即:即:其中,其中,WiWi为第为第i i个输入到处理单元的连接权值,个输入到处理单元的连接权值,为阈值,为阈值,f f取阶跃函数。取阶跃函数。感知器在形式上与感知器在形式上与MPMP模型差不多,它们之间的区模型差不多,它们之间的区别在于神经元间连接权的变化。别在于神经元间连接权的变化。感知器的连接权定义感知器的连接权定义为可变的为可变的,这样感知器就被赋予了学习的特性。,这样感知
37、器就被赋予了学习的特性。简单感简单感知器引入的学习算法称为误差学习算法。知器引入的学习算法称为误差学习算法。)(0iniiixwfv(1)(1)选择一组初始权值选择一组初始权值w wi i(0)(0)。(2)(2)计算某一输入模式对应的实际输出与期望输出的误差计算某一输入模式对应的实际输出与期望输出的误差(3)(3)如果如果小于给定值,结束,否则继续。小于给定值,结束,否则继续。(4)(4)更新权值更新权值(阈值可视为输入恒为阈值可视为输入恒为1 1的一个权值的一个权值):wi(t+1)wi(t+1)-wi(t)dy(t)xi。为在区间为在区间(0,1)(0,1)上的一个常数,称为学习步长,它
38、的取上的一个常数,称为学习步长,它的取 值与训练速度和值与训练速度和w w收敛的稳定性有关;收敛的稳定性有关;d d、y y为神经元的期为神经元的期 望输出和实际输出;望输出和实际输出;x xi i为神经元的第为神经元的第i i个输入。个输入。(5)(5)返回返回(2)(2),重复,直到对所有训练样本模式,网络输出均,重复,直到对所有训练样本模式,网络输出均 能满足要求。能满足要求。2)2)误差型学习规则误差型学习规则3 3、简单单级网简单单级网x1x2xno1o2omwnmw11w1mw2mwn1输出层输出层输入层输入层输出层的第输出层的第j个神经元的网络输入记为个神经元的网络输入记为net
39、j:netj=x1w1j+x2w2j+xnwnj 其中其中,1 j m4、单级横向反馈网:、单级横向反馈网:NET(t+1)=X(t)W+O(t)V输出层输出层x1o1w11w1mx2o2w2mxnomwn1输入层输入层V5 5、多级网多级网输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xnv层次划分层次划分 信号只被允许从较低层流向较高层。信号只被允许从较低层流向较高层。层号确定层的高低:层号较小者,层次较低,层号较大层号确定层的高低:层号较小者,层次较低,层号较大者,层次较高。者,层次较高。输入层:被记作第输入层:被记作第0 0层。负责接收来自网络外部的信息层。负责接收来自网络外
40、部的信息第第j j层:第层:第j-1j-1层的直接后继层层的直接后继层(j0)(j0),它直接接受第,它直接接受第j-1j-1层的输出。层的输出。输出层:它是网络的最后一层,具有该网络的最大层号,输出层:它是网络的最后一层,具有该网络的最大层号,负责输出网络的计算结果。负责输出网络的计算结果。隐藏层:除输入层和输出层以外的其它各层叫隐藏层。隐藏层:除输入层和输出层以外的其它各层叫隐藏层。隐藏层不直接接受外界信号,也不直接向外界发送信号隐藏层不直接接受外界信号,也不直接向外界发送信号v约定约定 :输出层的层号为该网络的层数:输出层的层号为该网络的层数:n n层网络,或层网络,或n n级网络。级网
41、络。第第j-1j-1层到第层到第j j层的连接矩阵为第层的连接矩阵为第j j层连接矩阵,输出层对层连接矩阵,输出层对应的矩阵叫输出层连接矩阵。一般用应的矩阵叫输出层连接矩阵。一般用W W(j)(j)表示第表示第j j层矩阵层矩阵。输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xnW(1)W(2)W(3)W(h)6 6、多级网、多级网h h层网络层网络输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xnW(1)W(2)W(3)W(h)7 7、循环网、循环网x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnv如果将输出信号反馈到输入端如果将输出信号反馈到输入端,就可构成
42、一个多层就可构成一个多层的循环网络。的循环网络。v输入的原始信号被逐步地输入的原始信号被逐步地“加强加强”、被、被“修复修复”。v大脑的短期记忆特征大脑的短期记忆特征看到的东西不是一下子就看到的东西不是一下子就从脑海里消失的。从脑海里消失的。v稳定:反馈信号会引起网络输出的不断变化。我们稳定:反馈信号会引起网络输出的不断变化。我们希望这种变化逐渐减小,并且最后能消失。当变化希望这种变化逐渐减小,并且最后能消失。当变化最后消失时,网络达到了平衡状态。如果这种变化最后消失时,网络达到了平衡状态。如果这种变化不能消失,则称该网络是不稳定的。不能消失,则称该网络是不稳定的。七、七、BP神经网络神经网络
43、x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnW(1)W(2)W(3)W(L)1 1、网络的拓扑结构、网络的拓扑结构 lBPBP网的结构网的结构v神经元的网络输入:神经元的网络输入:neti=x1w1i+x2w2i+xnwniv神经元的输出:神经元的输出:l实验:增加隐藏层的层数和隐藏层神经元个数不实验:增加隐藏层的层数和隐藏层神经元个数不一定总能够提高网络精度和表达能力。一定总能够提高网络精度和表达能力。lBPBP网一般都选用二级网络。网一般都选用二级网络。netenetfo11)()1()()1(1)(22ooooeenetfnetnetl输出函数分析输出函数分析 0.5f(
44、net)0.25o0 1 1(0,0.5)net(0,0)oneteo11应该将应该将netnet的值尽量控制在收敛比较快的范围内的值尽量控制在收敛比较快的范围内可以用其它的函数作为激活函数,只要该函数是处处可以用其它的函数作为激活函数,只要该函数是处处可导的可导的2 2、训练过程概述、训练过程概述 样本:样本:(输入向量,理想输出向量输入向量,理想输出向量)权初始化权初始化:“小随机数小随机数”与饱和状态;与饱和状态;“不同不同”保证网络可以学习。保证网络可以学习。v 向前传播阶段向前传播阶段(1 1)从样本集中取一个样本)从样本集中取一个样本(Xp(Xp,Yp)Yp),将,将XpXp输入网
45、络;输入网络;(2 2)计算相应的实际输出)计算相应的实际输出OpOp:Op=Fl(Op=Fl(F2(F1(XpW(1)W(2)(F2(F1(XpW(1)W(2)W(L)W(L)v 向后传播阶段向后传播阶段误差传播阶段误差传播阶段(1 1)计算实际输出)计算实际输出OpOp与相应的理想输出与相应的理想输出YpYp的差;的差;(2 2)按极小化误差的方式调整权矩阵。)按极小化误差的方式调整权矩阵。(3 3)网络关于第)网络关于第p p个样本的误差测度:个样本的误差测度:(4 4)网络关于整个样本集的误差测度:网络关于整个样本集的误差测度:mjpjpjpoyE1221ppEE输出层权的调整输出层权
46、的调整wpq=wpq+wpqwpq=qop=fn(netq)(yq-oq)op=oq(1-oq)(yq-oq)op wpqANpANq第第L-1层层第第L层层wpq3 3、误差传播分析、误差传播分析隐藏层权的调整隐藏层权的调整 ANpANqANhvhppk-11kwp1wpqqkwpmmk第第k-2层层第第k层层第第k-1层层隐藏层权的调整隐藏层权的调整 pk-1的值和的值和1k,2k,mk 有关有关不妨认为不妨认为pk-1通过权通过权wp1对对1k做出贡献,做出贡献,通过权通过权wp2对对2k做出贡献,做出贡献,通过权通过权wpm对对mk做出贡献。做出贡献。pk-1=fk-1(netp)(w
47、p11k+wp22k+wpmm k)4 4、基本的、基本的BPBP算法算法 v样本集:样本集:S=(X1,Y1),(,(X2,Y2),),(,(Xs,Ys)v基本思想基本思想:逐一地根据样本集中的样本逐一地根据样本集中的样本(X(Xk k,Y,Yk k)计算出实际输出计算出实际输出O Ok k和误差测度和误差测度E E1 1,对,对WW(1)(1),WW(2)(2),WW(L)(L)各做一次调各做一次调整,重复这个循环,直到整,重复这个循环,直到EEp p。用输出层的误差调整输出层权矩阵,并用此误差估计用输出层的误差调整输出层权矩阵,并用此误差估计输出层的直接前导层的误差,再用输出层前导层误差
48、输出层的直接前导层的误差,再用输出层前导层误差估计更前一层的误差。如此获得所有其它各层的误差估计更前一层的误差。如此获得所有其它各层的误差估计,并用这些估计实现对权矩阵的修改。形成将输估计,并用这些估计实现对权矩阵的修改。形成将输出端表现出的误差沿着与输入信号相反的方向逐级向出端表现出的误差沿着与输入信号相反的方向逐级向输入端传递的过程输入端传递的过程 v收敛速度问题收敛速度问题 v局部极小点问题局部极小点问题 逃离逃离/避开局部极小点避开局部极小点:修改修改W W、V V的初值的初值并非总有效并非总有效逃离逃离统计方法;将统计方法;将CauchyCauchy训练与训练与BPBP算法结合起来,
49、算法结合起来,可在保证训练速度不被降低的情况下,找到全局极小点可在保证训练速度不被降低的情况下,找到全局极小点 v网络瘫痪问题网络瘫痪问题 在训练中,权可能变得很大,这会使神经元的网络输入在训练中,权可能变得很大,这会使神经元的网络输入变得很大,从而又使得其激活函数的导函数在此点上的变得很大,从而又使得其激活函数的导函数在此点上的取值很小。根据相应式子,此时的训练步长会变得非常取值很小。根据相应式子,此时的训练步长会变得非常小,进而将导致训练速度降得非常低,最终导致网络停小,进而将导致训练速度降得非常低,最终导致网络停止收敛止收敛 5 5、存在的几个问题、存在的几个问题 v稳定性问题稳定性问题
50、 用修改量的综合实施权的修改用修改量的综合实施权的修改连续变化的环境,它将变成无效的连续变化的环境,它将变成无效的 v步长问题步长问题 BPBP网络的收敛是基于无穷小的权修改量网络的收敛是基于无穷小的权修改量步长太小,收敛就非常慢步长太小,收敛就非常慢步长太大,可能会导致网络的瘫痪和不稳定步长太大,可能会导致网络的瘫痪和不稳定自适应步长,使得权修改量能随着网络的训练而不断变自适应步长,使得权修改量能随着网络的训练而不断变化。化。一、概述一、概述l遗传算法是一种大致基于模拟进化的学习方法遗传算法是一种大致基于模拟进化的学习方法l假设通常被描述为二进制位串,也可以是符号表达假设通常被描述为二进制位