1、LOGO指指导教师导教师:XXX人工智能人工智能u9.1 知识工程简介u9.2专家系统可以解决的问题u9.3模糊专家可以解决的问题u9.4神经网络可以解决的问题u9.5遗传算法可以解决的问题u9.6混合智能系统可以解决的问题u9.7数据挖掘和知识发现第九章第九章 知识工程和数据挖掘知识工程和数据挖掘9.1 本章讨论如何选择正确的工具,构建智能系统并将本章讨论如何选择正确的工具,构建智能系统并将数据转化为知识?数据转化为知识?u选择正确的工具对于构建智能系统而选择正确的工具对于构建智能系统而言是最关键的部分言是最关键的部分u构建智能系统的过程从理解问题域开构建智能系统的过程从理解问题域开始。首先
2、要评估问题,确定可用的数始。首先要评估问题,确定可用的数据及解决问题需要的信息。一旦理解据及解决问题需要的信息。一旦理解了问题,就可以选择合适的工具并用了问题,就可以选择合适的工具并用这个工具开发系统了这个工具开发系统了构建基于知识的智能系统的过程称为知识工程构建基于知识的智能系统的过程称为知识工程u知识有知识有6个基本阶段个基本阶段u1)评估问题)评估问题u2)获取数据和知识)获取数据和知识u3)开发原型系统)开发原型系统u4)开发完整的系统)开发完整的系统u5)评估并修订系统)评估并修订系统u6)整合和维护系统)整合和维护系统9.2 专家系统可以解决什么问题?专家系统可以解决什么问题?9.
3、2 专家系统可以解决什么问题?专家系统可以解决什么问题?u案例:诊断专家系统案例:诊断专家系统u开发一个智能系统,帮助修理开发一个智能系统,帮助修理Mac电脑的故障。专家系统可以解决这样电脑的故障。专家系统可以解决这样的问题吗?的问题吗?u要开发计算机诊断系统,就要获取计算机要开发计算机诊断系统,就要获取计算机故障排除的知识。故障排除的知识。u使用故障排除手册是比较好的方法,手册使用故障排除手册是比较好的方法,手册中的知识非常简练,几乎可以直接用在专中的知识非常简练,几乎可以直接用在专家系统中。完全可以不必咨询专家。家系统中。完全可以不必咨询专家。9.2 专家系统可以解决什么问题?专家系统可以
4、解决什么问题?u故障是通过一系列可视的检查或测试来发故障是通过一系列可视的检查或测试来发现的。现的。u首先收集最初的信息(系统没有启动),首先收集最初的信息(系统没有启动),根据其作出推断。根据其作出推断。u然后,收集另外的信息(电源良好、电线然后,收集另外的信息(电源良好、电线没有问题)。没有问题)。u最终确定导致故障的原因。最终确定导致故障的原因。9.2 专家系统可以解决什么问题?专家系统可以解决什么问题?u大大9.2 专家系统可以解决什么问题?专家系统可以解决什么问题?u Rule: 1u if task is system start-upu then ask problemu Rul
5、e: 2u if task is system start-upu and problem is system does not startu then ask test power cordsu Rule: 3u if task is system start-upu and problem is system does not startu and test power cords is oku then ask test Powerstrip9.2 专家系统可以解决什么问题?专家系统可以解决什么问题?9.2 专家系统可以解决什么问题?专家系统可以解决什么问题?u如何选择专家系统开发工具?
6、如何选择专家系统开发工具?u应该使问题的特征和工具的功能相匹配应该使问题的特征和工具的功能相匹配u工具不仅包含高级程序语言,如工具不仅包含高级程序语言,如LISP、OPS、C、Java,也包含专家系统框架,也包含专家系统框架u语言提供了更大的灵活性,但是要求的编语言提供了更大的灵活性,但是要求的编程技巧也很高程技巧也很高u框架虽然不灵活,但是提供了内建推理引框架虽然不灵活,但是提供了内建推理引擎、解释工具盒用户界面,只需输入英语擎、解释工具盒用户界面,只需输入英语编写的规则,可快速构建原型编写的规则,可快速构建原型9.2 专家系统可以解决什么问题?专家系统可以解决什么问题?u如何选择框架?如何
7、选择框架?u选择专家系统框架的时候,要考虑的是如何表达选择专家系统框架的时候,要考虑的是如何表达知识的(规则或者结构)知识的(规则或者结构)u它使用的推理机制(前向链接或者后向链接)是它使用的推理机制(前向链接或者后向链接)是什么什么u框架是否支持部准确的推理以及使用的技术是什框架是否支持部准确的推理以及使用的技术是什么(贝叶斯推理、确定因子或者模糊逻辑)么(贝叶斯推理、确定因子或者模糊逻辑)u框架是否有框架是否有“开放开放”的架构以允许使用外部的数的架构以允许使用外部的数据文件和程序以及用户如何和专家系统交互据文件和程序以及用户如何和专家系统交互u选择工具的一个重要指标是提供工具的公司的稳选
8、择工具的一个重要指标是提供工具的公司的稳定性定性9.2 专家系统可以解决什么问题?专家系统可以解决什么问题?u公司稳定性的指标是什么公司稳定性的指标是什么u一些重要的指标,例如,公司是哪年成立一些重要的指标,例如,公司是哪年成立的、员工的人数、总收入、智能系统产品的、员工的人数、总收入、智能系统产品的总收入如、已售产品的数量等。的总收入如、已售产品的数量等。9.2 专家系统可以解决什么问题?专家系统可以解决什么问题?u要先确定模糊技术是否适合解决这类问题要先确定模糊技术是否适合解决这类问题u如果不能为每个可能的情况制定出一系列如果不能为每个可能的情况制定出一系列的规则,那就使用模糊逻辑。的规则
9、,那就使用模糊逻辑。u如果问题本身就不严密,那么模糊技术就如果问题本身就不严密,那么模糊技术就是最好的选择是最好的选择u案例案例3:决策支持模糊技术:决策支持模糊技术u开发一个智能系统来评估抵押申请。模糊开发一个智能系统来评估抵押申请。模糊专家系统能处理这样的问题吗?专家系统能处理这样的问题吗?9.3 模糊专家系统可以解决的问题模糊专家系统可以解决的问题u首先用模糊术语表达抵押申请评估中的基首先用模糊术语表达抵押申请评估中的基本概念本概念u然后用合适的模糊工具在原型系统中实现然后用合适的模糊工具在原型系统中实现这个概念这个概念u最后用选定的测试用例来测试和优化系统最后用选定的测试用例来测试和优
10、化系统9.3 模糊专家系统可以解决的问题模糊专家系统可以解决的问题9.3 模糊专家系统可以解决的问题模糊专家系统可以解决的问题9.3 模糊专家系统可以解决的问题模糊专家系统可以解决的问题9.3 模糊专家系统可以解决的问题模糊专家系统可以解决的问题9.3 模糊专家系统可以解决的问题模糊专家系统可以解决的问题9.3 模糊专家系统可以解决的问题模糊专家系统可以解决的问题9.3 模糊专家系统可以解决的问题模糊专家系统可以解决的问题9.3 模糊专家系统可以解决的问题模糊专家系统可以解决的问题9.3 模糊专家系统可以解决的问题模糊专家系统可以解决的问题u开发原型系统的最后一个阶段是评估和测开发原型系统的最
11、后一个阶段是评估和测试试9.3 模糊专家系统可以解决的问题模糊专家系统可以解决的问题u案例案例5:预测神经网络:预测神经网络u开发一个进行房地产评估的智能系统,神开发一个进行房地产评估的智能系统,神经网络可以解决这个问题吗?经网络可以解决这个问题吗?u房地产评估是一个根据类似住房销售价格房地产评估是一个根据类似住房销售价格的知识预测给定房产的市场价的问题的知识预测给定房产的市场价的问题u选择神经网络,我们无法理解房产的估价选择神经网络,我们无法理解房产的估价是如何得出的,因为神经网络对于用户来是如何得出的,因为神经网络对于用户来讲是个黑盒子讲是个黑盒子9.4 神经网络可以解决的问题神经网络可以
12、解决的问题u输入(房产的位置、居住面积、卧室数量输入(房产的位置、居住面积、卧室数量、浴室数量、土地尺寸、供热系统等)、浴室数量、土地尺寸、供热系统等)u输出就是我们试图预测的结果输出就是我们试图预测的结果u我们有很多例子来训练神经网络,即最近我们有很多例子来训练神经网络,即最近销售的房屋及其价格的特征,训练集需要销售的房屋及其价格的特征,训练集需要足够的丰富足够的丰富9.4 神经网络可以解决的问题神经网络可以解决的问题u如何让确定训练集如何让确定训练集“足够大足够大”?u网络的推广能力取决于三个主要因素:训网络的推广能力取决于三个主要因素:训练集大小、网络的架构和问题的复杂性。练集大小、网络
13、的架构和问题的复杂性。u公式公式 其中其中N是训练例子的数量,是训练例子的数量,nw是网络中突出权重的数量,是网络中突出权重的数量,e是测试允许是测试允许额网络误差额网络误差u有些特征(例如房子的条件和位置)可以有些特征(例如房子的条件和位置)可以确定在确定在1(没有吸引力)到(没有吸引力)到10(很有吸引(很有吸引力之间)力之间)9.4 神经网络可以解决的问题神经网络可以解决的问题enNwu修改数据修改数据u数据分为三种类型:连续数据、离散数据数据分为三种类型:连续数据、离散数据和分类数据和分类数据u u 例如,例子中的面积在例如,例子中的面积在59231,我们,我们可以将最小值设为可以将最
14、小值设为50,最大值设为,最大值设为250,任何地域最小值的值都映射为最小值,任何地域最小值的值都映射为最小值,大于最大值的值映射为最大值大于最大值的值映射为最大值u实际面积为实际面积为121,9.4 神经网络可以解决的问题神经网络可以解决的问题最小值最大值最小值实际值修改后的数据-355. 050-25050-121121修改后的数据u离散数据,例如卧室的数量和浴室的数量离散数据,例如卧室的数量和浴室的数量,也有最大值和最小值,也有最大值和最小值u卧室的数量一般为卧室的数量一般为04u修改后的离散数据修改后的离散数据9.4 神经网络可以解决的问题神经网络可以解决的问题u分类数据,例如性别和婚
15、姻状态可以用分类数据,例如性别和婚姻状态可以用1/N编码来修改编码来修改u例如,婚姻状态可以是单身、离异、已婚例如,婚姻状态可以是单身、离异、已婚、#寡,已婚的人可以用(寡,已婚的人可以用(0 0 1 0)表)表示示9.4 神经网络可以解决的问题神经网络可以解决的问题u输入层(有十个神经元)将修改后的输入输入层(有十个神经元)将修改后的输入值传到隐含层值传到隐含层u隐含层包含两个神经元,输出层只有一个隐含层包含两个神经元,输出层只有一个神经元,隐含层和输出层的神经元使用神经元,隐含层和输出层的神经元使用S型激活函数型激活函数9.4 神经网络可以解决的问题神经网络可以解决的问题u如何解释网络的输
16、出?如何解释网络的输出?u网络输出层的值为网络输出层的值为01之间的连续值,要之间的连续值,要解释这个结果只需要倒转程序即可解释这个结果只需要倒转程序即可u例如,在训练集中,销售价格的范围在例如,在训练集中,销售价格的范围在$52500$225000之间,输出值将之间,输出值将$50000映射为映射为0,$250000映射为映射为1,如果网络的输出是,如果网络的输出是0.3546,结果为,结果为9.4 神经网络可以解决的问题神经网络可以解决的问题120920$50000$50000$250000$3546. 03546. 0)(实际值u如何验证结果?如何验证结果?u为了验证结果可以使用没有遇到
17、过的例子为了验证结果可以使用没有遇到过的例子集。在训练前,将所有可用的数据随机分集。在训练前,将所有可用的数据随机分成训练集和测试集,可以用测试集进行测成训练集和测试集,可以用测试集进行测试试u神经网络是不透明的,要想把握输入输出神经网络是不透明的,要想把握输入输出之间的关系,可以通过灵敏度分析之间的关系,可以通过灵敏度分析u执行灵敏度分析要将每个输入设成最小值执行灵敏度分析要将每个输入设成最小值,然后再设成最大值,并测量网络的输出,然后再设成最大值,并测量网络的输出9.4 神经网络可以解决的问题神经网络可以解决的问题u遗传算法可以用于很多优化问题。优化是遗传算法可以用于很多优化问题。优化是为
18、问题寻找较好解决方法的基本过程。为问题寻找较好解决方法的基本过程。u问题可能有多余一个的解决方案,而这些问题可能有多余一个的解决方案,而这些解决方案品质不同。解决方案品质不同。u遗传算法产生候选解决种群,然后通过自遗传算法产生候选解决种群,然后通过自然选择使这些解决方案进化,不好的解决然选择使这些解决方案进化,不好的解决方案趋向于淘汰,好的方案存活并继续繁方案趋向于淘汰,好的方案存活并继续繁殖。殖。u不断的重复这个过程,遗传算法就得到了不断的重复这个过程,遗传算法就得到了最优解最优解9.5 遗传算法可以解决的问题遗传算法可以解决的问题u案例:旅行推销员问题案例:旅行推销员问题u开发一个可以产生
19、优化路线的智能系统,开车旅开发一个可以产生优化路线的智能系统,开车旅行并参观欧洲中部和西部的主要城市然后再回家行并参观欧洲中部和西部的主要城市然后再回家,遗传算法可以解决这个问题吗?,遗传算法可以解决这个问题吗?u这就是著名的旅行推销员问题(这就是著名的旅行推销员问题(TSP)。给定有)。给定有限个城市限个城市N,以及每两个城市之间旅行的费用(,以及每两个城市之间旅行的费用(或距离),我们要找出花费最少(或路程最短)或距离),我们要找出花费最少(或路程最短)的路线,而每个城市都能到达且仅到达一次后回的路线,而每个城市都能到达且仅到达一次后回到出发点到出发点uTSP问题经常出现在运输和后勤应用中
20、,例如学问题经常出现在运输和后勤应用中,例如学校所属区域接送孩子,给回家的人送饭,安排收校所属区域接送孩子,给回家的人送饭,安排收取邮件的卡车路线取邮件的卡车路线9.5 遗传算法可以解决的问题遗传算法可以解决的问题u遗传算法是怎么解决遗传算法是怎么解决TSP问题的问题的?u首先,要决定如何表达推销员的路线。最首先,要决定如何表达推销员的路线。最自然的方法就是路径表示法。每个城市用自然的方法就是路径表示法。每个城市用字母或数字命名,城市间的路线用染色体字母或数字命名,城市间的路线用染色体来表示,用合适的遗传操作来产生新的路来表示,用合适的遗传操作来产生新的路线线9.5 遗传算法可以解决的问题遗传
21、算法可以解决的问题uTSP中的交叉操作如何进行中的交叉操作如何进行u传统形式的交叉操作不能直接在传统形式的交叉操作不能直接在TSP中使中使用用9.5 遗传算法可以解决的问题遗传算法可以解决的问题uTSP交叉过程交叉过程9.5 遗传算法可以解决的问题遗传算法可以解决的问题uTSP突变操作如何进行?突变操作如何进行?u有两种突变操作:倒数交换和倒置有两种突变操作:倒数交换和倒置9.5 遗传算法可以解决的问题遗传算法可以解决的问题u如何定义如何定义TSP的适应函数?(标准)的适应函数?(标准)u一旦定义了适应性函数和遗传操作,就可一旦定义了适应性函数和遗传操作,就可以实现并运行以实现并运行GAu例如
22、,假设在一个例如,假设在一个1*1的正方形中有的正方形中有20个城市个城市u首先选择染色体种群的大小和遗传代数。首先选择染色体种群的大小和遗传代数。可以让种群从小到大。可以让种群从小到大。9.5 遗传算法可以解决的问题遗传算法可以解决的问题9.5 遗传算法可以解决的问题遗传算法可以解决的问题u如何得知已经找到了最佳路线?如何得知已经找到了最佳路线?u实际上我们不可能知道是否找到了最佳路实际上我们不可能知道是否找到了最佳路线。只有用不同的染色体种群大小、不同线。只有用不同的染色体种群大小、不同的交叉率和突变率做更多的测试,才能得的交叉率和突变率做更多的测试,才能得到答案到答案9.5 遗传算法可以
23、解决的问题遗传算法可以解决的问题u要解决现实世界中复杂的应用问题,需要要解决现实世界中复杂的应用问题,需要融合专家系统、模糊逻辑、神经网络和进融合专家系统、模糊逻辑、神经网络和进化计算这些方法的优点的复杂智能系统化计算这些方法的优点的复杂智能系统u混合智能系统还在发展中,神经网络可以混合智能系统还在发展中,神经网络可以从数据中进行学习,模糊逻辑最重要的优从数据中进行学习,模糊逻辑最重要的优势是模拟人类的决策能力势是模拟人类的决策能力9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题u案例:神经模糊决策支持系统案例:神经模糊决策支持系统u开发一个根据心脏图像进行心肌灌注诊断开发一个根据
24、心脏图像进行心肌灌注诊断的智能系统。有一些心脏图像以及临床说的智能系统。有一些心脏图像以及临床说明和应声的注解。混合系统可以解决这个明和应声的注解。混合系统可以解决这个问题吗?问题吗?9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题u现代心脏内科学诊断的基础是分析现代心脏内科学诊断的基础是分析SPECT(单光子发射计算机断层图像)(单光子发射计算机断层图像)图像。给患者注入放射性示踪剂,就可以图像。给患者注入放射性示踪剂,就可以获得两套获得两套SPECT图像(负荷图像和静息图像(负荷图像和静息图像),心脏专家通过比较两个图像就可图像),心脏专家通过比较两个图像就可以发现心脏功能的异
25、常以发现心脏功能的异常uSPECT图像时一种图像时一种256个灰度的高分辨个灰度的高分辨率的二维黑白图像。图像中比较明亮的地率的二维黑白图像。图像中比较明亮的地方和心肌灌注良好的部分对应,较暗的地方和心肌灌注良好的部分对应,较暗的地方表示缺血,通过观察方表示缺血,通过观察SPECT图像比较图像比较主观,容易出错,所以智能系统就体现了主观,容易出错,所以智能系统就体现了很大的价值所在很大的价值所在9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题u在本案例中我们使用在本案例中我们使用276个心脏诊断病例个心脏诊断病例。每个病例有。每个病例有2个个SPECT图像,每个图像图像,每个图像分
26、成分成22个区域,用个区域,用0100的整数表示灌的整数表示灌注是否良好注是否良好u每个心脏诊断病例用每个心脏诊断病例用44个连续的特征和一个连续的特征和一个二值特征来表示,二值特征表示最后的个二值特征来表示,二值特征表示最后的诊断异常或者正常诊断异常或者正常u整个整个SPECT的数据集有的数据集有55个正常病例(个正常病例(阳性病例)和阳性病例)和212个异常病例(阴性病例个异常病例(阴性病例)。数据集分成训练集和测试集。训练集)。数据集分成训练集和测试集。训练集有有40个阳性病例和个阳性病例和40个阴性病例,测试个阴性病例,测试集有集有15个阳性病例和个阳性病例和172个阴性病例个阴性病例
27、9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题u可以训练后向传送神经网络来可以训练后向传送神经网络来SPECT图图像分成正常图像和异常图像吗?像分成正常图像和异常图像吗?u后向传送神经网络确实可以用于分类后向传送神经网络确实可以用于分类SPECT图像图像-训练集足够大,则网络就可训练集足够大,则网络就可以完成分类。以完成分类。u但是,在用测试集进行测试时,我们发现但是,在用测试集进行测试时,我们发现网络的性能很差网络的性能很差-大概大概25%的正常心脏诊的正常心脏诊断病例被无分为异常,而超过断病例被无分为异常,而超过35%的异的异常病例被诊断为正常,总的误差达到了常病例被诊断为正
28、常,总的误差达到了33%。9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题u这就表示训练集中缺少些重要的病例这就表示训练集中缺少些重要的病例u对异常病例的误分类的后果要比正常对正对异常病例的误分类的后果要比正常对正常病例误分类的结果严重的多。因此,要常病例误分类的结果严重的多。因此,要减少异常的误分类比例,就要增加正常图减少异常的误分类比例,就要增加正常图像的误分类比例像的误分类比例u神经网络陈胜两种输出:图像属于神经网络陈胜两种输出:图像属于normal类的概率和类的概率和abnormalu例:例:0.92和和0.16 正常正常u 017和和0.51 异常异常u 0.51和和0.
29、49 无法判断无法判断9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题u可以在医学诊断的决策制定中使用模糊逻可以在医学诊断的决策制定中使用模糊逻辑吗?辑吗?u实际上,医生通过依赖于自身的经验和直实际上,医生通过依赖于自身的经验和直觉来发现心肌的异常情况。模糊逻辑就是觉来发现心肌的异常情况。模糊逻辑就是一种模拟心脏专家评估心脏病发作风险的一种模拟心脏专家评估心脏病发作风险的办法办法u构建模糊系统,首先要确定输入(构建模糊系统,首先要确定输入(NN output 1和和NN output 201)和)和输出(心脏病发作的风险),定义模糊集输出(心脏病发作的风险),定义模糊集,构建模糊规
30、则,构建模糊规则9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题u风险在风险在30%50%之间的病例很难归类之间的病例很难归类为为normal或或abnormal,这样的病例是,这样的病例是不确定的不确定的u我们可以用心脏专家的经验和知识将这些我们可以用心脏专家的经验和知识将这些不确定的病例分类吗?不确定的病例分类吗?9.6 混合智能系统可以解决
31、的问题混合智能系统可以解决的问题u1)如果区域)如果区域i在负荷时的灌注高于静息时在负荷时的灌注高于静息时 的灌注的灌注,则心脏病的风险减少,则心脏病的风险减少u2)如果区域)如果区域i在负荷时的灌注不高于静息时的灌在负荷时的灌注不高于静息时的灌注,则心脏病的风险增加注,则心脏病的风险增加u步骤步骤1:将心脏病病例输入神经模糊系统:将心脏病病例输入神经模糊系统u步骤步骤2:如果风险不在:如果风险不在30%50%之间,结束之间,结束。否则,到步骤。否则,到步骤3u步骤步骤3:对于区域对于区域1,负荷时的灌注高于静息时的负荷时的灌注高于静息时的灌注,则将结果乘以灌注,则将结果乘以0.99以减少当前
32、风险,否则以减少当前风险,否则乘以乘以1.01来增加当前的风险。重复直至来增加当前的风险。重复直至22个区个区域都计算完域都计算完u步骤步骤4:如果还有在:如果还有在30%50%之间的则还确之间的则还确定为定为uncertain类类9.6 混合智能系统可以解决的问题混合智能系统可以解决的问题u发现分类的准确性得到了很大的提升:总发现分类的准确性得到了很大的提升:总体的诊断误差率不超过体的诊断误差率不超过5%,仅有,仅有3%的的异常病例误归到正常类。异常病例误归到正常类。u正常病例的误诊率较高,但是也好过心脏正常病例的误诊率较高,但是也好过心脏专家的分类结果专家的分类结果9.6 混合智能系统可以
33、解决的问题混合智能系统可以解决的问题u数据是我们收集和存储的,知识是帮助我数据是我们收集和存储的,知识是帮助我们做决策的。从数据中提取知识称为数据们做决策的。从数据中提取知识称为数据挖掘。数据挖掘也可以定义成在大量数据挖掘。数据挖掘也可以定义成在大量数据中进行探索和分析,以便发现有意义的模中进行探索和分析,以便发现有意义的模式和规则。式和规则。u数据挖掘的最终目标是发现知识数据挖掘的最终目标是发现知识u我们生活在数据快速增长的时代,需要有我们生活在数据快速增长的时代,需要有能够帮助我们提取有意义的信息和知识的能够帮助我们提取有意义的信息和知识的方法方法9.7 数据挖掘和知识发现数据挖掘和知识发
34、现u现代企业必须对市场的变化做出快速响应现代企业必须对市场的变化做出快速响应,需要快速的助理数据仓库中当前的数据,需要快速的助理数据仓库中当前的数据u什么是数据仓库?什么是数据仓库?u数据仓库的主要特征是容量数据仓库的主要特征是容量u数据仓库是用来支持企业制定决策的,所数据仓库是用来支持企业制定决策的,所需要的数据通过查询工具来获得需要的数据通过查询工具来获得u查询工具和数据挖掘之间区别查询工具和数据挖掘之间区别u查询工具需要假设,数据挖掘不需要假设查询工具需要假设,数据挖掘不需要假设9.7 数据挖掘和知识发现数据挖掘和知识发现u数据挖掘还是一个全新的不断发展的领域数据挖掘还是一个全新的不断发
35、展的领域,但是他在银行、金融、营销和电信领域,但是他在银行、金融、营销和电信领域已经有了大量的应用已经有了大量的应用u统计方法不能解决数据挖掘的问题统计方法不能解决数据挖掘的问题u数据挖掘通常使用神经网络和神经模糊系数据挖掘通常使用神经网络和神经模糊系统。数据挖掘最常见的工具是决策树统。数据挖掘最常见的工具是决策树9.7 数据挖掘和知识发现数据挖掘和知识发现u决策树可以定义为推理过程的图。决策树可以定义为推理过程的图。u通过树形结构来表述数据集。通过树形结构来表述数据集。u特别适合解决分类问题特别适合解决分类问题u决策树包含节点、分支和叶子决策树包含节点、分支和叶子9.7 数据挖掘和知识发现数
36、据挖掘和知识发现u大大u因变量决定研究的目标,他是由用户选择因变量决定研究的目标,他是由用户选择的。的。Household被设置成因变量取值可被设置成因变量取值可以是以是responded或或not responded两两种种u根节点下面是树的下一层。书选择了变量根节点下面是树的下一层。书选择了变量Homeownership作为因变量的预测器作为因变量的预测器,并将所有的家庭按照预测器的值进行拆,并将所有的家庭按照预测器的值进行拆分。数据的拆分也叫分割。分。数据的拆分也叫分割。9.7 数据挖掘和知识发现数据挖掘和知识发现u最佳分割最适合用于创建某一类占主导地最佳分割最适合用于创建某一类占主导地
37、位的节点位的节点u有几种方法可以计算分割数据的预测器的有几种方法可以计算分割数据的预测器的能力,最好的方法是基于基尼不均匀系数能力,最好的方法是基于基尼不均匀系数u基尼系数是评价预测器分割秦代节点中所基尼系数是评价预测器分割秦代节点中所包含的类的好坏的一种度量方法包含的类的好坏的一种度量方法9.7 数据挖掘和知识发现数据挖掘和知识发现u对角线和财富绝对均等分配相对应,上曲对角线和财富绝对均等分配相对应,上曲线为真实的经济情况线为真实的经济情况u基尼系数就是阴影面积除以对角线下方的基尼系数就是阴影面积除以对角线下方的面积面积9.7 数据挖掘和知识发现数据挖掘和知识发现u决策树要尽力分割出最大的一
38、个类决策树要尽力分割出最大的一个类u不存在可以把一个类和另一个类明确分隔不存在可以把一个类和另一个类明确分隔开的数据库字段开的数据库字段9.7 数据挖掘和知识发现数据挖掘和知识发现u大大9.7 数据挖掘和知识发现数据挖掘和知识发现u大大9.7 数据挖掘和知识发现数据挖掘和知识发现u大大9.7 数据挖掘和知识发现数据挖掘和知识发现u从根节点到东段节点的路径就是决策规则从根节点到东段节点的路径就是决策规则uif(Predictor 1 = no)uand(Predictor 4 = no)uand(Predictor 6 = no)uthenclass = Class A9.7 数据挖掘和知识发现
39、数据挖掘和知识发现u案例:数据挖掘的决策树案例:数据挖掘的决策树u有一份公众健康调查的结果,想知道那些有一份公众健康调查的结果,想知道那些人有患高血压的风险。决策树可以解决这人有患高血压的风险。决策树可以解决这个问题吗?个问题吗?u决策树的典型任务是确定导致某种结果的决策树的典型任务是确定导致某种结果的条件。因此用决策树来勾勒患有高血压的条件。因此用决策树来勾勒患有高血压的人群是很好的选择人群是很好的选择9.7 数据挖掘和知识发现数据挖掘和知识发现u首先,保持数据是干净的,决策树不能处首先,保持数据是干净的,决策树不能处理有噪音和被污染的数据理有噪音和被污染的数据u然后,增加数据,例如然后,增
40、加数据,例如obesityu选择决策树工具,本案例用的是选择决策树工具,本案例用的是Angoss的的KnowledgeSEEKER,用,用Blood presure作文根节点开始构建决策树,将作文根节点开始构建决策树,将所有答卷人分为三类:所有答卷人分为三类:optimal、normal、high9.7 数据挖掘和知识发现数据挖掘和知识发现uKnowledgeSEEKER确定每个变量对确定每个变量对血压的影响,并将最重要的变量排序血压的影响,并将最重要的变量排序9.7 数据挖掘和知识发现数据挖掘和知识发现u大大9.7 数据挖掘和知识发现数据挖掘和知识发现u大大9.7 数据挖掘和知识发现数据挖掘
41、和知识发现u决策树优势在于结果的可视化,容易跟踪决策树优势在于结果的可视化,容易跟踪某条路径。决策树发现的关系可以用一系某条路径。决策树发现的关系可以用一系列规则表示,规则可以用于开发专家系统列规则表示,规则可以用于开发专家系统u缺点:连续数据必须按范围进行分组,数缺点:连续数据必须按范围进行分组,数据必须是干净的,每次处理的变量不能超据必须是干净的,每次处理的变量不能超过一个过一个u尽管有缺点,但是决策树还是数据挖掘所尽管有缺点,但是决策树还是数据挖掘所使用的最成功的技术,能够产生清晰地规使用的最成功的技术,能够产生清晰地规则则9.7 数据挖掘和知识发现数据挖掘和知识发现Thank you!
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。