数据库系统原理数据挖掘与数据仓库课件.ppt

上传人(卖家):晟晟文业 文档编号:4588069 上传时间:2022-12-22 格式:PPT 页数:79 大小:1.57MB
下载 相关 举报
数据库系统原理数据挖掘与数据仓库课件.ppt_第1页
第1页 / 共79页
数据库系统原理数据挖掘与数据仓库课件.ppt_第2页
第2页 / 共79页
数据库系统原理数据挖掘与数据仓库课件.ppt_第3页
第3页 / 共79页
数据库系统原理数据挖掘与数据仓库课件.ppt_第4页
第4页 / 共79页
数据库系统原理数据挖掘与数据仓库课件.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

1、数据库系统原理数据库系统原理第二部分第二部分第七章第七章 数据挖掘与数据仓库数据挖掘与数据仓库v7.1 数据仓库概述数据仓库概述v7.2 数据挖掘技术数据挖掘技术v7.3 WEB数据挖掘数据挖掘7.1 数据仓库概述数据仓库概述v一、什么是数据仓库一、什么是数据仓库v二、二、DBMS与与DWMSv三、数据仓库的系统结构三、数据仓库的系统结构v四、数据仓库的工作过程四、数据仓库的工作过程不同层次的信息处理需求不同层次的信息处理需求v事务处理需求事务处理需求不同的事务处理子系统不同的事务处理子系统采购子系统:采购子系统:订单、订单细则、供应商订单、订单细则、供应商销售子系统:销售子系统:顾客、销售顾

2、客、销售库存子系统:库存子系统:出库领料单、进料入库单、库存台帐出库领料单、进料入库单、库存台帐人事子系统:人事子系统:员工、部门员工、部门各种事务处理需求各种事务处理需求一笔订购、一笔销售、一次进料、一次出料一笔订购、一笔销售、一次进料、一次出料v要求要求强调多用户并发环境,数据的一致性、完整性强调多用户并发环境,数据的一致性、完整性不同层次的信息处理需求不同层次的信息处理需求v分析处理需求分析处理需求今年销售量下降的因素(时间、地区、商品、销今年销售量下降的因素(时间、地区、商品、销售部门)售部门)某种商品今年的销售情况与以往相比,有怎样的某种商品今年的销售情况与以往相比,有怎样的变化?每

3、年的第一季度商品销售在各类商品上的变化?每年的第一季度商品销售在各类商品上的分布情况怎样?分布情况怎样?v要求要求多个子系统中的数据(数据集成)多个子系统中的数据(数据集成)历史数据历史数据汇总、综合的数据汇总、综合的数据从数据库到数据仓库从数据库到数据仓库v事务处理与分析处理的性能特性不同事务处理与分析处理的性能特性不同事务处理环境事务处理环境数据存取操作频率高数据存取操作频率高每次操作处理的时间短每次操作处理的时间短占用系统资源少占用系统资源少系统可以允许多个用户按分时方式使用资源,保系统可以允许多个用户按分时方式使用资源,保持较短的响应时间持较短的响应时间分析处理环境分析处理环境运行时间

4、长运行时间长消耗大量系统资源消耗大量系统资源事务与分析应用不宜放在同一中环境中事务与分析应用不宜放在同一中环境中从数据库到数据仓库从数据库到数据仓库v数据集成问题数据集成问题事务处理事务处理目的是使业务自动化目的是使业务自动化只关注与本部门业务相关的当前数据只关注与本部门业务相关的当前数据事务处理应用的分散:企业内部各事务处理应用事务处理应用的分散:企业内部各事务处理应用间相互独立间相互独立DSS需要集成的数据需要集成的数据(内部各部门数据、外部数据、竞争对手数据)(内部各部门数据、外部数据、竞争对手数据)DSS需要对分散在各个事务处理应用中的相关数需要对分散在各个事务处理应用中的相关数据进行

5、集成,以向分析人员提供统一的数据视图据进行集成,以向分析人员提供统一的数据视图从数据库到数据仓库从数据库到数据仓库v数据动态集成问题数据动态集成问题每次分析都进行数据集成的开销太大每次分析都进行数据集成的开销太大静态集成静态集成开始对所需数据进行集成,以后就一直以这部分开始对所需数据进行集成,以后就一直以这部分数据作为分析的基础,不再与数据源发生联系数据作为分析的基础,不再与数据源发生联系如果数据源发生了变化,这些变化不能反映到集如果数据源发生了变化,这些变化不能反映到集成数据中,导致决策者使用的是过时的数据成数据中,导致决策者使用的是过时的数据动态集成动态集成集成数据必须以一定的周期进行刷新

6、集成数据必须以一定的周期进行刷新事务处理系统不具备动态集成的能力事务处理系统不具备动态集成的能力数据仓库的定义数据仓库的定义数据仓库是一个(Subject Oriented),(Integrated),(Nonvolatile),(time Variant)数据集合。用于支持管理决策 一、什么是数据仓库一、什么是数据仓库v数据仓库数据仓库技术所要研究和解决的问题就技术所要研究和解决的问题就是从是从OLTPOLTP系统、异构分散的外部数据源、系统、异构分散的外部数据源、脱机的历史业务数据中获取数据,处理脱机的历史业务数据中获取数据,处理后为数据分析和管理决策提供应用服务后为数据分析和管理决策提供

7、应用服务。v数据仓库数据仓库就是就是面向主题的、集成的、不面向主题的、集成的、不可更新的可更新的(稳定性稳定性)随时间不断变化(不随时间不断变化(不同时间)的数据集合同时间)的数据集合,用以支持经营管,用以支持经营管理中的决策制定过程。理中的决策制定过程。二、二、DBMS与与DWMSvOLTPOLTP主要用来完成主要用来完成基础业务基础业务数据的增、数据的增、删、改等操作删、改等操作 ,对响应时间要求比较高,对响应时间要求比较高,强调的是强调的是密集数据密集数据更新处理的性能和更新处理的性能和系系统的可靠性及效率统的可靠性及效率 vOLAPOLAP应用是对用户应用是对用户当前及历史当前及历史数

8、据进行数据进行分析、辅助领导决策,主要通过多维数分析、辅助领导决策,主要通过多维数据的查询、旋转、钻取和切片等关键技据的查询、旋转、钻取和切片等关键技术对数据进行术对数据进行分析和报表分析和报表。三、数据仓库的系统结构与相关问题三、数据仓库的系统结构与相关问题四、数据仓库的工作过程四、数据仓库的工作过程v1.1.数据的抽取数据的抽取v2.2.数据的存储和管理数据的存储和管理v3.3.数据的展现等数据的展现等 1.数据的抽取数据的抽取v数据的抽取是数据进入仓库的数据的抽取是数据进入仓库的入口入口。由于由于数据仓库数据仓库是一个独立的数据环境,它需要通是一个独立的数据环境,它需要通过抽取过程将数据

9、从联机事务处理系统、外部数过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入据源、脱机的数据存储介质中导入数据仓库数据仓库。v数据抽取在技术上主要涉及互连、复制、增数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。量、转换、调度和监控等几个方面的处理。v在数据抽取方面,未来的技术发展将集中在在数据抽取方面,未来的技术发展将集中在系统功能集成化系统功能集成化方面,以适应方面,以适应数据仓库数据仓库本身本身或数据源的变化,使系统更便于管理和维护。或数据源的变化,使系统更便于管理和维护。2.数据的存储和管理数据的存储和管理v数据仓库数据仓库的组织管理方

10、式决定了它有别于传统数据的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。库的特性,也决定了其对外部数据的表现形式。v数据仓库数据仓库管理所涉及的数据量比传统事务处理管理所涉及的数据量比传统事务处理大大得得多,且随时间的推移而快速累积。多,且随时间的推移而快速累积。v在在数据仓库数据仓库的数据存储和管理中需要解决的是的数据存储和管理中需要解决的是如何如何管理大量的数据、如何并行处理大量的数据、如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。优化查询等。v目前,许多数据库厂家提供的技术解决方案是扩展目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的

11、功能,将普通关系数据库改造成适关系型数据库的功能,将普通关系数据库改造成适合担当合担当数据仓库数据仓库的服务器。的服务器。3.数据的展现数据的展现v在数据展现方面主要的方式有:在数据展现方面主要的方式有:查询:实现预定义查询、动态查询、查询:实现预定义查询、动态查询、OLAPOLAP查询查询与决策与决策支持支持智能查询;智能查询;报表:产生关系数据表格、复杂表格、报表:产生关系数据表格、复杂表格、OLAPOLAP表格、报表格、报告以及各种综合报表;告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动

12、画技术表现图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。关系和模式的知识。7.2 数据挖掘技术数据挖掘技术v一、问题的提出一、问题的提出v二、什么是数据挖掘二、什么是数据挖掘v三、数据挖掘的环境三、数据挖掘的环境v四、数据挖掘的主要步骤四、数据挖掘的主要步骤v五、数据挖掘的主要任务五、数据挖掘的主要任

13、务v六、数据挖掘的主要方法六、数据挖掘的主要方法v七、数据挖掘的主要应用七、数据挖掘的主要应用v八、数据挖掘的主要工具八、数据挖掘的主要工具一、问题的提出一、问题的提出v一方面规模庞大、纷繁复杂的数据体系让使一方面规模庞大、纷繁复杂的数据体系让使用者漫无头绪、无从下手;用者漫无头绪、无从下手;v另一方面在这些大量数据的另一方面在这些大量数据的背后却隐藏背后却隐藏着很着很多具有决策意义的多具有决策意义的有价值的信息有价值的信息。v如何发现这些有用的知识,使之为管理决策如何发现这些有用的知识,使之为管理决策和经营战略发展服务?和经营战略发展服务?-数据挖掘(数据挖掘(Data Data Minin

14、gMining)。)。一个广为流传的数据挖掘例子一个广为流传的数据挖掘例子美国加州某个超市连锁店通过美国加州某个超市连锁店通过数据挖掘数据挖掘从记录从记录着每天销售和顾客基本情况的数据库中发现着每天销售和顾客基本情况的数据库中发现:在下班后前来购买婴儿尿布的顾客多数是男性,在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。他们往往也同时购买啤酒。于是这个连锁店的经理当机立断地重新布置了于是这个连锁店的经理当机立断地重新布置了货架,把啤酒类商品布置在婴儿尿布货架附近,货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放上土豆片之类的佐酒小食品,并在二者之间放上土豆片之类的佐酒

15、小食品,同时把男士们需要的日常生活用品也就近布置。同时把男士们需要的日常生活用品也就近布置。这样一来,上述几种商品的销量几乎马上成倍这样一来,上述几种商品的销量几乎马上成倍增长。增长。二、什么是数据挖掘二、什么是数据挖掘v数据挖掘是一个利用各种分析方法和分析工具数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中在大规模海量数据中建立模型和发现数据间关建立模型和发现数据间关系的过程系的过程 v这些模型和关系可以用来做出这些模型和关系可以用来做出决策和预测决策和预测。支。支持大规模数据分析的方法和过程,选择或者建持大规模数据分析的方法和过程,选择或者建立一种适合数据挖掘应用的数据环境是立一

16、种适合数据挖掘应用的数据环境是数据挖数据挖掘研究的重要课题之一掘研究的重要课题之一 v数据挖掘是一门交叉学科,会聚了数据库、人数据挖掘是一门交叉学科,会聚了数据库、人工智能、统计学、可视化、并行计算等不同学工智能、统计学、可视化、并行计算等不同学科和领域科和领域三、数据挖掘的环境三、数据挖掘的环境v合理而科学的数据环境是确保数据挖掘有效和正确合理而科学的数据环境是确保数据挖掘有效和正确实施的基础和关键。实施的基础和关键。v数据挖掘对大量数据的探索式分析的起点是联机分数据挖掘对大量数据的探索式分析的起点是联机分析处理(析处理(OLAPOLAP)。)。v需要支持需要支持OLAPOLAP数据系统与数

17、据系统与OLTPOLTP数据系统的分离,需数据系统的分离,需要服务于数据挖掘总体目标的数据再组织,要服务于数据挖掘总体目标的数据再组织,需要有需要有单独的数据分析和数据处理环境。单独的数据分析和数据处理环境。v数据仓库数据仓库正是为了构建这种新的分析处理环境而出正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术产品。现的一种数据存储和组织技术产品。四、数据挖掘的主要步骤四、数据挖掘的主要步骤 1、数据搜集、数据搜集2、数据整理、数据整理3、数据挖掘、数据挖掘4、数据挖掘结果的评估、数据挖掘结果的评估5、分析决策、分析决策1.数据搜集数据搜集v大量全面丰富的数据是数据挖掘的前提,大量

18、全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从作起。没有数据,数据挖掘也就无从作起。v因此,数据收集是数据挖掘的首要步骤。因此,数据收集是数据挖掘的首要步骤。v数据可以来自于现有事务处理系统,也数据可以来自于现有事务处理系统,也可以从数据仓库中得到。可以从数据仓库中得到。2.数据整理数据整理v数据整理是数据挖掘的必要环节。数据整理是数据挖掘的必要环节。v由数据收集阶段得到的数据可能有一定的由数据收集阶段得到的数据可能有一定的“污染污染”,表现在数据可能存在自身的不一,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等致性,或者有缺失数据的存在等;v因此数据的整理是必须的。因此

19、数据的整理是必须的。v同时,通过数据整理,可以对数据做简单的同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础之上得到泛化处理,从而在原始数据的基础之上得到更为丰富的数据信息,进而便于下一步数据更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。挖掘的顺利进行。3.数据挖掘数据挖掘v利用各种数据挖掘方法对数据进行分析。利用各种数据挖掘方法对数据进行分析。4.数据挖掘结果的评估数据挖掘结果的评估v数据挖掘的结果有些是有实际意义的,而数据挖掘的结果有些是有实际意义的,而有些是没有实际意义的,或是与实际情况有些是没有实际意义的,或是与实际情况相违背的,这就需要进行评估。相违背的,

20、这就需要进行评估。v评估可以根据用户多年的经验,也可以直评估可以根据用户多年的经验,也可以直接用实际数据来验证模型的正确性,进而接用实际数据来验证模型的正确性,进而调整挖掘模型,调整挖掘模型,不断重复不断重复进行数据挖掘。进行数据挖掘。5.分析决策分析决策v数据挖掘的最终目的是辅助决策。决策数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。情况,调整竞争策略等。总之,数据挖掘过程需要多次的循环总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果反复,才有可能达到预期的效果五、数据挖掘的主要任务五、数据挖掘的主要任

21、务v1.数据总结数据总结v2.分类分类v3.关联分析关联分析v4.聚类聚类1.数据总结数据总结v数据总结目的是对数据进行数据总结目的是对数据进行浓缩浓缩,给出它的,给出它的总体综合描述。总体综合描述。v传统的也是最简单的数据总结方法利用传统的也是最简单的数据总结方法利用统计统计学学中的方法计算出数据库的各个数据项的总中的方法计算出数据库的各个数据项的总和、平均、方差、最大值、最小值等基本描和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等。数据制作直方图、饼状图等。v利用利用OLAPOLAP技术实现数据的技

22、术实现数据的多维查询多维查询也是一种也是一种广泛使用的数据总结的方法。广泛使用的数据总结的方法。2.分类分类v分类的主要功能是学会一个分类的主要功能是学会一个分类函数或分类模分类函数或分类模型型(也常常称作分类器),该模型能够根据数(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。据的属性将数据分派到不同的组中。v分类应用的实例很多。例如,我们可以将银行分类应用的实例很多。例如,我们可以将银行网点分为好、一般和较差三种类型,并以此分网点分为好、一般和较差三种类型,并以此分析这三种类型银行网点的各种属性,特别是位析这三种类型银行网点的各种属性,特别是位置、盈利情况等属性,并决

23、定它们分类的关键置、盈利情况等属性,并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性及相互间关系。此后就可以根据这些关键属性对每一个预期的银行网点进行分析,以便属性对每一个预期的银行网点进行分析,以便决定预期银行网点属于哪一种类型。决定预期银行网点属于哪一种类型。分类分析(分类分析(Classifiers)v含义含义有一个记录集合和一组标记,标记用以标识记有一个记录集合和一组标记,标记用以标识记录的类别录的类别先为每个记录赋予一个标记(按标记对记录分先为每个记录赋予一个标记(按标记对记录分类)类)对同类记录的特征进行描述对同类记录的特征进行描述显式描述:例如,一组规则定义显式描

24、述:例如,一组规则定义隐式描述:例如,一个数学模型或公式隐式描述:例如,一个数学模型或公式v分类具有极其广泛的应用分类具有极其广泛的应用分类常用于预测分类常用于预测医疗诊断、性能预测、选择购物、信誉证实等医疗诊断、性能预测、选择购物、信誉证实等分类分析的两个步骤分类分析的两个步骤v构建模型构建模型:对预先确定的类别给出相应的描对预先确定的类别给出相应的描述述先假设一个元组(或样本)集合中的每一个元组(或样先假设一个元组(或样本)集合中的每一个元组(或样本)属于预先定义的某一个类别,由一个本)属于预先定义的某一个类别,由一个类标号类标号属性属性(class label attribute)(cl

25、ass label attribute)来确定来确定这些元组(或样本)的集合称为这些元组(或样本)的集合称为训练集训练集,用于构建模型;,用于构建模型;由于提供了每个训练样本的由于提供了每个训练样本的类标号类标号,称作有指导的学习,称作有指导的学习最终的模型用决策树、分类规则或者数学公式等来表示最终的模型用决策树、分类规则或者数学公式等来表示v模型应用模型应用:对未知的数据对象进行分类对未知的数据对象进行分类分类分析第一步:构建模型分类分析第一步:构建模型训练数据NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesB

26、ill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分类算法IF rank=professor OR years 6THEN tenured=yes 分类器(分类模型)分类分析第二步:模型应用分类分析第二步:模型应用分类器测试数据NAMERANKYEARS TENUREDTomAssistant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知数据(Jeff,Professor,

27、4)Tenured?分类分析举例分类分析举例v对信用卡持卡人的信誉进行分类分析对信用卡持卡人的信誉进行分类分析记录集合:记录集合:持卡人的记录集持卡人的记录集一组标记:良好、普通、较差;(信誉程度)一组标记:良好、普通、较差;(信誉程度)先为每个持卡人赋予一个标记,即信誉等级先为每个持卡人赋予一个标记,即信誉等级对同类记录(即同信誉等级的持卡人)的特征对同类记录(即同信誉等级的持卡人)的特征进行描述。例如,信誉良好的持卡人的特征为:进行描述。例如,信誉良好的持卡人的特征为:收入在收入在25000以上以上年龄在年龄在45-55之间之间居住在居住在XYZ地区地区对同类记录特征的描述(规则或模型)可

28、用来对同类记录特征的描述(规则或模型)可用来分类新记录分类新记录分类分析举例分类分析举例v顾客购物分类顾客购物分类顾客属性:姓名、年龄、收入、职业、信誉顾客属性:姓名、年龄、收入、职业、信誉度度为每个顾客为每个顾客赋予一个标记赋予一个标记,即是否购买计算,即是否购买计算机机按该标记将顾客分类,建立分类模型按该标记将顾客分类,建立分类模型新来一个顾客,按分类模型识别该顾客是否新来一个顾客,按分类模型识别该顾客是否属于购买计算机类属于购买计算机类若顾客属于购买计算机的类别,则将有关新若顾客属于购买计算机的类别,则将有关新的计算机的促销材料分发给他的计算机的促销材料分发给他利用决策树进行数据分类利用

29、决策树进行数据分类v决策树决策树一个类似与流程图的树结构一个类似与流程图的树结构内部接点内部接点表示一个与属性值相关的判断表示一个与属性值相关的判断边边表示判断的结果表示判断的结果每个叶节点每个叶节点是一个是一个类别的标识类别的标识决策树分类举例决策树分类举例:训练数据集:训练数据集ageincome studentcredit_ratingbuys_computer=30highnofairno40mediumnofairyes40lowyesfairyes40lowyesexcellentno3140 lowyesexcellentyes=30mediumnofairno40mediumy

30、esfairyes40mediumnoexcellentno决策树分类举例决策树分类举例:计算属性的熵:计算属性的熵v类标号属性类标号属性buys_computer,有两个不同值,有两个不同值yes,no,有两个类,类有两个类,类yes有有9个样本,类个样本,类no有有5个个样本样本决策树分类举例决策树分类举例:分枝:分枝age?overcast4030.40incomestudentcredit_ratingclasshighnofairnohighnoexcellentnomediumnofairnolowyesfairyesmediumyesexcellentyesincomestude

31、ntcredit_ratingclassmediumnofairyeslowyesfairyeslowyesexcellentnomediumyesfairyesmediumnoexcellentnoincomestudentcredit_ratingclasshighnofairyeslowyesexcellentyesmediumnoexcellentyeshighyesfairyes决策树分类举例决策树分类举例:最终结果:最终结果age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40由决策树产生规则

32、由决策树产生规则IF age=“=30”AND student=“no”THEN buys_computer=“no”IF age=“40”AND credit_rating=“excellent”THEN buys_computer=“no”IF age=“40”AND credit_rating=“fair”THEN buys_computer=“yes”3.关联分析关联分析v数据库中的数据一般都存在着关联关系,也数据库中的数据一般都存在着关联关系,也就是说,就是说,两个或多个变量的取值之间两个或多个变量的取值之间存在某存在某种规律性。种规律性。v这种关联关系有这种关联关系有简单关联和时序

33、关联简单关联和时序关联两种。两种。v关联分析的目的是找出数据库中关联分析的目的是找出数据库中隐藏的关联隐藏的关联网,描述一组数据项目的密切度或关系网,描述一组数据项目的密切度或关系。v关联模型的一个典型例子是市场菜篮分析关联模型的一个典型例子是市场菜篮分析,通过挖掘数据派生关联规则,可以了解客户通过挖掘数据派生关联规则,可以了解客户的行为。的行为。关联分析(关联分析(Associations)v目的和含义目的和含义目的:发现数据库中数据间的相互关联目的:发现数据库中数据间的相互关联含义:给定一组数据项(例如:商品号)和一个交含义:给定一组数据项(例如:商品号)和一个交易集合(例如交易记录),通

34、过分析记录集合,推易集合(例如交易记录),通过分析记录集合,推导出导出数据项间的相关性数据项间的相关性(例如:在交易活动中商品(例如:在交易活动中商品间的相关性)间的相关性)v基本形式基本形式给定:给定:一组事务集一组事务集每一个事务中包含若干个数据项每一个事务中包含若干个数据项挖掘挖掘:各个数据项之间的关联各个数据项之间的关联例如例如,98%的顾客在购买电动剃须刀的同时会购买一些的顾客在购买电动剃须刀的同时会购买一些电池电池4.聚类聚类v当要分析的数据当要分析的数据缺乏描述信息缺乏描述信息,或者是无法,或者是无法组织成任何分类模式时,可以采用聚类分析。组织成任何分类模式时,可以采用聚类分析。

35、v聚类分析是按照某种聚类分析是按照某种相近程度度量方法相近程度度量方法,将,将用户数据分成一系列有意义的子集合。每一用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的个集合中的数据性质相近,不同集合之间的数据性质相差较大。数据性质相差较大。聚类分析(聚类分析(Clustering)v含义含义聚类是把一组对象聚类是把一组对象按照相似性归成若干类别按照相似性归成若干类别,即即“物以类聚物以类聚”。它的目的是使得属于同一。它的目的是使得属于同一类别的个体之间的距离尽可能的小而不同类类别的个体之间的距离尽可能的小而不同类别上的个体间的距离尽可能的大。别上的个体间的距离尽可能的

36、大。不同的聚类分析工具可以定义不同的规则集,不同的聚类分析工具可以定义不同的规则集,从而从而相同的记录集合可能有不同的划分相同的记录集合可能有不同的划分v应用应用市场或客户分割、模式识别、基因分类、市场或客户分割、模式识别、基因分类、Web文档分类等文档分类等六、数据挖掘的主要方法六、数据挖掘的主要方法v1.1.决策树决策树v2.2.相关规则相关规则v3.3.神经元网络神经元网络v4.4.遗传算法遗传算法v5.5.可视化、可视化、OLAPOLAP联机分析处理等联机分析处理等 1.决策树决策树v决策树是建立在信息论基础之上,对数据进行分类决策树是建立在信息论基础之上,对数据进行分类的一种方法。的

37、一种方法。v首先,通过一批已知的训练数据建立一棵决策树首先,通过一批已知的训练数据建立一棵决策树v然后,利用建好的决策树,对数据进行预测然后,利用建好的决策树,对数据进行预测.例如:在金融领域中将贷款对象分为低贷款风险与高贷例如:在金融领域中将贷款对象分为低贷款风险与高贷款风险两类。通过决策树,我们可以很容易地确定贷款款风险两类。通过决策树,我们可以很容易地确定贷款申请者是属于高风险的还是低风险的。申请者是属于高风险的还是低风险的。决策树方法精确度比较高,结果容易理解,效决策树方法精确度比较高,结果容易理解,效率也比较高,因而比较常用。率也比较高,因而比较常用。2.神经网络神经网络v神经网络建

38、立在神经网络建立在自学习的数学模型自学习的数学模型基础之上。可以基础之上。可以对大量复杂的数据进行分析,并可以完成对人脑或对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的其他计算机来说极为复杂的模式抽取及趋势分析模式抽取及趋势分析。v神经网络系统由一系列类似于人脑神经元一样的处神经网络系统由一系列类似于人脑神经元一样的处理单元理单元(节点节点)组成。这些节点通过网络彼此互连,组成。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据模式的如果有数据输入,它们便可以进行确定数据模式的工作。工作。v神经网络有相互连接的输入层、中间层(或隐藏神经网络有相互连接的输入层

39、、中间层(或隐藏层)、输出层组成。层)、输出层组成。例如:例如:我们可以指定输入层为我们可以指定输入层为代表过去的销售情况、价格及季节等因素,输出层代表过去的销售情况、价格及季节等因素,输出层便可输出判断本季度的销售情况的数据。便可输出判断本季度的销售情况的数据。3.相关规则相关规则v相关规则是一种简单却很实用的关联分析规则,相关规则是一种简单却很实用的关联分析规则,它描述了一个事物中它描述了一个事物中某些属性同时出现的规律和某些属性同时出现的规律和模式。模式。例如:超级市场中通过例如:超级市场中通过POSPOS系统收集存储了大量售货数系统收集存储了大量售货数据,记录了什么样的顾客在什么时间购

40、买了什么商品,据,记录了什么样的顾客在什么时间购买了什么商品,这些数据中常常隐含着诸如:购买面包的顾客中有这些数据中常常隐含着诸如:购买面包的顾客中有90%90%的人同时购买牛奶的相关规则。的人同时购买牛奶的相关规则。v相关规则分析就是依据一定的相关规则分析就是依据一定的可信度、支持度、可信度、支持度、期望可信度、作用度期望可信度、作用度建立相关规则的。建立相关规则的。4.遗传算法遗传算法v遗传算法是一种基于遗传算法是一种基于生物进化论和分子遗传学生物进化论和分子遗传学的的搜索优化算法。搜索优化算法。v它首先将问题的可能的解按某种形式进行编码,它首先将问题的可能的解按某种形式进行编码,编码后的

41、解称为编码后的解称为染色体染色体;随机选取;随机选取N N个染色体作个染色体作为初始种群,再根据预定的为初始种群,再根据预定的评价函数评价函数对每个染色对每个染色体计算适应值,性能较好的染色体有较高的适应体计算适应值,性能较好的染色体有较高的适应值;选择值;选择适应值较高的染色体进行复制适应值较高的染色体进行复制,并通过,并通过遗传算子,产生一群新的更适应环境的染色体,遗传算子,产生一群新的更适应环境的染色体,形成新的种群,直至最后收敛到一个最适应环境形成新的种群,直至最后收敛到一个最适应环境的个体,得到问题的最优化解。的个体,得到问题的最优化解。5.联机分析处理联机分析处理v联机分析处理联机

42、分析处理(OLAP)(OLAP)主要通过主要通过多维的方式多维的方式来对数来对数据进行分析、查询和报表。据进行分析、查询和报表。v它不同于传统的联机事物处理它不同于传统的联机事物处理(OLTP)(OLTP)应用。应用。vOLTPOLTP应用主要是用来完成用户的事务处理,通常应用主要是用来完成用户的事务处理,通常要进行大量的更新操作,同时对响应时间要求比要进行大量的更新操作,同时对响应时间要求比较高。较高。v而而OLAPOLAP应用主要是对用户当前及历史数据进行分应用主要是对用户当前及历史数据进行分析,辅助领导决策。析,辅助领导决策。其典型的应用有对银行信用卡风险的分析与预测、公司其典型的应用有

43、对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。对时间的要求不太严格。6.数据可视化数据可视化v对大批量数据的展现也是数据挖掘的重要对大批量数据的展现也是数据挖掘的重要方面。方面。v数据可视化工具大大扩展了传统商业图形数据可视化工具大大扩展了传统商业图形的能力,支持多维数据的可视化,从而提的能力,支持多维数据的可视化,从而提供了供了多方向同时进行数据分析多方向同时进行数据分析的图形方法。的图形方法。有些工具甚至提供动画能力,使用户可以有些工具甚至提供动画能力,使用户可以“飞越飞越”数据,观看

44、到数据不同层次的细数据,观看到数据不同层次的细节。节。七、数据挖掘的主要应用七、数据挖掘的主要应用 v金融金融数据挖掘在金融领域应用广泛,包括:金融市场分析和数据挖掘在金融领域应用广泛,包括:金融市场分析和预测、帐户分类、银行担保和信用评估等。预测、帐户分类、银行担保和信用评估等。v市场业市场业市场业应用是利用数据挖掘技术进行市场定位和消费者市场业应用是利用数据挖掘技术进行市场定位和消费者分析,辅助制定市场策略。分析,辅助制定市场策略。v工程与科学研究工程与科学研究数据挖掘技术可应用于各种工程与科学数据分析。数据挖掘技术可应用于各种工程与科学数据分析。v产品制造业产品制造业制造业应用数据挖掘技

45、术进行零部件故障诊断、资源优制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。化、生产过程分析等。v 司法司法数据挖掘技术可应用于案件调查、诈骗监测、洗钱认证、数据挖掘技术可应用于案件调查、诈骗监测、洗钱认证、犯罪组织分析等,可以给司法工作带来巨大收益。犯罪组织分析等,可以给司法工作带来巨大收益。八、数据挖掘的主要工具八、数据挖掘的主要工具 v1.1.应用于特定领域的专用数据挖掘工具应用于特定领域的专用数据挖掘工具v2.2.应用面较广的通用数据挖掘工具。应用面较广的通用数据挖掘工具。1.1.应用于特定领域的专用数据挖掘工具应用于特定领域的专用数据挖掘工具v专用数据挖掘工具针对

46、某个特定领域的专用数据挖掘工具针对某个特定领域的问题提供解决方案。问题提供解决方案。v在算法设计方面,充分考虑到数据、需在算法设计方面,充分考虑到数据、需求的特殊性,并进行优化。求的特殊性,并进行优化。例如:例如:IBMIBM公司的公司的Advanced ScoutAdvanced Scout系统,针系统,针对对NBANBA数据,帮助教练优化战术组合、数据,帮助教练优化战术组合、2.2.应用面较广的通用数据挖掘工具应用面较广的通用数据挖掘工具v通用数据挖掘工具处理常见的数据类型,采通用数据挖掘工具处理常见的数据类型,采用通用的数据挖掘算法,提供较为通用的处用通用的数据挖掘算法,提供较为通用的处

47、理模式,如:分类模式、回归模式、时间序理模式,如:分类模式、回归模式、时间序列模式、聚类模式、关联模式等。列模式、聚类模式、关联模式等。例如:例如:IBMIBM公司的公司的QUESTQUEST系统、系统、SGISGI公司的公司的MineSetMineSet系统、加拿大系统、加拿大Simon FraserSimon Fraser大学的大学的DBMinerDBMiner、美国、美国Business ObjectsBusiness Objects公司的公司的Business MinerBusiness Miner系统、系统、SASSAS公司的公司的SAS EMSAS EM(Enterprise Mi

48、nerEnterprise Miner)系统等。)系统等。数据挖掘的发展数据挖掘的发展v目前,国内外很多大学、研究机构和公司都已目前,国内外很多大学、研究机构和公司都已经在这个方面进行了实质性的研究和产品开发。经在这个方面进行了实质性的研究和产品开发。v今后研究的今后研究的焦点焦点可能有:研究专门用于知识发可能有:研究专门用于知识发现的数据挖掘语言;研究现的数据挖掘语言;研究InternetInternet上的数据挖上的数据挖掘方法;对各种非结构化数据,如:文本数据、掘方法;对各种非结构化数据,如:文本数据、图形图象数据、多媒体数据的挖掘;研究数据图形图象数据、多媒体数据的挖掘;研究数据挖掘与

49、数据仓库相结合的方式,数据挖掘与数挖掘与数据仓库相结合的方式,数据挖掘与数据仓库一体化的研究等。据仓库一体化的研究等。7.3 WEB数据挖掘数据挖掘v一、一、Web挖掘的处理流程挖掘的处理流程 v二、二、Web数据挖掘分类数据挖掘分类 v三、三、Web数据挖掘应用前景数据挖掘应用前景vWeb挖掘指使用数据挖掘技术在挖掘指使用数据挖掘技术在WWW数据中数据中发现潜在的、有用的模式或信息。发现潜在的、有用的模式或信息。v与传统数据和数据仓库相比,与传统数据和数据仓库相比,Web上的上的信息信息是非结构化或半结构化的是非结构化或半结构化的、动态的动态的、并且是容易造成混淆的,所以很难直接并且是容易造

50、成混淆的,所以很难直接以以Web网页上的数据进行数据挖掘,而网页上的数据进行数据挖掘,而必须经过必要的数据处理必须经过必要的数据处理 一、一、Web挖掘的处理流程挖掘的处理流程 v1查找资源查找资源 v2信息选择和预处理信息选择和预处理:从取得的:从取得的Web资源中资源中剔除无用信息和将信息进行必要的整理剔除无用信息和将信息进行必要的整理 v3模式发现:自动进行模式发现。可以在同模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。一个站点内部或在多个站点之间进行。v4模式分析:验证、解释上一步骤产生的模模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据库系统原理数据挖掘与数据仓库课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|