第六章-决策支持的新技术-决策支持系统课件.ppt

上传人(卖家):晟晟文业 文档编号:4841332 上传时间:2023-01-17 格式:PPT 页数:45 大小:1.09MB
下载 相关 举报
第六章-决策支持的新技术-决策支持系统课件.ppt_第1页
第1页 / 共45页
第六章-决策支持的新技术-决策支持系统课件.ppt_第2页
第2页 / 共45页
第六章-决策支持的新技术-决策支持系统课件.ppt_第3页
第3页 / 共45页
第六章-决策支持的新技术-决策支持系统课件.ppt_第4页
第4页 / 共45页
第六章-决策支持的新技术-决策支持系统课件.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

1、决策支持系统决策支持系统引例引例:信息共享是国土安全部:信息共享是国土安全部门国家安全战略的核心要素门国家安全战略的核心要素美国国土安全部门国家安全战略包含一个和恐怖活动检测相关美国国土安全部门国家安全战略包含一个和恐怖活动检测相关信息共享的远景,其陈述的内容是:我们将建立一个共享关键信息共享的远景,其陈述的内容是:我们将建立一个共享关键国土安全信息的国内环境。我们必须建设一个系统的系统,能国土安全信息的国内环境。我们必须建设一个系统的系统,能够在任何时间向正确的人提供正确的信息。信息能够在各级政够在任何时间向正确的人提供正确的信息。信息能够在各级政府部门之间进行府部门之间进行“水平水平”共享

2、,并在联邦、州和地方政府以及共享,并在联邦、州和地方政府以及私营企业和居民之间进行私营企业和居民之间进行“垂直垂直”共享。随着对人员、流程和共享。随着对人员、流程和技术的正确使用,全美国的国土安全官员都能够意识到潜在的技术的正确使用,全美国的国土安全官员都能够意识到潜在的威胁以及应对这些威胁的人员和资源的知识。官员们收到潜在威胁以及应对这些威胁的人员和资源的知识。官员们收到潜在威胁的信息,这使得他们意识到威胁所在并快速有效地做出反威胁的信息,这使得他们意识到威胁所在并快速有效地做出反应。应。该项目的目标是将那些分布在不同数据源该项目的目标是将那些分布在不同数据源的知识集成,建立一个可用的模型,

3、同时的知识集成,建立一个可用的模型,同时还要能够充分地保障隐私和公民自由权。还要能够充分地保障隐私和公民自由权。数据仓库提供数据仓库提供了一个战略性了一个战略性的数据构架。的数据构架。主要内容及学习目的和要求主要内容及学习目的和要求主要内容主要内容数据仓库的概念、体系结构数据仓库的概念、体系结构数据集市的结构数据集市的结构数据仓库建立的步骤数据仓库建立的步骤数据挖掘的概念、过程和步骤数据挖掘的概念、过程和步骤数据挖掘的任务和方法数据挖掘的任务和方法OLAP的概念、体系结构、处理特性的概念、体系结构、处理特性OLAP的多维数据分析方法的多维数据分析方法学习目的和要求学习目的和要求 掌握数据挖掘、

4、数据仓库、掌握数据挖掘、数据仓库、OLAP的概念的概念理解数据库与数据仓库的区别理解数据库与数据仓库的区别掌握数据仓库的建立步骤掌握数据仓库的建立步骤了解数据挖掘的目的和作用了解数据挖掘的目的和作用了解数据挖掘的基本过程和步骤了解数据挖掘的基本过程和步骤理解数据挖掘的典型方法理解数据挖掘的典型方法理解理解OLAP的多维数据分析方法的多维数据分析方法6.1 数据仓库技术数据仓库技术(1/14)n传统的数据问题传统的数据问题(1/4)2020世纪世纪9090年代年代以后,数据的以后,数据的大量增加大量增加2020世纪世纪8080年代以前,年代以前,以事务处理系统为核以事务处理系统为核心,系统基础是

5、数据心,系统基础是数据库提供的数据处理功库提供的数据处理功能,通过报表形式提能,通过报表形式提供决策信息。供决策信息。分离型数据库结构的分离型数据库结构的DSSDSS出现,虽然比较灵出现,虽然比较灵活。但各应用系统产活。但各应用系统产生的数据缺乏整合性。生的数据缺乏整合性。n传统的数据问题传统的数据问题(2/4)6.1 数据仓库技术数据仓库技术(2/14)随着应用系统随着应用系统的增加,需要的增加,需要转换的数据越转换的数据越来越多,这样来越多,这样将使得工作效将使得工作效率下降。因此,率下降。因此,提高数据的整提高数据的整合度,就成为合度,就成为解决这个问题解决这个问题的关键。的关键。AB应

6、用系统应用系统1 1应用系统应用系统2 2F F数据转换数据转换25981.453月月23412.782月月12350.351月月商品商品1 商品商品2商品商品N2843.81部门部门32312.00部门部门28750.20部门部门1商品商品1 商品商品2商品商品N499572.81部门部门3487586.20部门部门2500004.35部门部门11月月 2月月12月月21348.89商品商品311234.12商品商品212350.35商品商品11月月 2月月12月月ABCDn传统的数据问题传统的数据问题(3/4)6.1 数据仓库技术数据仓库技术(3/14)n传统的数据问题传统的数据问题(4/

7、4)分析型处理分析型处理针对某个主题,会在时间段上有比较长的延伸,针对某个主题,会在时间段上有比较长的延伸,是操作型的一种积累和提炼,主要是面向决策支持。是操作型的一种积累和提炼,主要是面向决策支持。操作型处理操作型处理针对非常具体的业务,即对数据库联机的日常针对非常具体的业务,即对数据库联机的日常操作,常是对一个或一组记录的查询和修改,主要操作,常是对一个或一组记录的查询和修改,主要是为特定应用服务的,人们关心的是响应时间、数是为特定应用服务的,人们关心的是响应时间、数据的安全性和完整性。一般是实时的。据的安全性和完整性。一般是实时的。(事务处理事务处理)性能和特性不同性能和特性不同数据集成

8、问题数据集成问题数据动态集成问题数据动态集成问题历史数据问题历史数据问题数据的综合问题数据的综合问题不同的使用对象不同的使用对象事务处理环境事务处理环境不适宜决策应不适宜决策应用的原因用的原因6.1 数据仓库技术数据仓库技术(4/14)数据数据处理处理6.1 数据仓库技术数据仓库技术(5/14)沃尔玛通过数据仓库识别和满足不可预期的顾客需求沃尔玛通过数据仓库识别和满足不可预期的顾客需求20012001年,年,“9.119.11”事件的发生使沃尔玛意识到及时信息的关键性。事件的发生使沃尔玛意识到及时信息的关键性。沃尔玛公司能够快速识别顾客在受攻击日的购买模式,比如对武沃尔玛公司能够快速识别顾客在

9、受攻击日的购买模式,比如对武器、瓶装水、逃生设备的需求上升,这样,沃尔玛能够快速满足器、瓶装水、逃生设备的需求上升,这样,沃尔玛能够快速满足顾客需求并据此做出计划,沃尔玛能够预测到顾客将平常的购买顾客需求并据此做出计划,沃尔玛能够预测到顾客将平常的购买模式推迟几天,并能够预计到和满足突发其来的高峰需求。模式推迟几天,并能够预计到和满足突发其来的高峰需求。案例案例锐得物流公司进入电子供应链领域锐得物流公司进入电子供应链领域锐得锐得(Ryder)(Ryder)公司修改了其电子商务战略,以便与公司修改了其电子商务战略,以便与100100多艘船的顾多艘船的顾客需要快速装卸的运货船相匹配。锐得公司能够这

10、么做是因为有客需要快速装卸的运货船相匹配。锐得公司能够这么做是因为有了数据仓库。数据仓库使用了基于了数据仓库。数据仓库使用了基于NCRNCR公司的公司的Teradata a数据仓库技数据仓库技术的运输分析软件包和术的运输分析软件包和MicroStrategyMicroStrategy公司的产品。公司的产品。新系统能够新系统能够使托运人在线下订单,实时预订运输船。使托运人在线下订单,实时预订运输船。案例案例n数据仓库的定义数据仓库的定义(1/2)数据仓库的基本工作方式数据仓库的基本工作方式说明:说明:数据仓库是一种数据资源构架。它具有不同的数据源,来自数据源的数据经过系统的整理和分类后,存储到统

11、一的数据存储中心,根据决策者的要求提供检索和显示服务。误区:误区:对数据仓库最大的误解是把它当做了一个现成的可直接买来使用的产品。实际上,数据仓库和数据库不同,它不是现成的软件或硬件产品。数据仓库是一种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,用户通过分析这些信息可作出策略性的决策。过滤、筛选过滤、筛选整理、分类整理、分类作作业业性性数数据据数据仓库数据仓库数据存储中心数据存储中心决决策策者者6.1 数据仓库技术数据仓库技术(5/14)W.H.Inmon:建立数据仓库建立数据仓库数据仓库数据仓库面向主题主题的、集集成成的、稳定稳定的、不同时间不同时间的数据集合,用以支

12、持经营管理中支持经营管理中的决策制定过程的决策制定过程。备注备注:主题是一个较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域;集成是指数据进入数据仓库之前,必须进行数据加工和集成;稳定性是指数据仓库反映的是历史数据的内容,而不是日常事务处理产生的数据,数据加工和集成进入数据仓库后是很少修改的;数据仓库是不同时间的数据集合,要求数据保存时限能满足决策分析的需要。数据仓库的数据仓库的特点特点:面向主题的、集成的、稳定的、随时间增长的、数据面向主题的、集成的、稳定的、随时间增长的、数据量很大、软硬件要求高。量很大、软硬件要求高。n数据仓库的定义数据仓库的定义(2/2)6.1 数据仓库技术

13、数据仓库技术(6/14)n数据仓库与数据库的区别数据仓库与数据库的区别数据库数据库数据仓库数据仓库数据数据处理型数据处理型数据(当前数据当前数据)分析型数据分析型数据(非即时性的历史数据非即时性的历史数据)面向面向业务的业务的主题的主题的使用者使用者一般业务人员一般业务人员企业高层管理人员企业高层管理人员任务任务收集和记录企业的原始收集和记录企业的原始业务数据,对企业日常业务数据,对企业日常数据处理和维护。数据处理和维护。通过从企业的业务数据中提取数通过从企业的业务数据中提取数据,经过加工和处理来呈现给企据,经过加工和处理来呈现给企业的决策人员,因此,是把企业业的决策人员,因此,是把企业运行数

14、据收集后用于分析和决策。运行数据收集后用于分析和决策。6.1 数据仓库技术数据仓库技术(6/14)n数据集市数据集市(1/3)数据集市数据集市(data mart)部门级的数据仓库,或者是为某种部门级的数据仓库,或者是为某种专门的用途开发的数据存储系统。专门的用途开发的数据存储系统。误区误区:认为数据集市与数据仓库的差别只是数据量的大小而已;简单地理解数据集市容易建立;数据集市很容易升级成数据仓库。采用第三范式采用第三范式数据组织一般采用星型模型数据组织一般采用星型模型基于整个企业的数据模型建立的,是面基于整个企业的数据模型建立的,是面向企业范围内的主题向企业范围内的主题按照某一特定部门的数据

15、模型建立的按照某一特定部门的数据模型建立的数据来源于各个部门的不同应用系统,数据来源于各个部门的不同应用系统,可保证数据的整合性可保证数据的整合性规模较小,成本较低,针对性更强规模较小,成本较低,针对性更强存储整个企业内非常详细的数据存储整个企业内非常详细的数据数据的详细程度要低一些数据的详细程度要低一些数据仓库数据仓库数据集市数据集市区 别6.1 数据仓库技术数据仓库技术(7/14)n数据集市数据集市(2/3)6.1 数据仓库技术数据仓库技术(8/14)两种两种形式形式从属的数据集市从属的数据集市数据是从企业的数据仓库获数据是从企业的数据仓库获得,可看作是数据仓库的一个子集。因此具有较好得,

16、可看作是数据仓库的一个子集。因此具有较好的数据整合性。若需要的数据在数据集市中没有,的数据整合性。若需要的数据在数据集市中没有,则要先修改数据仓库的结构,使这种数据先进入数则要先修改数据仓库的结构,使这种数据先进入数据仓库,再进入数据集市。这种数据集市适合用于据仓库,再进入数据集市。这种数据集市适合用于对数据仓库的访问量比较大的关键业务部门。对数据仓库的访问量比较大的关键业务部门。独立的数据集市独立的数据集市没有数据仓库作为它的数据没有数据仓库作为它的数据来源,而是直接从各个应用系统取得数据,因此,来源,而是直接从各个应用系统取得数据,因此,成本低,灵活性好,需要一种新的数据时不必修改成本低,

17、灵活性好,需要一种新的数据时不必修改企业级的数据仓库。可提供个别部门所需要的数据,企业级的数据仓库。可提供个别部门所需要的数据,整合性较差。整合性较差。作作业业性性数数据据决决策策者者.数据数据仓库仓库作作业业性性数数据据决决策策者者.数据数据集市集市n数据集市数据集市(3/3)6.1 数据仓库技术数据仓库技术(9/14)数据数据集市集市决决策策者者n数据仓库系统的结构数据仓库系统的结构6.1 数据仓库技术数据仓库技术(10/14)DWDW管理工具管理工具抽取、清洗抽取、清洗加载、汇总加载、汇总数据建模工具数据建模工具元数据库元数据库综合数据综合数据当前数据当前数据历史数据历史数据用户查询工具

18、用户查询工具C/SC/S工具工具OLAPOLAP工具工具DMDM工具工具关系数据库关系数据库数据文件数据文件其他数据其他数据数据源数据源仓库管理仓库管理数据仓库数据仓库分析工具分析工具数据仓库管理数据仓库管理:对存储在数据仓库对存储在数据仓库中的数据进行各种管理,主要利用中的数据进行各种管理,主要利用数据库管理系统的功能来完成。数据库管理系统的功能来完成。分析工具分析工具:包括各种查询、包括各种查询、检索工具、多维联机数据分检索工具、多维联机数据分析工具、数据挖掘工具等,析工具、数据挖掘工具等,以实现以实现DSSDSS的各种要求。的各种要求。高度综合数据层高度综合数据层轻度综合数据层轻度综合数

19、据层当前基本数据层当前基本数据层历史详细数据层历史详细数据层元数据元数据 从作业性数据源获得的数据仓库的输入,根据决策者需要的主题进行存储。详细数据对详细数据进行不同程度的汇总和抽象。这是提高数据资源利用效率的策略。通过时间控制机构转化有关每个数据层的数据。将四层次的数据组织起来。数数据据仓仓库库中中的的数数据据层层次次n数据的存储层次数据的存储层次6.1 数据仓库技术数据仓库技术(11/14)常用元数据类型常用元数据类型说说 明明举举 例例数据源描述数据源描述一些数据源用来说明数一些数据源用来说明数据源的结构据源的结构数据的来源、源数据的结构,数据的来源、源数据的结构,数据字典、索引信息等等

20、数据字典、索引信息等等数据模型描述数据模型描述组织数据所依据的逻辑组织数据所依据的逻辑结构结构数据的实体、关系、有效值、数据的实体、关系、有效值、存取规则等存取规则等转换映射转换映射用来记录数据源中的数用来记录数据源中的数据经过哪些处理后进入据经过哪些处理后进入到数据仓库到数据仓库数据源的标识、属性之间的数据源的标识、属性之间的映射、属性的转换、转换规映射、属性的转换、转换规则等则等应用性元数据应用性元数据用来记录有关数据仓库用来记录有关数据仓库的应用历史、用户类型、的应用历史、用户类型、使用频率等使用频率等通过元数据可以看出什么人通过元数据可以看出什么人在什么时候对数据仓库的哪在什么时候对数

21、据仓库的哪些数据项进行了什么操作等些数据项进行了什么操作等n元数据元数据6.1 数据仓库技术数据仓库技术(12/14)决决策策者者客户端客户端内部内部外部外部数据源数据源DW服务器服务器OLAP服务器服务器数据仓库的三层结构数据仓库的三层结构备注:数据来源于组织的多个数据源。备注:数据仓库服务器存储着从不同数据源抽取的数据,并根据元数据对其进行整理。该层提供不同层次的数据整理以及提供各部门所需的数据集市的数据。备注:OLAP服务器的作用在于进一步使OLAP操作更为方便。可将DW服务器做的操作工作转移到该服务器上,从而降低系统中的数据传输量,提高工作效率。备注:客户端的功能是与用户进行交互会话。

22、将用户的要求转换为服务器可理解的方式送到服务器,取回查询的结果进行显示和提供报表等。n数据仓库的运行结构数据仓库的运行结构6.1 数据仓库技术数据仓库技术(13/14)6.1 数据仓库技术数据仓库技术(14/14)n数据进入数据仓库的过程和建立数据仓库的步骤数据进入数据仓库的过程和建立数据仓库的步骤过程过程提前计算出任何期待的数据仓库数据的汇总供以提前计算出任何期待的数据仓库数据的汇总供以后使用后使用汇总汇总5把净化过的数据载入到数据仓库数据里把净化过的数据载入到数据仓库数据里加载加载4尽量地更正错误的数据尽量地更正错误的数据净化净化3为所有来自数据源的数据指定常用的格式和名称为所有来自数据源

23、的数据指定常用的格式和名称变换变换2从操作型数据库中选择并提取出所需要的字段从操作型数据库中选择并提取出所需要的字段提取提取1建立数据仓库的步骤建立数据仓库的步骤(教材(教材P221-222)6.1 数据挖掘技术数据挖掘技术(1/9)n数据挖掘的概述数据挖掘的概述数据挖掘数据挖掘数据库越来越大数据库越来越大有价值有价值的知识的知识 苦恼苦恼:淹没在数据中淹没在数据中;不能制定合适的决策不能制定合适的决策!知识贫乏知识贫乏数据爆炸数据爆炸可怕的可怕的数据数据6.1 数据挖掘技术数据挖掘技术(1/9)n数据挖掘的概述数据挖掘的概述沃尔玛:数据挖掘的先锋沃尔玛:数据挖掘的先锋沃儿玛公司在进行大规模数

24、据挖掘以改变供应商关系方面沃儿玛公司在进行大规模数据挖掘以改变供应商关系方面居于领先地位。沃儿玛从位于居于领先地位。沃儿玛从位于6 6个国家的个国家的29002900家门店取得家门店取得POSPOS交易数据,并将这些数据转换加载入大容量的交易数据,并将这些数据转换加载入大容量的TeradataTeradata数据仓库。沃儿玛允许超过数据仓库。沃儿玛允许超过35003500家供应商访问其产品的数家供应商访问其产品的数据并进行分析。供应商用这些数据识别在商店布局层次上据并进行分析。供应商用这些数据识别在商店布局层次上的顾客购买模式,他们使用这些信息管理各商店库存和识的顾客购买模式,他们使用这些信息

25、管理各商店库存和识别新商业机会。别新商业机会。案例案例6.1 数据挖掘技术数据挖掘技术(1/9)n数据挖掘的作用数据挖掘的作用进行数据挖掘项目的方式:进行数据挖掘项目的方式:购买记分模型、数据挖掘软件、购买记分模型、数据挖掘软件、固定模型系统、创建模型的开发工具和数据挖掘咨询。固定模型系统、创建模型的开发工具和数据挖掘咨询。分类分类(Classification)估值估值(Estimation)预言预言(Prediction)相关性分组或关联规则相关性分组或关联规则(Affinity grouping or association rules)聚类聚类(Clustering)描述和可视化描述和

26、可视化(Description and Visualization)作用作用从大量数据中寻找其规律从大量数据中寻找其规律的技术,是统计学、数据的技术,是统计学、数据库技术、人工智能技术和库技术、人工智能技术和机器学习等的综合。机器学习等的综合。n数据挖掘的概念数据挖掘的概念思考思考:数据库查询:数据库查询工具和数据挖掘工工具和数据挖掘工具之间的差异?具之间的差异?6.1 数据挖掘技术数据挖掘技术(2/9)数据挖掘数据挖掘是通过某种算法,使用诸如神经网络、是通过某种算法,使用诸如神经网络、规则归纳等技术,从大量的、不完全的、有噪声的、规则归纳等技术,从大量的、不完全的、有噪声的、模糊的、随机的实

27、际应用数据中,提取隐含在其中的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的人们事先不知道的,但又是潜在有用的信息和知识的过程。过程。(又为知识数据发现又为知识数据发现KDD)KDD)n数据挖掘的分类数据挖掘的分类数据挖掘的分类数据挖掘的分类按采用按采用数据库数据库类型分类型分按发现的按发现的知识知识类型分类型分按采用的按采用的技术技术类型分类型分关系数据挖掘关系数据挖掘事务数据库挖掘事务数据库挖掘Internet信息库挖掘信息库挖掘关联规则挖掘关联规则挖掘分类规则挖掘分类规则挖掘时序规则挖掘时序规则挖掘基于归纳的挖掘基于归纳的挖掘基于模式的挖

28、掘基于模式的挖掘基于统计理论的挖掘基于统计理论的挖掘基于集成的数据挖掘基于集成的数据挖掘浅层数据挖掘和深层数据挖掘6.1 数据挖掘技术数据挖掘技术(3/9)n数据挖掘的优点和缺点数据挖掘的优点和缺点减少用户的工作量减少用户的工作量使用户得到意外的信息使用户得到意外的信息对数据的变化可做出快对数据的变化可做出快速的响应速的响应优优 点点对计算机的性能要求高对计算机的性能要求高意外的信息不可靠意外的信息不可靠即使发现一个潜在的可以即使发现一个潜在的可以利用的关系,其实际使用利用的关系,其实际使用价值也可能不太明显价值也可能不太明显缺缺 点点6.1 数据挖掘技术数据挖掘技术(4/9)n数据挖掘的基本

29、过程和步骤数据挖掘的基本过程和步骤(1/2)采集数据采集数据数据预处理数据预处理数据挖掘数据挖掘解释评价解释评价过过 程程6.1 数据挖掘技术数据挖掘技术(5/9)问题定义问题定义发现信息发现信息制定计划制定计划采取行动采取行动监测结果监测结果步步 骤骤数据挖掘的主要工作流程数据挖掘的主要工作流程数据挖掘前的准备数据挖掘前的准备数据挖掘算法的选择数据挖掘算法的选择结果输出结果输出数据挖掘要解决的问题数据挖掘要解决的问题相关数据的收集相关数据的收集数据的预处理数据的预处理(清洗、清洗、提取、转换、加载提取、转换、加载)数据仓库的逻辑模型数据仓库的逻辑模型数据挖掘数据挖掘的典型方的典型方法中介绍法

30、中介绍输出形式:统计报表、输出形式:统计报表、文字描述、图线图表、文字描述、图线图表、某一事件的触发器或某一事件的触发器或用来构成一个应用的用来构成一个应用的部分等部分等n数据挖掘的基本过程和步骤数据挖掘的基本过程和步骤(2/2)6.1 数据挖掘技术数据挖掘技术(6/9)n数据挖掘的典型方法数据挖掘的典型方法(1/2)数据挖掘方法数据挖掘方法统计方法统计方法机器学习方法机器学习方法神经网络方法神经网络方法数据库方法数据库方法回归分析回归分析:多元回归、自回归等判别分析判别分析:贝叶斯判别、费歇尔判别、非参数判别等聚类分析聚类分析:系统聚类、动态聚类等探索性分析探索性分析:主元分析法、相关分析法

31、等模糊集、粗糙集、支持向量机等模糊集、粗糙集、支持向量机等归纳学习方法归纳学习方法:决策树、规则归纳等基于范例的推理基于范例的推理CBRCBR遗传算法遗传算法贝叶斯信念网络等贝叶斯信念网络等 前向神经网络前向神经网络:BP算法等自组织神经网络自组织神经网络:自组织特征映射、竞争学习等基于可视化的多维数据分析或基于可视化的多维数据分析或OLAPOLAP方法方法面向属性的归纳方法面向属性的归纳方法 6.1 数据挖掘技术数据挖掘技术(7/9)关联关联规则规则又模式发现,指通过数据挖掘发现的关联性。又模式发现,指通过数据挖掘发现的关联性。数据数据抽取抽取对数据进行浓缩,给出其紧凑描述。数据挖掘对数据进

32、行浓缩,给出其紧凑描述。数据挖掘从泛化的角度讨论数据,一是多维数据分析方法从泛化的角度讨论数据,一是多维数据分析方法(OLAP)(OLAP),二是面向属性的归纳方法。,二是面向属性的归纳方法。分类分类分析分析根据事先定义的一些数据组将数据分类,并从根据事先定义的一些数据组将数据分类,并从中发现各组中数据的公共特征。中发现各组中数据的公共特征。聚类聚类分析分析从数据中发现一组聚类规则,用这些规则将数从数据中发现一组聚类规则,用这些规则将数据分组,构成相似的对象类。据分组,构成相似的对象类。n数据挖掘的典型方法数据挖掘的典型方法(2/2)6.1 数据挖掘技术数据挖掘技术(8/9)n数据挖掘与数据仓

33、库的关系数据挖掘与数据仓库的关系6.1 数据挖掘技术数据挖掘技术(9/9)数据挖掘不一定要有数据仓库的支持数据挖掘不一定要有数据仓库的支持数据挖掘可被看成是数据仓库的后期市场产品数据挖掘可被看成是数据仓库的后期市场产品数据挖掘直接从数据仓库中得到的数据有许多好处数据挖掘直接从数据仓库中得到的数据有许多好处数据挖掘库可是数据仓库的一个逻辑上的子集数据挖掘库可是数据仓库的一个逻辑上的子集为了数据挖掘,不必非建立一个数据仓库为了数据挖掘,不必非建立一个数据仓库关系关系6.2 联机分析处理技术联机分析处理技术(1/12)n联机分析处理联机分析处理(OLAP)的含义的含义(1/2)联机分析处理联机分析处

34、理(OLAP)决策者可根据决策者可根据关心事项将事务性数据整合起关心事项将事务性数据整合起来,用来,用多维数据库多维数据库的存储机制的存储机制来保存,并在其上进行有关的来保存,并在其上进行有关的数据操作。数据操作。联机事务处理联机事务处理(OLTP)进行固定处进行固定处理理OLTPOLTP又为生产系统,是事件驱动、面向又为生产系统,是事件驱动、面向应用的。基本特点:对响应时间要求非应用的。基本特点:对响应时间要求非常高;用户数量非常庞大,主要是操作常高;用户数量非常庞大,主要是操作人员;数据库的各种操作基于索引进行。人员;数据库的各种操作基于索引进行。OLAPOLAP是基于数据仓库的信息分析处

35、理过是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。程,是数据仓库的用户接口部分。OLAPOLAP系统是跨部门、面向主题的。基本特点:系统是跨部门、面向主题的。基本特点:基础数据来源于生产系统中的操作数据;基础数据来源于生产系统中的操作数据;响应时间合理;用户数量相对较少,其响应时间合理;用户数量相对较少,其用户主要是业务决策与管理人员;数据用户主要是业务决策与管理人员;数据库的各种操作不能完全基于索引进行。库的各种操作不能完全基于索引进行。注:注:OLAPOLAP工具是整个数据仓库解决方案中不可缺少的部分,当前市场上有许多这类工具是整个数据仓库解决方案中不可缺少的部分,当前市场上

36、有许多这类成熟的产品,如成熟的产品,如NCRNCR的的QueryManQueryMan、AndyneAndyne软件公司的图形查询语言、软件公司的图形查询语言、Brio QueryBrio Query等。等。n联机分析处理的含义联机分析处理的含义(2/2)OLTPOLAP使用目的使用目的企业的业务处理企业的业务处理企业的决策支持企业的决策支持面向用户面向用户事务人员、数据库管理人员事务人员、数据库管理人员经理、分析人员等知识工作者经理、分析人员等知识工作者主要功能主要功能处理日常发生的业务数据处理日常发生的业务数据产生决策所需要的信息产生决策所需要的信息数据的时间性数据的时间性当前的当前的历史

37、的历史的数据的抽象程度数据的抽象程度详细的、分散的详细的、分散的汇总的、整合的汇总的、整合的视视 图图关系表关系表多维数据立方体多维数据立方体处理方式处理方式添加、排序、求和、查询等添加、排序、求和、查询等切片、切块、上钻、下钻等切片、切块、上钻、下钻等基本的处理操作基本的处理操作读读/写写只读只读访问记录的数量访问记录的数量数十个数十个数百万个数百万个数据库规模数据库规模MGMG到到GBGBGBGB到到TBTB系统性能度量系统性能度量事务吞吐量事务吞吐量查询吞吐量查询吞吐量OLTP与与OLAP的性质比较的性质比较6.2 联机分析处理技术联机分析处理技术(2/12)n联机分析处理的相关概念联机

38、分析处理的相关概念(1/2)多维数多维数据库据库相相关概念关概念变量变量数据库中数据所描述的实体。变量是数值型的,且数据库中数据所描述的实体。变量是数值型的,且是一个可度量的量。是一个可度量的量。维维是变量的某种性质,是决策者观察数据的特定角度。是变量的某种性质,是决策者观察数据的特定角度。维的层次维的层次人们从某个特定角度人们从某个特定角度(即某个维即某个维)观察数据时,观察数据时,还可有多种不同的细节程度。一个维往往具有多个层次。还可有多种不同的细节程度。一个维往往具有多个层次。多维数组多维数组一个多维数组可表示为一个多维数组可表示为(维维1,维维2,维维n,变量变量)。维成员维成员指指维

39、的一个取值。若一个维是多层次的,则该维维的一个取值。若一个维是多层次的,则该维的维成员是由各个不同维层次的取值组合而成的维成员是由各个不同维层次的取值组合而成。数据单元数据单元(单元格单元格)指多维数组的取值。当多维数组的各指多维数组的取值。当多维数组的各个值都选中一个维成员,这些维成员的组合就唯一确定了一个个值都选中一个维成员,这些维成员的组合就唯一确定了一个变量的值。变量的值。6.2 联机分析处理技术联机分析处理技术(3/12)例例变量变量销售额、销售量等销售额、销售量等维维时间、部门、商品等时间、部门、商品等维的层次维的层次时间维上的层次有年、季、月、天等;时间维上的层次有年、季、月、天

40、等;地理维上的层次如中国四川成都双流航空港开发地理维上的层次如中国四川成都双流航空港开发区等区等维成员维成员某年某月,某月某日等某年某月,某月某日等多维数组多维数组(维维1,1,维维2,2,维维n,n,变量变量)(时间、地点、商店、商品、销售额时间、地点、商店、商品、销售额)数据单元数据单元(单元格单元格)(维维1 1维成员维成员,维维2 2维成员维成员,维维n n维成员维成员,变量的值变量的值)(2005,(2005,双流,万达家电,冰箱,双流,万达家电,冰箱,500)500)n联机分析处理的相关概念联机分析处理的相关概念(2/2)6.2 联机分析处理技术联机分析处理技术(4/12)n联机分

41、析处理的数据组织联机分析处理的数据组织6.2 联机分析处理技术联机分析处理技术(5/12)星型模型星型模型多维数据模型多维数据模型ROLAPMOLAPHOLAP基于关系数据库的基于关系数据库的OLAPOLAP实现。实现。基于多维数据组织的基于多维数据组织的OLAP实现实现。基于混合数据组织的基于混合数据组织的OLAP实现实现。三种三种形式形式n星型模型星型模型6.2 联机分析处理技术联机分析处理技术(5/12)星型模型星型模型是一是一种由一点种由一点向外辐射向外辐射的建模范的建模范例。例。一个星型数据模型由主题和维组成。主题一个星型数据模型由主题和维组成。主题是该数据模型要表示的主要内容,一般

42、为是该数据模型要表示的主要内容,一般为数值型数据。维是与主题相关的某种性质。数值型数据。维是与主题相关的某种性质。一个星型数据模型是用来描述一组数据表一个星型数据模型是用来描述一组数据表的关系,包括事实表和维表。其中心的对的关系,包括事实表和维表。其中心的对象为象为“事实表事实表”,与之相连接的对象为,与之相连接的对象为“维表维表”。事实表必须包括事实的名称和。事实表必须包括事实的名称和值以及与各相关维表相连接的关键字;维值以及与各相关维表相连接的关键字;维表是用来进一步描述该维的一些性质,含表是用来进一步描述该维的一些性质,含与事实表相关联的关键字。与事实表相关联的关键字。订货单订货单销售员

43、号销售员号客户号客户号产品号产品号日期标识日期标识地区名称地区名称数据量数据量总价总价订单号订单号定货日期定货日期客户号客户号客户名称客户名称客户地址客户地址销售员号销售员号销售员姓名销售员姓名城市城市产品号产品号产品名称产品名称产品目录产品目录单价单价日期标识日期标识日日月月地区名称地区名称省别省别事实表事实表订货单订货单客户表客户表销售员销售员产品表产品表日期表日期表地区表地区表星型模型举例星型模型举例产品目录产品目录目录描述目录描述目录表目录表月月年年月表月表年年年表年表省别省别省表省表雪花模型举例雪花模型举例6.2 联机分析处理技术联机分析处理技术(5/12)nOLAP的多维数据分析方

44、法的多维数据分析方法OLAPOLAP的的基本分析基本分析功能功能包括切片、包括切片、切块、旋转、上切块、旋转、上钻、下钻等。钻、下钻等。o切片切片在多维数组的某一维上选定一个维成员在多维数组的某一维上选定一个维成员后所得到的结果。后所得到的结果。o切块切块在多维数组的某一维上选定一个维成员在多维数组的某一维上选定一个维成员区间的操作。区间的操作。o旋转旋转从不同的角度观察同一个数据立方体。从不同的角度观察同一个数据立方体。o上钻上钻在数据立方体上进行的聚集操作,具体在数据立方体上进行的聚集操作,具体指从某层数据出发,根据某一维的层次,得到其指从某层数据出发,根据某一维的层次,得到其上一层的数据

45、总计。上一层的数据总计。o下钻下钻上钻的逆操作。上钻的逆操作。o除了以上分析功能,还有分组、突出显示、数据除了以上分析功能,还有分组、突出显示、数据函数及聚焦或隐藏标签等。函数及聚焦或隐藏标签等。6.2 联机分析处理技术联机分析处理技术(6/12)Location=“Vancouver”Item(类型)Time(季度)计算机电话娱乐安全Q18258251414605605400400Q29529523131680680512512Q2102310233030812812501501Q4103810383838927927580580VancouverChicagoToronto Item(类型

46、)Item(类型)Item(类型)Time(季度)计算机电话娱乐安全计算机电话娱乐安全计算机电话娱乐安全Q18258251414605605400400Q29529523131680680512512Q2102310233030812812501501Q4103810383838927927580580例例6.2 联机分析处理技术联机分析处理技术(7/12)timeitemlocationQ1计算机电话娱乐安全Q2Q3Q4VancouverChicagoTorontoNew York82514605400VancouverChicagoTorontotimeitemlocationQ1计算机电

47、话娱乐安全Q2Q3Q4New YorkSupplier=“SUP1”Supplier=“SUP2”例例6.2 联机分析处理技术联机分析处理技术(8/12)timeitemQ1计算机电话Q2VancouverChicagotimeitemlocationQ1计算机电话娱乐安全Q2Q3Q4VancouverChicagoTorontoNew York82514605400按按timetime下下钻钻(从季度从季度到月份到月份)按按locationslocations上上钻钻(从城市到国从城市到国家家)切块切块切片切片Q1Q1旋转旋转例例从技术角度看,商务智能的过程是企业的决策人员以企业中的数据仓库

48、为基础,经由联机分析处理工具、数据挖掘工具加上决策规划人员的专业知识,从数据中获得有用的信息和知识,帮助企业获取利润。n数据仓库、数据仓库、OLAP和数据挖掘的关系和数据挖掘的关系(1/3)6.2 联机分析处理技术联机分析处理技术(10/12)数据仓库数据仓库OLAPOLAP数据挖掘数据挖掘是一个用以更好地支持企业或组织的决策分析处理的的数据集合,它有面向主题、集成、相对稳定、随时间不断变化四个特性。数据仓库的关键技术包括数据的抽取、清洗、转换、加载和维护技术。是以海量数据为基础的复杂分析技术。支持用户用户从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析处理,并以直观易懂的形式

49、将查询和分析结果展现给用用户户。使用的逻辑数据模型为多维数据模型。其其多维分析操作有上上钻钻、下钻、切片、切块、旋转等。在物理实现时,主要有三种方式:ROLAP结构、MOLAP结构和HOLAP结构。是从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。数据挖掘的数据有多种来源,包括数据仓库、数据库或其他数据源。所有的数据都需要再次进行选择,具体的选择方式与任务相关。挖掘的结果需要进行评价才能最终成为有用的信息,按照评价结果的不同,数据可能需要反馈到不同的阶段,重新进行分析计算。数据挖掘的常用方法包括关联规则规则、数据归类数据归类、聚类分析分析、分类分析分类分析等。n

50、数据仓库、数据仓库、OLAP和数据挖掘的关系和数据挖掘的关系(2/3)6.2 联机分析处理技术联机分析处理技术(11/12)在理论研究上,OLAP技术的研究人员主要来自数据库界,重点研究CUBE压缩与计算、实体化视图的选择与维护、多维数据的索引和多维查询处理等技术,以便能够在海量数据上提供秒级的分析请求响应时间。数据挖掘技术的研究人员来自人工智能、统计、数据库界,其研究主要集中在各种挖掘算法和评价方法上,研究可伸缩的数据挖掘方法、基于约束的挖掘方法、复杂数据类型的挖掘等。联机分析处理和数据挖掘是数据仓库之上的增值技术。这两类技术如果能够在一定程度上融合,会使分析操作智能化,使挖掘操作目标化,从

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第六章-决策支持的新技术-决策支持系统课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|