1、基于基于数据仓库的数据仓库的决策支持系统决策支持系统 (1)1 第第5章章20世纪世纪90年代中期,国外兴起了三项决策支持新技年代中期,国外兴起了三项决策支持新技术术:数据仓库(数据仓库(DW)、联机分析处理()、联机分析处理(OLAP)、数)、数据挖掘(据挖掘(DM)。)。数据仓库、联机分析处理、数据挖掘的结合形成了数据仓库、联机分析处理、数据挖掘的结合形成了基基于数据仓库的决策支持系统于数据仓库的决策支持系统。第第(1)(1)部分部分 5.1 5.1 数据仓库的基本原理数据仓库的基本原理5.1 5.1 数据仓库的基本原理数据仓库的基本原理5.1.1 数据仓库概念数据仓库概念5.1.2 数据
2、仓库结构数据仓库结构5.1.3 数据集市数据集市5.1.4 元数据元数据5.1.5 数据仓库存储数据仓库存储5.1.6 数据仓库系统数据仓库系统5.1.1 数据仓库概念数据仓库概念数据仓库(数据仓库(Data Warehouse)是)是W.H.Inmon在在建立数据仓库建立数据仓库中提出的。中提出的。从目前的形势看,数据仓库技术已紧跟从目前的形势看,数据仓库技术已紧跟Internet而而上,成为信息社会中获得企业竞争优势的又一关键上,成为信息社会中获得企业竞争优势的又一关键技术。技术。W.H.Inmon W.H.Inmon对数据仓库的定义为:对数据仓库的定义为:数据仓库是面向主题的、集成的、稳
3、定的,不同数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。时间的数据集合,用于支持经营管理中决策制定过程。SAS软件研究所定义:软件研究所定义:数据仓库是一种管理技术,旨在通过通畅、合理、数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。全面的信息管理,达到有效的决策支持。传统数据库用于事务处理,也叫操作型处理,传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用录的查询和修改,主要为企业特定的应用
4、服务的。用户关心的是响应时间,数据的安全性和完整性。户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立决策支持系统(决策分析,它是建立决策支持系统(DSSDSS)的基础。)的基础。操作型数据(操作型数据(DBDB数据)与数据)与分析型数据(分析型数据(DWDW数据)之间的差别为:数据)之间的差别为:DBDB 数据数据 DWDW 数据数据 细节的细节的 综合或提炼的综合或提炼的 在存取时准确的在存取时准确的 代表过去的数据代表过去的数据 可更新的可更新的 不更新不更新 一次操作数据量小一次操作数据量小
5、一次操作数据量大一次操作数据量大 面向应用面向应用 面向分析面向分析 支持管理支持管理 支持决策支持决策 主题是数据归类的标准,每一个主题基本对应一主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。个宏观的分析领域。例如,银行的数据仓库的主题:客户例如,银行的数据仓库的主题:客户 DWDW的客户数据来源:的客户数据来源:从从银行储蓄银行储蓄DBDB、信用卡、信用卡DBDB、贷款、贷款DBDB等三个等三个DBDB中抽中抽取同一客户的数据整理而成。取同一客户的数据整理而成。在在D DW W中分析客户数据,可决定是否继续给予贷款。中分析客户数据,可决定是否继续给予贷款。数据进入数据仓库之前
6、,必须经过加工与集成。数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题将原始数据结构做一个从面向应用到面向主题的大转变。的大转变。数据仓库中包括了大量的历史数据。数据经集数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。成进入数据仓库后是极少或根本不更新的。数据仓库内的数据时限在数据仓库内
7、的数据时限在510510年,故数据的键年,故数据的键码包含时间项,标明数据的历史时期,这适合码包含时间项,标明数据的历史时期,这适合DSSDSS进行时间趋势分析。进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的而数据库只包含当前数据,即存取某一时间的正确的有效的数据。正确的有效的数据。大型大型DWDW是一个是一个TBTB(1000GB1000GB)级数据库问题(一般)级数据库问题(一般为为10GB10GB级相当于一般数据库级相当于一般数据库100MB100MB的的100100倍)倍)需要一个巨大的硬件平台需要一个巨大的硬件平台 需要一个并行的数据库系统需要一个并行的数据库系统 最好的
8、数据仓库是大的和昂贵的。最好的数据仓库是大的和昂贵的。近期基本数据:近期基本数据:是最近时期的业务数据,是数是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。据仓库用户最感兴趣的部分,数据量大。历史基本数据:历史基本数据:近期基本数据随时间的推移,近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。由数据仓库的时间控制机制转为历史基本数据。轻度综合数据:轻度综合数据:是从近期基本数据中提取出的,是从近期基本数据中提取出的,这 层 数 据 是 按 时 间 段 选 取,或 者 按 数 据 属 性这 层 数 据 是 按 时 间 段 选 取,或 者 按 数 据 属 性(at
9、tributesattributes)和内容()和内容(contentscontents)进行综合。)进行综合。高度综合数据层:高度综合数据层:这一层的数据是在轻度综合这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。数据基础上的再一次综合,是一种准决策数据。元元数数据据 高高度度综综合合数数据据轻轻度度综综合合数数据据当当前前基基本本数数据据历历史史数数据据层层 数据仓库工作范围和成本常常是巨大的。开发数据数据仓库工作范围和成本常常是巨大的。开发数据库是代价很高、时间较长的大项目。库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。提供更紧密集成的数据集市就应
10、运产生。目前,全世界对数据仓库总投资的一半以上均集中目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。在数据集市上。数据集市数据集市是一种更小、更集中的数据仓库,为公是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。司提供分析商业数据的一条廉价途径。数据集市数据集市是指具有特定应用的数据仓库,主要针是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。得竞争优势或者找到进入新市场的具体解决方案。独立数据集市独立数据集市从属数据集市从属数据集市 1 1、规模是小的
11、,、规模是小的,面向部门面向部门2 2、由业务部门设计、开发、管理和维护、由业务部门设计、开发、管理和维护3 3、购买较便宜,快速实现,投资快速回收、购买较便宜,快速实现,投资快速回收4 4、数据仓库的子集、数据仓库的子集5 5、可升级到完整的数据仓库、可升级到完整的数据仓库 元数据是数据仓库的重要组成部分。元数据是数据仓库的重要组成部分。元数据描述了数据仓库的数据和环境,元数据描述了数据仓库的数据和环境,即关于数据的数据即关于数据的数据(meta data)(meta data)元数据包括四种元数据。元数据包括四种元数据。它是它是现有的业务系统的数据源的描述信息现有的业务系统的数据源的描述信
12、息。这。这类元数据是是对不同平台上的数据源的物理结构和类元数据是是对不同平台上的数据源的物理结构和含义的描述。具体为:含义的描述。具体为:(1 1)数据源中所有物理数据结构,包括所有的)数据源中所有物理数据结构,包括所有的数据项及数据类型。数据项及数据类型。(2 2)所有数据项的业务定义。)所有数据项的业务定义。(3 3)每个数据项更新的频率,以及由谁或那个)每个数据项更新的频率,以及由谁或那个过程更新的说明。过程更新的说明。(4 4)每个数据项的有效值。)每个数据项的有效值。1 1、关于数据源的元数据、关于数据源的元数据 数据仓库的数据仓库的数据模型是星型模型数据模型是星型模型。通常企业数据
13、模型被用作建立仓库数通常企业数据模型被用作建立仓库数据模型的起始点,再对模型加以修改和变据模型的起始点,再对模型加以修改和变换。换。2 2、关于数据模型的元数据、关于数据模型的元数据 这类元数据是这类元数据是数据源与数据仓库数据间的数据源与数据仓库数据间的映射。映射。当数据源中的一个数据项与数据仓库建立当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据何变换或变动。即用元数据反映数据仓库中的反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那数据项是从哪个特定的数据源填充的,经过那些转换,变换和加载过
14、程。些转换,变换和加载过程。3 3、关于数据仓库映射的元数据、关于数据仓库映射的元数据 这类元数据是数据仓库中信息的使用情况描述。这类元数据是数据仓库中信息的使用情况描述。(1 1)元数据告诉数据仓库中有什么数据,即如何)元数据告诉数据仓库中有什么数据,即如何按主题查看数据仓库的内容。按主题查看数据仓库的内容。(2 2)元数据提供已有的可重复利用的查询语言信)元数据提供已有的可重复利用的查询语言信息。息。关于数据仓库使用的元数据能帮助用户到数据仓关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。库查询所需要的信息,用于解决企业问题。数据仓库存储采用多维数据模型。数
15、据仓库存储采用多维数据模型。维就是相同类数据的集合,商店、时间和产品都是维。维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。一个成员。每一个销售事实由一个特定的商品、一个特定的时间、每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。一个特定的商品组成。两维表,如通常的电子表格。三维构成立方体,若再增两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很
16、难想象,也不容易在屏幕上画出来。加一维,则图形很难想象,也不容易在屏幕上画出来。数据仓库是以多维表型的数据仓库是以多维表型的“维表维表事实表事实表”结构形式组织的,共结构形式组织的,共有三种形式:有三种形式:1 1、星型模型、星型模型 大多数的数据仓库都采用大多数的数据仓库都采用“星型模型星型模型”。星型模型是由。星型模型是由“事实表事实表”(大表)以及多个(大表)以及多个“维表维表”(小表)所组成。(小表)所组成。“事实表事实表”中存放大量关于企业的事实数据(数量数据)。中存放大量关于企业的事实数据(数量数据)。例如:多个时期的数据可能会出现在同一个例如:多个时期的数据可能会出现在同一个“事
17、实表事实表”中。中。“维维表表”中存放描述性数据,维表是围绕事实表建立的较小的表。中存放描述性数据,维表是围绕事实表建立的较小的表。星型模型数据如下图:星型模型数据如下图:2 2、雪花模型、雪花模型 雪花模型是对星型模型的扩展,雪花模型对星型模型的维雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的成一些局部的“层次层次”区域。区域。它的优点是最大限度地减少数据存储量,以及把较小的维它的优点是最大限度地减少数据存储量,以及把较小的维表联合在一起来改善查询性能。表联合在一起来改
18、善查询性能。在上面星型模型的数据中在上面星型模型的数据中 ,对,对“产品表产品表”“”“日期日期表表”“”“地区表地区表”进行扩展形成雪花模型数据见下图。进行扩展形成雪花模型数据见下图。3 3、星网模型、星网模型 星网模型是将多个星型模型连接起来形成网状结构。多个星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。星型模型通过相同的维,如时间维,连接多个事实表。5.1.6数据仓库系统结构数据仓库系统结构 数据仓库系统由数据仓库(数据仓库系统由数据仓库(DWDW)、仓库管理和分析工)、仓库管理和分析工具三部分组成。具三部分组成。(1 1)定义部分)定
19、义部分 用于定义和建立数据仓库系统。它包括:用于定义和建立数据仓库系统。它包括:(1)(1)设计和定义数据仓库的数据库设计和定义数据仓库的数据库 (2)(2)定义数据来源定义数据来源 (3)(3)确定从源数据向数据仓库复制数据时的清理确定从源数据向数据仓库复制数据时的清理和增强规则和增强规则(2 2)数据获取部分)数据获取部分 该部件把数据从源数据中提取出来,依定义部该部件把数据从源数据中提取出来,依定义部件的规则,抽取、转化和装载数据进入数据仓库。件的规则,抽取、转化和装载数据进入数据仓库。(3 3)管理部分)管理部分 它用于管理数据仓库的工作,包括:它用于管理数据仓库的工作,包括:(1 1
20、)对数据仓库中数据的维护)对数据仓库中数据的维护 (2 2)把仓库数据送出给分散的仓库服务器或)把仓库数据送出给分散的仓库服务器或DSSDSS用户用户 (3 3)对仓库数据的安全、归档、备份、恢复)对仓库数据的安全、归档、备份、恢复等处理工作等处理工作(4 4)信息目录部件(元数据)信息目录部件(元数据)数据仓库的目录数据是元数据,由三部分组成:数据仓库的目录数据是元数据,由三部分组成:技术目录:技术目录:由定义部件生成,关于数据源、目标、清理由定义部件生成,关于数据源、目标、清理规则、变换规则以及数据源和仓库之间的映象信息。规则、变换规则以及数据源和仓库之间的映象信息。业务目录:业务目录:由
21、仓库管理员生成,关于仓库数据的来源及由仓库管理员生成,关于仓库数据的来源及当前值;预定义的查询和报表细节;合法性要求等。当前值;预定义的查询和报表细节;合法性要求等。信息引导器:信息引导器:使用户容易访问仓库数据。利用固定查询使用户容易访问仓库数据。利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合的能力或建立新的查询,生成暂时的或永久的仓库数据集合的能力等。等。分析工具集分两类工具:分析工具集分两类工具:(1 1)查询工具)查询工具 数据仓库的查询不是指对记录级数据的查数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。询,而是指对分析要求的查询。一般包含:一般包含:可视
22、化工具:可视化工具:以图形化方式展示数据,可以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。以帮助了解数据的结构,关系以及动态性。多维分析工具(多维分析工具(OLAPOLAP工具)工具):通过对信息的多种可能的观察形式进行快通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。进行深入的分析和观察。多维数据的每一维代表对数据的一个特定多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。的观察视角,如时间、地域、业务等。(2 2)数据挖掘工具)数据挖掘工具 从大量数据中挖掘具有
23、规律性知识,需要从大量数据中挖掘具有规律性知识,需要利用数据挖掘(利用数据挖掘(Data MiningData Mining)工具。)工具。数据仓库应用是一个典型的数据仓库应用是一个典型的客户客户/服务器(服务器(C/SC/S)结构)结构形形式。式。数据仓库采用服务器结构,客户端所做的工作有:客户数据仓库采用服务器结构,客户端所做的工作有:客户交互、格式化查询、结果显示、报表生成等。交互、格式化查询、结果显示、报表生成等。服务器端完成各种辅助决策的服务器端完成各种辅助决策的SQLSQL查询、复杂的计算和各查询、复杂的计算和各类综合功能等。类综合功能等。现在,越来越普通的一种形式是现在,越来越普
24、通的一种形式是三层三层C/SC/S结构形式,即在结构形式,即在客户与数据仓库服务器之间增加一个多维数据分析(客户与数据仓库服务器之间增加一个多维数据分析(OLAPOLAP)服务器。服务器。客 户 端OLAP 服 务 器数 据 仓 库服 务 器 OLAPOLAP服务器将加强和规范化决策支持的服务工服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。分工作,降低了系统数据传输量。这种结构形式工作效率更高。这种结构形式工作效率更高。习题习题1,2,4,7,13,14,15基于基于数据仓库的数据仓库的
25、决策支持系决策支持系 (2)39 第第5章章第(第(2 2)部分)部分405.2 5.2 联机分析处理联机分析处理 5.3 5.3 数据仓库的决策支持数据仓库的决策支持5.2 5.2 联机分析处理联机分析处理415.2.1 基本概念基本概念5.2.2 OLAP数据组织数据组织5.2.3 OLAP的决策支持:多维数据分析的决策支持:多维数据分析5.2.4 OLAP的应用实例的应用实例42 联机分析处理(联机分析处理(On Line Analytical ProcessingOn Line Analytical Processing,OLAPOLAP)的概念最早是由关系数据库之父的概念最早是由关系
26、数据库之父E.F.CoddE.F.Codd于于19931993年提出的。年提出的。在数据仓库系统中,联机分析处理是重要的数在数据仓库系统中,联机分析处理是重要的数据分析工具据分析工具。OLAPOLAP的基本思想是从多方面和多角度以多维的的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。形式来观察企业的状态和了解企业的变化。5.2.1 基本概念基本概念43 OLAP是在是在OLTP的基础上发展起来的。的基础上发展起来的。OLTP是以数据库为基础的,面对的是操作人员是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等和低层管理人员,对基本数据的
27、查询和增、删、改等进行处理。进行处理。OLAP是以数据仓库为基础的数据分析处理。它是以数据仓库为基础的数据分析处理。它有两个特点:有两个特点:一是在线性(一是在线性(On Line),由客户机),由客户机/服务器这种服务器这种体系结构来完成的;体系结构来完成的;二是多维分析,这也是二是多维分析,这也是OLAP的核心所在。的核心所在。联机分析处理是共享多维信息的快速分析。联机分析处理是共享多维信息的快速分析。它体现了四个特征:它体现了四个特征:(1)快速性)快速性:用户对用户对OLAP的快速反应能力有很高的要求的快速反应能力有很高的要求 (2)可分析性)可分析性:OLAP系统应能处理任何逻辑分析
28、和统计系统应能处理任何逻辑分析和统计分析。分析。(3)多维性)多维性:系统必须提供对数据分析的多维视图和分析系统必须提供对数据分析的多维视图和分析(4 4)信息性)信息性:OLAPOLAP系统应能及时获得信息,并且管理大容系统应能及时获得信息,并且管理大容量的信息。量的信息。45 19931993年,年,E.F.CoddE.F.Codd提出提出OLAPOLAP的的1212条准则,其主条准则,其主要的准则有:多维数据分析;客户要的准则有:多维数据分析;客户/服务器结构;服务器结构;多用户支持;一致的报表性能等。多用户支持;一致的报表性能等。1 1.多维概念视图多维概念视图46企业的数据空间本身就
29、是多维的。因此企业的数据空间本身就是多维的。因此OLAP的的概念模型也应是多维的。概念模型也应是多维的。用户可以对多维数据模型进行切片、切块、旋转用户可以对多维数据模型进行切片、切块、旋转坐标或进行多维的联合(概括和聚集)分析。坐标或进行多维的联合(概括和聚集)分析。4.4.稳定的报表性能稳定的报表性能 47 报表操作不应随维数增加而削弱,即报表操作不应随维数增加而削弱,即当数据维数和数据的综合层次增加时,提当数据维数和数据的综合层次增加时,提供的报表能力和响应速度不应该有明显的供的报表能力和响应速度不应该有明显的降低。降低。5客户客户/服务器体系结构服务器体系结构 48 OLAP是建立在客户
30、是建立在客户/服务器体系结构上的。服务器体系结构上的。要求多维数据库服务器能够被不同的应用和工具要求多维数据库服务器能够被不同的应用和工具所访问。所访问。49 8多用户支持多用户支持 当多个用户要在同一分析模式上并行工作,需要这当多个用户要在同一分析模式上并行工作,需要这些功能的支持。些功能的支持。11灵活的报表生成灵活的报表生成 报表必须报表必须充分反映数据分析模型的多维特征,并充分反映数据分析模型的多维特征,并可按用户需要的方式来显示它。可按用户需要的方式来显示它。OLAP OLAP是针对特定问题的联机数据访问和分析。是针对特定问题的联机数据访问和分析。(1 1)变量)变量 :变量是数据的
31、实际意义,即描述数据:变量是数据的实际意义,即描述数据“是什么是什么”。(2 2)维)维:维是人们观察数据的特定角度。如产品:维是人们观察数据的特定角度。如产品维、顾客维、时间维等。维、顾客维、时间维等。(3 3)维的层次)维的层次:数据的细节不同程度为维的层次:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。如日、月、季、年是时间维的层次。(4 4)维成员)维成员:维的一个取值称为该维的一个维成:维的一个取值称为该维的一个维成员。如员。如“某年某月某日某年某月某日”是时间维的一个成员。是时间维的一个成员。(5 5)多维数组)多维数组:一个多维数组可以表示为:一个多维数组可以表示
32、为:(维(维1 1,维,维2 2,维,维n n,变量),变量)一个一个5 5维的结构,即维的结构,即 (产品,地区,时间,销售渠道,销售额)(产品,地区,时间,销售渠道,销售额)(6 6)数据单元(单元格)数据单元(单元格):多维数组的取值称为数据单元。多维数组的取值称为数据单元。如:如:5 5维数据单元维数据单元(牙膏,上海,(牙膏,上海,19981998年年1212月,批发,销售额为月,批发,销售额为100000100000)。)。(1 1)OLTPOLTPOLTPOLTP是低层人员利用计算机网络对数据库中的数据是低层人员利用计算机网络对数据库中的数据进行查询、增、删、改等操作,以完成事务
33、处理工进行查询、增、删、改等操作,以完成事务处理工作。作。OLTP利用数据库快速地处理具体业务。利用数据库快速地处理具体业务。OLTP应用应用要求多个查询并行。要求多个查询并行。(2 2)OLAPOLAPOLAPOLAP是高层人员对数据仓库进行信息分析处理。是高层人员对数据仓库进行信息分析处理。存取大量的数据存取大量的数据 包含聚集的数据包含聚集的数据 按层次对比不同时间周期的聚集数据按层次对比不同时间周期的聚集数据 以不同的方式来表现数据以不同的方式来表现数据 要包含数据元素之间的复杂的计算要包含数据元素之间的复杂的计算 能够快速的响应用户的查询能够快速的响应用户的查询 (3 3)OLAPO
34、LAP与与OLTPOLTP对比(对比表)对比(对比表)OLTPOLAP数据库数据数据库数据数据仓库数据数据仓库数据细节性数据细节性数据综合性数据综合性数据当前数据当前数据历史数据历史数据一次性处理的数据量小一次性处理的数据量小一次处理的数据量大一次处理的数据量大对响应时间要求高对响应时间要求高响应时间合理响应时间合理用户数量大用户数量大用户相对较少用户相对较少面向应用,事务驱动面向应用,事务驱动面向分析,分析驱动面向分析,分析驱动 55 MOLAPMOLAP和和ROLAPROLAP是是OLAPOLAP的两种具体形式:的两种具体形式:ROLAPROLAP是基于关系数据库存储方式建立的是基于关系数
35、据库存储方式建立的OLAPOLAP。多维数据映射成平面型的关系表。采用星型模型。多维数据映射成平面型的关系表。采用星型模型。56 MOLAP MOLAP是基于多维数据库存储方式建立的是基于多维数据库存储方式建立的OLAPOLAP;表现为;表现为“超立方超立方”结构,类似于多维数组结构,类似于多维数组的结构。的结构。在分析中,需要在分析中,需要“旋转旋转”数据立方体以及数据立方体以及“切片切片”、“切块切块”等操作。等操作。MOLAPMOLAP和和ROLAPROLAP的对比表的对比表MOLAPMOLAPROLAPROLAP固定维固定维可变维可变维维交叉计算维交叉计算多维视图多维视图行级计算行级计
36、算超大型数据库超大型数据库读读-写应用写应用维数据变化速度快维数据变化速度快数据集市数据集市数据仓库数据仓库58例如,以例如,以“产品、城市、时间产品、城市、时间”三维数据,如三维数据,如图图时间城市产品电视机电冰箱广州上海9596 59 对三维数据,通过对三维数据,通过“切片切片”,分别从城市和产,分别从城市和产品等不同的角度观察销售情况:品等不同的角度观察销售情况:电视机电冰箱广州上海60钻取钻取:例如,:例如,20052005年各部门销售收入表如下:年各部门销售收入表如下:部门销售数据部门销售数据表表部门部门销售销售部门部门1900部门部门2650部门部门380061对时间维进行对时间维
37、进行下钻到季度下钻到季度操作,获得新表如下:操作,获得新表如下:2005年年部门部门1季度季度2季度季度3季度季度4季度季度部门部门1200200350150部门部门225050150150部门部门32001501802703.旋转旋转62通过旋转可以得到不同视角的数据。旋转操作相当通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。于平面数据将坐标轴旋转。或是把页面显示中的一个维和页面外的维进行交换或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个)(令其成为新的行或列中的一个)63时间维产品维产品维时间维(a)行列交换旋转以改变显示布局时间维地区维产品
38、维时间维产品维地区维64旋转前的数据旋转前的数据65旋转后的数据旋转后的数据66旋转后再切片旋转后再切片 67 1 1、基本代理操作、基本代理操作 “代理代理”是一些智能性代理,当系统处于某种特殊状是一些智能性代理,当系统处于某种特殊状态时提醒分析员。态时提醒分析员。(1 1)示警报告)示警报告 定义一些条件,一但条件满足,系统会提醒分析员去定义一些条件,一但条件满足,系统会提醒分析员去做分析。如每日报告完成或月定货完成等通知分析员作分析。做分析。如每日报告完成或月定货完成等通知分析员作分析。(2 2)异常报告)异常报告 当超出边界条件时提醒分析员。如销售情况已超出预当超出边界条件时提醒分析员
39、。如销售情况已超出预定义阈值的上限或下限时提醒分析员。定义阈值的上限或下限时提醒分析员。68 2 2、计算能力、计算能力 计算引擎用于特定需求的计算或某种复杂计计算引擎用于特定需求的计算或某种复杂计算。算。3 3、模型计算、模型计算 增加模型,如增加系统优化、统计分析、趋增加模型,如增加系统优化、统计分析、趋势分析等模型,以提高决策分析能力。势分析等模型,以提高决策分析能力。69 假设有一个假设有一个5 5维数据模型,维数据模型,5 5个维分别为:商个维分别为:商店,方案,部门,时间,销售。店,方案,部门,时间,销售。1 1三维表查询三维表查询 在指定在指定“商店商店=ALL=ALL,方案,方
40、案=现有现有”情况的三维情况的三维表(行为部门,列为时间和销售量)表(行为部门,列为时间和销售量)20082009%增长率增长率销售量利润增长%销售量利润增长%销售量利润增长服装234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽车375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9 20082009%增长率增长率销售销售利润增利润增长长%销售销售利润增利润增长长%销售销售利润增利润增长长汽车汽车375,09822.4325,40227.2(1
41、3.2)21.4维修维修195,05114.2180,78615.0(7.3)5.6附件附件116,28043.9122,54547.55.38.2音乐音乐63,7678.222,07114.2(63.4)7.3 对汽车部门向下钻取出具体项目的销售情况和对汽车部门向下钻取出具体项目的销售情况和利润增长情况。利润增长情况。2009Sales服装服装381,102家具家具66,005汽车汽车325,402所有其它所有其它306,677 切片(切片(SliceSlice)操作是除去一些列或行不显示)操作是除去一些列或行不显示 2009销售量销售量现有现有计划计划差量差量差量差量%服装服装381,10
42、2350,00031.18.9家具家具66,00569,000(2,995)(4.3)汽车汽车325,402300,00025,4028.5所有其它所有其它306,677350,000(44,322)12.7 这次旋转操作得到这次旋转操作得到20092009年的交叉表方案为:现年的交叉表方案为:现有、计划、有、计划、差量、差量差量、差量%。74 5.3.1 查询与报表查询与报表 5.3.2 多维分析与原因分析多维分析与原因分析 5.3.3 預测未来預测未来 5.3.4 实时决策实时决策 5.3.5 自动决策自动决策5.3.1 查询与报表查询与报表75查询和报表是数据仓库的最基本、使用的最多查询
43、和报表是数据仓库的最基本、使用的最多的决策支持方式。的决策支持方式。通过查询和报表使决策者了解通过查询和报表使决策者了解“目前发生了什目前发生了什么么”。查询服务查询服务 76(1)查询定义。能够容易地将商业需求转换成适当)查询定义。能够容易地将商业需求转换成适当的查询语句。的查询语句。(2)查询简化。让用户能够简单地查看数据的结构)查询简化。让用户能够简单地查看数据的结构和属性。和属性。(3)导航。用户能够使用元数据在数据仓库中浏览)导航。用户能够使用元数据在数据仓库中浏览数据。数据。(4)结果显示。能够以各种方法显示查询结果。)结果显示。能够以各种方法显示查询结果。(5)对聚集的查询。能够
44、将查询重新定义到聚集表)对聚集的查询。能够将查询重新定义到聚集表格上,以加快检索速度。格上,以加快检索速度。77(1)预格式化报表。用户能够容易选择他们需要的报表。)预格式化报表。用户能够容易选择他们需要的报表。(2)参数驱动的预定义报表。用户必须有能力来设置它们自)参数驱动的预定义报表。用户必须有能力来设置它们自己的参数,用预定义格式创建报表。己的参数,用预定义格式创建报表。(3)简单的报表开发。用户能够利用报表语言撰写工具来开)简单的报表开发。用户能够利用报表语言撰写工具来开发他们自己的报表。发他们自己的报表。(4)多数据操作选项。用户通过交换行和列变量来实现结果)多数据操作选项。用户通过
45、交换行和列变量来实现结果的旋转,在结果中增加小计和最后的总计,以及改变结果的排的旋转,在结果中增加小计和最后的总计,以及改变结果的排列顺序等操作。列顺序等操作。(5)多种展现方式选项。提供多种类型的选项,包括图表、)多种展现方式选项。提供多种类型的选项,包括图表、表格、柱形格式、字体、风格、大小和地图等。表格、柱形格式、字体、风格、大小和地图等。5.3.2 多维分析与原因分析多维分析与原因分析78 多维分析与原因分析能让决策者了解多维分析与原因分析能让决策者了解“为什么会发为什么会发生生”。1、多维分析、多维分析 获得在各种不同维度下的实际商业活动值(如销售获得在各种不同维度下的实际商业活动值
46、(如销售量等),特别是他们的变化值和差值,达到辅助决策量等),特别是他们的变化值和差值,达到辅助决策效果。效果。2、原因分析、原因分析 查找问题出现的原因是一项很重要的决策支持任务,查找问题出现的原因是一项很重要的决策支持任务,一般通过多维数据分析的钻取操作来完成。一般通过多维数据分析的钻取操作来完成。79例如,某公司从分析报表中得知最近几个月来整个例如,某公司从分析报表中得知最近几个月来整个企业的利润在急速下滑,通过人机交互找出该企业企业的利润在急速下滑,通过人机交互找出该企业利润下滑的原因。具体步骤如下:利润下滑的原因。具体步骤如下:(1)查询整个公司最近)查询整个公司最近3个月来各个月份
47、的销售额个月来各个月份的销售额和利润,通过检索数据仓库中的数据显示和利润,通过检索数据仓库中的数据显示销售额正销售额正常,但利润下降。常,但利润下降。(2)通过多维数据的切块,查询全世界各个区域每)通过多维数据的切块,查询全世界各个区域每个月的销售额和利润,个月的销售额和利润,显示欧洲地区销售额下降,显示欧洲地区销售额下降,利润急剧下降,利润急剧下降,其它地区正常。其它地区正常。80(3)通过对多维数据的钻取,查询欧洲各国销售额和)通过对多维数据的钻取,查询欧洲各国销售额和利润。显示一些国家利润率上升,一些国家持平,利润。显示一些国家利润率上升,一些国家持平,欧欧盟国家利润率急剧下降。盟国家利
48、润率急剧下降。(4)通过对多维数据的钻取,查询欧盟国家中的直接)通过对多维数据的钻取,查询欧盟国家中的直接和间接成本。得到欧盟国家的和间接成本。得到欧盟国家的直接成本没有问题,但直接成本没有问题,但间接成本提高了。间接成本提高了。(5)通过钻取查看详细数据,查询间接成本的详细情)通过钻取查看详细数据,查询间接成本的详细情况。况。得出企业征收了额外附加税,使利润下降。得出企业征收了额外附加税,使利润下降。通过以上的通过以上的原因分析,得到企业利润下滑的真正原因原因分析,得到企业利润下滑的真正原因是欧盟国家征收了额外附加税造成。是欧盟国家征收了额外附加税造成。5.3.3預测未来預测未来81预测未来
49、使决策者了解预测未来使决策者了解“将要发生什么将要发生什么”。从历史数据中找出变化规律,将可以用来预测未来。从历史数据中找出变化规律,将可以用来预测未来。需要用到一些预测模型。最常用的预测方法是采用需要用到一些预测模型。最常用的预测方法是采用回归模型。预测时,代入预测的时间到回归方程中回归模型。预测时,代入预测的时间到回归方程中去就能得到预测值。去就能得到预测值。一般的预测模型有:多元回归模型、三次平滑预测一般的预测模型有:多元回归模型、三次平滑预测模型,生长曲线预测模型等。模型,生长曲线预测模型等。82 数据仓库的第数据仓库的第4 4种决策支持是企业需要准确了解种决策支持是企业需要准确了解“
50、正在发生什么正在发生什么”,从而需要建立动态数据仓库(实,从而需要建立动态数据仓库(实时数据库),用于支持战术型决策,即实时决策。有时数据库),用于支持战术型决策,即实时决策。有效地解决当前的实际问题。效地解决当前的实际问题。第第1 1到第到第3 3种决策支持的数据仓库都以支持企业内种决策支持的数据仓库都以支持企业内部战略性决策为重点,帮助企业制定发展战略。部战略性决策为重点,帮助企业制定发展战略。第第4 4种决策支持侧重在战术性决策支持。种决策支持侧重在战术性决策支持。动态数据仓库能够逐项产品、逐个店铺、逐秒地动态数据仓库能够逐项产品、逐个店铺、逐秒地作出最佳决策支持。作出最佳决策支持。83
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。