1、决策支持系统第四讲 决策支持的新技术第一节 数据仓库技术 4.1.1 数据仓库的基本知识 4.1.2 数据仓库系统的结构 4.1.3 数据仓库的运行结构 4.1.4 数据集市的结构决策支持系统第四讲 决策支持的新技术第二节 数据挖掘技术 4.2.1 数据挖掘概述 4.2.2 数据挖掘基本过程与步骤4.2.3 数据挖掘的任务与挖掘方法4.2.4 数据挖掘与数据仓库的关系决策支持系统第四讲 决策支持的新技术第三节 联机分析处理技术 4.3.1 基本概念 4.3.2 OLAP的数据组织 4.3.3 OLAP的多维数据分析方法 4.3.4 OLAP的发展决策支持系统第四讲 决策支持的新技术4.1.1
2、数据仓库的基本知识 一.从数据库到数据仓库事务处理环境不适宜决策应用的主要原因:1.1.事务处理环境和分析处理的性能、特性不同事务处理环境和分析处理的性能、特性不同2.2.数据集成问题数据集成问题3.3.数据动态集成问题数据动态集成问题4.4.历史数据问题历史数据问题5.5.数据的综合问题数据的综合问题6.6.不同的使用对象不同的使用对象决策支持系统第四讲 决策支持的新技术4.1.1 数据仓库的基本知识 二.数据仓库的概念 1.W.H.Inmon是面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持经营管理中的决策制定过程。面向主题集成稳定随时间变化决策支持系统第四讲 决策支持的新技术
3、2.SAS软件研究所的观点DB数据数据DW数据数据细节的在存取时准确的可更新的操作需求事先可知道事务驱动面向应用一次操作数据量小支持日常操作综合或提炼的代保过去的数据不更新操作需求事先不知道分析驱动面向分析一次操作数据量大支持决策需求决策支持系统第四讲 决策支持的新技术 3.DW 3.DW是作为是作为DSSDSS的基础的分析型的基础的分析型DBDB,用来存,用来存放大容量的只读数据,为制定决策提供所需放大容量的只读数据,为制定决策提供所需的信息。的信息。 4.DW4.DW是与操作型系统相分离的、基于标准是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的,即与企企业模型集成的、带有时
4、间属性的,即与企业定义的时间段相关的、面向主题且不可更业定义的时间段相关的、面向主题且不可更新的数据集合。新的数据集合。 5.5.决策支持系统第四讲 决策支持的新技术 三.数据仓库的特点1.数据仓库是面向主题的。2. 数据仓库是集成的。3.数据仓库是稳定的。4.数据仓库是随时间变化的。5.数据仓库中的数据量很大。6.数据仓库软硬件要求较高。决策支持系统第四讲 决策支持的新技术 四.数据库与数据仓库的区别1.数据库是面向业务的,使用者是企业的一般业务人员,进行企业日常数据处理和维护工作。2.数据仓库是面向决策的,使用者是企业的高层管理人员,它也是使用关系数据库,当数据仓库不负责处理业务。3.数据
5、库注重的是企业运行的当前数据,任务是收集和记录企业的原始业务数据,而DW面对的是非即时性的历史数据,通过从业务数据中提取,加工处理后提供给决策人员。决策支持系统第四讲 决策支持的新技术4.1.2 数据仓库系统的结构关系关系数据库数据库数据文件数据文件其他其他数据数据数据仓库数据仓库管理工具管理工具抽取抽取转换转换转载转载元数据库元数据库数据建数据建模工具模工具综合综合数据数据当前当前数据数据历史历史数据数据用户查用户查询工具询工具C/S工具工具OLAP工具工具DM工具工具决策支持系统第四讲 决策支持的新技术一.数据仓库管理系统 1.定义部件 2.数据获取部件 3.管理部件 4.目录部件(元数据
6、) 5.DBMS部件决策支持系统第四讲 决策支持的新技术二.数据仓库的结构构成 1.数据仓库的构成高度综合数据层高度综合数据层轻度综合数据层轻度综合数据层当前基本数据层当前基本数据层历史基本数据层历史基本数据层决策支持系统第四讲 决策支持的新技术二.数据仓库的结构构成 2.数据仓库的元数据(1 1)关于数据源的元数据)关于数据源的元数据数据源中所有的物理数据结构,包括所有的数据项和数据类型;所有数据项的业务定义;每个数据项更新频率,以及由谁或哪个过程更新的说明;每个数据项的有效值;其他系统中具有相同业务含义的数据项的清单。决策支持系统第四讲 决策支持的新技术 2.数据仓库的元数据(2 2)关于
7、数据模型的元数据关于数据模型的元数据I/O对象:支持数据仓库I/O操作的各种对象;关系:两个I/O对象之间的关联;关系成员:描述每个关系中两个I/O对象的具体角色、关系度以及约束条件;关系关键字:描述两个I/O对象如何建立关联。决策支持系统第四讲 决策支持的新技术 2.数据仓库的元数据(3 3)关于数据仓库映射的元数据用该类元数据反映数据仓库中的数据项是从哪个特定数据源填充的,经过哪些转换、变换和加载过程。这类数据可以用来生成程序,以完成数据的转换工作,即实现操作型数据转换为面向主体的数据仓库的数据。决策支持系统第四讲 决策支持的新技术 2.数据仓库的元数据(4 4)关于数据仓库使用的元数据元
8、数据告诉数据仓库中有什么数据,它们是从哪儿来的,即如何按主题查看数据仓库的内容;元数据提供已有的可重复利用的查询语言信息。决策支持系统第四讲 决策支持的新技术 2.数据仓库的元数据(5 5)元数据的作用DW的核心定位数据仓库的目录作用;数据从业务环境向数据仓库传送时数据的目录内容;指导从当前基本数据到轻度综合数据、轻度综合数据到高度综合数据的综合算法的选择。决策支持系统第四讲 决策支持的新技术三.数据仓库的工具集 1.分析工具 (1 1)查询工具)查询工具 (2 2)可视化工具)可视化工具 2.挖掘工具决策支持系统第四讲 决策支持的新技术四.数据进入DW的过程与建立DW的步骤 1.数据进入DW
9、的基本过程(教材(教材p221p221)提取:从操作型数据库中选择并提取所需要的字段;变换:为来自数据源的数据指定常用的格式和名称;净化:更正错误的数据;加载:把净化过的数据载入到DW数据里;汇总:提前计算出任何期待的DW数据的汇总供以后使用。决策支持系统第四讲 决策支持的新技术 2.建立DW的步骤收集和分析业务需求建立数据模型和数据仓库的物理设计(包括划分(包括划分粒度和数据分割两部分内容)粒度和数据分割两部分内容)定义数据源选择DW技术和平台从操作型DB中提取、转换、净化并加载到DW中选择访问和报表工具选择DB连接软件选择数据分析和数据展示软件更新DW决策支持系统第四讲 决策支持的新技术4
10、.1.3 数据仓库的运行结构DW服务器服务器客服端客服端客服端客服端DW服务器服务器OLAP服务器服务器两层C/S结构:三层C/S结构:决策支持系统第四讲 决策支持的新技术4.1.4 数据集市的结构一.数据集市的概念数据集市是指具有特定应用的数据仓库,主要数据集市是指具有特定应用的数据仓库,主要针对某个具体战略意义的应用或具体部门级的针对某个具体战略意义的应用或具体部门级的应用,支持用户利用已有的数据获得重要的竞应用,支持用户利用已有的数据获得重要的竞争优势或找到进入新市场的具体解决方案。争优势或找到进入新市场的具体解决方案。决策支持系统第四讲 决策支持的新技术二.数据集市的特点1.规模是小的
11、; 2.特定的应用;3.面向部门;4.由业务部门定义、设计、开发、管理和维护;5.快速实现; 6.购买较便宜;7.投资快速回收; 8.工具集的紧密集成;9.更详细的、预先存在的数据仓库的摘要子集;10.可升级到完整的数据仓库。决策支持系统第四讲 决策支持的新技术三.数据集市与数据仓库的关系 1.数据集市不等于数据仓库,多个数据集市合并起来不能成为数据仓库。v 各个数据集市之间对详细数据和历史数据的存储存在大量冗余;v 同一个问题在不同的数据集市的查询结果可能不一致,甚至相互矛盾;v 各数据集市之间以及与源数据库系统之间难以管理。决策支持系统第四讲 决策支持的新技术 2.数据仓库与数据集市的区别
12、(1)DW是基于整个企业的数据模型建立的,它面向企业范围内的主题,而数据集市是按照某一特定部门的数据模型建立的,也称为部门级别DW。(2)数据仓库中存储整个企业内的详细数据,而数据集市中的数据的详细程度要低一些,包含的概要和累加数据要多一些。(3)数据集市的数据组织一般采用星形模型,而大型数据仓库的数据组织采用第三范式。决策支持系统第四讲 决策支持的新技术计算机计算机计算机数据源数据仓库数据分析四.数据集市的两种结构从属数据集市从属数据集市:数据来源于中央从属数据集市:数据来源于中央DW,一般为那些,一般为那些访问访问DW频繁的关键业务部门建立。频繁的关键业务部门建立。决策支持系统第四讲 决策
13、支持的新技术数据源计算机计算机计算机数据分析独立数据集市独立数据集市:数据直接来源与企业的业务功能独立数据集市:数据直接来源与企业的业务功能系统,与企业系统,与企业DW在数据量和服务对象有所区别,在数据量和服务对象有所区别,逻辑结构无区别。逻辑结构无区别。决策支持系统第四讲 决策支持的新技术 4.2.1 数据挖掘概述 一一. .案例案例NBANBA通过数据挖掘取得飞跃通过数据挖掘取得飞跃决策支持系统第四讲 决策支持的新技术 二.数据挖掘的概念v DM DM也称为数据库中的知识发现(也称为数据库中的知识发现(KDDKDD),是从大量),是从大量数据集中提取出隐含的、非平凡的、潜在有用的信数据集中
14、提取出隐含的、非平凡的、潜在有用的信息或模式的高级处理过程。息或模式的高级处理过程。v 数据挖掘是知识发现的核心步骤。v DM的技术基础是AI、机器学习和统计学。v 被提取的知识的类型可以是总结性知识、关联性知识、分类模型知识、聚类模型知识,这些知识可表示为概念、规则、规律、模式等形式;知识的类型。决策支持系统第四讲 决策支持的新技术集成集成目目标标数数据据预预处处理理数数据据模模式式数数据据知知识识源源数数据据预处理预处理数据挖掘数据挖掘评价与解释评价与解释数据准备数据准备数据挖掘数据挖掘评价与解释评价与解释数数据据选择选择决策支持系统第四讲 决策支持的新技术 三.数据挖掘的优点与缺点 1.
15、优点(1)减少了用户的工作量。(2)使用户得到意外的信息。(3)对数据的迅速变化可作出快速响应,以提供决策支持信息。决策支持系统第四讲 决策支持的新技术 三.数据挖掘的优点与缺点 2.缺点(1)对计算机的性能要求高。 (2)意外的信息不可靠。 (3)即使发现一个潜在的可以利用的关系,其实际使用价值也可能不太明显。 决策支持系统第四讲 决策支持的新技术 4.2.2 数据挖掘基本过程与步骤 一一. .数据挖掘的基本过程数据挖掘的基本过程 1.数据准备(1)数据集成:从操作型环境中提取并集成数据,解决语义二义性问题。(2)数据选择:确定发现任务的操作对象;(3)数据预处理:消除噪音、推导计算缺值数据
16、、完成数据类型的转换,削减数据维数或降维。决策支持系统第四讲 决策支持的新技术 一一. .数据挖掘的基本过程数据挖掘的基本过程 2.数据挖掘(1)确定数据挖掘的任务或目的;(2)根据不同的数据的特点,用户和实际运行系统的要求决定要使用的数据挖掘的算法;(3)实施数据挖掘,获取有用的模式。 决策支持系统第四讲 决策支持的新技术 一一. .数据挖掘的基本过程数据挖掘的基本过程 3.数据表述与评价(1)将获取的信息以便于用户理解和观察的方式反映给用户;(2)用评价指标对获取的信息评价,发现不满足用户需求的模式,并返回到DM的前面阶段,重新实施DM。决策支持系统第四讲 决策支持的新技术 二二. .进行
17、数据挖掘的步骤进行数据挖掘的步骤 1.问题定义 2.发现信息 3.制定计划 4.采取行动 5.检测结果决策支持系统第四讲 决策支持的新技术 4.2.3 数据挖掘的任务与挖掘方法 一一. .数据抽取:数据抽取:对数据进行浓缩,给出它的紧凑描述。 1.多维数据分析方法:是一种数据仓库技术,它把汇集操作结果预先计算并存贮起来,供DSS使用。 2.面向对象的归纳方法:对用户感兴趣的数据视图进行泛化,从较高层次上总结了在低层次上的原始关系。决策支持系统第四讲 决策支持的新技术二二. .分类发现分类发现 分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中
18、的某一个。 要构造分类器,需要有一个训练样本数据集作为输入。 决策支持系统第四讲 决策支持的新技术三三. .聚类聚类聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。决策支持系统第四讲 决策支持的新技术四四. .关联规则发现关联规则发现用于关联规则发现的主要对象是事务型数据库,其中针对的应用则是售货数据。事实上人们一般只对满足一定的支持度和可信度的关联规则感兴趣。为了发现出有意义的关联规则,需要给定两个阀值:最小支持度和最小可信度。决策
19、支持系统第四讲 决策支持的新技术 4.2.4 数据挖掘与数据仓库的关系 1.DM比DW的汇总型分析处理要详细和深入得多; 2.DW的发展是促进DM发展的一个重要原因,DM经常被看成是DW的后期市场产品,DW中具有最丰富的资源可供挖掘; 3.DW不是DM的必要条件,当DW可为DM的数据集成和数据准备提供一种好的方法; 4.DM可能是DW的一个逻辑上的子集,而非一定得是物理上单独的数据库。决策支持系统第四讲 决策支持的新技术用户查询请求用户查询请求信息发布、查询分类、解释信息发布、查询分类、解释查询协同管理查询协同管理业务系统及业务系统及其他系统其他系统异构数异构数据源据源DM技技术术模型库模型库
20、管理管理方法库方法库管理管理KMDW数据导入、数据导入、转移与质量转移与质量保障工具保障工具其他信其他信息分析息分析工具工具KB知识共享平台知识共享平台决策支持系统第四讲 决策支持的新技术4.3.1 基本概念一.OLAP的概念 1.OLAP理事会:理事会:一种软件技术,它是分析人员能迅速、一致、交互地从各个方面(维)观察信息,以达到深入理解数据的目的。决策支持系统第四讲 决策支持的新技术一.OLAP的概念 2.OLAP的简单定义:的简单定义: 是共享多维信息的快速分析。 (1)快速性 (2)可分析性 (3)多维性关键和核心属性 (4)信息性决策支持系统第四讲 决策支持的新技术二.OLAP的其他
21、基本概念1.变量2.维:观察数据的特定角度。3.维的层次:从某个特定角度观察数据时的不同细节程度。4.维成员:维的取值。5.多维数组6.数据单元(单元格):多维数据的取值就是数据单元。决策支持系统第四讲 决策支持的新技术三.OLAP与OLTP的关系与比较OLTPOLAP数据库数据数据库或数据仓库数据细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次处理的数据量小一次处理数据量大对响应时间的要求高响应时间合理用户数量大用户相对较少面向操作人员,支持日常操作 面向决策人员,支持管理需要面向应用,事物驱动面向分析,分析驱动决策支持系统第四讲 决策支持的新技术4.3.2 OLAP的数
22、据组织一一.ROLAP (Relation OLAP)基于关系数据库存贮方式建立;将多维数据映像成平面型的关系表中的行。代表:星型模式。将基本信息存贮在一个单独的“事实表”中,有关维的支持信息放在其他表中。特征:由一个很强的SQL生成器,对应目标DB,能对SQL进行优化,通过元数据指导查询,有区分客户、服务器及中间件的能力。决策支持系统第四讲 决策支持的新技术二二.MOLAP (Multi-dimension OLAP)基于多维数据库存贮方式建立;多维数据库由许多经压缩的、类似于数组的对象构成;每个对象由聚集成组的单元块组成,每个单元块按类似于多维数组的结构存贮,通过直接偏移计算进行存取。决策
23、支持系统第四讲 决策支持的新技术三三.两种组织方式的比较两种组织方式的比较MOLAPROLAP固定维可变维维交叉计算DW的多维视图行级计算超大型数据库读、写应用维数据变化速度快数据集市DW决策支持系统第四讲 决策支持的新技术4.3.3 OLAP的多维分析方法一.切片1.1.在多维数组的某一维上,选定一维成员的方法;在多维数组的某一维上,选定一维成员的方法;2.2.选定多维数组(维选定多维数组(维1 1、维、维2 2、维、维n n,变量)中的,变量)中的两个维,如维两个维,如维i i和维和维j j,在这两个维上取某一区间或,在这两个维上取某一区间或任意维成员,将其余的维都取定一个维成员,则得任意
24、维成员,将其余的维都取定一个维成员,则得到的就是多维数组在维到的就是多维数组在维i i和维和维j j上的一个二维子集,上的一个二维子集,称这个二维子集为多维数组在维称这个二维子集为多维数组在维i i和维和维j j上的一个切上的一个切片,表示为(维片,表示为(维i i,维,维j j ,变量)。,变量)。 决策支持系统第四讲 决策支持的新技术二.切块选定多维数组(维1、维2、维n,变量)中的三维,如维i、维j和维r,在这三个维上取某一区间或任意的维成员,将其余的维都取定一个维成员,则得到的就是多维数组在维i、维j和维r上的一个三维子集,称这个三维子集为多维数组在维i、维j和维r上的一个切块,表示为(维i,维j ,维r,变量)。 决策支持系统第四讲 决策支持的新技术三.旋转/转轴四.钻取改变一个报告或页面显示的维方向。 有向下钻取、向上钻取、跨越钻取、上卷等操作。决策支持系统第四讲 决策支持的新技术 4.3.4 OLAP的发展与应用一一.OLAP.OLAP和和DMDM有机结合起来形成了新技有机结合起来形成了新技术术联系分析挖掘(联系分析挖掘(OLAMOLAM)二二.OLAP.OLAP广泛的应用领域广泛的应用领域