《数据仓库》课件-2.ppt

上传人(卖家):晟晟文业 文档编号:4784581 上传时间:2023-01-10 格式:PPT 页数:80 大小:1.56MB
下载 相关 举报
《数据仓库》课件-2.ppt_第1页
第1页 / 共80页
《数据仓库》课件-2.ppt_第2页
第2页 / 共80页
《数据仓库》课件-2.ppt_第3页
第3页 / 共80页
《数据仓库》课件-2.ppt_第4页
第4页 / 共80页
《数据仓库》课件-2.ppt_第5页
第5页 / 共80页
点击查看更多>>
资源描述

1、精选ppt1第第 2 2 章章 数据仓库数据仓库精选ppt2第2章 数据仓库主要内容主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计精选ppt3第2章 数据仓库主要内容主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计精选ppt4第2章 数据仓库数据仓库基本概念 随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:提供决策支持(DSS、OLAP)应用背景及需求应用背景及需求需求一种面向分析的环境;一种把相关的各种数据转换成有商业价值的信息的技术。精选

2、ppt5第2章 数据仓库数据仓库基本概念从数据库到数据仓库从数据库到数据仓库 数据库系统能够很好的用于事务处理,但它对分析处理的支持一直不能令人满意。特别是当以业务处理为主的联机事务处理(OLTP)应用和以分析处理为主的DSS应用共存于一个数据库系统时,就会产生许多问题。例如,事务处理应用一般需要的是当前数据,主要考虑较短的响应时间;而分析处理应用需要是历史的、综合的、集成的数据,它的分析处理过程可能持续几个小时,从而消耗大量的系统资源。人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。要提高分析和决策的有效性,分析型处理及其数据必须与操作型处理及其数据分离。必须把分析型数据从事务处理环

3、境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。数据仓库技术正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。精选ppt6第2章 数据仓库数据仓库基本概念主要通过以下五点区分开来。用户和系统的面向性用户和系统的面向性OLTP是面向顾客的,用于事务和查询处理;OLAP是面向市场的,用于数据分析 数据内容数据内容 OLTP系统管理当前数据;OLAP系统管理大量历史数据,提供汇总和聚集机制.数据库设计数据库设计 OLTP采用实体-联系ER模型和面向应用的数据库设计;OLAP采用星型或雪花模型和面向主题的数据库设计.视图视图 OLTP主要关注一个企业或部门内部的当

4、前数据,不涉及历史数据或不同组织的数据;OLAP则相反.访问模式访问模式 OLTP系统的访问主要由短的原子事务组成.这种系统需要并行和恢复机制;OLAP系统的访问大部分是只读操作OLTP(on-line transaction processing)与OLAP(On-Line Analytical Processing)区别 精选ppt7第2章 数据仓库操作型数据操作型数据分析型数据分析型数据细节的细节的综合的,或提炼的综合的,或提炼的在存取瞬间是准确的在存取瞬间是准确的代表过去的数据代表过去的数据可更新可更新不更新不更新操作需求事先可知道操作需求事先可知道操作需求事先不知道操作需求事先不知道

5、生命周期符合生命周期符合SDLC完全不同的生命周期完全不同的生命周期对性能要求高对性能要求高对性能要求宽松对性能要求宽松一个时刻操作一个单元一个时刻操作一个单元一个时刻操作一个集合一个时刻操作一个集合事务驱动事务驱动分析驱动分析驱动面向应用面向应用面向分析面向分析一次操作数据量小一次操作数据量小一次操作数据量大一次操作数据量大支持日常操作支持日常操作支持管理需求支持管理需求精选ppt8第2章 数据仓库数据仓库基本概念数据仓库与决策支持系统数据仓库与决策支持系统 用户在进行决策制定时需要得到企业各方面的信息,因此用户一般首先根据各个业务部门数据库中的数据,创建数据仓库,存储各种历史信息和汇总信息

6、。对数据仓库的进一步应用由功能强大的分析工具来实现。现在主要有三类分析工具可用于决策支持。第一类能够支持涉及分组和聚集查询,并能够对各种复杂的布尔条件、统计函数和时间序列分析提供支持的系统。主要由上述查询组成的应用称为联机分析处理,即OLAP。在支持OLAP查询的系统中,数据最好看成是一个多维数组精选ppt9第2章 数据仓库数据仓库基本概念数据仓库与决策支持系统数据仓库与决策支持系统 第二类系统仍为支持传统SQL查询的DBMS,但为了有效地执行OLAP查询而进行了特殊的设计。这些系统可以看作是为决策支持应用进行了优化的关系数据库系统。许多关系数据库厂商对他们的产品进行了扩展,并且随着时间的推移

7、,专门的OLAP系统和支持决策支持的关系数据库系统之间的差别将逐渐取消精选ppt10第2章 数据仓库数据仓库基本概念 第三类的分析工具可用于在大量的数据集合中,找到有意义的数据趋势或者模式,而不是上面提到的复杂数据查询。在数据分析过程中,尽管分析者能够判定得到的数据模式是否有意义,但是生成查询来得到有意义的模式还是很困难的。例如,分析者查看信用卡使用记录,希望从中找出不正常的信用卡使用行为,以表明是被滥用的丢失的信用卡;商人希望通过查看客户记录找出潜在的客户来提高收益。许多应用涉及的数据量很大,很难用人工分析或者传统的统计分析方法进行分析,数据挖掘的目的就是对这种大量数据的分析提供支持。数据仓

8、库与决策支持系统数据仓库与决策支持系统精选ppt11第2章 数据仓库数据仓库基本概念数据仓库定义及特征数据仓库定义及特征 数据仓库理论的创始人W.H.Inmon在其Building the Data Warehouse一书中,给出了数据仓库的四个基本特征:面向主题,面向主题,数据是集成的,数据是集成的,数据是不可更新的,数据是不可更新的,数据是随时间不断变化。数据是随时间不断变化。精选ppt12第2章 数据仓库数据仓库基本概念数据仓库定义及特征数据仓库定义及特征面向主题面向主题主题是在较高层次上对数据抽象;主题是在较高层次上对数据抽象;面向主题的数据组织分为两步骤:面向主题的数据组织分为两步骤

9、:-抽取主题;抽取主题;-确定每个主题所包含的数据内容确定每个主题所包含的数据内容每个主题在数据仓库中都是由一组关系表实现的每个主题在数据仓库中都是由一组关系表实现的精选ppt13数据仓库基本概念数据仓库定义及特征数据仓库定义及特征面向主题面向主题第2章 数据仓库数据库数据库面向应用面向主题汽车人寿健康意外伤害主题-顾客主题-保单主题-索赔主题-保费精选ppt14第2章 数据仓库数据仓库基本概念数据仓库定义及特征数据仓库定义及特征集成的集成的数据仓库的数据是从原有的分散数据库数据中抽取来的数据仓库的数据是从原有的分散数据库数据中抽取来的需要消除数据表述的不一致性(数据的清洗)需要消除数据表述的

10、不一致性(数据的清洗)数据的综合数据的综合精选ppt15第2章 数据仓库数据仓库基本概念数据仓库定义及特征数据仓库定义及特征集成的集成的数据库环境数据仓库环境应用A 1,0应用B 男,女应用C Y,N集成映射编码多维数据库 男,女应用A CM应用B Inches应用C CM映射转换多维数据库 CM精选ppt16第2章 数据仓库数据仓库基本概念数据仓库的主要数据操作是查询、分析;数据仓库的主要数据操作是查询、分析;不进行一般意义上的数据更新(过期数据可能被删除)不进行一般意义上的数据更新(过期数据可能被删除)数据仓库强化查询、淡化并发控制和完整性保护等技数据仓库强化查询、淡化并发控制和完整性保护

11、等技术术.数据仓库定义及特征数据仓库定义及特征不可更新的不可更新的精选ppt17第2章 数据仓库数据仓库基本概念数据仓库定义及特征数据仓库定义及特征不可更新的不可更新的Insert、Update、DeleteSelect 数据库环境数据的逐个记录方式处理 数据仓库环境数据的批量载加载,存取ETL访问精选ppt18第2章 数据仓库数据仓库基本概念不断增加新的数据内容;不断增加新的数据内容;不断删除旧的数据内容;不断删除旧的数据内容;定时综合;定时综合;数据仓库中数据表的键码都包含时间项,以标数据仓库中数据表的键码都包含时间项,以标明数据的历史时期明数据的历史时期数据仓库定义及特征数据仓库定义及特

12、征随时间变化的随时间变化的精选ppt19第2章 数据仓库数据仓库基本概念数据仓库定义及特征数据仓库定义及特征随时间变化的随时间变化的 数据库环境 数据仓库环境时间期限:当前到30-60天记录更新包含或者不包含时间概念时间期限:年数据的复杂快照包含时间概念精选ppt20第2章 数据仓库主要内容主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计精选ppt21第2章 数据仓库数据仓库体系结构用户可视化工具集多维分析工具数据挖掘工具多维数据数据仓库源数据源数据 源数据 源数据源数据数据来源数据仓库层数据仓库工具层数据仓库层次结构精选ppt22第2章

13、数据仓库RDBMSRDBMS数据文件数据文件其他其他 综合数据综合数据 当前数据当前数据 历史数据历史数据 元数据元数据 抽取、转换、装载抽取、转换、装载数据仓库OLAPOLAP工具工具 DM DM工具工具 查询工具查询工具分析工具数据源数据仓库体系结构精选ppt23第2章 数据仓库数据仓库体系结构数据仓库体系结构实例-税务数据仓库精选ppt24增量抽取增量抽取完全抽取完全抽取计计 算算映映 射射清清 洗洗业务要求业务要求数据要求数据要求数据仓库数据仓库数据加载数据加载 第2章 数据仓库数据仓库体系结构数据仓库体系结构实例-税务数据仓库-ETL精选ppt25第2章 数据仓库OLTP系统RDBM

14、SSybaseORACLESAP/ERP5-10 年年过去过去详细数据详细数据当前当前详细数据详细数据轻度轻度汇总数据汇总数据高度高度汇总数据汇总数据数据集市数据集市分析型分析型CRM业务指标分析业务指标分析数据仓库/决策分析系统EXCEL数据仓库数据的组织数据仓库体系结构精选ppt26第2章 数据仓库 数据由操作型环境(综合)导入数据仓库数据由操作型环境(综合)导入数据仓库 数据具有不同的细节数据具有不同的细节 早期细节级(过期数据)早期细节级(过期数据)当前细节级当前细节级 轻度综合数据级(数据集市)轻度综合数据级(数据集市)高度综合数据级高度综合数据级数据仓库数据的组织数据仓库体系结构精

15、选ppt27第2章 数据仓库数据仓库体系结构采购子系统:订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日期,)供应商(供应商号,供应商名,地址,电话,)销售子系统:客户(客户号,姓名,地址,电话,)销售(客户号,商品号,数量,单价,日期,)库存子系统:进库单(编号,商品号,数量,单价,日期,)出库单(编号,商品号,数量,单价,日期,)库存(商品号,库房号,类别,单价,库存数量,总金额,日期,)数据库系统模式(操作型数据)精选ppt28第2章 数据仓库数据仓库体系结构 商品固有信息:商品号,类别,单价,颜色,商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,商品销售信息:商

16、品号,客户号,数量,单价,销售日期,商品库存信息:商品号,库房号,库存数量,日期,)采购子系统销售子系统库存子系统面向主题的数据仓库数据模式精选ppt29第2章 数据仓库数据仓库体系结构1996-2002年销售明细表20032009年销售明细表20032009年每月销售表20032009年每季度销售表数据仓库中的数据组织 数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。精选ppt30第2章 数据仓库数据仓库体系结构 DW中还有一类重要的数据:元数据(metadata)。元数据是“关于数据的数据”(RDBMS中的数据字典就是一种元数据)。数据仓库中的元数据描述了数据

17、的结构、内容、索引、码、数据转换规则、粒度定义等。关于元数据精选ppt31 在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据。在数据仓库系统中,元数据机制主要支持以下五类系统治理功能:1 描述哪些数据在数据仓库中;2 定义要进入数据仓库中的数据和从数据仓库中产生的数据;3 记录根据业务事件发生而随之进行的数据抽取工作时间安排;4 记录并检测系统数据一致性的要求和执行情况;5 衡量数据质量。第2章 数据仓库数据仓库体系结构元数据作用及功能精选ppt32第2章 数据仓库数据仓库体系结构粒度 是指数据仓库的数据单位中保存数据的细化或综合程度的级别 粒度

18、级越小,细节程度越高,综合程度越低,回答查询的种类越多 粒度影响数据仓库中数据量的大小 粒度问题是设计数据仓库的一个重要方面双重粒度 在数据仓库的细节级上创建两种粒度 短期储存的低粒度(真实档案),满足细节查询 具有综合的高粒度(轻度综合),做分析数据仓库的数据组织精选ppt33第2章 数据仓库数据仓库体系结构精选ppt34第2章 数据仓库精选ppt35分割 是指把数据分散到各自的物理单元中去,以便能分别独立处理,提高数据处理效率。是粒度之后的第二个主要设计问题两个层次的分割系统层:DBMS,一种定义应用层:开发者,多种定义多种分割的标准日期:最常用的地理位置组织单位.第2章 数据仓库数据仓库

19、体系结构数据仓库的数据组织精选ppt36第2章 数据仓库数据仓库体系结构精选ppt37主要内容主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计精选ppt38第2章 数据仓库数据仓库元数据管理元数据对数据仓库功能的支持:数据仓库内容的描述;定义数据抽取和转换;基于商业事件的抽取调度;描述数据同步需求;衡量数据质量指标精选ppt39元数据对数据仓库功能的支持:(一)数据仓库内容的描述 描述数据仓库中的各种复杂关系;(1)I/O对象:支持数据仓库I/O操作的各种对象。例如,装入到数据仓库中的源系统文件及可被用户访问表的数据均为I/O对象。元数据要

20、描述该I/O对象的定义、类型、状态、存档(刷新)周期以及引发初始存档的事件。(2)关系:两个I/O对象之间的关联。这种关联分为一对一、一对多和多对多三种类型。在实际工作中,一般只考虑两种类型。即一对一和一对多的关系,多对多可以用多个一对多来表示。(3)关系成员 描述每个关系中I/O对象的具体角色(在一对多中是父亲还是儿子)、关系度(是一对一还是一对多)及约束条件(是必须满足还是可选关系)。第2章 数据仓库数据仓库元数据管理精选ppt40(4)关系关键字 描述两个I/O对象是如何建立关联的。每个关系都是通过I/O对象的关键字来建立的,元数据要指明建立每个关系相应对象的关键字。(5)域分配 将实际

21、数据元素与I/O对象的某个域相关联。除了常规的域特征外,还要说明每个域的所属源系统及访问日期。这两个特征对数据仓库都是非常重要的(6)数据元素 描述数据仓库中基本单元(字段级)的特征。这些特征包括定义、类型、长度、值域标识等。数据元素要能支持多媒体的大二进制对象。元数据描述了数据仓库中有什么数据及数据间的关系,它们是用户使用和系统管理数据仓库的基础。基于这种组织的元数据可以开发出各种通用的用户接口,用来支持用户从数据仓库中获取数据。用户可以提出所需的表,系统从中选择表并得到表之间的关系,重复这个过程直到用户得到他们希望的数据。不仅如此,系统还有对某一特殊表(I/O对象)及域信息的描述功能。用这

22、种形式组织的元数据有利于数据仓库的扩充,因此不必修改已存在的软件就可在数据仓库中增加新表。第2章 数据仓库数据仓库元数据管理元数据对数据仓库功能的支持 (一)数据仓库内容的描述:描述数据仓库中的各种复杂关系精选ppt41(二)定义数据抽取和转换第2章 数据仓库数据仓库元数据管理元数据对数据仓库功能的支持从源系统数据到数据仓库中目标数据的转移是一项复杂工作,其工作量占整个数据仓库开发的80%。这里主要涉及到以下两个问题:(1)抽取工作间的复杂关系,一个抽取要经过许多步骤获取:从外部或内部源数据系统中获取对决策支持系统用户有用的数据。过滤:过滤掉不需要的内容(如上次抽取后一直没有改变的数据)。验证

23、:从DSS用户的角度验证数据的质量。融合:将本次抽取的数据与数据仓库中的数据进行融合;综合:对数据进行综合,生成概要级数据。装载:把新数据装入到数据仓库中。存档:把新装入的数据单独存为一个文件,以便减少更新操作的数据量。精选ppt42(2)源数据与目标数据之间的映射是一种复杂的多对多关系。元数据要能够描述这些限制所带来的一系列问题。这组元数据要定义的内容有以下几点:抽取工作:描述每个抽取工作,并为其标识源系统。每一抽取都应有一个刷新类型代码,一般有四种刷新类型,包括全仓库替换、全仓库附加、更新替换、更新追加。另外对每一抽取都要明确其刷新周期(两次抽取之间的间隔)和初始触发事件(系统环境中激活第

24、一次抽取的事件)。抽取工作步:定义抽取工作中的步骤包括说明每一步的类型(如过滤、验证等)及其作业控制语言(Job Control Languge,TCL),JCL用来初始化抽取工作步。抽取表映射:为每个抽取工作步建立输入文件/表和输出文件/表之间的关联。它应提供两种类型的属性以满足抽取工作的特殊处理要求。一类是过程的输入数据集合;另一类是数据处理过程标识及其参数。这些属性用来自动生成程序代码以完成相应抽取工作步。抽取域映射:为每个抽取工作步建立输入表(文件)的域与输出表(文件)的域之间的关联。其定义的内容与抽取表类似,但是处理的粒度是表中的每个域。(二)定义数据抽取和转换第2章 数据仓库数据仓

25、库元数据管理元数据对数据仓库功能的支持精选ppt43记录筛选规则:提供一种过滤机制,以在抽取工作的每一步骤中进行记录的筛选。如下是一个规则的例子:IF Record.Last_Update_Date2010_09_01 OR Record.Create_Date 2010_09_01THEN Reserve(保留)ELSE Delete(删除)这组元数据可以用来生成源代码以完成数据的转换工作,即完成由操作型数据转换生成以特殊形式存放的、面向主题的数据仓库数据。元数据中的抽取表映射和抽取域映射定义了进行实际抽取转换工作的过程。数据仓库管理核心是:利用该组元数据所定义的抽取过程生成某种语言的源代码

26、,然后编译成可执行的程序以完成数据的抽取工作。其核心也可直接以解释的方式从元数据存储中读出每个抽取步的处理过程,从而进行数据转换。(二)定义数据抽取和转换第2章 数据仓库数据仓库元数据管理元数据对数据仓库功能的支持精选ppt44(三)基于商业事件的抽取调度第2章 数据仓库数据仓库元数据管理元数据对数据仓库功能的支持抽取调度(Extract Schedule)是指数据抽取的时间安排,即什么时间进行从源数据到数据仓库的抽取工作。抽取调度的合理与否对整个数据仓库的有效正常运行影响很大。元数据必须对数据的抽取安排加以说明。基于商业事件抽取调度的元数据要定义的内容有以下几点:事件:指在公司中能够引发对数

27、据进行处理的各种情况。其中有些是周期性的,有些是预先安排的,而有些则是突发事件。事件依赖:事件之间的关系及描述这些关系的时间规律性和特征。一般要指明主 事件和从事件以及两者的时间间隔和最大容忍时间。事件日志:刻画了事件发生的时间安排,即指明事件的调度周期。系统应允许用户 定义事件及相应的调度。抽取调度:对一个事件响应后必须完成的对数据抽取工作的安排。抽取调度把事件 和相应的抽取工作联系起来。抽取日志:对每次抽取工作进行记录,并记下相关的引发抽取事件及抽取调度。抽取 日志可以用来维护系统工作,如输入和输出工作。时间戳日志:记录下各表被抽取的时间及表中被更新的数据。时间戳日志可以用来 与系统数据进

28、行比较以引发抽取工作。精选ppt45第2章 数据仓库数据仓库元数据管理元数据对数据仓库功能的支持(四)描述数据同步需求 在一个公司各部门间的数据协调中,时间是一个关键因素。上述的抽取调度是针对熟悉公司各部门之间数据同步关系的用户而言的。对不熟悉的用户,则需要进一步利用元数据来帮助用户理解数据及数据处理的同步关系,以免误用数据。尤其当数据仓库中涉及到复杂关系的数据而且抽取调度受多个事件制约时,这种附加数据就更不可缺少。时间的元数据要定义的内容主要有:同步视图:为支持不同级别用户而标识同步数据的时间规则。同步视图可定义为一个特殊功能视图的名称和描述以及该视图中的一系列表,每个表与有关的事件相关联。

29、同步实例:当实际事件发生时,记录下不同系统同步数据集合的更新轨迹。当一个同步视图中的数据都已满足时,元数据管理机制就提醒用户可用的数据已经准备好,系统在抽取调度后生成同步实例。精选ppt46第2章 数据仓库数据仓库元数据管理元数据对数据仓库功能的支持(五)衡量数据质量 数据仓库把数据从源事务系统移到数据仓库中的目的是用于决策支持。这就对数据质量提出了新的要求。若忽视这个问题,则意味着在坏数据上做决策,其风险可想而知。保证质量的第一步是建立支持商业目标的数据质量期望标准,以及达不到该标准所需冒风险的大小。下面是一组衡量数据质量的公共参数,包括准确性、完整性、一致性、相关性、时间性、唯一性、有效性

30、。在评价体系确定以后,问题往往变为是否把有质量问题的数据放进数据仓库中。这一般由应用本身决定。对甲用户有用的数据未必对乙用户也有用。因此元数据必须提供一个机制,即针对特定应用并根据用户确立的数据容忍程度来提醒用户是否采用该数据进行决策。精选ppt47数据质量的元数据要定义的内容有以下几点:目标质量特征:是针对DSS应用的某一数据域质量评价的期望尺 度,其基本属性是目标特征值。实际质量特征:是针对DSS应用的某一数据域质量评价的实际尺度,其基本属性是实际特征值。用户描述的VV&C:针对DSS应用需求,从VV&C(验证、有效、证实)对数据质量进行衡量。用户功能:周期地检查针对某一应用的数据是否满足

31、VV&C或目标质 量的要求。另外,这组元数据也应从结构上提供记录一级的管理,用以保证数据质量,消除因不适当使用数据所带来的不一致。第2章 数据仓库数据仓库元数据管理元数据对数据仓库功能的支持(五)衡量数据质量精选ppt48第2章 数据仓库数据仓库元数据管理元数据分类技术元数据技术元数据业务元数据业务元数据精选ppt49 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和治理数据仓库使用的数据。描述和设计如何访问和处理数据,包括查询、汇总、递交等。它主要包括以下信息:1 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;2 业务系统、数据仓

32、库和数据集市的体系结构和模式;3汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;4 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。第2章 数据仓库技术元数据数据仓库元数据管理精选ppt50技术元数据示例:用户报表和查询访问模式、频率和执行时间;审计控制和负载平衡信息;数据的技术结构;提供给DSS的记录系统;源数据字段标识;从操作型记录系统到DSS的映射与转换;编码/引用表转换;物理和逻辑数据模型;DSS表名、键和索引;域值;DSS表结构和属性;数据模型和DSS之间的关

33、系;操作型系统的表结构和属性;抽取历史;DSS表访问模式;DSS归档;工作相关性;程序名和描述;版本维护;安全性;清洗规则等。第2章 数据仓库数据仓库元数据管理精选ppt51 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据为DSS分析人员提供了访问DSS底层的数据仓库和数据集市中信息的线路图。第2章 数据仓库业务元数据数据仓库元数据管理精选ppt52 业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和

34、报表的信息;具体包括以下信息:1企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。2多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。3业务概念模型和物理数据之间的依靠:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应

35、关系也应该在元数据知识库中有所体现。第2章 数据仓库业务元数据数据仓库元数据管理精选ppt53业务数据示例:业务分析员了解的数据结构(与技术用户比较,产品体系对于业务用户的意义有所不同);DSS中信息的常见访问例程;主题领域(例如产品、客户、销售等);表名的业务定义;属性名和业务术语的定义;数据质量的统计信息;DSS字段映射、转换和概要;下钻、上钻、钻过和钻透的规则;域值;数据负责人;数据位置;DSS刷新日期等。第2章 数据仓库业务元数据数据仓库元数据管理精选ppt54元数据源元数据源元数据存储元数据存储元数据用户元数据用户ETL工具工具/处理过程处理过程数据建模工具数据建模工具业务人员业务人

36、员/文档文档生产系统应用生产系统应用数据质量工具数据质量工具其他元数据源其他元数据源报表和报表和OLAP工具工具版本控制版本控制/权限管理权限管理数据仓库元数据数据仓库元数据技术元数据技术元数据业务元数据业务元数据操作元数据操作元数据业务用户业务用户管理员管理员开发人员开发人员第2章 数据仓库关于元数据数据仓库元数据管理精选ppt55第2章 数据仓库数据仓库元数据管理元数据主要工具常见的元数据位置元数据类型常见工具ETL数据转换规则Ardent Datastage程序任务间的相关性Sagent SolutionDSS负载平衡统计及加载统计Informatic PowermartSAS Inst

37、itute数据谱系(Data Lineage)数据建模工具逻辑和物理数据模型Oracle Designer 2000技术实体和属性定义Platnum Erwin域值Silverrun报表工具用户访问模式Brio报表执行时间CognosBusiness Objects业务实体、属性、标准定义Informatic Advantage数据质量工具数据质量统计i.d Centric审核控制TrilliumVality生产商应用程序逻辑和物理数据模型PeopleSoft数据字典SAPSiebol Systems精选ppt56主要内容主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式

38、多维分析高性能物理数据仓库设计精选ppt57 多维数据建模以直观的方式组织数据,并支持高性能的数据访问。每一个多维数据模型由多个多维数据模式表示,每一个多维数据模式都是由一个事实表和一组维表组成的。多维模型最常见的是星形模式。在星形模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。在星型的基础上,发展出雪花模式。数据仓库的数据模式第2章 数据仓库精选ppt58数据仓库的数据模式第2章 数据仓库星型模式(Star Schema)事实表(fact table),存放基本数据,相关主题的数据主体(BCNF)维(dimension),影响、分析主体数据的因素量(measure),事实表

39、中的数据属性维表(dimension table),表示维的各种表维是量的取值条件,维用外键表示以事实表为中心,加上若干维表,组成星型数据模式例:产品-商店-销售额精选ppt59CustSalesLocationSalesProdSalesTimeSalesSalestime idproduct idlocation idcustomer idsales revenueunits soldProductproduct idmakemodelTimetime iddateyearquartermonthweekLocationlocation idregiondistrictstoreCusto

40、mercustomer idcategorygroupSales factSales measuresTime dimensionAttributes of the time dimension数据仓库的数据模式第2章 数据仓库星型模式精选ppt60 位于星形中心的实体是指标实体,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。每个指标实体代表一系列相关事实,完成一项指定的功能。位于星形图星角上的实体是维度实体,其作用是限制用户的查询结果,将数据过滤使得从指标实体查询返回较少的行,从而缩小访问范围。每个维表有自己的属性,维表和事实表通过关键字相关联。星形模式虽然是一个

41、关系模型,但是它不是一个规范化的模型。在星形模式中,维度表被故意地非规范化了,这是星形模式与OLTP系统中的关系模式的基本区别。使用星形模式主要原因:提高查询的效率。采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理,主要数据都在庞大的事实表中,所以只要扫描事实表就可以进行查询,而不必把多个庞大的表联接起来,查询访问效率较高。同时由于维表一般都很小,甚至可以放在高速缓存中,与事实表作连接时其速度较快;便于用户理解。对于非计算机专业的用户而言,星形模式比较直观,通过分析星形模式,很容易组合出各种查询。数据仓库的数据模式第2章 数据仓库星型模式精选ppt61数据仓库的数据模式第2章 数据

42、仓库雪花模式雪花模式(Snowflake Schema)维一般是由若干层次组成把维按其层次结构表示成若干个表规范化、节省存储空间但需多做连接操作精选ppt62定单号定单号销售员号销售员号客户号客户号产品号产品号日期标识日期标识地区名称地区名称数量数量总价总价定单号定单号定货日期定货日期客户号客户号客户名称客户名称客户地址客户地址销售员号销售员号姓名姓名城市城市产品号产品号产品名称产品名称单价单价日期标识日期标识日日月月年年地区名称地区名称省省事实表事实表雪花模式雪花模式产品号产品号公司代码公司代码公司代码公司代码公司名称公司名称地址地址雪花模式雪花模式(Snowflake Schema)数据仓

43、库的数据模式第2章 数据仓库精选ppt63 雪花模式是对星形模式维表的进一步层次化,将某些维表扩展成事实表,这样既可以应付不同级别用户的查询,又可以将源数据通过层次间的联系向上综合,最大限度地减少数据存储量,因而提高了查询功能。数据仓库的数据模式第2章 数据仓库星模式与雪花模式的区别精选ppt64主要内容主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计精选ppt65v1.切片和切块(Slice and Dice)在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各

44、城市、各产品的销售情况。v2.钻取(Drill)钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻取的深度与维所划分的层次相对应。v 3.旋转(Rotate)/转轴(Pivot)通过旋转可以得到不同视角的数据。第2章 数据仓库多维分析精选ppt66第2章 数据仓库多维分析精选ppt67按时间维向上钻取6060按时间维向下钻取第2章 数据仓库多维分析精选ppt68第2章 数据仓库多维分析精选ppt69第2章 数据仓库多维分析多维分析多维分析方法总结多维分析方法总结切片是在一部分维上选定值后,关心数据在剩余维上的数据度量。钻取是改变维的层次,变换

45、分析的粒度;Roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据;Drill down则相反,它从汇总数据深入到细节数据进行观察。旋转式改变维的方向,即在表格中重新安排维的位置(如行列互换)。精选ppt70主要内容主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计精选ppt71第2章 数据仓库高性能物理数据仓库设计 在OLTP环境中,作业(任务)的特征是具有高度选择性的查询。并且此查询通常不(应该)包含大量的复杂的全表扫描和连接操作。与此相反,数据仓库和数据集市的查询通常包含复杂的连接操作和扫描大量的数据,并且这些查询往往包含重

46、复的成分。例如,某个用户想查看各销售区域的收入。另一个用户可能希望查看在所有区域中产品A的销售量在各区销售收入中所占的比例。某个查询都包含扫描整个销售表格以分组区域数据,并计算区域总量。在这样的环境中数据并行化和非规格化是实行高性能计算的主要技巧(技术)。当然索引也是必需考虑的问题。精选ppt72第2章 数据仓库高性能物理数据仓库设计非规格化数据非规格化数据非规格化数据仓库的两个主要优势:1 能够提高多个数量级的查询响应时间;因为大型的,长时间的表格扫描或复杂的连接可以被简单地查找预先计算出来的结果所取代;2 将使系统资源被更加有效地利用;能够大量减少为获得某个特定查询的结果而需要处理的工作量

47、。非规格化数据仓库一般方法:预聚集、列复制、预连接精选ppt73第2章 数据仓库高性能物理数据仓库设计非规格化数据非规格化数据非规格化数据的三种技巧1 预聚集 将一个聚集函数(例如求和求平均)的结果存储以被后用的方法称为预聚集;该方法在数据库中也经常使用,因为这些聚集函数的计算往往需要扫描大量的记录,将他们计算一次后就存储在数据库中以便后续使用是非常实际的方法。例如在税务系统中经常将每月税收总计和平均存储在特定的表中。在数据仓库中,一般将详细数据进行汇总。精选ppt74第2章 数据仓库高性能物理数据仓库设计非规格化数据非规格化数据非规格化数据的三种技巧2 列复制 当用户经常进行连接操作时,为了

48、较少连接的代价,将经常连接的两个或者多个表合并。精选ppt75第2章 数据仓库高性能物理数据仓库设计非规格化数据非规格化数据非规格化数据的三种技巧3 预连接 是列复制的极端情况。列复制只是将某个表的一列或者几列复制到一个表中。预连接时将某个表中的所有列复制到一个表中。就是说用指定的连接键来连接两个(多个)表格,并将连接结果存储在一个表中。表扫描的代价显然要比表连接的代价小。精选ppt76第2章 数据仓库高性能物理数据仓库设计非规格化数据非规格化数据非规格化数据的三种技巧非规格化的代价:增加了磁盘容量;非规格化本身需要大量的计算和合并代价;增加了数据仓库的刷新代价。对于那些查询需要非规格化需要在

49、实际应用用加以验证和改进,也就是说与应用环境有关。精选ppt77第2章 数据仓库高性能物理数据仓库设计并行数据处理 数据库的并行处理集中反映在对事务的并行处理和数据的分布存储两个方面。事务的并行处理通过利用多处理器并行和单处理器多进程(线程)并行,大大提高数据库系统的处理能力。与此相适应,将数据库在多个磁盘上分布存储,可以利用多个处理器对磁盘数据进行并行处理,从而解决磁盘I/O瓶颈。精选ppt78第2章 数据仓库高性能物理数据仓库设计类型划分无共享型 共享内存型 共享磁盘型共享内存共享磁盘磁盘磁盘磁盘内存内存内存CPUCPUCPU磁盘磁盘磁盘内存内存内存网络网络网络CPUCPUCPUCPUCP

50、UCPUSN:Shared NothingSM:Shared MemorySD:Shared Disk精选ppt79SM:处理器之间的通信通过共享内存,数据处理算法比较简单。最大的问题是难以扩展SD:消除了SM的问题,将所有处理器连接到磁盘上,磁盘 成为可扩展性的障碍。SN:消除了SM、SD存在的问题,可扩展性最好,网络成为主要 瓶颈。瓶颈SM内存SD磁盘SN网络类型第2章 数据仓库高性能物理数据仓库设计并行数据处理精选ppt80多数文献将数据放置归类于静态负载均衡类。研究将关系划分并放置到群集的多个节点。数据划分是查询处理并行化的基础,研究表明,数据划分对并行数据处理系统的性能具有非常重大的

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(《数据仓库》课件-2.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|