1、2023-4-271/37作业作业 4理解数据仓库的数据组织要求和方法理解数据仓库的数据组织要求和方法掌握数据仓库的星型模型、雪化模型的设计方法掌握数据仓库的星型模型、雪化模型的设计方法理解元数据的类型及其作用理解元数据的类型及其作用数据仓库与数据挖掘数据仓库与数据挖掘内容提要内容提要数据模型数据模型元数据元数据数据的粒度数据的粒度2023-4-273/37数据模型数据模型 传统数据库数据模型传统数据库数据模型 数据仓库的数据模型不同于数据库的数据模数据仓库的数据模型不同于数据库的数据模型在于型在于数据仓库只为决策分析用,数据仓库的增加了时数据仓库只为决策分析用,数据仓库的增加了时间属性数据。
2、间属性数据。数据仓库增加了一些综合数据。数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的数据仓库的数据建模是适应决策用户使用的逻辑数据模型。逻辑数据模型。2023-4-274/37数据仓库概念模型数据仓库概念模型 1.数据仓库模型的概念数据仓库模型的概念 数据仓库概念模型的设计需要给出一个数据仓库的粗略蓝本,数据仓库概念模型的设计需要给出一个数据仓库的粗略蓝本,以此为工具来确认数据仓库的设计者是否已经正确的了解数据以此为工具来确认数据仓库的设计者是否已经正确的了解数据仓库最终用户的信息需求。仓库最终用户的信息需求。(1)概念数据模型)概念数据模型 在构建数据仓库的概念模型时,
3、可以采用在业务数据处理系统在构建数据仓库的概念模型时,可以采用在业务数据处理系统中经常应用的企业数据模型中经常应用的企业数据模型ER图。这是一种描述组织业务图。这是一种描述组织业务概况的蓝图,包括整个组织系统中各个部门的业务处理及其业概况的蓝图,包括整个组织系统中各个部门的业务处理及其业务处理数据。务处理数据。数据仓库与操作型数据库一样,也存在高层模型(数据仓库与操作型数据库一样,也存在高层模型(ERD,实体,实体关系层)、中层模型(关系层)、中层模型(DIS,逻辑层)和低层模型(物理层),逻辑层)和低层模型(物理层)3个层次数据模型。个层次数据模型。2023-4-275/37企业数据模型企业
4、数据模型(举例举例)财务部门财务部门销售收入帐销售收入帐应收帐应收帐应付帐应付帐成本帐成本帐销售部门销售部门销售计划销售计划销售合同销售合同销售统计销售统计人事部门人事部门员工业绩记录员工业绩记录员工技能情况员工技能情况员工薪酬表员工薪酬表财务财务人事人事销售销售.企业数据模型企业数据模型2023-4-276/37数据仓库的数据模型数据仓库的数据模型 数据仓库存储采用多维数据模型。数据仓库存储采用多维数据模型。果汁可乐牛奶商品维奶油浴巾香皂北京上海长沙1 2 3 4 5 6 7城市维日期维q 维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一
5、维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。q 每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。q 两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。2023-4-277/37星型数据模型星型数据模型 大多数的数据仓库都采用大多数的数据仓库都采用“星型模型星型模型”。星型模型是由。星型模型是由“事实表事实表”(大表)及多个(大表)及多个“维表维表”(小表)所组成。(小表)所组成。“事实表事实表”中存放大量关于企业的事实数据(数量数据)。中存放大量关于企业的事实数据(数量数据)。例如:多个时期的数据可能会出现在同一
6、个例如:多个时期的数据可能会出现在同一个“事实表事实表”中。中。“维表维表”中存放描述性数据,维表是围绕事实表建立的较小的表。中存放描述性数据,维表是围绕事实表建立的较小的表。维度表维度表维度表维度表维度表维度表维度表维度表事实表事实表维度表维度表2023-4-278/37星型模型举例星型模型举例订货表客户表销售员表事实表产品表日期表地区表星型模型数据存储情况示意图 2023-4-2710/37星型模型星型模型 模型的核心是事实表,维表通过主键与事实表和其模型的核心是事实表,维表通过主键与事实表和其他维表链接他维表链接 事实表中的数据不允许修改,新数据只是简单的增事实表中的数据不允许修改,新数
7、据只是简单的增加加 非规范化程度高,如不同时期的同类数据可能出现非规范化程度高,如不同时期的同类数据可能出现在同一维表中,数据冗余大在同一维表中,数据冗余大 存取速度快,以增加空间换取较快的访问速度存取速度快,以增加空间换取较快的访问速度 难于适应业务需求的变化难于适应业务需求的变化2023-4-2711/37雪花数据模型雪花数据模型 雪花模型是对星型模型的维表进一步层次化,原来的各维雪花模型是对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的表可能被扩展为小的事实表,形成一些局部的“层次层次”区区域域 在上面星型模型的数据中在上面星型模型的数据中 ,对,对“产品
8、表产品表”“”“日期表日期表”“”“地区表地区表”进进行扩展形成雪花模型数据见下图。行扩展形成雪花模型数据见下图。维度表维度表维度表维度表维度表事实表详细类别表详细类别表2023-4-2712/37雪花模型举例雪花模型举例2023-4-2713/37星网模型星网模型 星网模型是将多个星型模型连接起来形成网状结构。多个星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。星型模型通过相同的维,如时间维,连接多个事实表。2023-4-2714/37数据仓库的逻辑模型与物理模型数据仓库的逻辑模型与物理模型 数据仓库(中间层)逻辑模型数据仓库(中间层)逻辑模
9、型中间层数据模型亦可称为逻辑模型,它是对高层数据中间层数据模型亦可称为逻辑模型,它是对高层数据概念模型的细分,在高层数据模型中所标识的每个主概念模型的细分,在高层数据模型中所标识的每个主题域或指标实体都需要与一个逻辑模型相对应。题域或指标实体都需要与一个逻辑模型相对应。物理数据模型物理数据模型是依据中间层的逻辑数据模型而创建的,它通过确是依据中间层的逻辑数据模型而创建的,它通过确定模型的键码属性和模型的物理特性,扩展中间层定模型的键码属性和模型的物理特性,扩展中间层数据模型而建立。此时,物理数据模型就由一系列数据模型而建立。此时,物理数据模型就由一系列表所构成,其中最主要的是事实表模型和维表模
10、型。表所构成,其中最主要的是事实表模型和维表模型。物理模型中的事实表来源于逻辑模型,它依据数据物理模型中的事实表来源于逻辑模型,它依据数据仓库具体的应用而建立。事实表是星型模型结构的仓库具体的应用而建立。事实表是星型模型结构的核心。核心。2023-4-2715/37 维模型维模型维度表模型也需要根据逻辑模型设计,在设计过程中考维度表模型也需要根据逻辑模型设计,在设计过程中考虑维度表模型是用户分析数据的窗口。维度表应该含有虑维度表模型是用户分析数据的窗口。维度表应该含有商业项目的文字描述,维度的设计提供了维度属性的定商业项目的文字描述,维度的设计提供了维度属性的定义。这些属性应具有这样一些特征:
11、义。这些属性应具有这样一些特征:A.可用文字描述。可用文字描述。B.离散值。离散值。C.有规定的限制。有规定的限制。D.在分析过程中可以提供行标题。在分析过程中可以提供行标题。2023-4-2716/37 1.元数据的定义元数据的定义元数据在数据仓库的设计、运行中有着重要的作用,它元数据在数据仓库的设计、运行中有着重要的作用,它表述了数据仓库中的各对象,遍及数据仓库的所有方面,表述了数据仓库中的各对象,遍及数据仓库的所有方面,是数据仓库中所有管理、操作、数据的数据,是整个数是数据仓库中所有管理、操作、数据的数据,是整个数据仓库的核心。据仓库的核心。元数据是关于数据、操纵数据的进程和应用程序的结
12、构元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面和意义的描述信息,其主要目标是提供数据资源的全面指南。其范围可以是某个特别的数据库管理系统中从现指南。其范围可以是某个特别的数据库管理系统中从现实世界的概念上的一般概括,到详细的物理说明。实世界的概念上的一般概括,到详细的物理说明。元数据及其作用元数据及其作用2023-4-2717/37 在数据库中,元数据是对数据库中各个对象的描在数据库中,元数据是对数据库中各个对象的描述。关系数据库中,这种描述就是对表、列、数据述。关系数据库中,这种描述就是对表、列、数据库和其他对象的定义。库和其他对象的定义。
13、从广义上讲,元数据代表定义数据仓库的任何对从广义上讲,元数据代表定义数据仓库的任何对象,象,无论它是一个表、一个列、一个查询、一个业务规则,无论它是一个表、一个列、一个查询、一个业务规则,或者是数据仓库内部的数据转移等等。或者是数据仓库内部的数据转移等等。2023-4-2718/37元数据举例元数据举例2023-4-2719/37举例:全国文化信息资源共享工程中的元数据举例:全国文化信息资源共享工程中的元数据疾病疾病描述描述:显示器件显示器件:缩写缩写:ILLNE名字空间名字空间URI:http:/purl.org/ndcnc/elements/ILLNE 附属标记附属标记:200307291
14、35551 疾病名称疾病名称 q 疾病分类疾病分类 q 疾病简介疾病简介 q 症状症状 q 病因及发病机制病因及发病机制 q 病理变化病理变化 q 诊断诊断 q 治疗治疗 q 预防预防 q 预后预后 q 主题词或关键词主题词或关键词 q 相关药物相关药物 q 相关疾病相关疾病 q 相关文献相关文献 q 相关指标相关指标 q 相关书目相关书目 q 相关专家相关专家 q 相关机构相关机构 q 图片图片 q 视频视频 q 音频音频 2023-4-2720/37举例:全国文化信息资源共享工程中的元数据举例:全国文化信息资源共享工程中的元数据2023-4-2721/37举例:全国文化信息资源共享工程中的
15、元数据举例:全国文化信息资源共享工程中的元数据描述描述:显示器件显示器件:缩写缩写:WEAPO 名字空间名字空间URI:http:/purl.org/ndcnc/elements/WEAPO 附属标记附属标记:20030729135519 兵器名称兵器名称 q 研制国别研制国别 q 研制机构研制机构 q 研制时间研制时间 q 分类分类 q 关键词关键词 q 简介简介 q 图片图片 q 视频视频 q 音频音频 q相关书目相关书目 2023-4-2722/37元数据的作用元数据的作用(1)元数据是进行数据集成所必需的元数据是进行数据集成所必需的 (2)元数据定义的语义层可以帮助最终用户元数据定义的
16、语义层可以帮助最终用户理解数据仓库中的数据理解数据仓库中的数据 (3)元数据是保证数据质量的关键元数据是保证数据质量的关键 (4)元数据可以支持需求变化元数据可以支持需求变化 2023-4-2723/37元数据的分类元数据的分类 1.按元数据的类型分类按元数据的类型分类关于基本数据的元数据:包括数据源、数据仓库、关于基本数据的元数据:包括数据源、数据仓库、数据集市和应用程序管理的所有数据。数据集市和应用程序管理的所有数据。用于数据处理的元数据用于数据处理的元数据 关于企业的组织结构的元数据关于企业的组织结构的元数据 2.按对象级别分类按对象级别分类(1)概念级)概念级 (2)逻辑级)逻辑级 (
17、3)物理级)物理级2023-4-2724/373.从用户的角度分类从用户的角度分类(1)业务元数据,具体包括以下内容:)业务元数据,具体包括以下内容:A.企业概念模型企业概念模型 B.多维数据模型多维数据模型C.业务概念模型和物理数据之间的依赖关系业务概念模型和物理数据之间的依赖关系D.支持面向业务概念的浏览、导航支持面向业务概念的浏览、导航 E.支持动态立即查询支持动态立即查询 F.数据挖掘数据挖掘(2)技术元数据)技术元数据2023-4-2725/374.从来源的角度分类从来源的角度分类(1)工具产生的元数据)工具产生的元数据 (2)源提供的元数据)源提供的元数据 (3)企业模型)企业模型
18、 (4)系统导入的元数据)系统导入的元数据 (5)特定的用户产生的元数据)特定的用户产生的元数据2023-4-2726/375.从元数据的目的角度分类从元数据的目的角度分类一般可以通过一种更粗的方法来区分元数据:一般可以通过一种更粗的方法来区分元数据:(1)用于信息的元数据)用于信息的元数据 (2)用于控制的元数据)用于控制的元数据2023-4-2727/376.按照产生按照产生/使用的时间分类使用的时间分类 根据获取或生成的时间,可以分为:根据获取或生成的时间,可以分为:A.设计时收集的元数据设计时收集的元数据 B.构建时生成的元数据构建时生成的元数据 C.运行时生成的元数据运行时生成的元数
19、据 根据使用的时间,可以分为:根据使用的时间,可以分为:A.设计时使用的元数据设计时使用的元数据 B.构建使使用的元数据构建使使用的元数据 C.运行时使用的元数据运行时使用的元数据2023-4-2728/37元数据管理的现状元数据管理的现状 数据共享领域的某些趋势说明数据仓库中的元数据需求正逐数据共享领域的某些趋势说明数据仓库中的元数据需求正逐步增加,这些趋势包括:步增加,这些趋势包括:A.数据模型处理的对象由传统的字符型和数值型扩展到多种媒体类型。数据模型处理的对象由传统的字符型和数值型扩展到多种媒体类型。B.支持一家企业的数据仓库扩展到支持多个组织多个企业共享的数据仓库。支持一家企业的数据
20、仓库扩展到支持多个组织多个企业共享的数据仓库。C.信息流控制由过去的从源系统到数据仓库的单向流动扩展到由数据仓库向信息流控制由过去的从源系统到数据仓库的单向流动扩展到由数据仓库向源系统的反馈。源系统的反馈。D.各个厂家的专用数据格式向公共开放标准元数据交换格式转换,以提高其各个厂家的专用数据格式向公共开放标准元数据交换格式转换,以提高其信息捕获能力。信息捕获能力。元数据管理之所以困难,一个很重要的原因就是缺乏统一的元数据管理之所以困难,一个很重要的原因就是缺乏统一的标准。在这种情况下,各公司的元数据管理解决方案各不相标准。在这种情况下,各公司的元数据管理解决方案各不相同。同。近几年,随着元数据
21、联盟近几年,随着元数据联盟MDC(Meta Data Coalition)的开放信息)的开放信息模型模型OIM(Open Information Model)和)和OMG组织的公共仓库模型组织的公共仓库模型CWM(Common Warehouse Model)标准的逐渐完善,以及)标准的逐渐完善,以及MDC和和OMG组织的合并,为数据仓库厂商提供了统一的标准,从而为元数组织的合并,为数据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。据管理铺平了道路。2023-4-2729/37元数据管理标准元数据管理标准 数据仓库领域中两个最主要的元数据标准:数据仓库领域中两个最主要的元数据标准:MD
22、C的的OIM标准和标准和OMG的的CWM标准。标准。元数据联合会元数据联合会MDC 建于建于1995年,是一个致力于建立与厂商无关的、年,是一个致力于建立与厂商无关的、不依赖于具体技术的企业元数据管理标准的非赢利技术联盟,目的不依赖于具体技术的企业元数据管理标准的非赢利技术联盟,目的是提供标准化的元数据交互。该联盟有是提供标准化的元数据交互。该联盟有150多个会员,其中包括微软多个会员,其中包括微软和和IBM等著名软件厂商。等著名软件厂商。1999年年7月月MDC接受了微软的建议,将接受了微软的建议,将OIM作为元数据标准。作为元数据标准。MDC于于1996年开发了年开发了MDIS(Meta
23、Data Interchange Specification)并完)并完成了成了MDCOIM的技术评审,的技术评审,MDCOIM基于微软的开放信息模基于微软的开放信息模型型OIM,是一个独立于技术的、以厂商为核心的信息模型。,是一个独立于技术的、以厂商为核心的信息模型。OIM是是微软的元数据管理产品微软的元数据管理产品Microsoft Repository的一部分。由微软和其的一部分。由微软和其它它20多家公司共同开发的,作为微软开放过程的一部分,经过了多家公司共同开发的,作为微软开放过程的一部分,经过了300多个公司的评审。多个公司的评审。2023-4-2730/37元数据管理标准元数据管
24、理标准 OMG是一个拥有是一个拥有500多会员的国际标准化组织。在多会员的国际标准化组织。在1995年采用了年采用了MOF(Meta Object Facility),并不断完善之。),并不断完善之。1997年采用了年采用了UML,2000年,年,OMG又采用了又采用了CWM。公共仓库元模型(公共仓库元模型(Common Warehouse Metamodel)的主要目的是在异构环境下,帮)的主要目的是在异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。助不同的数据仓库工具、平台和元数据知识库进行元数据交换。2001年年3月,月,OMG颁颁布了布了CWM 1.0标准。标准。
25、CWM模型既包括元数据存储,也包括元数据交换,它是基于以模型既包括元数据存储,也包括元数据交换,它是基于以下三个工业标准制定的:下三个工业标准制定的:(1)UML:它对:它对CWM模型进行建模。模型进行建模。(2)MOF(元对象设施):它是(元对象设施):它是OMG元模型和元数据的存储标准,提供在异构元模型和元数据的存储标准,提供在异构环境下对元数据知识库的访问接口。环境下对元数据知识库的访问接口。(3)XMI(XML元数据交换):它可以使元数据以元数据交换):它可以使元数据以XML文件流的方式进行交换。文件流的方式进行交换。OMG的的UML、MOF和和CWM形成了形成了OMG建模和元数据管理
26、、交换结构的基础,建模和元数据管理、交换结构的基础,推动了元数据标准化的快速发展。推动了元数据标准化的快速发展。为了推动元数据标准化的发展,为了推动元数据标准化的发展,MDC和和OMG在元数据标准的制定上协同工作。在元数据标准的制定上协同工作。1999年年4月,月,MDC成为成为OMG的成员,而的成员,而OMG也同时成为也同时成为MDC的成员。的成员。MDC中中使用了使用了OMG的的UML,而,而MDCOIM中的数据仓库部分被用来作为中的数据仓库部分被用来作为OMG的公的公共仓库元数据交互(共仓库元数据交互(CWMI:Common Warehouse Metadata Interchange)
27、的设)的设计参考。在两个组织的技术力量的合作努力下,元数据标准将逐步一致化。计参考。在两个组织的技术力量的合作努力下,元数据标准将逐步一致化。2023-4-2731/37数据粒度数据粒度 粒度问题是设计数据仓库的一个最重要方面。粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。度越低,粒度级就越大。数据的粒度一直是一个设计问题。数据的粒度一直是一个设计问题。在早期建立的操作型应用系统中
28、,当详细的数据被更新时,在早期建立的操作型应用系统中,当详细的数据被更新时,几乎总是把它存放在最低粒度级上。但在数据仓库环境中,几乎总是把它存放在最低粒度级上。但在数据仓库环境中,对粒度不作假设。对粒度不作假设。数据仓库环境中粒度的设计要在数据仓库中的数据量数据仓库环境中粒度的设计要在数据仓库中的数据量的大小、查询的效率及详细程度之间要作出权衡。的大小、查询的效率及详细程度之间要作出权衡。2023-4-2732/37数据粒度数据粒度2023-4-2733/37数据粒度数据粒度 1.数据粒度的划分数据粒度的划分适当划分粒度的第一步是适当划分粒度的第一步是 估算估算 数据仓库中将数据仓库中将来使用
29、的数据行数和所需的直接存取存储设备来使用的数据行数和所需的直接存取存储设备数数在计算出数据仓库所需要占用的存储空间以后,在计算出数据仓库所需要占用的存储空间以后,需要根据所需要的存储空间大小确定是否划分需要根据所需要的存储空间大小确定是否划分粒度,如果需要划分,又应该怎样划分。粒度,如果需要划分,又应该怎样划分。2023-4-2734/372.确定粒度的级别确定粒度的级别 在数据仓库中确定粒度时,需要考虑这样一在数据仓库中确定粒度时,需要考虑这样一些因素:些因素:要接受的分析类型要接受的分析类型可接受的数据最低粒度可接受的数据最低粒度能够存储的数据量。能够存储的数据量。计划在数据仓库中进行的分
30、析类型将直接影计划在数据仓库中进行的分析类型将直接影响数据仓库的粒度划分。响数据仓库的粒度划分。数据仓库通常在同一模式中使用多重粒度。数据仓库通常在同一模式中使用多重粒度。2023-4-2735/37 确定数据仓库粒度的另外一个要素是数据仓库可以确定数据仓库粒度的另外一个要素是数据仓库可以使用多种存储介质的空间量。使用多种存储介质的空间量。选择合适的粒度是数据仓库设计过程中所要解决的选择合适的粒度是数据仓库设计过程中所要解决的一个复杂的问题,因为粒度的确定实质上是对业务一个复杂的问题,因为粒度的确定实质上是对业务决策分析、硬件、软件和数据仓库使用方法的一个决策分析、硬件、软件和数据仓库使用方法的一个折衷。折衷。还有一种可以大幅降低数据仓库容量的方法,就是还有一种可以大幅降低数据仓库容量的方法,就是只采用概括数据。只采用概括数据。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。