数据仓库模型设计[1]课件.ppt

上传人(卖家):晟晟文业 文档编号:4588056 上传时间:2022-12-22 格式:PPT 页数:91 大小:1.81MB
下载 相关 举报
数据仓库模型设计[1]课件.ppt_第1页
第1页 / 共91页
数据仓库模型设计[1]课件.ppt_第2页
第2页 / 共91页
数据仓库模型设计[1]课件.ppt_第3页
第3页 / 共91页
数据仓库模型设计[1]课件.ppt_第4页
第4页 / 共91页
数据仓库模型设计[1]课件.ppt_第5页
第5页 / 共91页
点击查看更多>>
资源描述

1、2022-12-22数据仓库模型设计1数据仓库模型设计数据仓库模型设计数据仓库模型设计11.41.4 数据仓库模型设计数据仓库模型设计1.4.1 1.4.1 数据仓库模型设计方法概述数据仓库模型设计方法概述数据仓库系统的设计与数据库系统设计的区别数据仓库系统的设计与数据库系统设计的区别数据库系统设计数据库系统设计数据仓库系统设计数据仓库系统设计面向的数据类型面向的数据类型面向应用面向应用面向分析面向分析应用需求应用需求比较明确比较明确不太明确不太明确系统设计目标系统设计目标事务处理的并发性、事务处理的并发性、安全性、高效性安全性、高效性保证数据的四个特征保证数据的四个特征和全局一致性和全局一致

2、性数据来源数据来源业务操作员的输入业务操作员的输入业务系统业务系统系统设计的方法系统设计的方法需求驱动需求驱动数据驱动数据驱动第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.1 1.4.1 数据仓库模型设计方法概述数据仓库模型设计方法概述 数据仓库系统的设计可以分为数据仓库系统的设计可以分为数据仓库模数据仓库模型设计型设计和和数据装载接口数据装载接口的设计两大部分,其中的设计两大部分,其中数据仓库模型设计又包括概念模型设计、逻辑数据仓库模型设计又包括概念模型设计、逻辑模型设计和物理模型设计三个部分。模型设计和物理模型设计三个部分。1.41.4 数据仓库模型设计数据仓库模型设计第

3、一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.2 1.4.2 数据仓库设计的三级数据模型数据仓库设计的三级数据模型 数据模型是数据仓库建设的基础,一个完整、数据模型是数据仓库建设的基础,一个完整、灵活、稳定的数据模型对于数据仓库项目的成功灵活、稳定的数据模型对于数据仓库项目的成功起着如下重要的作用:起着如下重要的作用:1 1)数据模型是整个系统建设过程的导航图。数据模型是整个系统建设过程的导航图。2 2)有利于数据的整合。)有利于数据的整合。3 3)通过数据模型的建立,可以排除数据描述的不一)通过数据模型的建立,可以排除数据描述的不一致性。致性。4 4)由于数据模型对现有的信息

4、以及信息之间的关系)由于数据模型对现有的信息以及信息之间的关系从逻辑层进行了全面的描述,当未来业务发生变化或系统从逻辑层进行了全面的描述,当未来业务发生变化或系统需求发生变化时,可以很容易地实现系统扩展。需求发生变化时,可以很容易地实现系统扩展。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计15 5)可以消除数据仓库中的冗余数据。)可以消除数据仓库中的冗余数据。数据仓库建模是数据仓库构建工作正式开数据仓库建模是数据仓库构建工作正式开始的第一步,正确而完备的数据模型是用户业始的第一步,正确而完备的数据模型是用户业务需求的体现,是数据仓库项目成

5、功与否最重务需求的体现,是数据仓库项目成功与否最重要的技术因素。目前较为流行的数据仓库设计要的技术因素。目前较为流行的数据仓库设计模型是概念模型、逻辑模型和物理模型三级数模型是概念模型、逻辑模型和物理模型三级数据模型。据模型。1.4.2 1.4.2 数据仓库设计的三级数据模型数据仓库设计的三级数据模型1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.2 1.4.2 数据仓库设计的三级数据模型数据仓库设计的三级数据模型一、概念模型一、概念模型 概念模型描述的是从客观世界到主观认识的概念模型描述的是从客观世界到主观认识的映射,它是用于我们

6、为一定的目标设计系统、收映射,它是用于我们为一定的目标设计系统、收集信息而服务的一个概念性工具。在进行系统设集信息而服务的一个概念性工具。在进行系统设计时,我们首先要将现实世界抽象为概念模型,计时,我们首先要将现实世界抽象为概念模型,然后再用计算机世界的模型和语言对客观世界中然后再用计算机世界的模型和语言对客观世界中的具体问题进行描述。的具体问题进行描述。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.2 1.4.2 数据仓库设计的三级数据模型数据仓库设计的三级数据模型二、逻辑模型二、逻辑模型 目前数据仓库一般建立在关系数据库基础之

7、目前数据仓库一般建立在关系数据库基础之上。因此,在数据仓库的设计中采用的逻辑模型上。因此,在数据仓库的设计中采用的逻辑模型就是关系模型,无论是主题还是主题之间的联系,就是关系模型,无论是主题还是主题之间的联系,都用关系来表示。都用关系来表示。逻辑模型描述了数据仓库的主逻辑模型描述了数据仓库的主题的逻辑实现,对于关系数据库来说,即每个主题的逻辑实现,对于关系数据库来说,即每个主题所对应的关系表的关系模式的定义。它能直接题所对应的关系表的关系模式的定义。它能直接反映出业务部门的需求,同时对系统的物理实施反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。有着重要的指导作用。1.41.4

8、数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.2 1.4.2 数据仓库设计的三级数据模型数据仓库设计的三级数据模型三、物理模型三、物理模型 物理模型是逻辑模型在数据仓库中的实现,物理模型是逻辑模型在数据仓库中的实现,如数据存储结构、数据索引策略、数据的存储策如数据存储结构、数据索引策略、数据的存储策略以及存储分配优化等。略以及存储分配优化等。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.2 1.4.2 数据仓库设计的三级数据模型数据仓库设计的三级数据模型四、三种模型之间的关系四、三

9、种模型之间的关系关系模型关系模型物理实现物理实现的细节的细节客观世界客观世界主观世界主观世界概念模型概念模型逻辑模型逻辑模型物理模型物理模型1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.2 1.4.2 数据仓库设计的三级数据模型数据仓库设计的三级数据模型五、高级模型、中级模型和低级模型五、高级模型、中级模型和低级模型高级模型:即数据概念模型,用高级模型:即数据概念模型,用E-R图表示。图表示。低级模型:即物理数据模型。低级模型:即物理数据模型。中级模型:称为数据项(中级模型:称为数据项(dis-data item set)。)。1

10、.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.2 1.4.2 数据仓库设计的三级数据模型数据仓库设计的三级数据模型五、高级模型、中级模型和低级模型五、高级模型、中级模型和低级模型 dis是是E-R图的细分。图的细分。E-R图的每一个主题都图的每一个主题都与一个与一个dis相对应。相对应。主题主题1 1主题主题2 2主题主题4 4主题主题3 3disdisdisdisE-R图图高级模型高级模型中级模型中级模型中级模型中级模型1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.2

11、 1.4.2 数据仓库设计的三级数据模型数据仓库设计的三级数据模型五、高级模型、中级模型和低级模型五、高级模型、中级模型和低级模型 每个每个disdis中的数据分为中的数据分为4 4个组别:基本数据组、个组别:基本数据组、二级数据组、连接数据组和类型数据组。二级数据组、连接数据组和类型数据组。1 1)连接数据组)连接数据组 主要用于本主题与其他主题之间的联系,体主要用于本主题与其他主题之间的联系,体现现E-RE-R图中主题之间的关系。一般情况下,连接图中主题之间的关系。一般情况下,连接数据组往往是一个主题的公共码键。数据组往往是一个主题的公共码键。1.41.4 数据仓库模型设计数据仓库模型设计

12、第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.2 1.4.2 数据仓库设计的三级数据模型数据仓库设计的三级数据模型五、高级模型、中级模型和低级模型五、高级模型、中级模型和低级模型2 2)基本数据组)基本数据组 基本数据组包含了本主题中固定的、基本基本数据组包含了本主题中固定的、基本不变的属性。不变的属性。3 3)二级数据组)二级数据组 是本主题中有时会发生变化的数据,其稳是本主题中有时会发生变化的数据,其稳定性低于基本数据组。定性低于基本数据组。4 4)类型数据组)类型数据组 是本主题中经常改变的数据,其稳定性最是本主题中经常改变的数据,其稳定性最低。低。1.41.4 数据仓

13、库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.2 1.4.2 数据仓库设计的三级数据模型数据仓库设计的三级数据模型五、高级模型、中级模型和低级模型五、高级模型、中级模型和低级模型例:例:商品商品ID客户客户ID姓名姓名性别性别身份证号码身份证号码住址住址文化程度文化程度电话电话E-mail交易交易ID商品金额商品金额购买时间购买时间交易交易ID商品金额商品金额购买时间购买时间交易交易ID商品金额商品金额购买时间购买时间电器电器食品食品床上床上用品用品类型数据组类型数据组二级数据组二级数据组连接数据组连接数据组基本数据组基本数据组1.41.4 数据仓库

14、模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计 通过概念模型设计,可以确定数据仓库的主要主通过概念模型设计,可以确定数据仓库的主要主题及相互关系。题及相互关系。进行概念模型设计所要完成的工作有:进行概念模型设计所要完成的工作有:1)界定系统边界,即进行任务和环境评估、需)界定系统边界,即进行任务和环境评估、需求收集和分析,了解用户迫切需要解决的问题及解决求收集和分析,了解用户迫切需要解决的问题及解决这些问题所需要的信息,要对现有数据库中的内容有这些问题所需要的信息,要对现有数据库中的内容有一个

15、完整而清晰的认识。一个完整而清晰的认识。2)确定主要的主题域及其内容,即要确定系统)确定主要的主题域及其内容,即要确定系统所包含的主题域,然后对每一个主题域的公共码键、所包含的主题域,然后对每一个主题域的公共码键、主题域之间的联系、充分代表主题的属性组进行较为主题域之间的联系、充分代表主题的属性组进行较为明确的描述。明确的描述。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计 数据仓库的概念模型设计可以采用两种方法:数据仓库的概念模型设计可以采用两种方法:E-R模型模型和和

16、面向对象面向对象的分析方法。的分析方法。一、一、E-R模型模型 E-R图描述的是主题以及主题之间的联系。用图描述的是主题以及主题之间的联系。用E-R模型进行概念模型设计的过程如图:模型进行概念模型设计的过程如图:任务和任务和环境评估环境评估需求的收需求的收集和分析集和分析主题选取,主题选取,确定主题间关系确定主题间关系主题内主题内容描述容描述E-R图图对主题的选择进行调整对主题的选择进行调整1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计(1)任务和环境的评估)任务和环境的

17、评估(2)需求的收集和分析)需求的收集和分析(3)主题的选取,确定主题间关系)主题的选取,确定主题间关系主题选取的原则:主题选取的原则:1)优先实施管理者目前最迫切需求、最关心的主题。)优先实施管理者目前最迫切需求、最关心的主题。2)优先选择能够在较短时间内发生效益的决策主题。)优先选择能够在较短时间内发生效益的决策主题。3)推后实施业务逻辑准备不充分的主题。)推后实施业务逻辑准备不充分的主题。4)推后考虑实现技术难度大、可实现性较低、投资风)推后考虑实现技术难度大、可实现性较低、投资风险大的主题。险大的主题。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理

18、数据仓库模型设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计(4)主题内容描述)主题内容描述 描述的内容包括:描述的内容包括:1)主题的公共码键。)主题的公共码键。2)主题之间的联系。)主题之间的联系。3)充分代表主题的属性组。)充分代表主题的属性组。(5)E-R图图 长方形长方形表示主题表示主题 椭圆形椭圆形表示主题的属性组表示主题的属性组 菱形菱形表示主题之间的联系表示主题之间的联系1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计1例例1:假设有商品、客户和供应商三个主题。假设有商品、客户和供应商三个主题。商品有

19、如下属性组:商品固有信息商品有如下属性组:商品固有信息 商品库存信息商品库存信息 商品销售信息商品销售信息 商品采购信心商品采购信心 客户有如下属性组:客户固有信息客户有如下属性组:客户固有信息 客户购物信息客户购物信息 供应商有如下属性组:供应商固有信息供应商有如下属性组:供应商固有信息 供应商品信息供应商品信息 则可得到如下则可得到如下E-R图:图:1.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计1供应商供应商商品商品客户客户日期日期供应商号供应商号供应商固供应商固有信息

20、有信息供应商供应商品信息品信息日期日期客户号客户号客户购客户购物信息物信息客户固客户固有信息有信息日期日期商品号商品号商品固商品固有信息有信息商品库商品库存信息存信息商品销商品销售信息售信息商品采商品采购信息购信息供应供应购买购买1.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计例例2、中医药方剂是中医治疗疾病的重要手段,方剂、中医药方剂是中医治疗疾病的重要手段,方剂中蕴涵着中医博大、精深的理论。为了揭示蕴涵

21、在中蕴涵着中医博大、精深的理论。为了揭示蕴涵在方剂中的应用规律和内部的有机联系,推动传统医方剂中的应用规律和内部的有机联系,推动传统医学的发展,加快新药产品的开发,要建立中医方剂学的发展,加快新药产品的开发,要建立中医方剂数据仓库。数据仓库。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计 方剂中的信息可以分为两个部分:一部分是药物方剂中的信息可以分为两个部分:一部分是药物的配比,即需要哪几味中药,每种药材各需要多少;的配比,即需要哪几味中药,每种药材各需要多少;另一部分则

22、是其主治的病症,这两部分信息被方剂有另一部分则是其主治的病症,这两部分信息被方剂有机地联系在一起。药物的配比是由药理决定的,而病机地联系在一起。药物的配比是由药理决定的,而病症的规则又是与病因和发展的机理密切联系,要分析症的规则又是与病因和发展的机理密切联系,要分析方剂,就不可能不研究这两方面的信息。因此可以确方剂,就不可能不研究这两方面的信息。因此可以确定主要的主题为定主要的主题为方剂方剂、药物药物、病症病症,所需的数据为方,所需的数据为方剂数据、药物数据、病症数据。剂数据、药物数据、病症数据。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设

23、计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计主题名主题名公共码键公共码键属性组属性组药物药物药物药物ID药物基本信息:药物基本信息:药物药物ID、药名、味性、归经、功效、药名、味性、归经、功效、主治和禁忌等主治和禁忌等药物相关信息:药物相关信息:药物药物ID、产地、采集、保存、炮制等、产地、采集、保存、炮制等方剂方剂方剂方剂ID方剂基本信息:方剂基本信息:方剂方剂ID、方剂名、煎服方式、文献等、方剂名、煎服方式、文献等方剂药物信息:方剂药物信息:方剂方剂ID、药物、药物ID、剂量等、剂量等方剂适宜病症:方剂适宜病症:方剂方剂ID、病症、病症ID等等病症病症病症病症I

24、D病症基本信息:病症基本信息:病症病症ID、病症名、临床表现、病机等、病症名、临床表现、病机等主题的描述主题的描述1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计病症病症药物药物处方处方方方药药方方症症方剂方剂ID方剂药物方剂药物信息信息方剂基本方剂基本信息信息方剂适宜方剂适宜病症病症药物基本药物基本信息信息药物药物ID药物相关药物相关信息信息病症病症ID病症基本病症基本信息信息1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型

25、设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计二、面向对象的分析方法二、面向对象的分析方法 采用面向对象方法进行概念模型设计时,采用面向对象方法进行概念模型设计时,E-R模型中的实体转化为面向对象系统中的类,模型中的实体转化为面向对象系统中的类,E-R模型中实体的属性对应面向对象系统中类的属性,模型中实体的属性对应面向对象系统中类的属性,E-R模型中实体间的关系表现为面向对象系统中模型中实体间的关系表现为面向对象系统中类间的关系。类间的关系。环境评估环境评估需求分析需求分析选择类选择类确定类间关系确定类间关系描述类属性、动作描述类属性、动作对类的选择进行调整对类的选

26、择进行调整1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计二、面向对象的分析方法二、面向对象的分析方法类常用的图形表示方法是类表。类常用的图形表示方法是类表。汽车汽车属性:属性:颜色颜色类型类型动作:动作:行驶()行驶()类名类名类的属性集合类的属性集合类的动作集合类的动作集合1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计二、面向对象的分析方法二、面向

27、对象的分析方法 在面向对象的方法中,类之间存在三种关系:在面向对象的方法中,类之间存在三种关系:继承、包容和关联。继承、包容和关联。1、继承、继承交通工具交通工具汽车汽车轮船轮船火车火车1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念模型设计二、面向对象的分析方法二、面向对象的分析方法2、包容、包容学校学校学生学生教师教师1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.3 1.4.3 数据仓库的概念模型设计数据仓库的概念

28、模型设计二、面向对象的分析方法二、面向对象的分析方法3、关联、关联 在面向对象方法中,除了包容和继承关系之外,在面向对象方法中,除了包容和继承关系之外,类之间的其他关系都归入关联关系。因为类的动作类之间的其他关系都归入关联关系。因为类的动作反映的是类对自身或者其他类的作用,而关联关系反映的是类对自身或者其他类的作用,而关联关系是指类间的作用与反作用,所以关联关系可以通过是指类间的作用与反作用,所以关联关系可以通过类的动作来体现。类的动作来体现。教师教师学生学生教教/学学1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.3 1.4.3

29、数据仓库的概念模型设计数据仓库的概念模型设计二、面向对象的分析方法二、面向对象的分析方法例:例:中医数据仓库选择出三个类:药物类、方剂类、病症中医数据仓库选择出三个类:药物类、方剂类、病症类,其中药物类可以派生出治感冒的药物、治脾胃的药物类,其中药物类可以派生出治感冒的药物、治脾胃的药物和治肠炎的药物三个子类,各类之间的关系如图:和治肠炎的药物三个子类,各类之间的关系如图:方剂方剂药物药物病症病症治感冒的药物治感冒的药物治脾胃的药物治脾胃的药物治肠炎的药物治肠炎的药物1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数

30、据仓库的逻辑模型设计数据仓库的逻辑模型设计进行逻辑模型设计所要完成的主要工作有:进行逻辑模型设计所要完成的主要工作有:(1)系统数据量的估算)系统数据量的估算(2)数据粒度的选择)数据粒度的选择(3)确定数据分割策略)确定数据分割策略(4)增加时间字段)增加时间字段(5)去除纯操作型数据)去除纯操作型数据(6)进行合理的表划分)进行合理的表划分(7)定义关系模式)定义关系模式(8)增加导出字段)增加导出字段(9)定义记录系统)定义记录系统1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的

31、逻辑模型设计一、系统数据量估算一、系统数据量估算 数据仓库数据量级的一个简单估算方法是:数据仓库数据量级的一个简单估算方法是:设在概念模型中出现的表个数为设在概念模型中出现的表个数为N(这些表中这些表中应当不包括不会放进数据仓库的表应当不包括不会放进数据仓库的表),对于每个,对于每个表表i(0i=N)计算表的大小计算表的大小Si和表的主关键字大小和表的主关键字大小Ki,然后估计每张表,然后估计每张表i在单位时间内最大记录数在单位时间内最大记录数Lmax和最少记录数和最少记录数Lmin。则数据仓库的粗略数据。则数据仓库的粗略数据量在如下范围:量在如下范围:1.41.4 数据仓库模型设计数据仓库模

32、型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计一、系统数据量估算一、系统数据量估算 其中,其中,T是数据在数据仓库中存在的周期。是数据在数据仓库中存在的周期。通常轻度综合的数据在数据仓库中存放的周期是通常轻度综合的数据在数据仓库中存放的周期是510年。年。是考虑由于数据索引和数据冗余而使是考虑由于数据索引和数据冗余而使得数据量增大的冗余因子,得数据量增大的冗余因子,通常可取通常可取1.22。上式的含义是数据仓库数据量上式的含义是数据仓库数据量=(表记录的大小十表记录的大小十主关键字大小主关键字大小)记录的数量单

33、位时间记录的数量单位时间存储存储时间时间冗余因子。冗余因子。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计一、系统数据量估算一、系统数据量估算 表表i在单位时间内最大记录数在单位时间内最大记录数Limax需要按照公需要按照公司的客户数量或者市场的占用情况估算。比如对司的客户数量或者市场的占用情况估算。比如对电信公司的计费表记录数量的估计,可以采用电电信公司的计费表记录数量的估计,可以采用电信公司的信公司的客户数量客户数量单位时间内平均通话的次数单位时间内平均通话的次数每个

34、存储时间每个存储时间来估计表的记录数量。来估计表的记录数量。以上方法估算的结果只能作为数据粒度选样以上方法估算的结果只能作为数据粒度选样和软硬件平台选取的参考数据,它同实际系统的和软硬件平台选取的参考数据,它同实际系统的数据量可能会有较大的出入。数据量可能会有较大的出入。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计二、二、数据颗粒度的选择数据颗粒度的选择1、单一数据粒度的概念:、单一数据粒度的概念:直接存储细节数据直接存储细节数据并定期在细节数据基础并定期在细节数据基础

35、上进行数据综合。上进行数据综合。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计二、二、数据颗粒度的选择数据颗粒度的选择2、双重粒度的概念:、双重粒度的概念:对于细节数据只保留近期的数据在数据仓库对于细节数据只保留近期的数据在数据仓库中,当保留周期到达时,将距离当前较远的数据中,当保留周期到达时,将距离当前较远的数据导出到磁盘上,从而为最新的数据腾出空间。这导出到磁盘上,从而为最新的数据腾出空间。这样,数据仓库只保留在细节数据保留周期之内的样,数据仓库只保留在细节数据保留周

36、期之内的数据,对于这个周期之后的信息,数据仓库只保数据,对于这个周期之后的信息,数据仓库只保留其综合数据。留其综合数据。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计二、二、数据颗粒度的选择数据颗粒度的选择2、双重粒度的概念(续):、双重粒度的概念(续):1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计二、二、数据颗粒度的选择数据颗粒度的选择2、双重粒

37、度的概念(续):、双重粒度的概念(续):单一粒度和双重粒度的区别在于细节数据在单一粒度和双重粒度的区别在于细节数据在数据仓库的高速存储设备中存储的时间长短不同。数据仓库的高速存储设备中存储的时间长短不同。在使用双重粒度时,一个重要的参数是细节在使用双重粒度时,一个重要的参数是细节数据的数据的保留周期保留周期,这个周期对于不同行业、不同需,这个周期对于不同行业、不同需求可能有不同的答案。求可能有不同的答案。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计二、二、数据颗粒度的选

38、择数据颗粒度的选择3、粒度的选择、粒度的选择1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计二、二、数据颗粒度的选择数据颗粒度的选择4、粒度层次划分、粒度层次划分 无论是单一粒度还是双重粒度,在数据仓无论是单一粒度还是双重粒度,在数据仓库中都存在多重综合层次的数据。有几个因素库中都存在多重综合层次的数据。有几个因素会影响粒度层次的划分。会影响粒度层次的划分。(1)要接受的分析类型)要接受的分析类型 (2)可接受的最低粒度)可接受的最低粒度 (3)能存储数据的存储容量)能存储

39、数据的存储容量1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计三、三、表的分割表的分割 在确定粒度之后,需要考虑的是表的分割在确定粒度之后,需要考虑的是表的分割策略,常用的分割策略是按照时间进行如图所策略,常用的分割策略是按照时间进行如图所示。比如商品供应关系问题可以采用双重粒度,示。比如商品供应关系问题可以采用双重粒度,保留近保留近6个月的细节数据。综合数据可以按照年个月的细节数据。综合数据可以按照年进行分割。进行分割。1.41.4 数据仓库模型设计数据仓库模型设计第一章

40、第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计三、三、表的分割表的分割1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计四、四、增加时间字段增加时间字段 在数据粒度分割策略确定之后,我们可以在数据粒度分割策略确定之后,我们可以将表按照数据粒度将表按照数据粒度/分割策略的需求定义新表,分割策略的需求定义新表,并为各个表增加合适的时间字段;比如在上图中并为各个表增加合适的时间字段;比如在上图中的细节数据,我们

41、使用的时间字段是的细节数据,我们使用的时间字段是“供货日供货日期期”,按月综合数据使用的时间字段是,按月综合数据使用的时间字段是“供货月供货月份份”。时间字段实际上体现了数据粒度的信息。时间字段实际上体现了数据粒度的信息。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计五、五、去除纯操作型数据去除纯操作型数据 在将业务系统中的数据抽取到细节数据表或在将业务系统中的数据抽取到细节数据表或者综合数据表时,需要去除纯操作型数据。纯操者综合数据表时,需要去除纯操作型数据。纯操作型数

42、据就是与分析毫无关系的数据,这些数据作型数据就是与分析毫无关系的数据,这些数据字段通常是为了方便业务系统的运营而设立的,字段通常是为了方便业务系统的运营而设立的,它们对于面向分析的数据仓库系统没有实际的意它们对于面向分析的数据仓库系统没有实际的意义。义。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计六、六、合理的表划分合理的表划分 通过增加合适的时间字段、去除纯操作型数通过增加合适的时间字段、去除纯操作型数据,我们的模型更进了一步。但是在实际的系统据,我们的模型更进了一步

43、。但是在实际的系统中,一张表的字段数目常常很多。如果直接存放中,一张表的字段数目常常很多。如果直接存放字段数目很大的表,可能存在下列的问题:字段数目很大的表,可能存在下列的问题:(1)从数据的存储角度上看,表中有的字段更新较为频繁,从数据的存储角度上看,表中有的字段更新较为频繁,因而对于这些数据字段数据仓库需要经常进行数据追加工因而对于这些数据字段数据仓库需要经常进行数据追加工作。而表中的其他字段的更新操作很少,对于这些字段,作。而表中的其他字段的更新操作很少,对于这些字段,数据追加的工作较少。如果将变化很快的字段同变化很慢数据追加的工作较少。如果将变化很快的字段同变化很慢(很少很少)的字段放

44、在一张表中,则将浪费大量的存储空间。的字段放在一张表中,则将浪费大量的存储空间。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计六、六、合理的表划分(续)合理的表划分(续)(2)从数据的访问角度看,表中的部分字段是经常从数据的访问角度看,表中的部分字段是经常被访问的,而其他的字段访问较少。如果将所有被访问的,而其他的字段访问较少。如果将所有字段放在一张表中,就使得表的体积增大,不能字段放在一张表中,就使得表的体积增大,不能将经常需要使用的部分放在内存中,这样将影响将经常需要

45、使用的部分放在内存中,这样将影响访问的效率。访问的效率。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计六、六、合理的表划分(续)合理的表划分(续)基于这样的原因,我们需要对表中的内容进基于这样的原因,我们需要对表中的内容进行合理的划分。划分的方法可以按照数据的变化行合理的划分。划分的方法可以按照数据的变化情况进行、也可以按照业务规则进行。情况进行、也可以按照业务规则进行。(1)按照数据的稳定性对表进行划分。按照数据的稳定性对表进行划分。1.41.4 数据仓库模型设计数据仓

46、库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计六、六、合理的表划分合理的表划分1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计六、六、合理的表划分合理的表划分(2)按照业务规则进行表划分按照业务规则进行表划分 W.H.Inmon在在Building the Data Warehouse中提出了中提出了DIS(data item set)的的设计方法,这种方法是将数据按照业务规则对设计方法

47、,这种方法是将数据按照业务规则对共有数据和专有数据进行划分。共有数据和专有数据进行划分。DIS模型由初始模型由初始数据、二次数据、连接数据以及不同数据数据、二次数据、连接数据以及不同数据“类类型型”组成组成.1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计六、六、合理的表划分合理的表划分1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计六、六、合理的表划分

48、合理的表划分例:例:如图所示的是一个商品交易的如图所示的是一个商品交易的DIS模型。将模型。将交易分成现金、信用卡、支票以及是否大客户交易分成现金、信用卡、支票以及是否大客户等类型。等类型。1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计六、六、合理的表划分合理的表划分对于业务系统中记载的:对于业务系统中记载的:“345号顾客号顾客 非大客户非大客户 时间:时间:2001ll 14:03 购买商品:购买商品:1 付款付款方式:小量方式:小量 现金现金”“368号顾客号顾客

49、大客户大客户 时间:时间:200ll2 15:53购买商品:购买商品:1 付款付款方式:批量方式:批量 支票支票”两条记录,映射在两条记录,映射在DIS模型中,将生成模型中,将生成6条记录。条记录。(1)初始数据表中的两条记录用于记载仅出现一次的信息,比如初始数据表中的两条记录用于记载仅出现一次的信息,比如交易交易号、商品号、顾客号、支付类型、是否批量号、商品号、顾客号、支付类型、是否批量等信息。等信息。(2)在现金表中出现一条记录记载在现金表中出现一条记录记载345号顾客的购买行为;在小量表号顾客的购买行为;在小量表中出现一条记录记载中出现一条记录记载345号顾客的购买行为。在支票表中出现一

50、条记号顾客的购买行为。在支票表中出现一条记录记载录记载368号顾客的购买行为;在批量表中出现一条记录记载号顾客的购买行为;在批量表中出现一条记录记载368号顾号顾客的购买行为客的购买行为1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计六、六、合理的表划分合理的表划分1.41.4 数据仓库模型设计数据仓库模型设计第一章第一章 数据仓库原理数据仓库原理数据仓库模型设计11.4.4 1.4.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计七、七、定义关系模式定义关系模式1.41.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据仓库模型设计[1]课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|