1、2023-1-20数据仓库实例数据仓库实例数据仓库实例数据仓库实例 数据仓库设计大致有如下几个步骤:2.6 数据仓库的设计 明确主题明确主题 概念设计概念设计 技术准备 逻辑设计逻辑设计 物理设计物理设计 数据仓库生成数据仓库生成 数据仓库的运行与维护数据仓库的运行与维护数据仓库实例针对每一个选定的当前实施的主题针对每一个选定的当前实施的主题概念模型设计逻辑模型设计物理模型设计数据仓库生成数据仓库运行与维护2.6 2.6 数据仓库的设计数据仓库的设计数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 确定系统边界 要做的决策类型有哪些?决策者感兴趣的是什么问题?这些问题需要什么样的信息?
2、要得到这些信息需要包含哪些数据源?v 概念模型设计 确定系统边界 确定主要的主题及其内容 OLAP设计数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 确定主要的主题确定主要的主题 即明确数据仓库的分析对象,然后对每个主题的内容进行较详细的描述,包括:确定主题及其属性信息 描述每个属性的取值情况 固定不变的 半固定的 经常变化的 确定主题的公共码键 主题间的关系:主题间联系及其属性 在确定上述内容后,就可以用传统的实体联系模型(E-R模型)来表示数据仓库的概念数据模型。例如:数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计主题主题名名公共公共码键码键属性信息属性信息商品商品号固
3、有信息:商品号,商品名,类别,颜色等采购信息:商品号,供应商号,供应价,供应日期,供应量等销售信息:商品号,顾客号,售价,销售日期,销售量等库存信息:商品号,库房号,库存量,日期等供应商供应商号固有信息:供应商号,供应商名,地址,电话,供应商类型等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等顾客顾客号固有信息:顾客号,姓名,性别,年龄,文化程度,住址,电话等购物信息:顾客号,商品号,售价,购买日期,购买量等数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计供应商固有信息供应商供应商品信息日期供应商号顾客固有信息顾客号顾客日期顾客购物信息商品采购信息商品销售信息商品商品号日期
4、商品固有信息商品库存信息商品、顾客和供应商之间的商品、顾客和供应商之间的E-RE-R图图数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 逻辑模型设计将ER图转换成关系数据库的二维表定义数据源和数据抽取规则在逻辑模型的设计过程中,需要考虑以下一些问题:适当的粒度划分合理的数据分割策略定义合适的数据来源等数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 逻辑模型设计 粒度划分在设计过程中需要考虑数据仓库中数据粒度的划分原则,即数据单元的详细程度和级别。数据越详细,粒度越小,级别就越低数据综合度越高,粒度越大,级别就越高。一般将数据划分为:详细数据、轻度总结、高度总结三种粒度,
5、或者采用更多级的粒度划分方法。例如:根据时间跨度进行的统计有:天,周,月,季度,年对于不适合进行统计的属性值,可以采样获取数据粒度的划分将直接影响到数据仓库中的数据量以及所适合的查询类型,粒度划分是否适当是影响数据仓库性能的一个重要方面。数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 商品固有信息:商品表(商品号,商品名,类型,颜色,)/*细节数据*/商品采购信息:采购表1(商品号,供应商号,供应日期,供应价,)/*细节数据*/采购表2(商品号,时间段1,采购总量,)/*综合数据*/采购表n(商品号,时间段n,采购总量,)商品销售信息:销售表1(商品号,顾客号,销售日期,售价,销售量
6、,)/*细节数据*/销售表2(商品号,时间段1,销售总量,)/*综合数据*/销售表n(商品号,时间段n,销售总量,)商品库存信息:库存表1(商品号,库房号,库存量,日期,)/*细节数据*/库存表2(商品号,库房号,库存量,星期,)/*样本数据*/库存表n(商品号,库房号,库存量,年份,)其它导出数据:数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 逻辑模型设计 数据分割数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的数据单元进行存储(关系),以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。选择数据分割的因素有:数据量的大小数据分析处理的对象(主题)简单易行
7、的数据分割标准数据粒度的划分策略通常采用时间属性作为数据分割的依据数据分割技术类似于数据库中的数据分片技术,其目的是为了提高数据仓库的性能。数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 逻辑模型设计 定义数据来源及其抽取规则定义数据仓库中数据的来源,以及数据的抽取规则,例如:主题名主题名属性名属性名数据源系统数据源系统源表名源表名源属性名源属性名商品商品号库存子系统商品商品号商品商品名库存子系统商品商品名商品类别采购子系统商品类别数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 物理模型设计在逻辑模型设计基础上确定数据的存储结构、确定索引策略、确定存储分配及数据存放位置
8、等与物理有关的内容,物理模型设计的具体方法与数据库设计中的大致相似。其目的是为了提高数据仓库系统的访问性能。常用的一些技术有:合并表建立数据序列引入冗余表的物理分割生成导出数据建立广义索引数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 在常见的一些分析处理操作中,可能需要执行多表连接操作。为了节省I/O开销,可以把这些表中的记录混合存放在一起,以减低表的连接操作的代价。这样的技术我们称为 合并表。合并表技术与传统关系数据库中的集簇(Clustering)技术类似。v 物理模型设计 合并表数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 按照数据的处理顺序调整数据的物理存放位置
9、,以减少减少系统的磁盘I/O的开销。v 物理模型设计 建立数据序列17584623 page1 page2 page3 page4数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 物理模型设计 建立数据序列12345678 page1 page2 page3 page4调整后的存储组织调整后的存储组织数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 在面向某个主题的分析过程中,通常需要访问不同表中的多个属性,而每个属性又可能参与多个不同主题的分析过程。因此可以通过修改关系模式把某些属性复制到多个不同的主题表中去,从而减少一次分析过程需要访问的表的数量。采用该种数据组织方法回带
10、来大量的数据冗余存储,数据仓库系统必须保证这些冗余数据的一致性。由于数据仓库中的数据是稳定的,很少执行更新操作,不会因此带来过高的数据更新的代价,却可以有效地提高数据仓库系统的性能。v 物理模型设计 引入冗余数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 类似于在逻辑设计阶段的数据分割。可以根据表中每个属性数据的访问频率和稳定性程度对表的存储结构进行分割。对于访问频率较高的属性,可以单独考虑其物理存储组织,以便选择合适的索引策略和特定的物理组织方式。对于需要频繁更新的属性,也可以单独组织其物理存储,以免因数据更新而带来的空间重组、重构等工作。v 物理模型设计 表的物理分割数据仓库实例
11、2.6 2.6 数据仓库的设计数据仓库的设计 在原始的细节数据的基础上进行一些统计和计算,生成导出数据,并保存在数据仓库中。采用该方法既可以避免在分析过程中执行过多的统计或计算操作,减少输入/出的次数,又避免了不同用户进行的重复统计操作可能产生的偏差。v 物理模型设计 生成导出数据数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 用于记录数据仓库中数据于最有关的统计结果的索引被称为广义索引。如:当月销售额最高的商店?当月销售情况最差的商品?这样的广义索引的数据量是非常小的,可以在每次进行数据仓库数据加载工作时生成或刷新这样的广义索引。用户可以从已经建立的广义索引里直接获取这些统计信息,
12、而不必对整个数据仓库进行扫描。v 物理模型设计 建立广义索引数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 数据仓库生成 建立数据模式 根据逻辑设计与物理设计的设计结果建立数据仓库的数据模式。编制数据抽取程序 根据数据仓库元数据中的定义信息,编制抽取程序,将数据源中的数据作加工以形成数据仓库中的数据。数据加载 将数据源中的数据,通过数据抽取程序加载到数据仓库的模式中去。数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 在数据仓库建立后,就可以建立分析、决策型的应用系统。在应用系统的使用过程中不断加深理解,改进主题,依照原型法的思想使系统更趋完善。在系统的运行过程中,随着数据
13、源中数据的不断变化,需要通过数据刷新操作来维护数据仓库中数据的一致性。v 数据仓库的使用与维护数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)联机事务处理:OLTP OnLine Transaction Processing 联机分析处理:OLAP OnLine Analytical Processing数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)OLAP中的几个基本概念:对象(Object)在分析型处理中我们所关心和分析的对象。例如:商品的销售金额 维(Dimension)观察分析对象的角度。例如:可以从三个维角度观察销售金额这个对象:时间维:可按时间角度分析、统计其
14、销售金额。商品维:可按不同商品分类角度分析、统计。地域维:可按连锁点不同地域角度分析、统计其销售金额。数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)OLAP中的几个基本概念:层(Layer)在分析型应用中,对对象可以从不同深度分析与观察并可得到不同结果,因此,“层”反映了对对象观察的深度。一般而言,层是与维相关联的,一个维中可允许存在若干个层,并且可以又不同的层次划分方法。例如:时间维:可以有日、周、月、季、年 地域维:可以有市、省、国、洲 商品维:商品的分类数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)OLAP中的几个基本概念:维成员 维的一个取值称为该维的一个维成员
15、。如果一个维是多层次的,则该维的维成员是在不同维层次的取值的组合。例如:对时间维来说,某年某月某日、某年某月、某月某日、某年都是其维成员。对一个数据项来说,维成员是该数据项在某维中位置的描述。数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)OLAP中的几个基本概念:多维数组 一个多维数组可以表示为(维1,维2,维n,变量),这样可以构成三维、四维及多维的数据表示结构。其中,变量表示我们所观察的数据对象,维1、维2、维n分别表示我们观察该数据对象的角度。如(时间,商品种类,商店,销售额),从而构成一个有关商品销售额的三维数组。(2000年,家电,南京市,1亿)(2000年7月,女性服装
16、,江苏省,10亿)数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)OLAP中的几个基本概念:数据单元(单元格)多维数组的取值称为数据单元。当多维数组的各个维都选中一个维成员,这些维成员的组合就唯一确定了一个观察对象的值,即(维成员1,维成员2,维成员n,对象值)。数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)假设:在一个分析型应用中有若干个分析对象(设为r个),以它们为聚焦点作不同角度(设为m个)与深度(设为n个)的分析,那么可以得到多种不同的统计分析结果(共为(r*m*n)个)。为了方便快速地查到这些统计分析结果,OLAP需要解决以下三个问题:OLAP的基本数据模型 O
17、LAP数据构造方式 数据立方体(Data Cube)与数据超立方体(Data Super Cube)数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)OLAP的基本数据模型 星型模式(Star Schema)星形模式是一种多维表结构,它一般有两种不同性质的二维表组成:事实表(fact table):它存放多维表中的主要事实称为量(Measure)维表(Dimension Table):用以建立多维表中之维成员值 一般一个n维的多维表往往有n个维表和一个事实表,它们构成了一个星形结构,称为星形模式。在星形模式中主体是事实表,而有关维的细节则构作于维表内以达到简化事实表的目的,事实表与维表
18、间有公共属性相连以使它们构成一个整体。数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)产品标识符产品标识符商店标识符商店标识符日期标识符日期标识符销售金额销售金额产品标识符产品标识符类别大类别日期标识符日期标识符日月季年商店标识符商店标识符市名省名国名洲名销售表销售表产品表产品表商店表商店表日期表日期表星型模式示意图星型模式示意图数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)上述的星型模式可以转化成下面的四个关系:事实表:销售表(产品标识符,商店标识符,日期标识符,销售额)维表1:产品表(产品标识符,类别,大类别)维表2:商店表(商店标识符,市名,省名,国名,洲名)维表3
19、:时间表(时间标识符,日期,月份,季度,年份)数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)OLAP的基本数据模型 雪花模式(Snowflake Schema)如果每个维表也是一个类似星型的模式结构,则称其为雪花模式。例如:上述的产品表也可以是一个星型结构。产品(类别,供应商,顾客)在上述的星型模式中,我们只考虑产品的分类,在这里我们还可以从产品的供应商或购买顾客角度来来考虑对产品进行分析。也可以以其中的供应商为中心再构成一个星型模式。数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)OLAP数据构造方式 ROLAP:(Relational OLAP)用传统的关系数据库管理
20、系统(RDBMS)管理,将星型(雪花型)模式用二维表形式存储,表间用关键字相连,从而构成一个关系模式,它称为ROLAP。用户在ROLAP上的查询操作将被改写成RDBMS中的查询操作并执行获得查询结果。MOLAP:(Multi-Demensional OLAP)用多维数据库管理系统管理,多维数据库的基本数据模式是一个多维数组。在MOLAP中,事实表被表示成一个多维数组,维的属性值被映射成多维数组下标,而总结数据则作为多维数据值存储在数据单元中。在查询时,可以通过下标值取出相应数组中的总结数据。数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)OLAP数据构造方式 OLAP服务器必须提高对
21、OLAP数据的访问效率,包括:数据抽取、转换及加载的效率 OLAP数据查询效率 OLAP数据更新效率数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)目前可有多种方法以提高OLAP中的处理效率,它们是:尽量采用并行操作方式以提高处理速度。采用物化视图方式。将视图这种虚表形式转换成实际存在的二维表,以达到快速取得总结性数据的目的。采用特殊的索引与集簇方式,以加速星型模式内表的连接速度。采用OLAP中的查询优化技术,如共享排序技术等。采用增量技术,在OLAP数据更新时保留不变的数据,仅更改变动的数据以加快数据更新速度。数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)数据立方体(D
22、ata Cube)数据仓库的数据模式通常可以看成是定义在多个数据源上的数据视图。分析数据的基本内容是一些统计数据,获取这些统计数据的常用方法是在视图中用统计函数进行计算,但这种方法的缺点是显见的:时间开销太大。为了提高对统计信息的查询速度,我们可以预先计算好数据视图中的统计信息并保存在数据仓库中,这称为物化视图,即将虚的视图转变成实际的视图。存放物化视图的三维数据模型叫数据立方体。数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)以上面的星型模式为例,其事实表共有三维,即产品P(product)、商店S(store)及日期D(Date),可以为它们定义一系列的物化视图。(1)PSD视图
23、 CREATE VIEW PSD(产品标识符,商店标识符,日期标识符,销售总额)AS(SELECT 产品标识符,商店标识符,日期标识符,SUM(销售金额)FROM 销售表 GROUP BY 产品标识符、商店标识符、日期标识符)(2)PS、SD、PD视图CREATE VIEW PS(产品标识符、商品标识符、销售总额)AS(SELECT 产品标识符,商品标识符,SUM(销售金额)FROM PSD GROUP BY 产品标识符,商店标识符)采用类似的方法也可以定义出SD、PD视图。数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)(3)P、S、D视图CREATE VIEW P(产品标识符、销售总额)AS(SELECT 产品标识符,SUM(销售金额)FROM PS GROUP BY 产品标识符)采用类似的方法也可以定义出S、D视图。(4)ALL视图 ALL视图表示不分组,该视图中的销售总额表示销售表中所有销售金额之和。其定义如下:CREATE VIEW ALL(销售总额)AS(SELECT SUM(销售总额)FROM PSD)数据仓库实例2.7 联机分析处理(联机分析处理(OLAP)日 期一季度二季度三季度四季度ALL品VCDTV产PCALLNO1NO2NO3ALL商 店数据立方体数据立方体2023-1-20数据仓库实例