1、2022-12-30数据仓库与数据挖掘22数据仓库与数据挖掘数据仓库与数据挖掘2-2数据仓库与数据挖掘22第二章第二章 数据仓库原理数据仓库原理n 2.1 数据仓库定义数据仓库定义n 2.2 数据仓库特征数据仓库特征n 2.3 数据库体系化环境数据库体系化环境n 2.4 数据仓构造模式数据仓构造模式n 2.5 数据仓库概念结构数据仓库概念结构n 2.6 数据仓库中的数据组织数据仓库中的数据组织n 小节小节数据仓库与数据挖掘22n 数据仓库中的数据组织数据仓库中的数据组织 n 粒度粒度n 分区分区n 维度维度n 元数据元数据n 数据仓库的数据组织形式数据仓库的数据组织形式n 数据仓库的数据追加数
2、据仓库的数据追加2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 数据仓库中的数据组织数据仓库中的数据组织 n 粒度粒度n 分割分割n 维度维度n 元数据元数据n 数据仓库的数据组织形式数据仓库的数据组织形式n 数据仓库的数据追加数据仓库的数据追加2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n为了提高分析和决策的效率和有效性,分析型处理为了提高分析和决策的效率和有效性,分析型处理及其数据必须与事务型处理及其数据相分离,把分及其数据必须与事务型处理及其数据相分离,把分析型处理所需要的数据从事务型处理
3、环境中提取出析型处理所需要的数据从事务型处理环境中提取出来,按照分析型处理的要求进行重新组织,建立单来,按照分析型处理的要求进行重新组织,建立单独的分析处理环境。独的分析处理环境。n数据仓库正是构建这种新的分析处理环境而出现的数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术。一种数据存储和组织技术。数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n数据仓库的数据组织结构不同于一般的数据库系统数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和,需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。综合数
4、据分成一些不同的级别。n在数据仓库中,数据按照粒度从小到大可分为四个在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高级别:早期细节级、当前细节级、轻度细节级和高度细节级。度细节级。n从事务型处理环境中提取的源数据经过综合后,首从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或高度进入轻度综合级或高度数据仓库与数据挖掘22 数据仓库的数据组织结构数据仓库的数据组织结构元元数数据据高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级2
5、.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别早期细节级早期细节级一般而言,当前细节级的数据对于决策的支持程度随数据一般而言,当前细节级的数据对于决策的支持程度随数据发生时间的久远而降低。发生时间的久远而降低。为了有效控制数据仓库中当前细节级数据的规模,保证系为了有效控制数据仓库中当前细节级数据的规模,保证系统的运行效率,在设计数据仓库时,通常应结合业务的特统的运行效率,在设计数据仓库时,通常应结合业务的特点和系统硬件的水平,设定一个合理的时间阀值,将老化点和系统硬件的水平,设定一个合理的时间阀值,
6、将老化的数据转为早期细节级的数据,并以合适的方式进行存储的数据转为早期细节级的数据,并以合适的方式进行存储。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别当前细节级当前细节级来自数据源的数据,所反映的都是当前的业务情况,来自数据源的数据,所反映的都是当前的业务情况,因此在导入数据仓库之后,首先做为当前细节级数据进因此在导入数据仓库之后,首先做为当前细节级数据进行存储。行存储。这些数据规模较大,实时性强,是数据仓库用户感兴这些数据规模较大,实时性强,是数据仓库用户感兴趣的部分。趣的部分。当前细节级的
7、数据一方面依据数据仓库的既定规则,当前细节级的数据一方面依据数据仓库的既定规则,经过处理,得到情况度综合级和高度综合级的数据,另经过处理,得到情况度综合级和高度综合级的数据,另一方面,随时间的推移,逐渐老化,成为历史细节级数一方面,随时间的推移,逐渐老化,成为历史细节级数据。据。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别轻度综合级轻度综合级为了有效控制数据仓库进行决策支持时的系统开销,对为了有效控制数据仓库进行决策支持时的系统开销,对当前细节级的数据,通常以一定的当前细节级的数据,通常以一定的
8、时间段为单位时间段为单位进行综进行综合。合。这一设定的时间段参数又称为这一设定的时间段参数又称为“粒度粒度”。以较小的粒度生成的综合数据,称为以较小的粒度生成的综合数据,称为“轻度综合级数据轻度综合级数据”,其规模要远远小于当前细节级数据,因此,可以明,其规模要远远小于当前细节级数据,因此,可以明显提高决策运算的效率。显提高决策运算的效率。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别高度综合级高度综合级以较长的时间段,即较大的粒度,对当前细节级的数据以较长的时间段,即较大的粒度,对当前细节级的数
9、据进行综合而形成的结果,称为进行综合而形成的结果,称为“高度综合级数据高度综合级数据”。高度综合级的数据内容十分精练,可以认为是一种高度综合级的数据内容十分精练,可以认为是一种“准准决策数据决策数据”。这里,这里,“高度高度”和和“轻度轻度”只是一种相对的概念没有绝只是一种相对的概念没有绝对的界限。对的界限。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22 数据仓库的数据组织结构的一个例子数据仓库的数据组织结构的一个例子 高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级1990-2004年年 每月销售表每月销售表1996-2004年年每周销
10、售表每周销售表1996-2004年年销售情况表销售情况表1990-1995年年销售明细表销售明细表 数据仓库中的数据组织数据仓库中的数据组织 2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 数据仓库中的数据组织数据仓库中的数据组织 n 粒度粒度n 分割分割n 维度维度n 元数据元数据n 数据仓库的数据组织形式数据仓库的数据组织形式n 数据仓库的数据追加数据仓库的数据追加2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n粒度粒度 对数据仓库中的对数据仓库中的数据综合程度高低的一个度量数据综合程度高低的一个度量。例如:一个简单的交易处于低粒度级,而每
11、月所有交易的例如:一个简单的交易处于低粒度级,而每月所有交易的汇总和处于一个高粒度级。汇总和处于一个高粒度级。粒度会深刻地影响存放在数据仓库中的粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据量的大小以及数据仓库所能够回答的查询类型数据仓库所能够回答的查询类型。在数据仓库中的数据量。在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡。大小与所能回答查询的细节级别之间要做出权衡。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 粒度粒度一个顾客一个月中每次通话的细一个顾客一个月中每次通话的细节节一个顾客一个月中通话的综合一个顾客一个月中通话的综合Cass
12、 Squire上星期给他在波士顿的女友打过上星期给他在波士顿的女友打过电话没有?电话没有?能回答,尽管需要一定数量的检能回答,尽管需要一定数量的检索索根本不能回答,细节已经丢失根本不能回答,细节已经丢失“上个月,华盛顿人平均打出多少个电话?上个月,华盛顿人平均打出多少个电话?”2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 粒度粒度低粒度低粒度高粒度高粒度能回答任何问题能回答任何问题效率低效率低数据量大数据量大不能回答所有问题不能回答所有问题效率高效率高数据量小数据量小2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22 n粒度分为两种形式:粒度分为
13、两种形式:n对数据仓库中的数据的综合程度高低的一个度量对数据仓库中的数据的综合程度高低的一个度量粒度越小,细节程度越高,综合程度越低粒度越小,细节程度越高,综合程度越低粒度大小影响数据仓库效率、能回答询问的种类粒度大小影响数据仓库效率、能回答询问的种类“张三在某时某地是否给李四打过电话?张三在某时某地是否给李四打过电话?”“张三去年共打了几次长途电话张三去年共打了几次长途电话”“某地区今年长途与普通电话费用之比某地区今年长途与普通电话费用之比”“今年长途普通电话费用增长率今年长途普通电话费用增长率”“预测未来长途普通电话费用变化趋势预测未来长途普通电话费用变化趋势”数据仓库是多粒度的,不同的粒
14、度回答不同的查询数据仓库是多粒度的,不同的粒度回答不同的查询2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n粒度分为两种形式:粒度分为两种形式:n样本数据库样本数据库在分析过程中,有许多探索的过程有时分析的目的并不要在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。,所以可以提取出样本数据库。样本数据库的粒度:是根据样本数据库的粒度:是根据采样率的高低采样率的高低来划分的,采样来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是粒度不
15、同的样本数据库可以具有相同的综合级别,它是按按一定的采样率从细节数据库或轻度综合数据库中提取的一一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。个子集。样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可样本数据库采集重要数据进行分析既可提高分析效率提高分析效率,又又有助于抓住主要因素和主要矛盾有助于抓住主要因素和主要矛盾。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22 n样本数据库样本数据库 用处:代替源数据进行模拟分析,适用于趋势分析和预测分析用处:代替源数据进行模拟分析,适用于
16、趋势分析和预测分析抽样的方法:随机抽取,必要时可采用抽样的方法:随机抽取,必要时可采用“判断样本判断样本”优点:优点:高效率,在启发式分析中,高效率,在启发式分析中,源数据量很大的情况下,抽样数据可以大大下降,源数据量很大的情况下,抽样数据可以大大下降,分析结果误差极小分析结果误差极小 有助于抓住主要因素和主要矛盾有助于抓住主要因素和主要矛盾2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 数据仓库中的数据组织数据仓库中的数据组织 n 粒度粒度n 分区分区n 维度维度n 数据仓库的数据组织形式数据仓库的数据组织形式n 数据仓库的数据追加数据仓库的数据追加2.6 数据仓库
17、中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 分区分区 数据分区是指把数据分散到可独立处理的分离物理单元中数据分区是指把数据分散到可独立处理的分离物理单元中去。数据分割后的数据单元称为分片。去。数据分割后的数据单元称为分片。在数据仓库中围绕分区的问题的焦点不是该不该分区而是在数据仓库中围绕分区的问题的焦点不是该不该分区而是如何去分区的问题。因为运行维护人员和设计者在管理小如何去分区的问题。因为运行维护人员和设计者在管理小的物理单元时比管理大的享有更大的灵活性。的物理单元时比管理大的享有更大的灵活性。恰当进行分区的好处:恰当进行分区的好处:数据装载、数据访问、数据存档、数据装载、数据
18、访问、数据存档、数据删除、数据监控、数据存储、数据删除、数据监控、数据存储、当结构相似的数据被分到多个数据的物理单元时,数据便当结构相似的数据被分到多个数据的物理单元时,数据便被分区了。任何给定的数据单元属于且仅属于一个分区。被分区了。任何给定的数据单元属于且仅属于一个分区。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n分区分区数据分区数据分区小的数据单元易于:小的数据单元易于:重构重构索引索引顺序扫描顺序扫描重组重组恢复恢复监控监控19891990198719911988独立管理的数据单元可以有不同的定义独立管理的数据单元可以有不同的定义处理设备处理设备A处理设处理
19、设备备B2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 分区分区 有多种数据分区的标准:有多种数据分区的标准:时间时间 业务范围业务范围 地理位置地理位置 组织单位组织单位 所有上述标准所有上述标准数据分区的标准是完全由开发人员来决定的。然而,在数数据分区的标准是完全由开发人员来决定的。然而,在数据仓库环境中,日期几乎总是分区标准中的一个必然组成据仓库环境中,日期几乎总是分区标准中的一个必然组成部分。部分。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 分区分区 人寿保险公司选择时间和保险种类,将数据分区为以下物人寿保险公司选择时间和保险种类
20、,将数据分区为以下物理单元:理单元:2000年健康索赔年健康索赔2001年健康索赔年健康索赔2002年健康索赔年健康索赔1999年人寿保险索赔年人寿保险索赔2000年人寿保险索赔年人寿保险索赔2001年人寿保险索赔年人寿保险索赔2002年人寿保险索赔年人寿保险索赔2000年意外伤亡索赔年意外伤亡索赔2001年意外伤亡索赔年意外伤亡索赔2002年意外伤亡索赔年意外伤亡索赔2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 分区分区n数据分区优点:数据分区优点:提高系统性能提高系统性能“1996年家电类商品销售的季节分布如何?”“每年的第一季度商品销售在各类商品上的分布情况是
21、怎样的?”提高灵活性提高灵活性 修改数据定义容易修改数据定义容易 不同年份的险种的定义描述是相互独立2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 数据仓库中的数据组织数据仓库中的数据组织 n 粒度粒度n 分区分区n 维度维度n 数据仓库的数据组织形式数据仓库的数据组织形式n 数据仓库的数据追加数据仓库的数据追加2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n维度维度管理人员可以从客户的角度、产品的角度或者从供应商、地管理人员可以从客户的角度、产品的角度或者从供应商、地点、渠道、发生的时间等角度来分析决策问题。点、渠道、发生的时间等角度来分析决
22、策问题。用户的这些决策分析角度或决策分析出发点就是数据仓库中用户的这些决策分析角度或决策分析出发点就是数据仓库中的维。的维。数据仓库中的数据就按照这些维来组织,维也就成了数据仓数据仓库中的数据就按照这些维来组织,维也就成了数据仓库中识别数据的索引。库中识别数据的索引。同时,数据仓库中的维还可以作为数据仓库操作过程的路经同时,数据仓库中的维还可以作为数据仓库操作过程的路经,这些路径通常位于维的不同层次结构中。,这些路径通常位于维的不同层次结构中。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n维度维度是一个物理特性(如时间、地点、产品等),它是表达数据仓是一个物理特性(如
23、时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报库中信息的一个基本途径,可作为标识数据的索引。通常的报表只包含有行和列两维,但在数据仓库中所存储的数据大多是表只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维或三维以上)视图表示的。用多维(三维或三维以上)视图表示的。例如:例如:一个销售系统中的数据可分为时间维、产品维和地理位置一个销售系统中的数据可分为时间维、产品维和地理位置维等;维等;2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n一个数据立方体,比如数据仓库一个数据立方体,比如数据仓库sales,sales,
24、允许以多维对允许以多维对数据进行建模和观察。数据进行建模和观察。n例销售分析:例销售分析:数据仓库数据仓库salessales围绕商品销售量这个主题。同时,销围绕商品销售量这个主题。同时,销售量涉及以下几个方面:售量涉及以下几个方面:time,item,locationtime,item,location,branchbranch。有了这些方面的信息,能够记录商品的月销。有了这些方面的信息,能够记录商品的月销售,销售商品的地点。售,销售商品的地点。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22LocationVancouverChicagoTorontoNew York
25、Time(季度季度)ItemQ1Q2Q3Q4605680812927825952102310381431303840051250158085410878188829687468938436238725916829256987281002789784984870家庭家庭娱乐娱乐计算机计算机电话电话安全安全2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22维:人们观察数据的特定角度。维:人们观察数据的特定角度。本例中涉及本例中涉及time,item,location。每一个维都有一个表每一个维都有一个表 与之相关联,称为与之相关联,称为。事实:数据仓库的主题,数值事实:数据仓库
26、的主题,数值 度量的。本例中指销售度量的。本例中指销售 量。事实对应量。事实对应。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22A Sample Data CubeTotal annual salesof TV in U.S.A.DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum数据仓库与数据挖掘22n基于维的常见操作基于维的常见操作用户在数据仓库的应用中,从较低层次的数用户在数据仓库的应用中,从较低层次的数据开始逐步将数据按照不同的层次进行概括处理据开始逐步将数据按照不同的层次进行概
27、括处理从数据仓库中的高层数据开始逐步向低层数从数据仓库中的高层数据开始逐步向低层数据探索,了解组成概括数据的具体细节据探索,了解组成概括数据的具体细节2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 数据仓库中的数据组织数据仓库中的数据组织 n 粒度粒度n 分区分区n 维度维度n 元数据元数据n 数据仓库的数据组织形式数据仓库的数据组织形式n 数据仓库的数据追加数据仓库的数据追加2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n数据仓库的元数据与数据库管理系统中的数据字典或数数据仓库的元数据与数据库管理系统中的数据字典或数据目录相似。据目录相似。n
28、数据字典中保存了逻辑数据结构,文件和地址、索引等数据字典中保存了逻辑数据结构,文件和地址、索引等信息。信息。n数据字典包含的是关于数据库中数据本身信息的数据。数据字典包含的是关于数据库中数据本身信息的数据。2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n将元数据看作是电话黄页。将元数据看作是电话黄页。n你需要当地商店的信息吗?他们在哪里,他们的名字是你需要当地商店的信息吗?他们在哪里,
29、他们的名字是什么,他们的专营是什么?去查电话黄页吧。什么,他们的专营是什么?去查电话黄页吧。n电话黄页是当地部门信息的一本字典。电话黄页是当地部门信息的一本字典。n元数据部分与电话黄页的作用类似,它是数据仓库内容元数据部分与电话黄页的作用类似,它是数据仓库内容的一本字典。的一本字典。数据仓库与数据挖掘22n什么是元数据?什么是元数据?n假设,用户希望在运行查询之前,了解数据仓库中名叫假设,用户希望在运行查询之前,了解数据仓库中名叫CUSTOMERCUSTOMER的表或实体。的表或实体。n在元素据存储库中与在元素据存储库中与CUSTOMERCUSTOMER相关的信息内容是什么?相关的信息内容是什
30、么?2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22定义定义:从公司购买产品或服务的一个人或者一个机构。:从公司购买产品或服务的一个人或者一个机构。备注备注:客户实体包含了常规的、当前以及过去的客户;:客户实体包含了常规的、当前以及过去的客户;源系统源系统:已经完成的产品订单,维护合同,在线销售:已经完成的产品订单,维护合同,在线销售 建立日期建立日期:1999年年1月月15日日 最后更新日期最后更新日期:2001年年1月月21日日 更新周期更新周期:每周每周 最后的完全刷新日期最后的完全刷新日期:2000年年12月月29日日 完全刷新周期完全刷新周期:每每6个月个月 数
31、据质量回顾数据质量回顾:2001年年1月月25日日 最后的副本最后的副本:2001年年1月月10日日 计划归档计划归档:每每6个月个月 负责人负责人:jane brown2.6 数据仓库中的数据组织数据仓库中的数据组织实体名称:实体名称:customer别名:别名:Account,Client数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库的关键需求:数据仓库的关键需求:n对数据仓库使用的必要性对数据仓库使用的必要性在订单处理程序中,用户通过系统提供的图形界面及在订单处理程序中,用户通过系统提供的图形界面及预定义的报表进行信息访问;预定义的报表进行信息访问;使用数
32、据仓库时,自己从数据仓库中获取信息。使用数据仓库时,自己从数据仓库中获取信息。需要需要使用元数据。使用元数据。数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织对构建数据仓库的必要性n数据抽取和数据转换源系统及其数据结构数据仓库的结构及数据内容数据映射及数据转换我们需要源系统的元数据,源系统到目标系统的映射,以及数据转换的规则。n数据仓库的数据管理员物理设计和初始装载定期的增量装载需要知道数据库逻辑结构的元数据,数据刷新及装载周期元数据。数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n对管理数据仓库的必要性数据抽取/转换/装载如何处理数据的变化?如何
33、纳入新的源系统?外部系统的数据如何增加新的外部数据源?如何去掉某些外部数据源?数据仓库如何增加新的汇总表?如何控制查询?数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n想象一下,一个没有标签和文件夹的文件柜。n如果没有元数据,那么数据仓库就像这个文件柜;n可能装满了很多对你的用户、开发者及管理者很有用的信息,但是,却没有任何简便的方法知道这些信息在哪里,这样一来,数据仓库的价值就很有限。数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n元数据就像一个神经中枢,是关于数据的数据;n在构建和管理数据仓库的过程中,不同的过程都会产生一部分元数据。n一个过
34、程创建的元数据可以被其他过程使用。n在数据仓库中,元数据处于一个关键的位置,使不同的过程能够相互通信,是数据仓库的中枢。数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库元素数据仓库元素查询工具查询工具报表工具报表工具OLAP工具工具数据挖掘数据挖掘应用程序应用程序外部数据外部数据数据装载数据装载功能功能转换工具转换工具清晰工具清晰工具抽取工具抽取工具源系统源系统数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n元数据扮演了一个活跃的角色,辅助数据仓库处理过程的自动化。n以下是按顺序排列的后端处理过程的列表数据源结构定义;数据抽取;初始重格式化
35、/合并初步数据清洗数据转换/合并有效性和质量检查数据仓库结构定义创建装载映像数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n按照数据仓库功能区域划分的元数据类型n数据源数据 数据源存储平台 数据源的数据格式 数据源的业务内容说明;数据源的所有者 数据源的访问方法及使用限制;实施数据抽取的工具和其他方法,及相应的参数设置;数据抽取的进度安排;1.实际数据抽取的时间、内容及完成情况记录;数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n按照数据仓库功能区域划分的元数据类型n数据的预处理数据抽取、转换、装载过程中用到的各种文件定义;从数据源到主题数据实际
36、视图之间的数据对应关系,有关数据净化的详细规则;为了满足数据挖掘需要进行的数据处理的详细说明;维表各属性的更新策略选择;代理码的分配情况;数据聚集的定义;预处理数据的备份方法;数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n按照数据仓库功能区域划分的元数据类型n数据仓库主题各种数据库表或视图的定义数据库分区的设置;索引的建立方法;数据库访问权限分配;数据库备份方案;数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n按照数据仓库功能区域划分的元数据类型n查询服务数据库表及表中数据项的业务含义说明;可视化查询结果格式的定义;用户及其访问权限的定义;数据
37、仓库使用情况的监控与统计;数据仓库与数据挖掘222.6 数据仓库中的数据组织数据仓库中的数据组织n也可以将原数据分为管理元数据和用户元数据;n管理元数据用于创建和维护数据仓库。它包括数据源元数据、预处理数据元数据、数据仓库主题数据源数据等;n用户元数据帮助用户进行查询、理解查询结果,了解数据仓库的数据和组织,其中主要内容是查询服务元数据;数据仓库与数据挖掘22n 数据仓库中的数据组织数据仓库中的数据组织 n 粒度粒度n 分区分区n 维度维度n 元数据元数据n 数据仓库的数据组织形式数据仓库的数据组织形式n 数据仓库的数据追加数据仓库的数据追加2.6 数据仓库中的数据组织数据仓库中的数据组织数据
38、仓库与数据挖掘22n数据仓库的数据组织形式数据仓库的数据组织形式简单堆积文件简单堆积文件 它将由数据库中提取并加工的数据逐一积累存储它将由数据库中提取并加工的数据逐一积累存储轮转综合文件轮转综合文件 数据存储单位被分为若干个级别数据存储单位被分为若干个级别轮转记录轮转记录-综合综合优点:结构简捷,数据量较简单堆积结构减少优点:结构简捷,数据量较简单堆积结构减少缺点:损失数据细节。越久远的数据,细节损失越多缺点:损失数据细节。越久远的数据,细节损失越多2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n 简单堆积结构简单堆积结构它将每天从数据库中提取加工后的数据逐日积累的存储
39、它将每天从数据库中提取加工后的数据逐日积累的存储起来。按这种方式存储的数据细节化程度很高,可以应起来。按这种方式存储的数据细节化程度很高,可以应付多种细节查询,但分析时查询的效率较低。付多种细节查询,但分析时查询的效率较低。2.6 数据仓库中的数据组织数据仓库中的数据组织面向应用数据库每天数据每天综合1 月 1 日1 月 2 日1 月 3 日2 月 1 日2 月 2 日2 月 3 日3 月 1 日3 月 2 日3 月 3 日 需要许多存储空间需要许多存储空间无细节丢失无细节丢失许多处理与数据有关许多处理与数据有关数据仓库与数据挖掘22n轮转综合结构轮转综合结构它将数据按不同的期限轮转地存储。它
40、将数据按不同的期限轮转地存储。2.6 数据仓库中的数据组织数据仓库中的数据组织非常紧凑非常紧凑一些细节丢失一些细节丢失提取越久的数据,越不详细提取越久的数据,越不详细数据仓库与数据挖掘22n简单直接简单直接 数据是从操作型环境直接装入数据仓库中,并没有任何积累,只不过数据是从操作型环境直接装入数据仓库中,并没有任何积累,只不过这种文件不是在每天的基础上组织的,而是以较长时间(如一个星期这种文件不是在每天的基础上组织的,而是以较长时间(如一个星期、一个月)为单位的。因此,简单直接文件是按一定时间操作型数据、一个月)为单位的。因此,简单直接文件是按一定时间操作型数据库的一个快照,即按一定时间间隔对
41、数据库的采样。库的一个快照,即按一定时间间隔对数据库的采样。J Adams Main大街大街P Anderson High 大街大街456号号K Appleby A大街大街10号号L Azimoff 被被农场农场路路64号号面向应用数据库1月份数据2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22n连续结构连续结构它是通过比较两个连续的简单直接文件的不同而生成的它是通过比较两个连续的简单直接文件的不同而生成的另一种连续文件,生成的连续文件又可以和新的简单直另一种连续文件,生成的连续文件又可以和新的简单直接文件一起生成新的连续文件接文件一起生成新的连续文件。J Adams M
42、ain大街大街P Anderson High 大街大街456号号K Appleby A大街大街10号号L Azimoff 被农场路被农场路64号号 J Adams Main大街大街W Abraham 9号公路号公路12号号P Anderson Tincup郡郡14号号K Appleby A大街大街10号号 J Adams Main大街大街 1 月月今今 W Abraham 9号公路号公路12号号 2月月今今P Anderson High大街大街456号号 1月月1月月P Anderson Tincup郡郡14号号 2月月今今K Appleby A大街大街10号号 1月月今今 2.6 数据仓库中
43、的数据组织数据仓库中的数据组织数据仓库与数据挖掘22 连续文件连续文件 1)两个连续的简单直接文件两个连续的简单直接文件 比较他们的不同比较他们的不同 连续文件连续文件2)连续文件连续文件+新的简单文件新的简单文件 新的连续文件新的连续文件n数据仓库的数据组织形式数据仓库的数据组织形式2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22 一月份顾客表一月份顾客表数据库快照数据库快照操作型数据操作型数据图图1-5 生成简化直接文件生成简化直接文件姓名顾客号地址张平C960100北京王英C960101天津王宾C960102上海李强C960103重庆2.6 数据仓库中的数据组织数据
44、仓库中的数据组织数据仓库与数据挖掘22 连续文件连续文件 两个连续的简化直接文件两个连续的简化直接文件 比较他们的不同比较他们的不同 连续文件连续文件 姓姓 名名 顾顾 客客 号号地地 址址 张平张平 C960100 北京北京 王英王英 C960101 天津天津 王宾王宾 C960102 上海上海 刘仲刘仲 C960104 重庆重庆 姓姓 名名 顾顾 客客 号号地地 址址 张平张平 C960100 北京北京 王英王英 C960101 沈阳沈阳 王宾王宾 C960102 上海上海 刘仲刘仲 C960104 大连大连 姓名 顾客号 时 间 地 址 张平张平 C960100 1-2月月 北京北京 王
45、英王英 C960101 1-1月月 天津天津 王英王英 C960101 2-2月月 沈阳沈阳 王宾王宾 C960102 1-2月月 上海上海 刘仲刘仲 C960104 1-1月月 重庆重庆 刘仲刘仲 C960104 2-2月月 大连大连1-2月份顾客表月份顾客表 比较不同比较不同 2月份顾客表月份顾客表1月份顾客表月份顾客表数据仓库与数据挖掘22连续文件连续文件+新的简单文件新的简单文件 新的连续文件新的连续文件 姓姓 名名 顾顾 客客 号号 地地 址址 张平 C960100 北京 王宾 C960102 上海 刘仲 C960104 大连 姓名 顾客号 时 间 地 址 张平 C960100 1-
46、2月 北京 王英 C960101 1-1月 天津 王英 C960101 2-2月 沈阳 王宾 C960102 1-2月 上海 刘仲 C960104 1-1月 重庆 刘仲 C960104 2-2月 大连 姓名 顾客号 时 间 地 址 张平 C960100 1-3月 北京 王英 C960101 1-1月 天津 王英 C960101 2-2月 沈阳 王宾 C960102 1-3月 上海 刘仲 C960104 1-1月 重庆 刘仲 C960104 2-3月 大连1-2月份顾客表3月份顾客表1-3月份顾客表 比较不同比较不同 数据仓库与数据挖掘22n 数据仓库中的数据组织数据仓库中的数据组织 n 粒度粒
47、度n 分区分区n 维度维度n 元数据元数据n 数据仓库的数据组织形式数据仓库的数据组织形式n 数据仓库的数据追加数据仓库的数据追加2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22 数据追加:数据仓库的数据初装完成后数据追加:数据仓库的数据初装完成后,再向数据仓库输入再向数据仓库输入数据的过程数据的过程追加内容:上次数据追加后在追加内容:上次数据追加后在OLTP数据库中变化了的数据数据库中变化了的数据变化数据的捕捉途径变化数据的捕捉途径:时标方法时标方法 DELTA文件文件前后映象文件前后映象文件日志文件日志文件n数据仓库的数据追加数据仓库的数据追加2.6 数据仓库中的数据
48、组织数据仓库中的数据组织数据仓库与数据挖掘22n时标方法时标方法n时标方法时标方法 如果数据含有时标,对新插入或更新的数据记录如果数据含有时标,对新插入或更新的数据记录,加更新时的加更新时的时标时标n问题问题许多数据库中的数据并不含有时标许多数据库中的数据并不含有时标 1.时标方法时标方法2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22nDELTA文件方法文件方法由应用生成由应用生成DELTA文件,记录应用所改变的所有内容文件,记录应用所改变的所有内容n优点优点避免了扫描整个数据库,效率比较高避免了扫描整个数据库,效率比较高n问题问题生成生成DELTA文件的应用不普遍文件
49、的应用不普遍更改应用代码,应用在生成新数据时可自动将其记录下来更改应用代码,应用在生成新数据时可自动将其记录下来应用成千上万,且修改代码十分繁琐,很难实现应用成千上万,且修改代码十分繁琐,很难实现1.时标方法时标方法2.6 数据仓库中的数据组织数据仓库中的数据组织数据仓库与数据挖掘22 3.前后映象文件前后映象文件前后映象文件的方法前后映象文件的方法抽取数据到数据仓库之后抽取数据到数据仓库之后,本次将抽取数据之前,对数据库本次将抽取数据之前,对数据库分别作一次快照,比较两幅快照的不同,确定追加的数据分别作一次快照,比较两幅快照的不同,确定追加的数据问题问题占用大量资源,影响系统性能占用大量资源,影响系统性能2.6 数据仓库中的数据组织数据仓库中的数据组织2022-12-30数据仓库与数据挖掘22
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。