数据仓库基础课件.ppt

上传人(卖家):晟晟文业 文档编号:4614266 上传时间:2022-12-25 格式:PPT 页数:40 大小:632.50KB
下载 相关 举报
数据仓库基础课件.ppt_第1页
第1页 / 共40页
数据仓库基础课件.ppt_第2页
第2页 / 共40页
数据仓库基础课件.ppt_第3页
第3页 / 共40页
数据仓库基础课件.ppt_第4页
第4页 / 共40页
数据仓库基础课件.ppt_第5页
第5页 / 共40页
点击查看更多>>
资源描述

1、FEnet Royalstone数据仓库基础主题主题 商业智能技术 数据仓库与多维模型 设计数据仓库 设计多维模型商业智能的体系商业智能技术体系(BIBusiness Intelligence)在线分析处理技术(OLAP:数据挖掘技术(Data Mining)数据仓库技术(Data Warehousing)数据整合集成各系统的历史数据,建立面向主题的企业数据中心数据分析灵活、动态、快速的多维分析、随机查询、即席报表知识发现通过数学模型发现隐藏的、潜在的规律,以辅助决策更加全面、深入的分析形成知识库指导决策、再分析数据仓库定义数据仓库定义 数据仓库的概念数据仓库就是面向主题的、集成的、不同时间的

2、、稳定的数据集合,用以支持经营管理中的决策制定过程。什么是数据仓库?什么是数据仓库?数据仓库的特点数据仓库的特点 面向主题 集成性企业数据框架 历史性、稳定性数据仓库与业务数据库的数据仓库与业务数据库的比较比较什么是联机分析处理(什么是联机分析处理(OLAP)?)?OLAP的定义OLAP是使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软件技术。OLAP的特征的特征 OLAP的核心指标、维 OLAP的目标多维分析 OLAP的特点 灵活、动态 多角度、多层次的视角 快速OL

3、AP的基本功能的基本功能 商业语义层的定义 上钻和下钻(Roll up or Drill down)切片和切块(Slice and Dice)旋转(Pivoting)强大的复杂计算能力 时间智能 丰富的数据展现方式OLAP功能示意功能示意按机构钻按机构钻取取济济南南地地区区维维时时间间维维行业维行业维青青岛岛数据挖掘技术(Data Mining)DM的定义 数据挖掘(Data Mining)是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。也就是说,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过

4、程。DM的特点 涉及数据库、统计分析、人工智能多种技术 预测和验证功能 特征和规律描述主题主题 商业智能技术 数据仓库与多维模型 数据仓库设计 多维模型设计数据仓库与多维模型概述 多维模型与数据仓库多维模型通过组织和汇总数据仓库中的数据而为分析查询提供一种多维的表现方式。数据仓库是多维数据集的数据基础,其结构的设计会影响多维数模型的设计和建立的难易程度。主题主题 商业智能技术 数据仓库与多维模型 数据仓库设计 多维模型设计数据仓库设计原则(一)模型构架尽量使用星型架构,使用雪花架构的目的是使事实表第一级的维表数量达到最小。设计方法将常识规范化方法应用于维度表设计。例如,不相关的数据不应组合到单

5、一维度表中,而且在多个维度表中数据不应重复。维表设计设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和大小。事实表设计不要在事实数据表中进行过度的汇总,以保证在必要时可以进行所需粒度的数据访问。数据仓库设计原则(二)数据存储方式在必要时可以把要在同一个多维数据集中使用的数据存储在多个事实数据表中,条件是这些事实数据表必须具有相同的结构。索引在关键字段上创建索引,以提高处理多维数据集的性能。特殊要求根据所选的OLAP引擎特殊需要,确保数据诸如完整性等的特殊要求。增量更新必须考虑数据增量和更新的策略,以保证多维数据集中有所需的数据。数据仓库基本元素(一)关系型数据库关系数据库是建立数据

6、仓库的基础引擎平台,它为数据仓库提供临时存储、清理和转换传入的数据,容纳和管理数据仓库中的大量数据,并支持数据仓库的功能。数据源数据源是数据仓库用于分析的数据来源,是建立数据仓库时必须聚集和合并的不同来源的数据。数据仓库基本元素(二)事实表事实表是用于存放经过汇总的历史信息,也就是事实数据的表,是星型架构或雪花型架构的中心。每个数据仓库或数据集市都包括一个或多个事实表。事实表一般不包含描述性信息,具有可以聚合的特点。维表维度表是存储描述事实表中事实数据特性的表,每个维表都是独立于其它维表的,并且包含了事实特性的层次结构信息。索引与在任何关系数据库中一样,索引对提高数据仓库性能和处理多维数据集性

7、能的起着重大作用,是数据仓库中不可或缺的部分。数据仓库组织形式(一)星型模型星型模型是由单个事实数据表和一些维度表组成的构架模型。在这种模型中每个维度表均联接到事实数据表上。事事实实表表数据仓库组织形式(二)雪花型模型雪花型架构比星型模型增加了次要维表,有一个或多个维表是联接到其它维表上,而非事实数据表上。事事实实表表地区维数据仓库设计(一)事实表 事实表设计每个事实数据表都应该由两个部分组成,一个由多个部分组成的索引和一些由这些索引所描述的数据。索引部分索引部分包含着与描述事实数据特征的维表相关联的外键信息。数据部分数据部分是事实表中真正要存放的事实数据。数据仓库设计(一)事实表事实表示例:

8、前五列为索引部分,后三列是事实数据部分列描述time _id时间维表 Dim_time 的外键swbm _id税务机关维表 Dim_swbm 的外键jjxz _id经济性质维表 Dim_jjxz 的外键szsm _id税种维表 Dim_szsm 的外键hy_id行业维表 Dim_hy 的外键Yzsj包含本月应征税款的列Djs包含抵缴数的列Jms包含免数/退库数的列数据仓库设计(一)事实表 设计事实表应注意的问题 事实表中一般不应包含描述性信息,也不应包含除事实表与维表中间对应的关联字段之外的任何数据。事实表中的数据应该是经过适当聚合的数据 事实表中数据的粒度应该是一致的 事实表的设计应该考虑增

9、量数据更新的需要,例如是否需要增加时间戳字段等。数据仓库设计(二)维表 维表设计维表设计中由于维度类型的不同,其维表结构也会相应有不同特点。维度分类 普通维普通维是基于一个维表的维度,由维表中的不同列来表示维度中的不同级别。雪花维雪花维是基于多个维表的维度,各个维表间以外键关联,分别存储同一维度中不同级别的成员列值。父子维父子维是基于两个维表列的维度,由维表中的两列来共同定义各个成员的隶属关系。一列称为成员键列,标识每个成员;另一列称为父键列,标识每个成员的父代。数据仓库设计(二)维表 普通维普通维中的层次是根据维表的列而定义的,所以维表中列的定义会直接影响到维度中层次的定义。设计普通维度的维

10、表必须充分考虑维度的扩展性。示例:例如下图中典型的时间维度如左图所示,则每一个层次在维表中均应有对应的列。第1季度2000年第2季度1月份2月份3月份第3季度4季度月份列值季度列值时间维表年季度月份数据仓库设计(二)维表 雪花维由于雪花维是基于不同维表建立的,所以针对雪花维而设计的维表必然有多个,各维表分别存储维度中不同级别的成员值,维表间以外键关联。示例:例如,典型的地区维中地市维表可以存储全国所有的城市名称和编码,以及所属省份的编码,而在省份维表中则只存储省份名称和编码,两维表以省份编码关联。地市维表City_idProvince_idCity_Name省份维表Province_NameP

11、rovince_Id数据仓库设计(二)维表 父子维由于父子维中的层次关系是由维表中的两个列来共同定义的,所以其维度层次结构是由维表中的列值决定的,且维度层次分布是不均衡的。示例:例如,典型的机构维中除了最上层的机构外其它机构都具有其本身机构信息和上级机构信息两项属性。由此,维表中也必须包含此两项信息的设计。机构维表机构编码机构编码机构名称机构名称上级机构编码上级机构编码数据仓库设计(三)索引 索引与在其它关系数据库中一样,索引对数据仓库的性能具有重要作用。每个维度表都必须在主键上建立索引。在其它列(如标识层次结构级别的列)上,索引对某些专用查询的性能也很有用。事实数据表必须在由维度表外键构成的

12、组合主键上建立索引。由于星型架构和雪花型架构很简单,大多数数据仓库应用程序所需的索引主要就是这些。对于特殊查询和创建报表,则可能需要其它索引。数据仓库设计(四)增量机制 增量更新机制在数据仓库设计中还必须注意的一个问题就是数据仓库结构对数据更新(增量)的影响。主题主题 商业智能技术 数据仓库与多维模型 数据仓库设计 多维模型设计多维模型设计基本元素 维度 级别 成员 度量值(指标)计算值(计算成员)存储方式 角色权限和安全机制维度设计 维度维度的设计包括根据分析的需求选择维度的类型、设计维度的层次结构和是否共享等权限考虑。选择维度类型根据维度所描述的事物特征选择适合的维度类型。设计维度层次结构

13、根据分析的实际需要设计维度的分层和级别等结构。维度共享确定该维度是否可以为其它模型所应用,如果是常用维度,则一般设计为共享维度。维度选型 维度选型维度选型必须根据维度所描述的事物特征来进行选择。普通维适用于层次分布均衡,等级关系固定,不易发生变化的维度,例如时间、年龄分布等维度 雪花维适用于层次分布均衡,等级关系固定,但成员个数较多,或维度层次由一定扩充性的维度。例如地区维度。父子维适用于层次分布不均衡,有明显隶属关系的分析角度。例如机构等维度。维度的层次结构设计 级别级别是维度层次结构的一个元素。级别描述了数据的层次结构,从数据的最高(汇总程度最大)级别直到最低(最详细)级别。划分维度级别时

14、必须充分考虑此后进行分析的具体要求,级别划分必须清晰,有逻辑上的可汇总性。成员组成维度的所有列值就是维度的成员。设计维度成员时必须考虑分析的充分可扩展性,照顾到分析的每一种可能性,也就是必须保证维度的完整性。度量值与计算成员 度量值度量值是多维数据集中的一组值,是所分析的多维数据集关注的中心。这些值通常为数字,具有可聚合的特性。同时,由于度量值是生成计算成员的基础,所以度量值应该是最基础的数据,具有充分的可扩展考虑。计算成员计算成员是基于度量值而定义的运算表达式,其计算结果一般不进行存储,而是在运行时临时计算的所得。不同的OLAP引擎所能够提供的基本函数和计算方法会有所不同,性能上也会有一定的

15、影响,在设计时应充分考虑OLAP引擎的特性。多维模型的安全性设计 多维模型的安全性根据OLAP引擎的不同,其所能够提供的安全机制也有所不同,除了使用方面的权限(可读、可写等)外,根据多维模型的粒度可将权限划分如下:主题级别的权限粒度最大的安全权限,即对整个多维模型的使用权限。维度级别权限:维度级别的安全权限,可限定用户浏览多维数据集时所能查看的维度成员。单元级别权限:单元级别的安全权限,可以限定多维数据集中特定单元访问。其它级别权限:不同OLAP引擎所提供的特属功能的权限。例如,钻取权限等存储方式的选择(一)多维存储方式(MOLAP)将聚合和分区源数据的一个复本存储到分析服务器计算机中的多维结构中的存储方式。特点 查询性能较好 占用的存储空间较大存储方式的选择(二)关系数据库存储方式(ROLAP)将聚合存储在一个关系型结构中,并把分区的源数据保留在它现有的关系型结构中的存储方式。特点 查询性能较不如MOLAP方式 占用的存储空间较少存储方式的选择(三)混合存储方式(HOLAP)将聚合存储到分析服务器计算机上的多维结构中,并将分区的源数据保留在它现有的关系型结构中的存储方式。特点 查询性能介于以上两种方式之间 占用的存储空间介于以上两种方式之间 适用于在对基于大量基本数据的汇总进行查询时需要快速响应的多维数据集FEnet Royalstone

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据仓库基础课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|