1、2022-3-24数据仓库概述1数据仓库概述数据仓库概述数据仓库概述1课程简介:1. 为什么出现数据仓库与数据挖掘?为什么出现数据仓库与数据挖掘?啤酒与尿布啤酒与尿布7-112. 研究内容研究内容从海量数据中找到规律与联系,为决策提从海量数据中找到规律与联系,为决策提供支持供支持3. 数据仓库与数据库的不同数据仓库与数据库的不同数据仓库概述1数据库与数据仓库数据仓库概述1主要学习内容:第一篇第一篇 数据仓库与数据仓库与OLAP数据仓库数据仓库联机分析处理技术(联机分析处理技术(OLAPOLAP)数据预处理技术数据预处理技术数据清洗数据清洗数据集成和变换数据集成和变换数据约简数据约简第二篇第二篇
2、 数据挖掘数据挖掘数据挖掘技术数据挖掘技术关联规则挖掘、分类、聚类分析关联规则挖掘、分类、聚类分析1.1.数据挖掘在各领域的应用等。数据挖掘在各领域的应用等。数据仓库概述1主要参考书主要参考书: 1 1数据仓库数据仓库 Inmon W.H Inmon W.H 著著 机械工业出版社机械工业出版社 2 2数据挖掘数据挖掘 概念与技术概念与技术 Jiawei Han & Micheline Kamber Jiawei Han & Micheline Kamber 著著 机械工业出版社机械工业出版社 3 3数据挖掘数据挖掘 朱明朱明 著著 中国科学技术大学出版社中国科学技术大学出版社 4 4数据仓库与
3、联机分析处理数据仓库与联机分析处理 王珊等王珊等 著著 科学出版社科学出版社数据仓库概述1考核方法考核方法:考核采取笔试结合实验的方法:考核采取笔试结合实验的方法:实验成绩实验成绩 30%笔试成绩笔试成绩 70%数据仓库概述1第一章第一章 数据仓库概述数据仓库概述 本章介绍了数据仓库技术产生的背景、数据仓库的含义与特征、数据仓库与操作型数据库系统的区别和数据仓库的基本体系结构。数据仓库概述1 1.1 数据仓库的产生 1.2 数据仓库的含义 1.3 数据仓库的特征 1.4 数据库系统与数据仓库 1.5 数据仓库的基本结构 1.6 数据仓库的基本概念 1.7 数据仓库的数据组织数据仓库概述111
4、数据仓库的产生 1. 数据处理分为两类:事物处理分析处理 2. 传统数据库较难满足分析处理的要求:历史数据需求量大不同系统的数据难以集成(蜘蛛网问题)对大量数据的访问性能不足事务处理和分析处理数据环境的分离数据仓库概述1 1.2 1.2 数据仓库的含义数据仓库的含义对于什么是数据仓库,还有许多不同的定义,如: “数据仓库是融合方法、技术和工具以在完整的平台上将数据提交给终端用户的一种手段”。 “数据仓库是对分布在企业内部各处的业务数据的整合、加工和分析的过程”。 “数据仓库是一种具有集成性、稳定性和提供决策支持的处理”。 “为查询和分析(不是事务处理)而设计的关系数据库” 20世纪80年代中期
5、,“数据仓库”这个名词首次出现在号称“数据仓库之父”W.H.Inmon的Building Data Warehouse一书中,在该书中,W.H.Inmon把数据仓库定义为“一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。”(“A data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions.”)数据仓库概述1William H.Inmon:数据仓库是一个面向主题面向
6、主题的的、集成的集成的、非易失的非易失的且随时间变化的随时间变化的数据集合,用于支持管理人员的决策。数据仓库之父数据仓库之父-Bill Inmon William H. Inmon: William H. Inmon是世界公认的是世界公认的“数据仓库之父数据仓库之父”,是 数 据 仓 库 及 其 相 关 技 术 网 站是 数 据 仓 库 及 其 相 关 技 术 网 站的合作伙伴,是的合作伙伴,是“企业信息工厂企业信息工厂”的创造者之一。他一直致的创造者之一。他一直致力于数据库和数据仓库技术方面的研究,在力于数据库和数据仓库技术方面的研究,在数据管理和数据仓库技术方面以及数据处理数据管理和数据仓
7、库技术方面以及数据处理的管理方面撰写了的管理方面撰写了40多本著作,发表过多本著作,发表过600多篇学术论文,并且经常应邀在技术多篇学术论文,并且经常应邀在技术和学术会议上演讲。和学术会议上演讲。数据仓库概述11.3 数据仓库的特征 数据仓库的数据是面向主题的数据仓库的数据是面向主题的 数据仓库的数据是集成的数据仓库的数据是集成的 数据仓库的数据是非易失的数据仓库的数据是非易失的 数据仓库的数据是随时间不断变化的数据仓库的数据是随时间不断变化的数据仓库概述1面向主题面向主题主题(主题(Subject):特定的数据分析领域与目标。):特定的数据分析领域与目标。面向主题:为特定的数据分析领域提供数
8、据支持。面向主题:为特定的数据分析领域提供数据支持。数据仓库是面向分析、决策人员的主观要求的,不数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。因用户主观要求的变化而变化的。数据仓库概述1面向主题面向主题为特定数据分析领域提供的数据与传统数据库中的为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定
9、分析领域数据则是需要对它们基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。作必要的抽取、加工与总结而形成。数据仓库概述1面向主题示例面向主题示例例:一个面向事务处理的例:一个面向事务处理的“商场商场”数据库系统,其数据数据库系统,其数据模式如下模式如下采购子系统:采购子系统:订单(订单号,供应商号,总金额,日期)订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)供应商(供应商号,供应商名,地址,电话)销售子系统:销售子系统:顾客(顾客号,姓名,性别,年
10、龄,文化程度,地址,电话)顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)销售(员工号,顾客号,商品号,数量,单价,日期)数据仓库概述1面向主题示例库存管理子系统:库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统
11、:人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)部门(部门号,部门名称,部门主管,电话)数据仓库概述1面向主题示例面向主题示例如果按照面向主题的方式进行数据组织,首先应该如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。的数据不尽相同。在每个主题中,都包含了有关该主题的所有信息,在每个主题中,都包含
12、了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合这样一致的信息集合数据仓库概述1主题一:主题一:商品商品p商品固有信息:商品号,商品名,类别,颜色等商品固有信息:商品号,商品名,类别,颜色等p商品采购信息:商品号,供应商号,供应价,供应日期,商品采购
13、信息:商品号,供应商号,供应价,供应日期,供应量等供应量等p商品销售信息:商品号,顾客号,售价,销售日期,销商品销售信息:商品号,顾客号,售价,销售日期,销售量等售量等p商品库存信息:商品号,库房号,库存量,日期等商品库存信息:商品号,库房号,库存量,日期等数据仓库概述1主题二:主题二:供应商供应商p供应商固有信息:供应商号,供应商名,地址,电话等供应商固有信息:供应商号,供应商名,地址,电话等p供应商品信息:供应商号,商品号,供应价,供应日期,供应商品信息:供应商号,商品号,供应价,供应日期,供应量等供应量等数据仓库概述1主题三:主题三:顾客顾客p顾客固有信息:顾客号,顾客名,性别,年龄,文
14、化程顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等度,住址,电话等p顾客购物信息:顾客号,商品号,售价,购买日期,购顾客购物信息:顾客号,商品号,售价,购买日期,购买量等买量等数据仓库概述1)数据仓库概述1 示例了一个电信企业的情况。 计费数据库:计费数据库记录了客户的消费情况 财务数据库:财务数据库记录了客户的缴费情况 客户服务数据库:客户的咨询和投诉情况如果直接基于传统数据库系统进行“客户”和“收益”信息的分析,则需要访问多个数据库才能获得客户或收益各个侧面的信息(收益主题需从计费数据库和财务数据库中了解公司各项业务的收入情况;客户主题则要从计费数据库、财务数据库、客户服
15、务数据库中获得客户消费、交费、咨询等全方位的信息。),这样将极大的影响系统处理的时间和效率,并且数据之间的不一致性和不同步等问题将影响决策的可靠性。而以“客户”和“收益”主题组织的数据仓库,将某个主题的全部相关数据集中于一个地方,这样决策者可以非常方便地在数据仓库中的一个位置检索包含某个主题的所有数据。 数据仓库概述1面向主题每个主题所需数据的物理存储:每个主题所需数据的物理存储: 多维数据库多维数据库(MDDBMulti-Dimensional DataBase)用多维数组形式存储数据。)用多维数组形式存储数据。 关系数据库。关系数据库。用一组关系来组织数据的存储,用一组关系来组织数据的存储
16、,同一主题的一组关系都有一个同一主题的一组关系都有一个公共的关键字公共的关键字,存放的也不是细节性的业务数据,而是经过一存放的也不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。定程度的综合形成的综合性数据。数据仓库概述1集成的集成的数据是分散的;由于事务处理应用分散、蜘蛛数据是分散的;由于事务处理应用分散、蜘蛛网问题、数据不一致问题、外部数据和非结构网问题、数据不一致问题、外部数据和非结构化数据。化数据。数据仓库中的数据是为分析服务的,而分析需数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中
17、的数据必须从多个数据源中获因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系取,这些数据源包括多种类型数据库、文件系统以及统以及Internet网上数据等,它们通过数据集成网上数据等,它们通过数据集成而形成数据仓库中的数据。而形成数据仓库中的数据。数据仓库概述1 数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来,但并不是原有数据的简单拷贝,而是经过了抽取、筛选、清理、综合等工作。这是因为: 1) 原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适合于分析处理。在进入数据仓库之前必须经过综合、计算,同时抛弃一些分析处理不需要的数据项,必要时还要
18、增加一些可能涉及的外部数据。 2) 数据仓库每一个主题所对应的源数据在源分散数据库中有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量;显然,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业做出科学的决策。 3) 源数据加载到数据仓库后,还要根据决策分析的需要对这些数据进行概括、聚集处理。 事实上,决策支持系统需要集成的数据。全面而正确的数据是有效地分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。因此,对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。集成的数据仓库概述1集成的集成的集成的方法:集成的方法: 统一:
19、消除不一致的现象统一:消除不一致的现象 综合:对原有数据进行综合和计算综合:对原有数据进行综合和计算需要考虑的问题: 数据格式 计量单位 数据代码含义混乱 数据名称混乱数据仓库概述1非易失的非易失的数据仓库中的数据是经过抽取而形成的分析型数据,不具有数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是原始性,主要供企业决策分析之用,执行的主要是查询查询操作,一般情况下不执行操作,一般情况下不执行更新更新操作。同时,一个稳定的操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。数据环境也有利于数据分析操作和决策的制订。但这也不等于数据仓库中
20、的数据不需要但这也不等于数据仓库中的数据不需要更新更新操作。操作。 在需要进行新的分析决策时,可能需要进行新的数据抽在需要进行新的分析决策时,可能需要进行新的数据抽取和取和更新更新操作操作 数据仓库中的一些过时的数据,也可以通过数据仓库中的一些过时的数据,也可以通过删除删除操操作丢弃掉。作丢弃掉。因此数据仓库的存储管理相对于因此数据仓库的存储管理相对于DBMSDBMS来说要简单得多。来说要简单得多。数据仓库概述1数据仓库概述1随时间不断变化随时间不断变化数据仓库中的数据必须以一定时间段为单位进行统一更数据仓库中的数据必须以一定时间段为单位进行统一更新。新。 不断增加新的数据内容不断增加新的数据
21、内容 不断删去旧的数据内容不断删去旧的数据内容 更新与时间有关的综合数据更新与时间有关的综合数据数据仓库概述1 1.4 数据仓库与传统数据库的比较1. 两个系统的主要区别两个系统的主要区别 2. 两个系统的查询支持不同两个系统的查询支持不同3. 两个系统数据组织模式不同两个系统数据组织模式不同数据仓库概述11 两个系统的主要区别 传统数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。另一方面,数据仓库系统在数据分析和决策支持方面提供服务。这种系统称为联机分析处理(OLAP)系
22、统。 两个系统的主要区别概括如下: 数据内容数据内容:数据库系统管理当前数据。通常,这种数据太琐碎,难以用于决策。数据仓库系统管理大量历史的、存档的、归纳的、计算的数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这种特点使得系统容易用于“见多识广”的决策。数据仓库概述1 数据目标数据目标:数据库系统是面向业务操作,用于办事员、客户和信息技术专业人员的事务和查询处理。数据仓库是面向主题的,用于知识工人(包括经理、主管和分析人员)的决策分析。 数据特性数据特性:数据库系统存储的是当前数据,数据是动态变化的,按字段进行更新操作。数据仓库中数据是批量载入的、静态的,系统定期执行提取过程为
23、数据仓库增加数据,这些数据一旦加入,一般不再从系统中删除。 数据结构数据结构:数据库系统采用面向应用的数据库设计,以高度结构化和复杂的形式组织数据,以适应复杂的事务操作计算的需求。数据仓库通常采用面向主题的星型或雪花数据组织模式,以适应分析决策,数据结构简单。 数据仓库概述1。数据仓库概述1 2 两个系统的查询支持不同 OLTP系统是为了快速回答简单查询,而不是为了存储分析趋势的历史数据而创建的。一般的,OLTP提供了大量的原始数据,这些数据不易被分析。 数据仓库需要回答更复杂的查询,而不仅仅是一些像“英国主要城市的商品平均销售价格是多少”之类的简单聚集数据查询。数据仓库需要回答的查询类型可以
24、是简单的查询,也可以是高度复杂的,且还与终端用户使用的查询工具相关。 以下是某数据仓库支持的一些查询示例: 2008年第三季度,整个英格兰的总收入是多少? 2007年英国每一类房产销售的总收入是多少? 2008年租借房产业务中每个城市哪个地域最受欢迎?与过去的两年相比有何不同? 每个分支机构本月的房产销售月收入是多少,并与刚过去的12个月相比较。 如果对于10万英镑以上的房产,法定价格上升3.5%而政府税收下降1.5%,对英国不同区域的销售会产生什么影响? 在英国主要城市中,哪种类型的房产销售价格高于平均房产销售价格?这与人口统计数据有何联系?数据仓库概述13 两个系统数据组织模式示例比较数据
25、仓库概述1数据仓库概述1从上述实例,不难看出:1)在从面向应用到面向主题的转变过程中,丢弃了原来有的但不必要的、不适于分析的信息;2)在原有的数据库模式中,有关商品的信息分散在各个子系统之中;面向主题的数据组织方式所强调的就是要形成关于主题一致的信息集合;3)不同主题之间有重叠内容。数据仓库概述1 1.5 数据仓库的系统结构 数据仓库服务器OLAP服务器前端工具 两层数据仓库结构多层数据仓库结构数据仓库概述11. 三层数据仓库结构数据仓库概述1 原则上,数据仓库的系统结构被划分为三层:数据仓库服务器、OLAP服务器和前端工具。 1) 底层是数据仓库服务器,它几乎总是一个关系数据库系统。数据仓库
26、系统使用后端工具和实用程序从操作数据库和外部信息源加载和刷新它的数据,这些机制统称ETL (Extract/Transformation/Load)工具,它们具有数据抽取、数据清洗、数据转换、数据加载和数据刷新等功能。此外,这一层还包含一个元数据存储,它是关于数据仓库和数据仓库中数据的信息。 2) 中间层是OLAP服务器,其典型的实现有:()关系OLAP(ROLAP)模型,即扩展的关系DBMS,它将多维数据上的操作映射为标准的关系操作;()多维OLAP(MOALP)模型,一种特殊的服务器,它直接实现多维数据操作。 3) 顶层是客户,它包括查询和报告工具、分析工具和/或数据挖掘工具(例如关联分析
27、、分类分析、预测等)。数据仓库概述1过程模型数据仓库管理系统数据仓库管理系统元数据元数据多维关系多维关系数据库数据库多维多维数据库数据库外部操作型外部操作型数据数据数据抽取数据抽取数据清洁数据清洁数据装载数据装载管理平台管理平台报表查询工具报表查询工具数据挖掘工具数据挖掘工具OLAP工具工具数据仓库概述1仓库管理数据建模仓库管理数据建模数据建模是建立数据仓库的数据模型。数据建模是建立数据仓库的数据模型。数据仓库的数据模型不同于数据库的数据模数据仓库的数据模型不同于数据库的数据模型在于:型在于: 数据仓库只为决策分析用,不包含事务处理的数据仓库只为决策分析用,不包含事务处理的数据。数据。 数据仓
28、库的增加了时间属性数据。数据仓库的增加了时间属性数据。 数据仓库增加了一些综合数据。数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的数据仓库的数据建模是适应决策用户使用的逻辑数据模型。逻辑数据模型。数据仓库概述1仓库管理元数据管理仓库管理元数据管理最基本的元数据相当于数据库系统中的数据字典。最基本的元数据相当于数据库系统中的数据字典。元数据定义了数据仓库有什么,指明了数据仓库中元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且存储了与数据仓库主题有
29、关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。整个数据仓库的运行都是基于元数据的。 数据源的元数据数据源的元数据 数据模型的元数据数据模型的元数据 数据仓库映射的元数据数据仓库映射的元数据 数据仓库使用的元数据数据仓库使用的元数据数据仓库概述1仓库管理数据处理仓库管理数据处理异构数据源:异构数据源: 企业内部数据企业内部数据 存档的历史数据存档的历史数据 企业的外部数据。企业的外部数据。 软硬件平台不一致软硬件平台不一致ETL过程过程 抽取(抽取(Extraction) 转换(转换(Transform) 装载(装载(Load)数据仓库概述1分析工具查询工具查询工具数据仓库的查询不是
30、指对记录级数据的查询,数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。而是指对分析要求的查询。 数据仓库概述1分析工具多维分析工具多维分析工具 通过对信息的多种可能的观察形式进行快通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。观察视角,如时间、地域、业务等。数据仓库概述1分析工具数据挖掘工具数据挖掘工具从大量数据中挖掘具有规律性知识,需要利从大量数据中挖掘
31、具有规律性知识,需要利用数据挖掘(用数据挖掘(Data MiningData Mining)工具。)工具。数据仓库概述148 数据仓库应用是一个典型的客户数据仓库应用是一个典型的客户/ /服务器(服务器(C/SC/S)结构形)结构形式:式: 客户端所做的工作:客户交互、格式化查询、结果显示、客户端所做的工作:客户交互、格式化查询、结果显示、报表生成等。报表生成等。 服务器端完成各种辅助决策的服务器端完成各种辅助决策的SQLSQL查询、复杂的计算和各查询、复杂的计算和各类综合功能等。类综合功能等。 数据仓库概述1两层数据仓库结构两层数据仓库结构数据仓库数据数据仓库数据元数据元数据数据仓库服务器数
32、据仓库服务器数据逻辑数据逻辑数据服务数据服务元数据元数据文件服务文件服务客户端客户端图形用户接口图形用户接口/表示逻辑表示逻辑查询规范查询规范数据分析数据分析报表格式报表格式总结总结数据访问数据访问数据仓库概述150解解 释释 客户客户/服务器(服务器(C/S)是网络上一种重要的组)是网络上一种重要的组织形式。织形式。 数据仓库在网络上都是以服务器(数据仓库在网络上都是以服务器(Server)形式提供服务,能对网络上多个客户形式提供服务,能对网络上多个客户(Client)同时提供服务。)同时提供服务。数据仓库概述1多层数据仓库结构多层数据仓库结构多维数据服务器多维数据服务器数据仓库数据数据仓库
33、数据元数据元数据数据逻辑数据逻辑数据服务数据服务元数据元数据文件服务文件服务数据仓库服务器数据仓库服务器应用服务器应用服务器图形用户接口图形用户接口查询规范查询规范数据分析数据分析报表格式报表格式数据访问数据访问客户端客户端过滤过滤总结总结元数据元数据多维视图多维视图数据访问数据访问数据仓库概述152 OLAPOLAP服务器将加强和规范化决策支持的服务工服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。分工作,降低了系统数据传输量。 这种结构形式工作效率更高。这种结构形式工作效率更高。数据仓
34、库概述11.6 数据仓库的基本概念1. ETL2. 元数据(MetaData)3. 数据集市(Data Market)4. OLAP数据仓库概述1)1. ETL(Extract/Transformation/Load)数据抽取、转换、加载工具 ETL工具就是进行数据的抽取、转换和加载。具体来讲,ETL工具包括:数据提取(data extract)、数据转换(data transform)、数据清洗(data cleaning)和数据加载(data loading)。 (1) 数据提取(Data Extract) 从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所必需的。通常,数据
35、仓库按照分析的主题来组织数据,我们只需提取出系统分析必需的那一部分数据。例如,某超市确定以分析客户的购买行为为主题建立数据仓库,则我们只需将与客户购买行为相关的数据提取出来,而超市服务员工的数据就没有必要放进数据仓库。 现有的数据仓库产品几乎都提供各种关系型数据接口,提供提取引擎,从关系型数据中提取数据。数据仓库概述1 (2) 数据转换(Data Transform) 由于业务系统可能使用不同的数据库厂商的产品,比如IBM DB2、Oracle、Informix、Sybase、 NCR Teradata、 SQL Server等,各种数据库产品提供的数据类型可能不同,因此,需要将不同格式的数据
36、转换成统一的数据格式。如时间格式“年/月/日”,“月/日/年”、“日-月-年”的不一致问题等。 (3) 数据清洗(Data Clean) 对于决策支持系统来说,最重要的是决策的准确性,因此确保数据仓库中数据的准确性是极其重要的。从多个业务系统中获取数据时,必须对数据进行必要的清洗,从而得到准确的数据。 所谓“清洗”就是将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响决策支持系统决策的正确性。 数据仓库概述1 (4) 数据加载(Data Load) 数据加载部件负责将数据按照物理数据模型定义的表结构装入数据仓库,包括清空数据域、填充空格、有效性检查等步骤。数据仓库概述12. 元数
37、据(MetaData) 元数据元数据是描述数据的数据。 元数据通常包括: 数据仓库结构的描述信息数据仓库结构的描述信息,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容。 操作元数据操作元数据,包括数据血统信息(来自何处以及如何转换的),数据流通信息(主动的、档案的或净化的)以及监视信息(仓库使用统计、错误报告、审计跟踪)。 汇总用的算法汇总用的算法,包括度量与维定义算法,数据粒度、分割、主题域、聚集、汇总、预定义查询与报告的算法。数据仓库概述1 由操作环境到数据仓库的映射信息由操作环境到数据仓库的映射信息,包括源数据库和它们的内容,ETL程序描述,数据分割、提取、清
38、理和转换的规则和缺省,数据刷新和裁减的规则以及数据安全信息(用户授权和存取控制)。 关于系统性能的数据信息关于系统性能的数据信息,除刷新、更新和复制周期的定时和调度的规则外,还包括改善数据存取和检索性能的索引和配置。 商务元数据商务元数据,包括商务术语和定义,数据拥有者信息和收费策略。 数据仓库包括不同级别的综合,元数据是其中一种类型。其它类型包括当前的细节数据(几乎总是在磁盘上),老的细节数据(通常在三级存储器上),稍加综合的数据,以及高度综合的数据(可以存入仓库也可以不存入)。数据仓库概述13. 数据集市(Data Market)建立数据集市的原因建立数据集市的原因 数据仓库是一种反映主题
39、的全局性数据组织。但是数据仓库是一种反映主题的全局性数据组织。但是, ,全局全局性数据仓库往往太大,在实际应用中将它们按部门或个性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织人分别建立反映各个子主题的局部性数据组织, ,它们即是它们即是数据集市数据集市。因此,有时我们也称它为。因此,有时我们也称它为部门数据仓库部门数据仓库。例:在有关商品销售的数据仓库中可以建立多个不同主题的例:在有关商品销售的数据仓库中可以建立多个不同主题的数据集市:数据集市: 商品采购数据集市商品采购数据集市 库房使用数据集市库房使用数据集市 商品销售数据集市商品销售数据集市数据仓
40、库概述160数据集市(数据集市(Data MartsData Marts)是一种更小、更集中的)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价数据仓库,为公司提供分析商业数据的一条廉价途径。途径。Data MartsData Marts是指具有特定应用的数据仓库,主要是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方获得竞争优势或者找到进入新市场的具体解决方案。案。数据仓库概述1数据集市类型按照数据获取来源: 独立型:直接从操作型环境获取数据。 从属型:从企业级数据仓库获
41、取数据。独立数据集市独立数据集市(Independent Data Mart)(Independent Data Mart)从属数据集市从属数据集市(Dependent Data Mart)(Dependent Data Mart)数据仓库概述14. OLAP OLAP(On-line Analytical Processing,在线分析处理或联机分,在线分析处理或联机分析处理)析处理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,迅速灵活地对大量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需
42、求。这就是说,OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地查询,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维维”这个概念。 维(dimension)是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,维n,度量指标),如(地区、时间、产品、销售额)。数据仓库概述11.7 数据
43、仓库的数据组织结构 在数据仓库中,数据一般分成4个级别:高度综合级、轻度综合级、当前细节级和早期细节级。数据仓库概述1 一个典型的数据仓库的数据组织如图所示数据仓库概述1 源数据(早期细节级数据)经过综合后,首先进入当前细节级,然后根据应用的需求,通过预运算将数据聚合成轻度综合和高度综合级。由此可见,数据仓库中存储着不同综合级别的数据,一般称之为“数据粒度”。粒度越大,表示细节程度越低,综合程度越高。比如,在电信公司中的电话呼叫数据中记录了每个用户的每次呼叫。进行OLAP分析时,常常需要不同层次的数据粒度,因此可以通过预运算将数据综合成每个用户每“天”的通话次数,还可以进一步聚合成每个用户每“
44、月”的通话次数。 在数据仓库中,轻度和高度综合级别的数据一般是由细节数据聚合而来,但需要说明的是轻度和高度是相对的概念,而没有绝对的界限,并且在数据仓库中数据的综合程度常常有很多的级别。数据仓库概述11.6 本章小结 本章介绍了:从数据库到数据仓库的演变过程;从数据库到数据仓库的演变过程; 数据仓库的定义;数据仓库的定义;数据仓库的基本特征;数据仓库的基本特征;传统数据库与数据仓库的区别;传统数据库与数据仓库的区别;数据仓库的体系结构;数据仓库的体系结构;数据仓库中等一系列重要的概念;数据仓库中等一系列重要的概念;数据仓库的数据组织。数据仓库的数据组织。数据仓库概述1思考题:1什么是数据仓库?2为什么要研究数据仓库?3简述数据仓库与操作型数据库系统的区别。4简述数据仓库体系结构的主要内容。2022-3-24数据仓库概述1