数据仓库设计课件.ppt

上传人(卖家):三亚风情 文档编号:3539371 上传时间:2022-09-14 格式:PPT 页数:90 大小:3.36MB
下载 相关 举报
数据仓库设计课件.ppt_第1页
第1页 / 共90页
数据仓库设计课件.ppt_第2页
第2页 / 共90页
数据仓库设计课件.ppt_第3页
第3页 / 共90页
数据仓库设计课件.ppt_第4页
第4页 / 共90页
数据仓库设计课件.ppt_第5页
第5页 / 共90页
点击查看更多>>
资源描述

1、数据仓库结构数据仓库结构设计与开发设计与开发 提纲提纲n1.数据仓库的发展n2.数据仓库的概念及特性n3.数据仓库的结构n4.数据仓库的开发过程n5.数据仓库的典型应用 数据仓库的发展数据仓库的发展 数据仓库的发展(1)nNCR公司为公司为Wal-mart建立了第一个数据仓库。建立了第一个数据仓库。n1996年,加拿大的年,加拿大的IDC公司调查了公司调查了62家实现了数据仓库的欧美企业,家实现了数据仓库的欧美企业,结果表明数据仓库为企业提供了巨大的收益。结果表明数据仓库为企业提供了巨大的收益。nIBM的实验室在数据仓库方面已经进行了的实验室在数据仓库方面已经进行了10多年的研究,并将研究多年

2、的研究,并将研究成果发展成为商用产品。成果发展成为商用产品。n其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。数据仓库的发展(2)nIBM:在其在其DB2 UDB发布一年后的发布一年后的1998年年9月发布月发布5.2版,并版,并于于1998年年12月推向中国市场,除了用于联机分析处理月推向中国市场,除了用于联机分析处理(OLAP)的后台服务器)的后台服务器DB2 OLAP Server外,外,IBM还提还提供了一系列相关的产品,包括前端工具,形成一整套解决供了一系列相关的产品,包括前端工具,形成一整套解决方案。方案。nInfor

3、mix公司公司:在其动态服务器在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件)中提供一系列相关选件,如高级决策支持选件(Advanced Decision Support Option)、)、OLAP选件选件(MetaCube ROLAP Option)、扩展并行选件()、扩展并行选件(Extended Parallel Option)等,这种体系结构严谨、管理方便、索引)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库机制完善,并行处理的效率更高,其中数据仓库和数据库查询的查询的SQL语句的

4、一致性使得用户开发更加简便。语句的一致性使得用户开发更加简便。数据仓库的发展(3)n微软公司微软公司:在其在其SQL Server7.0以及以及SQL Server2000中集成中集成了代号为了代号为Plato的的OLAP服务器。服务器。nSybase:提供了专门的提供了专门的OLAP服务器服务器Sybase IQ,并将其与,并将其与数据仓库相关工具打包成数据仓库相关工具打包成Warehouse Studio。nOracle公司公司:则推出从数据仓库构建、则推出从数据仓库构建、OLAP到数据集市管到数据集市管理等一系列产品包(如理等一系列产品包(如Oracle Warehouse Builde

5、r、Oracle Express、DataMart Suit等)。等)。为什么要建立数据仓库为什么要建立数据仓库n数据大量积累数据大量积累n数据丰富、知识贫乏数据丰富、知识贫乏n数据数据信息信息知识知识效益的转换需求效益的转换需求(DSS)nOLTP的局限性的局限性 OLTP的局限性的局限性 n事务处理(操作型处理)和分析处理的性能特性不同事务处理(操作型处理)和分析处理的性能特性不同 nOLTP对数据的存取操作频率高而每次操作处理的时间短;n在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。n数据保留最新,量少数据保留最新,量少n数据松散,集成度不高数据松散,

6、集成度不高n数据面向应用而非主题数据面向应用而非主题n数据质量问题数据质量问题数据库应用的规模和深度的发数据库应用的规模和深度的发展展高级数据库高级数据库n从在线事务处理从在线事务处理(OLTP)到在线分析处理到在线分析处理(OLAP)、数据挖掘、数据挖掘(Data Mining)和决策支持和决策支持(DS)突出的问题突出的问题n数据库适于存储高度结构化的日常事务细节数据,决数据库适于存储高度结构化的日常事务细节数据,决策者可能并不关心具体的细节信息;存取操作频率高,策者可能并不关心具体的细节信息;存取操作频率高,操作处理的时间短;操作处理的时间短;n决策型数据多为历史性、汇总性或计算性数据,

7、多表决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,周期性刷新;多维性,分析内容复杂;现为静态数据,周期性刷新;多维性,分析内容复杂;细节数据量太大严重影响分析效率,分散决策者的注细节数据量太大严重影响分析效率,分散决策者的注意力;连续运行,消耗大量的系统资源;数据来自企意力;连续运行,消耗大量的系统资源;数据来自企业内部或企业外部,在分析时直接对这些数据操作会业内部或企业外部,在分析时直接对这些数据操作会造成分析混乱。外部一些非结构化数据,数据库系统造成分析混乱。外部一些非结构化数据,数据库系统常无能为力。常无能为力。多库系统的限制多库系统的限制n可用性:源站点或通信网络故障将导

8、致系统瘫痪可用性:源站点或通信网络故障将导致系统瘫痪,源站源站点不能通过网络在线联入多库系统。点不能通过网络在线联入多库系统。n响应速度:全局查询多级转换和通信传输响应速度:全局查询多级转换和通信传输,延迟和低层延迟和低层效率影响响应速度。效率影响响应速度。n系统性能:总体性能取决于源站点中性能最低的系统系统性能:总体性能取决于源站点中性能最低的系统,影响系统性能的发挥影响系统性能的发挥;n系统开销:系统开销:每次查询要启动多个局部系统每次查询要启动多个局部系统,通信和运行通信和运行开销大。开销大。实施数据仓库的条件实施数据仓库的条件n数据积累已达到一定规模n面临激烈的市场竞争n在IT方面的资

9、金能得到保障 数据仓库的概念数据仓库的概念 数据仓库的概念数据仓库的概念 数据仓库特性数据仓库特性 数据仓库数据仓库OLTPOLTP数据库数据库管理层使用管理层使用一线工人使用一线工人使用战略性价值战略性价值策略性价值策略性价值支持战略定向支持战略定向支持日常操作支持日常操作 用于联机分析用于联机分析用于事务处理用于事务处理面向主题面向主题面向应用程序面向应用程序存储历史数据存储历史数据仅存储当前数据仅存储当前数据不可预测查询模型不可预测查询模型可预测查询模型可预测查询模型数据仓库与数据仓库与OLTP数据库数据库 数据集市数据集市操作型数据存储操作型数据存储 操作型数据库、ODS和DW的比较比

10、较项目比较项目操作数据存储操作数据存储数据仓库数据仓库数据内容数据内容当前和最近的值存档、归纳数据和经计算得出的数据数据组织数据组织根据主体域-数据集成面向主题数据性质数据性质动态(经常变化)静态(刷新时除外)数据结构和格式数据结构和格式复杂到简单简单:适于商业分析访问概率访问概率高到中中到低数据更新数据更新无更新访问和生成:没有直接地更新数据访问数据访问每个事务访问几条记录每个事务访问多条记录用途用途高度结构化、重复处理和事务处理和交互式分析处理对响应时间的要求对响应时间的要求低于1秒到23秒几秒到几分,有时几小时对性能的要求对性能的要求中到高中ODSODS和和DWDW的比较的比较 数据仓库

11、的结构数据仓库的结构 数据仓库结构数据仓库结构 数据仓库 MRDB MDDB 数据抽取 数据净化 数据载入信息发布系统操作型数据和外界数据 数据集市报表,查询,EIS工具OLAP 工具数据挖掘工具管理平台元数据管 理 平台 数据仓库数据仓库 可视化用户接口可视化用户接口OLAP工具工具查询查询/报表工具报表工具数据挖掘工具数据挖掘工具前端开发工具前端开发工具集成器集成器集成器集成器转换器转换器转换器转换器源数据源数据源数据源数据 元数据元数据及其管理工具及其管理工具 数据仓库体系结构数据仓库体系结构数据仓库组成数据仓库组成n数据源数据源n数据抽取(数据抽取(Extraction)、转换()、转

12、换(Transformation)、集成、装载)、集成、装载(Load)和刷新()和刷新(Refresh)工具:格式、净化和汇总)工具:格式、净化和汇总n数据建模工具(数据建模工具(Modeling Tools)n元数据仓储(元数据仓储(Metadata Repository)n数据仓库监控(数据仓库监控(Monitoring)和管理()和管理(Administration)工具:)工具:维护数维护数据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。n数据仓库及数据集市的目标数据库(数据仓库及数据集市的目标数据库(Target

13、DataBase)nOLAP服务器服务器n前端数据访问和分析工具前端数据访问和分析工具 转换器转换器n转换器的功能:转换器的功能:n数据结构转换和数数据结构转换和数据类型转换据类型转换n非结构化数据的转非结构化数据的转换换创建数据准备区创建数据准备区N开始开始读源数据读源数据检查数据准备区检查数据准备区?执行执行DTS包包更改元数据(时间,数据状态)更改元数据(时间,数据状态)结束结束成功成功连接源数据库连接源数据库创建创建DTS包包Y数据准备区数据准备区n从源数据中提取数据,转换成数据仓库所要求的格式后从源数据中提取数据,转换成数据仓库所要求的格式后存储在数据仓库的一个称为数据准备区的缓冲区

14、中。在存储在数据仓库的一个称为数据准备区的缓冲区中。在该区域中,可以暂时存储原始数据,然后由集成器对数该区域中,可以暂时存储原始数据,然后由集成器对数据进行清理、集成后再装载到数据仓库中。据进行清理、集成后再装载到数据仓库中。源数据数据准备区数据仓库集成器集成器n数据净化(有效值和范围检验)数据净化(有效值和范围检验)n维表与事实表的引用完整性检验:当维表和事实数据表之间的引用完维表与事实表的引用完整性检验:当维表和事实数据表之间的引用完整性破坏时,这类查询可能会导致检索数据不准确或不同查询之间数整性破坏时,这类查询可能会导致检索数据不准确或不同查询之间数据的不一致性错误。据的不一致性错误。n

15、统一数据编码统一数据编码n日期格式转换日期格式转换n测量单位的转换测量单位的转换监控器捕捉数据变化的途径监控器捕捉数据变化的途径n时标方法:在记录中插入新的时标或加上更新时的时标,然后根据时标判时标方法:在记录中插入新的时标或加上更新时的时标,然后根据时标判断哪些数据是变化的,并把变化的数据追加到数据仓库中去。断哪些数据是变化的,并把变化的数据追加到数据仓库中去。nDELTA文件:该文件是由应用产生的,并记录了应用所改变的所有内容。文件:该文件是由应用产生的,并记录了应用所改变的所有内容。利用利用DELTA文件记录数据的变化,不需要扫描整个数据库,所以效率较高,文件记录数据的变化,不需要扫描整

16、个数据库,所以效率较高,但生成的但生成的DELTA文件的应用并不普遍。文件的应用并不普遍。映象文件:在上次提取数据库数据到数据仓库之后及本次提取数据库数据映象文件:在上次提取数据库数据到数据仓库之后及本次提取数据库数据之前,对数据库分别作一次快照,然后通过比较两幅快照的不同来确定要之前,对数据库分别作一次快照,然后通过比较两幅快照的不同来确定要追加的数据。这种方法需要占用大量的系统资源,对系统的性能影响比较追加的数据。这种方法需要占用大量的系统资源,对系统的性能影响比较大。大。日志文件:由于日志文件是数据库的固有机制,所以它对系统性能的影响日志文件:由于日志文件是数据库的固有机制,所以它对系统

17、性能的影响比较小,另外它还有比较小,另外它还有DELTA文件的优点,提取数据只局限于日志文件而不文件的优点,提取数据只局限于日志文件而不用扫描整个数据库。日志文件是最可行的一种方法。用扫描整个数据库。日志文件是最可行的一种方法。三层结构的数据仓库(三层结构的数据仓库(1 1)三层结构的数据仓库(三层结构的数据仓库(2 2)n客户端:客户端:n可视化的用户界面可视化的用户界面n客户端通信组件客户端通信组件n应用服务器端:应用服务器端:n服务器端通信组件服务器端通信组件n调度组件调度组件n安全组件安全组件n元数据管理器元数据管理器n转换器转换器n集成器集成器n数据库服务器端数据库服务器端n源数据源

18、数据n元数据库元数据库n数据准备区数据准备区n数据仓库数据仓库数据仓库中的数据组织数据仓库中的数据组织高度综合级高度综合级轻度综合级轻度综合级当前综合级当前综合级早期细节级早期细节级多级数据多级数据从事务型处理环境中提取的源数据经过综合后,首先进入当从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或前细节级,并根据需要进行进一步的综合进入轻度综合级或高度综合级,老化的数据将进入早期细节级。高度综合级,老化的数据将进入早期细节级。粒度粒度元数据元数据n要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数要有效的管理数据仓库,必须设计一

19、个描述能力强、内容完善的元数据。据。n元数据描述了数据仓库中源数据和目标数据本身的信息,定义了从源元数据描述了数据仓库中源数据和目标数据本身的信息,定义了从源数据到目标数据的转换过程。数据到目标数据的转换过程。元数据可用文件存在元数据库中。元数据可用文件存在元数据库中。元数据的种类元数据的种类n转换元数据:为了从事务处理型环境向数据仓库中转换而建转换元数据:为了从事务处理型环境向数据仓库中转换而建立的元数据,它包含了所有源数据的信息、事务描述、数据立的元数据,它包含了所有源数据的信息、事务描述、数据结构的定义、提取数据和传送数据的算法、综合数据和净化结构的定义、提取数据和传送数据的算法、综合数

20、据和净化数据的规则、数据访问和传送的记录等。数据的规则、数据访问和传送的记录等。nDSS元数据:在数据仓库中用来与终端用户的多维商业模型元数据:在数据仓库中用来与终端用户的多维商业模型/前端工具之间建立映射,常用来开发更先进的决策支持工具。前端工具之间建立映射,常用来开发更先进的决策支持工具。元数据的内容元数据的内容n与数据库的数据字典中相似的内容与数据库的数据字典中相似的内容n数据仓库的主题描述数据仓库的主题描述n外部数据和非结构化数据的描述外部数据和非结构化数据的描述n记录系统定义记录系统定义n逻辑模型的定义逻辑模型的定义n数据进入数据仓库的转换规则数据进入数据仓库的转换规则n数据的提取历

21、史数据的提取历史n粒度的定义粒度的定义n数据分割的定义数据分割的定义n广义索引广义索引n有关存储路径和结构的描述有关存储路径和结构的描述n关于源数据的元数据关于源数据的元数据n关于数据仓库映射的元数据关于数据仓库映射的元数据n关于系统安全的元数据。关于系统安全的元数据。n与设计时采用的具体技术以及具体应用环境有关的内容与设计时采用的具体技术以及具体应用环境有关的内容与传统数据库系统的数据字典与传统数据库系统的数据字典中相似的内容。中相似的内容。数据仓库的主题描述。数据仓库的主题描述。外部数据和非结构化数据的描外部数据和非结构化数据的描述。述。记录系统定义。记录系统定义。逻辑模型的定义。逻辑模型

22、的定义。数据进入数据仓库的转换规则。数据进入数据仓库的转换规则。数据的提取历史。数据的提取历史。粒度的定义。粒度的定义。数据分割的定义。数据分割的定义。广义索引。广义索引。有关存储路径和结构的描述有关存储路径和结构的描述数据仓库的虚拟存储方式数据仓库的虚拟存储方式n数据仓库中的数据仍然存储在源数据库中,只是根据用户的多维分析需数据仓库中的数据仍然存储在源数据库中,只是根据用户的多维分析需求而形成多维视图,临时在源数据库中找出并提取所需要的数据,完成求而形成多维视图,临时在源数据库中找出并提取所需要的数据,完成多维分析。多维分析。n优点:比较简单、花费少、使用灵活优点:比较简单、花费少、使用灵活

23、n缺点:要求源数据库的组织比较规范、数据完备并没有冗余,同时又比缺点:要求源数据库的组织比较规范、数据完备并没有冗余,同时又比较接近多维数据模型时,而一般数据库难以满足这些要求,在实际应用较接近多维数据模型时,而一般数据库难以满足这些要求,在实际应用中难以有效建立。中难以有效建立。数据仓库的数据组织形式(数据仓库的数据组织形式(1 1)n简单堆积文件简单堆积文件:每天从操作型数据库中提取加工后的数据逐日积累的存储起:每天从操作型数据库中提取加工后的数据逐日积累的存储起来。存储的数据细节化程度很高,可以应付多种细节查询,但分析时查询的来。存储的数据细节化程度很高,可以应付多种细节查询,但分析时查

24、询的效率较低。效率较低。操作型数据每日事务处理每日综合2月1日2月2日2月3日 。3月1日3月2日3月3日 。1月1日1月2日1月3日 。n轮转综合文件:轮转综合文件:数据存储单位被分为日、周、月、年等几个级别,逐级综合。数据存储单位被分为日、周、月、年等几个级别,逐级综合。每日事务处理每日综合操作型数据第1天第2天第3天第7天第1周第2周第3周第5周第1月第2月第3月第12月第1年第2年第3年第n年数据仓库的数据组织形式(数据仓库的数据组织形式(2 2)n简单直接文件简单直接文件:类似于简单堆积文件,但它是间隔一定时间的数据库快照,类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔

25、一星期或一个月作一次。比如每隔一星期或一个月作一次。n连续文件:通过两个比较简单直接文件的不同而生成的。连续文件:通过两个比较简单直接文件的不同而生成的。1月份彩电销售海尔 68长虹 100东芝 20熊猫 10 2月份彩电销售海尔 150长虹 90东芝 40熊猫 30海尔 1月份至今 218长虹 1月份至今 190东芝 1月份至今 60熊猫 1月份至今 40 数据仓库的数据组织形式(数据仓库的数据组织形式(3 3)数据仓库建模数据仓库建模 星型图模型星型图模型 物 理 数 据 模物 理 数 据 模型型概念模型概念模型逻辑模型逻辑模型物理模型物理模型面向用户的需求面向用户的需求细细 化化层层次次

26、更详细的更详细的技术细节技术细节数据仓库的数据模型数据仓库的数据模型信息包图信息包图信息包图(概念模型)信息包图(概念模型)n信息包图:数据仓库的数据模型的最高层。由于大多数商务数据是多信息包图:数据仓库的数据模型的最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。这种模型维的,但传统的数据模型表示三维以上的数据有一定困难。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。化表示。n工作:工作:n确定系统边界:决策类型、需要的信息、原始信息确定系统边界:决策类型、需要的信息、原

27、始信息n确定主题域及其内容:主题域的公共键码、联系、属性组确定主题域及其内容:主题域的公共键码、联系、属性组n确定维度:如时间维、销售位置维、产品维、组别维等确定维度:如时间维、销售位置维、产品维、组别维等n确定类别:相应维的详细类别确定类别:相应维的详细类别n确定指标和事实:用于进行分析的数值化信息确定指标和事实:用于进行分析的数值化信息销售分析的信息包图销售分析的信息包图日期日期销售地点销售地点销售产品销售产品年龄组别年龄组别性别性别年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(20

28、00)指标和事实指标和事实:预测销售量、实际销售量、预测偏差预测销售量、实际销售量、预测偏差信息包:信息包:销售分析销售分析维度维度类类别别多维数据模型多维数据模型n数据仓库基于多维数据模型。数据仓库基于多维数据模型。n该模型将数据看作数据立方体该模型将数据看作数据立方体(data cube)形式,形式,允许以多维对数据建模和观察。它由维和事实允许以多维对数据建模和观察。它由维和事实定义。维是关于一个组织想要记录的透视或实定义。维是关于一个组织想要记录的透视或实体。每一个维都有一个进一步描述维的表相关体。每一个维都有一个进一步描述维的表相关联,即维表。联,即维表。以三维角度观察销售数据以三维角

29、度观察销售数据数据立方体数据立方体以四维角度观察销售数据以四维角度观察销售数据数据模型数据模型(逻辑模型)(逻辑模型)n最流行的数据仓库数据模型就是多维数据模型,这种模最流行的数据仓库数据模型就是多维数据模型,这种模型可以以星型模式、雪花模式或事实星座模式存在。型可以以星型模式、雪花模式或事实星座模式存在。n数据仓库通常使用事实星座模式数据仓库通常使用事实星座模式,因为它能对多个相,因为它能对多个相关的主题建模。对于数据集市,流行星型或雪花模式,关的主题建模。对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模。因为它们都适合对单个主题建模。n多维数据模型围绕中心主题组织。该主题用事

30、实表表示。多维数据模型围绕中心主题组织。该主题用事实表表示。事实表:用来存储事实的度量值和各个维的码值,维表事实表:用来存储事实的度量值和各个维的码值,维表用来存放维的元数据(维的层次、成员类别等描述信用来存放维的元数据(维的层次、成员类别等描述信息)。息)。Time_idSales TableDiscount%DollarsUnitsFact TableMarket_idProduct_idScenarioProduct_idProduct TableSizeBrandProduct_DescDimension TableTime_idYearQuarterPeriod_DescPeriod

31、 TableDimension TableScenario TableActualProfitScenarioDimension TableMarket_idMarket TableRegionDistrictMarket_DescDimension Table星型模型星型模型(Star Schema)Budget雪花模式雪花模式(snowflake schema)n雪花模式是星型模式的变种,其中某些维表是规范雪花模式是星型模式的变种,其中某些维表是规范化的化的,因而把数据进一步分解到附加的表中。,因而把数据进一步分解到附加的表中。n雪花模式和星型模式的主要不同在于雪花模式的维雪花模式和星型模

32、式的主要不同在于雪花模式的维表可能是规范化形式,以便减少冗余。表可能是规范化形式,以便减少冗余。n由于执行查询需要更多的连接操作,雪花模型可能由于执行查询需要更多的连接操作,雪花模型可能降低浏览的性能。降低浏览的性能。事实星座事实星座n复杂的应用可能需要多个事实表共享维表,这种模式可复杂的应用可能需要多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式以看作星型模式集,因此称为星系模式(galaxy schema),或事实星座或事实星座(fact constellation)。IBM Business Intelligence Solution|2004 2004 IBM Corp

33、oration IBM logo must not be moved,added to,or altered inany way.Background shouldnot be modified.Title/subtitle/confidentiality line:10pt Arial Regular,whiteMaximum length:1 lineInformation separated by vertical strokes,with two spaces on either side Slide heading:28pt Arial Regular,blue R120|G137|

34、B251 Maximum length:2 lines Slide body:18pt Arial Regular,blackSquare bullet color:teal R045|G182|B179Recommended maximum text length:5 principal points Group name:14pt Arial Regular,whiteMaximum length:1 line Copyright:10pt ArialRegular,whiteOptional slide number:10pt Arial Bold,whiteTemplate relea

35、se:Oct 02For the latest,go to http:/ in grESEn=Live content Indications in white =Edit in masterIndications in blue =Locked elementsIndications in black =Optional elementsIBM Software Group|DB2 Information Management SoftwareIBM DB2 Information Management Software|2004 2004 IBM Corporation电信数据仓库模型(T

36、DWM)相相关关方方位位置置合合约约产产品品条条件件资资源源事事件件财财务务交交易易交交互互营营销销活活动动监监控控单单元元渠渠道道分分群群数据挖掘查询语言数据挖掘查询语言n数据挖掘查询语言数据挖掘查询语言DMQL(data mining query language)是一种基于是一种基于 SQL 的数据挖掘查询语言的数据挖掘查询语言。DMQL 包括定义包括定义数据仓库、数据集市、挖掘概念数据仓库、数据集市、挖掘概念/类描述、关联和分类的语类描述、关联和分类的语言原语。言原语。n数据仓库和数据集市可以使用两种原语定义:一种是立方数据仓库和数据集市可以使用两种原语定义:一种是立方体定义,一种是维

37、定义体定义,一种是维定义。n立方体定义语句具有如下语法形式立方体定义语句具有如下语法形式:define cube :n维定义语句具有如下语法形式:维定义语句具有如下语法形式:define dimension as ()定义星型、雪花和事实星座模式定义星型、雪花和事实星座模式例例1 数据立方体 sales 的 time,item 和 location 维可以与数据立方体 shipping 共享在定义数据立方体 shipping 语句之下,用“define dimension time as time in cube sales”说明。例例2度量的计算度量的计算n数据立方体度量数据立方体度量(me

38、asure)是一个数值函数,该函数可以对数是一个数值函数,该函数可以对数据立方体的每一个点求值。据立方体的每一个点求值。n大部分度量可以根据其所用的聚集函数分成大部分度量可以根据其所用的聚集函数分成分布的和分布的和代数的代数的:n一个度量是分布的,如果它可以用分布聚集函数count(),sum(),min()和max()得到。n一个度量是代数的,如果它可以用代数聚集函数average()、min_N(),max_N()和standard_deviation()得到。在图中,sales 星型模式包含两个度量 dollars_sold 和 units_sold。例例3其中DMQL说明被翻译成如下S

39、QL查询,这些查询产生所需要的 sales_star 数据立方体。聚集函数sum用于计算dollars_sold和units_sold。概念分层概念分层n概念分层概念分层(concept hierarchy)定义一个映射序列,将低层概念定义一个映射序列,将低层概念映射到更一般的高层概念。如每映射到更一般的高层概念。如每个城市可以映射到它所属的省或个城市可以映射到它所属的省或州。这些省和州依次可以映射到州。这些省和州依次可以映射到它所属的国家。国家可以映射到它所属的国家。国家可以映射到它所属的大洲。它所属的大洲。n概念分层也可以通过将给定维或概念分层也可以通过将给定维或属性的值离散化或分组来定义

40、,属性的值离散化或分组来定义,产生集合分组分层。产生集合分组分层。u在多维数据模型中,数据组织成多在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多维,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同个抽象层。这种组织为用户从不同角度观察数据提供了灵活性。角度观察数据提供了灵活性。物理数据模型物理数据模型n物理数据模型:星型模型等在数据仓库中的实现,如物理的存取物理数据模型:星型模型等在数据仓库中的实现,如物理的存取方式、数据存储结构等。方式、数据存储结构等。n在物理设计时,常常要按数据的重要程度、使用频率以及对响应在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间

41、的要求进行分类,并将不同类的数据分别存储在不同的存储时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。的数据则可以放在低速存储设备上。数据建模注意问题数据建模注意问题n必须回答紧迫的问题;必须回答紧迫的问题;n必须有正确的事实表;必须有正确的事实表;n将有正确的维表,描述必须按最终用户的业务术语表达;将有正确的维表,描述必须按最终用户的

42、业务术语表达;n必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程;必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程;n对于事实表,应该有正确的对于事实表,应该有正确的“粒度粒度”;n根据需要存储正确长度的公司历史数据;根据需要存储正确长度的公司历史数据;n以一种对于公司有意义的方式来集成所有必要的数据;以一种对于公司有意义的方式来集成所有必要的数据;n创建必要的聚合表;创建必要的聚合表;n创建必要的索引;创建必要的索引;n能够加载数据仓库数据库并使它以一种适宜的方式可用。能够加载数据仓库数据库并使它以一种适宜的方式可用。数据仓库开发过程数据仓库开发过程应用A应用B应用C收集应用

43、需求分析应用需求构建数据库系统实施系统测试应用编程DBSDLC方法数据仓库建模数据获取与集成构建数据仓库理解需求系统测试DSS应用编程DWCLDS方法DB外部数据DB数据仓库的数据仓库的CLDS设计方法设计方法数据仓库的设计思想数据仓库的设计思想n为了提高系统的效率和性能,数据仓库的数据内容、结构、粒度、分为了提高系统的效率和性能,数据仓库的数据内容、结构、粒度、分割以及其他物理设计需要根据用户所返回的信息不断地调整和完善,割以及其他物理设计需要根据用户所返回的信息不断地调整和完善,而且数据仓库需要通过不断地理解用户的分析需求,向用户提供更准而且数据仓库需要通过不断地理解用户的分析需求,向用户

44、提供更准确、更有用的决策信息,所以数据仓库对灵活性和扩展性有较高的要确、更有用的决策信息,所以数据仓库对灵活性和扩展性有较高的要求,它的建立是一个动态、循环和反馈的过程。求,它的建立是一个动态、循环和反馈的过程。n“让我看看能得到什么,然后我才能告诉你我需要什么。让我看看能得到什么,然后我才能告诉你我需要什么。”n数据驱动的数据驱动的原型法原型法 数据仓库设计的技术要求数据仓库设计的技术要求n对大量数据的组织和管理。数据仓库中的数据是从数据库中提取得来的,不必关心对大量数据的组织和管理。数据仓库中的数据是从数据库中提取得来的,不必关心它的数据安全性和数据完整性,它要求进行大量数据的组织与管理。

45、它的数据安全性和数据完整性,它要求进行大量数据的组织与管理。n支持高性能的复杂分析。复杂分析时通常涉及大量数据的聚集、综合等,在进行复支持高性能的复杂分析。复杂分析时通常涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作,这对数据仓库基于的杂查询时经常会使用多表的联接、累计、分类、排序等操作,这对数据仓库基于的数据库系统的性能特别是并行处理能力提出了挑战。数据库系统的性能特别是并行处理能力提出了挑战。n对提取出来的数据进行集成。数据仓库中的数据是从多个应用领域中提取出来的,对提取出来的数据进行集成。数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用

46、领域和不同的数据库系统中都有不同的结构和形式。如果直接对这些在不同的应用领域和不同的数据库系统中都有不同的结构和形式。如果直接对这些数据进行分析,会得到不同的结果,所以如何对数据进行集成也是构建数据仓库的数据进行分析,会得到不同的结果,所以如何对数据进行集成也是构建数据仓库的一个重要方面。一个重要方面。n对高层决策的最终用户提供工具。数据仓库只是一个数据存储的集合,如果没有各对高层决策的最终用户提供工具。数据仓库只是一个数据存储的集合,如果没有各种分析应用工具,一个庞大的数据仓库是毫无意义的。这些工具的设计对于开发一种分析应用工具,一个庞大的数据仓库是毫无意义的。这些工具的设计对于开发一个完整

47、的数据仓库及其应用体系是致关重要的。个完整的数据仓库及其应用体系是致关重要的。数据仓库的设计步骤数据仓库的设计步骤n 任务和环境的评估:任务和环境的评估:业务现状、业务现状、数据源所在系统和其中的数据源所在系统和其中的数据的状况数据的状况、可行性、障碍、可行性、障碍、评定系统成功与否的基本原则评定系统成功与否的基本原则,需要需要企业高层负责人参加企业高层负责人参加,组成项目组组成项目组、正规的文档记载正规的文档记载 n 需求的收集和分析需求的收集和分析n 数据模型设计:高层设计、中层设计低层设计数据模型设计:高层设计、中层设计低层设计n 定义记录系统定义记录系统n 数据仓库生成数据仓库生成n

48、数据仓库技术的培训数据仓库技术的培训高层设计(概念模型设计)高层设计(概念模型设计)n高层设计:主要考虑商业过程和商业需求的集成,将与目前商业过程有关高层设计:主要考虑商业过程和商业需求的集成,将与目前商业过程有关的信息和数据仓库试图实现的目标合并在一起,创建信息包图。的信息和数据仓库试图实现的目标合并在一起,创建信息包图。n创建信息包图的过程:分析用户需求,收集信息将信息打包的过程。创建信息包图的过程:分析用户需求,收集信息将信息打包的过程。n分析用户需求(确定系统边界):分析用户需求(确定系统边界):n确定用户要做的决策类型确定用户要做的决策类型n确定用户决策时需要的信息确定用户决策时需要

49、的信息n确定原始信息确定原始信息n决定数据仓库所需要的信息的级别决定数据仓库所需要的信息的级别n定义关键性能指标(确定主要的主题域):定义关键性能指标(确定主要的主题域):n主题域的公共键码主题域的公共键码n主题域间的联系主题域间的联系n充分代表主题的属性充分代表主题的属性高层设计(概念模型设计)高层设计(概念模型设计)n定义维度:每一个维代表一个统一的访问数据仓库中信息定义维度:每一个维代表一个统一的访问数据仓库中信息的途径。这些维也定义了一个完整的主题分类,而且这些的途径。这些维也定义了一个完整的主题分类,而且这些分类将被用作支持主要指标的参考内容。在定义维度时,分类将被用作支持主要指标的

50、参考内容。在定义维度时,一般只涉及信息的主要途径,不是企图涉及所有可能的路一般只涉及信息的主要途径,不是企图涉及所有可能的路径。径。n定义类别:类别提供了一个指定维的详细信息,它们是一定义类别:类别提供了一个指定维的详细信息,它们是一个集合层或一个维度体系。随着维度的定义,应该进一步个集合层或一个维度体系。随着维度的定义,应该进一步确定用户将怎样对详细信息进行检索,或者怎样聚集数据。确定用户将怎样对详细信息进行检索,或者怎样聚集数据。高层设计(概念模型设计)高层设计(概念模型设计)n创建信息包图创建信息包图n确定涉及的主题域,例如:时间、顾客、地位置和产品。确定涉及的主题域,例如:时间、顾客、

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据仓库设计课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|