1、第第3章章 数据仓库数据仓库系统的设计与开发系统的设计与开发 通过对数据仓库的概念、体系结构与存储结构、ETL过程等内容了解以后,如何建立数据仓库系统呢?11/11/202211/11/202213.1 数据仓库系统的设计与开发概述数据仓库系统的设计与开发概述 l建立一个数据仓库系统的参考步骤建立一个数据仓库系统的参考步骤 l数据仓库系统的生命周期数据仓库系统的生命周期 l创建数据仓库系统的两种思维模式创建数据仓库系统的两种思维模式 l数据仓库数据库的设计步骤数据仓库数据库的设计步骤 11/11/202211/11/20222建立一个数据仓库系统的参考步骤建立一个数据仓库系统的参考步骤 数据仓
2、库系统的建立是一个复杂而漫长数据仓库系统的建立是一个复杂而漫长的过程。涉及到:的过程。涉及到:l源数据库系统源数据库系统l数据仓库对应的数据库系统数据仓库对应的数据库系统l数据分析与报表工具数据分析与报表工具l11/11/202211/11/20223建立一个数据仓库系统的参考步骤建立一个数据仓库系统的参考步骤l收集和分析业务需求步骤收集和分析业务需求步骤 l建立数据模型和数据仓库的物理设计建立数据模型和数据仓库的物理设计 l定义数据源定义数据源 l选择数据仓库技术和平台选择数据仓库技术和平台 l从操作型数据库中抽取、清洗及转换数据到数从操作型数据库中抽取、清洗及转换数据到数据仓库据仓库 l选
3、择访问和报表工具,选择数据库连接选择访问和报表工具,选择数据库连接软件软件,选择数据分析和数据展示软件选择数据分析和数据展示软件 l更新数据仓库更新数据仓库 11/11/202211/11/20224数据仓库系统的生命开发周期数据仓库系统的生命开发周期 l数据仓库系统的开发与设计是一个动态的反馈数据仓库系统的开发与设计是一个动态的反馈和循环过程。和循环过程。l一个数据仓库系统包括:一个数据仓库系统包括:l数据仓库数据库数据仓库数据库l数据分析应用系统数据分析应用系统11/11/202211/11/20225数据仓库系统的生命开发周期数据仓库系统的生命开发周期 11/11/202211/11/2
4、0226建立数据仓库系统的两种思维模式建立数据仓库系统的两种思维模式 l自顶向下(自顶向下(Top-downTop-down)将数据通过将数据通过ETLETL汇集到数据仓库中,然后再把汇集到数据仓库中,然后再把数据通过复制的方式存入各个数据集市中。数据通过复制的方式存入各个数据集市中。l自底向上(自底向上(Bottom-UpBottom-Up)通过通过ETL将数据汇集到数据集市中,再将数据汇集到数据集市中,再将数据汇集到数据仓库中。将数据汇集到数据仓库中。11/11/202211/11/20227数据仓库数据库的设计步骤数据仓库数据库的设计步骤 11/11/202211/11/202283.2
5、 基于基于SQL Server的数据仓库数的数据仓库数据库设计过程详解据库设计过程详解 lSQL Server 2005介绍介绍集成了三个服务。集成了三个服务。lSQL Server 2005的数据仓库架构的数据仓库架构11/11/202211/11/20229MS SQL Server 2005MS SQL Server 2005的数据仓库架构的数据仓库架构 11/11/202211/11/2022103.2 基于基于SQL Server的数据仓库数的数据仓库数据库设计过程详解据库设计过程详解 包括以下步骤:包括以下步骤:l分析组织的业务状况及数据源结构分析组织的业务状况及数据源结构 l组织
6、需求调研,收集业务需求组织需求调研,收集业务需求 l采用信息包图法进行数据仓库的概念模型采用信息包图法进行数据仓库的概念模型设计设计 l利用星形图进行数据仓库的逻辑模型设计利用星形图进行数据仓库的逻辑模型设计 l数据仓库的物理模型设计数据仓库的物理模型设计 11/11/202211/11/202211分析组织的业务状况及数据源结构分析组织的业务状况及数据源结构以以SQL Server 2005SQL Server 2005实例数据库实例数据库Adventure Works DWAdventure Works DW中所描述中所描述Adventure Adventure Works CyclesW
7、orks Cycles公司的用户需求为例。公司的用户需求为例。l公司概况公司概况l业务系统流程介绍业务系统流程介绍 l对数据源结构的分析与理解对数据源结构的分析与理解11/11/202211/11/202212组织需求调研,收集业务需求组织需求调研,收集业务需求坚持数据驱动坚持数据驱动+用户(需求)驱动的设用户(需求)驱动的设计理体念,因此需要充分了解用户的需求,计理体念,因此需要充分了解用户的需求,进而对需求进行分析。进而对需求进行分析。l关于用户需求的调研(确定主题域)关于用户需求的调研(确定主题域)l对用户需求调研结果的分析(确定度量对用户需求调研结果的分析(确定度量指标和维度)指标和维
8、度)11/11/202211/11/202213物理模型物理模型 星型、雪花模型星型、雪花模型 物理数据模型物理数据模型概念模型概念模型逻辑模型逻辑模型面向用户的需求面向用户的需求细细 化化层层次次更详细的更详细的技术细节技术细节信息包图信息包图采用信息包图法进行概念模型设计采用信息包图法进行概念模型设计 11/11/202211/11/202214l信息包图法简介信息包图法简介 11/11/202211/11/20221511/11/202211/11/202216l信息包图的建立信息包图的建立 指标和事实11/11/202211/11/20221711/11/202211/11/20221
9、8日期维区域维产品维客户维广告维(待用)年度年度(5)国家国家(10)产品类别产品类别(500)年龄分组年龄分组(7)广告费分组广告费分组(2)季度季度(20)省州省州(100)产品名称产品名称(9000)收入分组(收入分组(8)月月(60)城市城市(500)信用组(信用组(2)日(日(1800)销售点销售点(8000)指标和事实:实际销售额、计划销售额、计划完成率信息包:信息包:销售分析销售分析维度维度类别类别11/11/202211/11/202219l设计基于主题域的概念模型设计基于主题域的概念模型 供应商ID相关信息有关信息商品信息供应商供应商主题供应商主题顾客顾客ID顾客主题顾客主题
10、商品商品ID商品主题商品主题11/11/202211/11/202220利用星形图进行数据仓库的逻辑模利用星形图进行数据仓库的逻辑模型设计型设计 l根据分析需求与信息包图制作星形图根据分析需求与信息包图制作星形图 销售分析客户广告区域时间产品11/11/202211/11/202221l根据分析需求与信息包图制作雪花图根据分析需求与信息包图制作雪花图 销售分析客户广告区域时间产品产品类别雪花模型对星型模型的维度表进一步标准化,对星型雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。模型中的维度表进行了规范化处理。11/11/202211/11/202222l确定主题
11、的属性组确定主题的属性组 主题名 公共键码属性组商品商品商品号商品号基本信息:商品号、商品名、类型和颜色等基本信息:商品号、商品名、类型和颜色等采购信息:商品号、供应商号、供应价、供应日期采购信息:商品号、供应商号、供应价、供应日期和供应量等和供应量等库存信息:商品号、库房号、库存量和日期等库存信息:商品号、库房号、库存量和日期等销售销售销售单号销售单号基本信息:销售单号、销售地址等基本信息:销售单号、销售地址等销售信息:客户号、商品号、销售价、销售量和销销售信息:客户号、商品号、销售价、销售量和销售时间等售时间等客户客户客户号客户号11/11/202211/11/202223l事实表及其特征
12、事实表及其特征度量是客户发生事件或动作的事实记录,如客度量是客户发生事件或动作的事实记录,如客户打电话,可能选择的度量有通话时长、通话次数户打电话,可能选择的度量有通话时长、通话次数和通话费用等。客户购买商品,可能选择的度量有和通话费用等。客户购买商品,可能选择的度量有购买的次数、购买商品的金额和购买商品的数量等。购买的次数、购买商品的金额和购买商品的数量等。事实表则是在星型模型或雪花模型中用来记录事实表则是在星型模型或雪花模型中用来记录业务事实,并作相应指标统计的表。业务事实,并作相应指标统计的表。事实表的特征有:事实表的特征有:l记录数量情况记录数量情况l维度表情况维度表情况11/11/2
13、02211/11/202224l事实表的类型与设计事实表的类型与设计 事实是一种度量,所以事实表中的这种指标往往事实是一种度量,所以事实表中的这种指标往往需要具有数值化和可加性的特征。即:需要具有数值化和可加性的特征。即:l要考虑决策分析的需要(必要的数据)要考虑决策分析的需要(必要的数据)l要考虑系统运行的需要(派生的数据)要考虑系统运行的需要(派生的数据)11/11/202211/11/202225l粒度的选择与设计步骤粒度的选择与设计步骤 根据需求和系统运行情况确定粒度:根据需求和系统运行情况确定粒度:l粒度的不同选择导致逻辑模型的差异粒度的不同选择导致逻辑模型的差异l粒度的不同选择导致
14、数据存储容量的差异粒度的不同选择导致数据存储容量的差异粒度的设计步骤:粒度的设计步骤:l粗略估计数据量粗略估计数据量l确定粒度的级别确定粒度的级别粒度设计实例:粒度设计实例:11/11/202211/11/202226l关于数据仓库的聚合模型关于数据仓库的聚合模型l数据的分割处理数据的分割处理 l星形图中的维度表简介星形图中的维度表简介 l常用维度的设计模式常用维度的设计模式 11/11/202211/11/202227l事实表及其特征事实表及其特征l事实表的类型与设计事实表的类型与设计 l粒度的选择与设计步骤粒度的选择与设计步骤 l关于数据仓库的聚合模型与数据的分割处关于数据仓库的聚合模型与
15、数据的分割处理理 l星形图中的维度表简介星形图中的维度表简介 l常用维度的设计模式常用维度的设计模式 11/11/202211/11/202228数据仓库的物理模型设计数据仓库的物理模型设计 l物理模型设计的主要工作物理模型设计的主要工作l物理存储结构设计的原则物理存储结构设计的原则 l数据仓库索引设计的特殊性数据仓库索引设计的特殊性 l存储优化与存储策略存储优化与存储策略 11/11/202211/11/2022293.3 使用使用SQL Server 2005建立多建立多维数据模型维数据模型 lSQL Server 2005示例数据仓库环境示例数据仓库环境的配置与使用的配置与使用 l基于基
16、于SQL Server 2005示例数据库的示例数据库的多维数据模型的建立与应用多维数据模型的建立与应用。11/11/202211/11/202230 3.3 使用使用SQL Server 2005建立多建立多维数据模型维数据模型l在在SQL Server 2005数据库环境中安数据库环境中安装数据仓库组件、示例和工具装数据仓库组件、示例和工具 l利用示例数据仓库利用示例数据仓库(AdventureWorks DW)环境及帮)环境及帮助系统学习助系统学习 11/11/202211/11/2022313.3 使用使用SQL Server 2005建立多维建立多维数据模型数据模型l创建一个新的数据仓库分析项目创建一个新的数据仓库分析项目 l定义数据源定义数据源 l定义数据源视图定义数据源视图 l定义多维数据集定义多维数据集 l部署部署“销售分析示例销售分析示例”项目项目 l浏览已部署的多维数据集浏览已部署的多维数据集 l提高多维数据集的可用性和易用性提高多维数据集的可用性和易用性 11/11/202211/11/202232