1、数 据 仓 库 设 计 过 程演讲人2022-01-0201.02.03.04.目录企业需求分析概念模型设计逻辑模型设计物理模型设计01企业需求分析企业需求分析1.对用户需求分类在公司中,用户所在部门承担的任务是什么?目前从何处获取这些信息?用户希望得到什么样的报表形式?用户在部门中承担的任务是什么?得到信息后,如何处理它?2.确定需求提问D(4)关键性能指标E(5)信息频率A(1)商务目标B(2)当前信息源C(3)主题领域(1)商务目标u企业部门的目标是什么?怎样将这些目标融进整个公司目标之中?要达到这些目标有哪些需要?u商业策略是什么?商业活动的领域有哪些?这些领域是怎样联系在一起从而达到
2、商务活动的目的?2.确定需求提问(2)当前信息源u 在现有报表过程中,当前传递了哪些信息?u 这些信息的详细程度怎样?u 提供数据和信息的地区有计算机系统支持吗?u 这些计算机系统中数据的质量、可靠性、一致性、完整性等商务评价指标指的是什么?u 是否需要从购买外部数据?从哪里购买?2.确定需求提问(3)主题领域u哪些维度或者领域对数据的分析是非常有价值的?这些维度有固定的层次吗?u做出商务决策仅仅需要当地有关信息吗?u是否有用于指定决策的自然商务分区?2.确定需求提问(4)关键性能指标u商业环境中机构的表现是怎样监控的?u要监控机构内部哪些关键的指标?u所有市场被平等地衡量吗?2.确定需求提问
3、(5)信息频率u用户需要多长时间对数据更新一次?适当的时间结构是什么?u在数据仓库中,信息的实时性需求是什么?u对数据进行分析时,如何进行比较?2.确定需求提问02概念模型设计概念模型设计确定主题和主题域边界2概念模型设计确定主题和主题域边界ABC1.界定系统边界概念模型设计:主要是确定数据仓库中应该包含的数据类及其相互关系2.确定主要的主题域确定主题和主题域边界概念模型设计:主要是确定数据仓库中应该包含的数据类及其相互关系确定主题和主题域边界1.界定系统边界要做的决策类型有哪些?01决策者感兴趣的是什么问题?02这些问题需要什么样的信息?03要得到这些信息需要包含原有数据库系统的哪些部分的数
4、据?042.确定主要的主题域主题:在一个较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念描述主题域数据仓库的概念模型一般采用多维数据模型来建模分析原有数据库的数据“怎样组织”、“如何分布”描述主题域u分析主题时所关心的事实u分析主题时的各种观察角度u主题域之间的联系u事实及观察主题团的属性组、公共码键2.确定主要的主题域数据仓库的概念模型一般采用多维数据模型来建模u多个星形模型u维度:观察事实的角度u度量:观察得到的事实数据2.确定主要的主题域03逻辑模型设计逻辑模型设计:用一系列的关系模式来表达数仓概念模型中的事实实体和维度实体逻辑模型设计逻辑模型设计分析主题域,确定当前要装载的主题确定粒度层次划分粒度越小,级别越低,数据越详细 粒度越大,级别越高,数据综合度越高 粒度划分标准详细数据、轻度总结、高度总结粒度划分参考方面细节数据的数据量多维分析的最低要求数仓通常在统一模式中使用多重粒度近细远粗确定聚合设计可加性度量 聚合非可加性度量1.数据分割:把逻辑统一的数据分割成较小的、可以独立管理的物理单元进行存储,以便重构、重组和回复。2.考虑因素3.数据量(而非记录行数)4.数据分析处理的实际情况5.简单易行以及粒度划分策略等确定数据分割策略逻辑模型设计关系模式定义04物理模型设计感 谢 聆 听