某数据仓库模型设计说明课件.ppt

上传人(卖家):晟晟文业 文档编号:3953881 上传时间:2022-10-29 格式:PPT 页数:30 大小:2.10MB
下载 相关 举报
某数据仓库模型设计说明课件.ppt_第1页
第1页 / 共30页
某数据仓库模型设计说明课件.ppt_第2页
第2页 / 共30页
某数据仓库模型设计说明课件.ppt_第3页
第3页 / 共30页
某数据仓库模型设计说明课件.ppt_第4页
第4页 / 共30页
某数据仓库模型设计说明课件.ppt_第5页
第5页 / 共30页
点击查看更多>>
资源描述

1、数据建模介绍数据建模介绍数据仓库构造方法数据仓库构造方法 从整个企业的业务环境入手,分析其中的概念,应该有什么样的数据,达成概念完整性,并不从它需要支持那些应用入手。一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据是经过整合、经过清洗、去掉脏数据的、标准的,能够提供统一的视图。自上而下Bill Inmon 按照实际的应用需求,加载需要的数据,不需要的数据不必要加载到数据仓库当中。这种方式建设周期较短,客户能够很快看到结果,适合做项目类数据仓库。自下而上Ralph Kimbal 结合自上而下、自下而上两种构造数据仓库的方法,结合企业自身特点,分析业务环境构造数据仓库底层数据基础,再按照实

2、际的应用需求构造数据仓库上层数据。混合法支付宝业务系统简介支付宝业务系统简介v业务特点 类金融交易:充值、提现、账务管理 类电子商务:购物交易过程变更、实际交易(对B机票、对C水电等)非纯电子商务;纯金融v线上子系统多而杂 截止到2011年6月共有各类线上子系统259个 类型多样:对C、对B、对内、对金融机构v系统间依赖程度参差不齐 垂直依赖(业务与核心)跨层依赖(跨过交易到账务)支付宝业务系统支付宝业务系统四大平台资金平台客户平台支付平台交易平台五大域商户域用户域支撑域风控域无线域两条线会员线金融线支付宝数据仓库架构原则支付宝数据仓库架构原则v 底层业务的数据驱动为导向同时结合业务需求驱动v

3、 便于数据分析 屏蔽底层复杂业务 简单、完整、集成的将数据暴露给分析层v 底层业务变动与上层需求变动对模型冲击最小化 业务系统变化影响削弱在基础数据层(资金订单改造)结合自上而下的建设方法削弱需求变动对模型的影响 数据水平层次清晰化v 高内聚松耦合 主题之内或各个完整意义的系统内数据的高内聚 主题之间或各个完整意义的系统间数据的松耦合v 构建仓库基础数据层 使得底层业务数据整合工作与上层应用开发工作相隔离,为仓库大规模开发奠定基础 仓库层次更加清晰,对外暴露数据更加统一传统仓库架构方法传统仓库架构方法v 需求驱动为主支付宝交易主题现状支付宝交易主题现状数据仓库模型建设目标示意图数据仓库模型建设

4、目标示意图仓库基础数据层建设的意义仓库基础数据层建设的意义v 避免底层业务变动对上层需求影响过大v 屏蔽底层复杂的业务逻辑,尽可能简单、完整的在接口层呈现业务数据v 仓库数据更加丰富v 建设高内聚松耦合的数据组织,使得数据从业务角度可分割,有助于数据和团队的扩展。第三方支付企业支付宝数据仓库体系结构第三方支付企业支付宝数据仓库体系结构点击流数据(Click stream)数据库数据(OLTP)文档数据(Documents)其它数据(Other)源数据明细数据(DWD)数据仓库ETL报表展示自定义查询数据分析数据应用数据挖掘元数据管理数据质量监控KPI账单应用日志产品应用高粒度汇总数据(DWS)

5、其它数据集市、宽表(DM)数据应用(ST)低粒度汇总加工数据(DWB)建立企业级概念数据模型建立企业级概念数据模型(CDM)的基本架构的基本架构相关方安排位置相关方关系相关方及安排间的关系相关方描述相关方类型 业务概念框架提供了一套通用的结构,它描述了所有业务环境 IBM业务概念间最初的关系提供了4 相关方4 合约合约4 位置位置4 分类4 产品/服务4 资源4 事件4 业务方向4 条件安排类型所有业务信息都是可以用九大概念的词汇来表示所有业务信息都是可以用九大概念的词汇来表示每一种信息概念都可用三个分层来详细说明:每一种信息概念都可用三个分层来详细说明:I.分类分层(是什么)II.描述分层(

6、有什么)III.关系分层(做什么)九大数据概念变迁九大数据概念变迁IBM FSDM九大数据概念九大数据概念支付宝九大数据概念支付宝九大数据概念当事人当事人地理位置地理位置协议协议资源项资源项事件事件产品产品分类分类条件条件业务方向业务方向介质介质介质介质帐户帐户渠道渠道主要变化:主要变化:1.将产品中的介质以及将产品中的介质以及分类中的帐户和渠道独分类中的帐户和渠道独立出来作为单独的数据立出来作为单独的数据概念概念2.条件和分类不作为单条件和分类不作为单独的数据概念,分散在独的数据概念,分散在各个数据概念中。各个数据概念中。3.业务方向中的部分在业务方向中的部分在事件数据概念中体现事件数据概念

7、中体现当事人当事人地理位置地理位置协议协议资源项资源项事件事件产品产品介质介质渠道渠道帐户帐户条件条件条件条件分类分类条件条件分类分类条件条件条件条件分类分类业务方向业务方向基于OMG推出的数据仓库元数据管理的CWM模型(Common Warehouse Metamodel)物理模型设计 PDM设计方法参考IBM的FSDM金融行业的数据仓库通用模板参考NCR Teradata 金融服务逻辑数据模型(FS-LDM),参考新巴塞尔资本协议(Basel II Capital Accord)需提供三到五年的数据的规范综合上述规范和要求,同时结合支付宝实际的业务,综合上述规范和要求,同时结合支付宝实际的

8、业务,推出数据仓库推出数据仓库5层架构体系层架构体系v DW五层模型是按照EDW各个应用层次的需求进行分层细化而来的,每个层次满足不同的应用。v 分为以下5层:1.ODS 数据准备层 2.DWD 数据明细层3.DW(B/S)数据汇总层4.DM 数据集市层5.ST 数据应用层 DW五层模型架构介绍五层模型架构介绍DW五层模型架构介绍五层模型架构介绍ODS层层ST层层DM层层DW层层DWD层层 数据来源及建模方式数据来源及建模方式服务领域服务领域数据准备区,数据来源是各业务系统的源数据,物理模型和业务系统模型一致。数据来自ODS层,是DW明细事实层,数据模型是ODS一致数据来自DWD层,是DW事实

9、层,采用维度建模,星型架构,这一层可细分为dwb 和dws数据来自DW层,采用维度建模,星型架构数据来自DW层,采用维度建模,星型架构为其它逻辑层提供数据,为统一数据视图子系统提供数据实时查询为EDW提供各主题业务明细数据为EDW提供各种统计汇总数据数据挖掘,自定义查询,应用集市前端报表展现,主题分析,KPI报表 数据数据ETL过程描述过程描述通过支付宝分发中心平台,把业务数据抽取落地成文本文件,再装载到数据仓库ODS层,不做清洗转换根据ODS增量数据进行merge生成全量数据,不做清洗转换,保留原始全量数据从DWD层进行轻度清洗,转换,汇总聚合生成DW层数据,如字符合并,EMAIL,证件号,

10、日期,手机号转换,合并;用代理键取代维度;按各个维度进行聚合汇总从DW层的数据进行粗粒度聚合汇总;按业务需求对事实进行拉宽形成宽表从DW层的数据进行粗粒度聚合汇总;如按年、月、季、天对一些维度进行聚合生成业务需要的事实数据DW模型架构第一层介绍模型架构第一层介绍-ODS层层功能功能v ODS层是数据仓库准备区v 为DWD层提供基础原始数据v 减少对业务系统影响建模方式及原则建模方式及原则v 数据保留时间根据实现业务需求而定v 可以分表进行周期存储,存储周期不长v 数据不做清洗转换和业务系统一样v 按主题逻辑划分v 数据模型和粒度和业务系统数据模型保留一致(3NF)v 从业务系统以增量方式抽取加

11、载到ODSDW模型架构第二层介绍模型架构第二层介绍-DWD层层功能功能v 为DW层提供来源明细数据v 提供业务系统细节数据的长期沉淀v 为未来分析类需求的扩展提供历史数据支撑建模方式及原则建模方式及原则v 数据模型与ODS层一致(3NF)v 不做清洗转换处理v 为支持数据重跑可额外增加数据业务日期字段v 可按天、月、年进行分表v 用增量ODS层数据和前一天DWD相关表进行 merge处理DW模型架构第三层介绍模型架构第三层介绍-DW层层功能功能v 为DM,ST层提供细粒度数据,细化成DWB和DWSv DWB是根据DWD明细数据进行清洗转换,如维度转代理键、身份证清洗、会员注册来源清洗、字段合并

12、、空值处理、脏数据处理、IP清洗转换、账户余额清洗、资金来源清洗等v DWS是根据DWB层数据按各个维度ID进行粗粒度汇总聚合,如按交易来源,交易类型进行汇总建模方式及原则建模方式及原则v 聚合、汇总增加派生事实v 关联其它主题的事实表,DW层可能会跨主题域v DWB保持低粒度汇总加工数据,DWS保持高粒度汇总数据v 数据模型可能采用反范式设计,合并信息等DW模型架构第三层介绍模型架构第三层介绍-DW层层DW模型架构第四层介绍模型架构第四层介绍-DM层层功能功能v 这一层可以是一些宽表,是根据DW层数据按照各种维度或多种维度组合把需要查询的一些事实字段进行汇总统计并作为单独的列进行存储v 满足

13、一些特定查询、数据挖掘应用v 应用集市数据存储建模方式及原则建模方式及原则v 尽量减少数据访问时计算,优化检索v 维度建模,星形模型v 事实拉宽,度量预先计算v 分表存储DW模型架构第四层介绍模型架构第四层介绍-DM层层DW模型架构第五层介绍模型架构第五层介绍-ST层层功能功能v ST层面向用户应用和分析需求,包括前端报表、分析图表、KPI、仪表盘、OLAP、专题等分析,面向最终结果用户v 适合作OLAP、报表模型,如ROLAP,MOLAPv 根据DW层经过聚合汇总统计后的粗粒度事实表建模方式及原则建模方式及原则v 保持数据量小v 维度建模,星形模型v 各种维度代理键+度量v 增加数据业务日期

14、字段,支持数据重跑v 不分表存储DW模型架构第五层介绍模型架构第五层介绍-ST层层v 细化细化DW建模建模 对DW中各个主题业务建模进行了细分,每个层次具有不同的功能。保留了最细粒度数据 满足了不同维度,不同事实的信息v 满足数据重新生成满足数据重新生成 不同层次的数据支持数据重新生成 无需备份恢复 解决了由不同故障带来的数据质量问题 消除了重新初始化数据的烦恼v 减少应用对减少应用对DW的压力的压力 以业务应用驱动为向导建模,通过ST、DM层提供数据 避免直接操作基础事实表 降低数据获取时间v 快速适应需求变更快速适应需求变更 适应维度变化 明细基础数据层稳定,适应前端应用层业务需求变更 所

15、有前端应用层模型之间不存在依赖,需求变更对DW整个模型影响范围小 能适应短周期内上线下线需求DW五层模型架构特点五层模型架构特点数据仓库建设规范数据仓库建设规范v 表命名规范v 程序命名规范v 开发模板v 通用SQL文档数据仓库建设规范数据仓库建设规范表命名规范表命名规范v 表名命名格式说明 层次_主题 _表内容_分表规则v T表命名格式说明 T_层次_主题 _表内容v 临时表名命名格式说明 tmp_所属程序名_自定义序号1.10 temp_操作者缩写_YYYYMMDD_表内容v 视图命名格式说明 V_表名 DWB层视图仍以DWB_开头,为了兼容日后业务变动数据仓库建设规范数据仓库建设规范表命

16、名解释表命名解释v 层次 ODS,DWD,DWB,DWS,DM,ST 如ODS_TRD_TRADE_BASE_YYYYMMDD,DWD_TRD_TRADE_BASE_YYYYMMDD;v 表内容 表名视图名总长度不超过64个字符 ODS层和DWD层:层次_主题_业务系统表名字_分表规则 DWB(含)以上层次表名字:层次_主题_有意义的缩写_分表规则 尽量详尽说明表的具体内容v 分表规则 日表YYYYMMDD 月表YYYYMM 日汇总DS,月汇总MS,日累计DT,月累计MT数据仓库建设规范数据仓库建设规范程序命名规范程序命名规范v 程序命名 目标表名(去除分表规则部分)_程序类型.tcl 程序名称一律小写v 解释 目标表名(去除分表规则部分)目标表名为程序生成数据的表名,如数据ODS_TRD_TRADE_BASE_YYYYMMDD-DWD_TRD_TRADE_BASE_YYYYMMDD,那么程序命名成dwd_trd_trade_base_dd.tcl祝您成功!

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(某数据仓库模型设计说明课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|