数据整合培训课件.ppt

上传人(卖家):晟晟文业 文档编号:4477092 上传时间:2022-12-12 格式:PPT 页数:32 大小:791.50KB
下载 相关 举报
数据整合培训课件.ppt_第1页
第1页 / 共32页
数据整合培训课件.ppt_第2页
第2页 / 共32页
数据整合培训课件.ppt_第3页
第3页 / 共32页
数据整合培训课件.ppt_第4页
第4页 / 共32页
数据整合培训课件.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、数据整合培训郑 斌 高级顾问 培训时间安排时间时间培训内容培训内容培训形式培训形式7-6上午上午数据整合方法论数据整合方法论讲解为主讲解为主 Ascential Data Integration Solution讲解为主讲解为主7-6下午下午结合地税的实际情况讨论结合地税的实际情况讨论ETL规划规划讨论讨论预习预习Datastage组件及其功能组件及其功能看资料、答疑看资料、答疑7-7上午上午Datastage组件及基本功能组件及基本功能讲解为主讲解为主7-7下午下午练习练习练习为主练习为主7-8上午上午Datastage高级功能高级功能操作为主操作为主7-8下午下午练习练习练习为主练习为主主

2、题n数据整合方法论数据整合方法论主流方法简介主流方法简介设计方法论设计方法论实施方法论实施方法论nAscentialDataIntegrationSolutionnDatastage组件组件AdministratorManagerDirectordesignn基本功能基本功能nDatastage高级功能高级功能数据整合方法论数据整合数据整合成熟的方法论成熟的方法论 多年的积累,成熟的经验多年的积累,成熟的经验以方法论为核心指导原则以方法论为核心指导原则 统一的标准化方法论统一的标准化方法论模型标准化模型标准化代码统一代码统一数据结构统一数据结构统一业务术语统一业务术语统一 完善的元数据管理完善

3、的元数据管理数据源元数据管理数据源元数据管理数据中心元数据管理数据中心元数据管理应用元数据管理应用元数据管理正确的数据质量评估方法正确的数据质量评估方法论论数据质量暴露数据质量暴露数据质量评估数据质量评估数据质量对策数据质量对策主 题n数据整合方法论数据整合方法论主流方法主流方法设计方法论设计方法论实施方法论实施方法论nAscentialDataIntegrationSolutionnDatastage组件组件AdministratorManagerDirectordesignn基本功能基本功能nDatastage高级功能高级功能数据整合方法论-主流方法n主流方法简介先统一再ETL 先抽取再统

4、一,最后进行数据转换和装载代码、数据结构、业务术语统一代码、数据结构、业务术语统一清洗、转换、装载清洗、转换、装载数据抽取数据抽取IntegrationT+L代码、数据结构、业务术语统一代码、数据结构、业务术语统一清洗、转换、装载清洗、转换、装载数据抽取数据抽取EIntegrationT+LEDB2IIDatastage/PowerCenterDatastage/PowerCenterDatastage/PowerCenterDatastage/PowerCenter主 题n数据整合方法论数据整合方法论主流方法简介主流方法简介设计方法论设计方法论实施方法论实施方法论nAscentialData

5、IntegrationSolutionnDatastage组件组件AdministratorManagerDirectordesignn基本功能基本功能nDatastage高级功能高级功能数据整合方法论-设计方法n架构设计SQLOracleDB2InformixOAFileXMLFileFileFlatFile数据源数据源临时存储区临时存储区企业级数据仓库企业级数据仓库星型模型星型模型明晰数据明晰数据分析模型分析模型数据集市数据集市OLAP前端分析平台前端分析平台应用服务器应用服务器最终用户最终用户架构设计架构设计流程设计流程设计模块设计模块设计数数据据中中心心数据整合方法论-设计方法n流程设

6、计 流程设计指的是关于数据处理流程的设计,通常有 2种设计思路:分层设计 分层设计是指将数据处理的流程细分,将共性归类,形成数据处理 的几个层次按业务流程设计 按业务流程设计是指将数据处理流程与业务流程相对应,即面向业 务流程进行设计架构设计架构设计流程设计流程设计模块设计模块设计数据整合方法论-设计方法n分层设计图例100国国结结非非汇汇款款部部分分国国结结业业务务系系统统国国结结汇汇款款部部分分柜柜台台汇汇款款部部分分(文文本本)DW通过时间戳获得增量的事实数据对原始层表进行处理,增加各种维信息字段,并去掉大多数不必要的字段DataStage处理过程Insert/Replcace每日更新的

7、维表相关信息原原始始数数据据层层转转换换数数据据层层明明细细数数据据层层Insert/Replace增量明细数据表,可用于透明访问明细表总表,可用于透明访问。每天增量的数据Append进去Insert/AppendDataStage处理过程柜柜台台业业务务系系统统事实数据维表数据数据源数据源数据原数据原始层始层数据转数据转换层换层应用数应用数据层据层数据整合方法论-设计方法n按业务流程设计图例报案原始表核赔原始表赔案原始表车险理赔进度明细表报案表核赔表赔案主档赔案号、保单号、报案时间、报案状态、维度信息维度信息通过险种码取车险记录获取报案,注销状态赔案号、保单号、上报时间、批复日期、核赔标志、

8、维度信息维度信息注销标志、维度信息维度信息赔案号、保单号、立案时间、结案时间、注销标志、维度信息维度信息通过险种码取车险记录通过险种码取车险记录获取申请核赔、已核赔状态获取立案、结案、撤案状态车险理赔进度分析车险理赔进度分析 数据直接数据直接从源到目标从源到目标数据整合方法论-设计方法n模块设计模块功能维度处理业务数据处理脏数据处理数据备份及日志处理流程处理(流程调度与控制)历史/增量数据处理p模块复用性公共业务数据公共系统参数公共转换过程p模块处理性能整合工具调优转换过程优化数据库性能调优架构设计架构设计流程设计流程设计模块设计模块设计数据整合方法论-设计方法n设计注意事项(一)取数规则、数

9、据转换规则 取数规则的设计要求双方技术人员参与,数据转换规则的 设计除要求双方技术人员参与,还需要业务人员参与。这2个规则是后续设计的基础,为了避免在后续过程中因 规则改变导致重新修改结构的情况发生,这个步骤应给与足够 的重视。脏数据处理规则 脏数据即不符合业务逻辑、不适合做业务分析的数据,因 此,在设计过程中应确定脏数据处理的原则,避免系统中存 在的脏数据给分析决策带来误导。数据整合方法论-设计方法高质量的数据是指那些符合业务需求的、反应客观事实的数据。衡量数据质量可在以下几个方面进行:数据质量特征数据质量特征描述描述正确性正确性数据值必须与数据域一致,没有超出数据范围。数据值必须与数据域一

10、致,没有超出数据范围。准确性准确性一个数据值与设定为准确的值之间的一致程度。一个数据值与设定为准确的值之间的一致程度。由业务专家审查决定是否没有错误。由业务专家审查决定是否没有错误。完全性完全性一致性一致性维护数据使不同系统的数据没有差异和相互矛盾。维护数据使不同系统的数据没有差异和相互矛盾。一组数据满足一组约束条件的程度。一组数据满足一组约束条件的程度。完整性完整性不同系统的相关数据之间联接是正确的。不同系统的相关数据之间联接是正确的。唯一性唯一性决定数据记录(和关键数据值)不被重复定义和使用的能力。决定数据记录(和关键数据值)不被重复定义和使用的能力。有效性有效性符合业务规则,满足分类标准

11、规定的可接受要求。符合业务规则,满足分类标准规定的可接受要求。确定数据值是否可以接受,是否可以产生需要的结果。确定数据值是否可以接受,是否可以产生需要的结果。时效性时效性单个或多个数据项目能够在要求时间内提供的程度。单个或多个数据项目能够在要求时间内提供的程度。特定数值更新的程度。特定数值更新的程度。数据整合方法论-设计方法n设计注意事项(二)历史数据处理策略 历史数据即系统正式运行前所有的数据,数据量大,处理 逻辑可能与增量的不一样,应该根据实际情况进行设计。增量数据处理策略 增量数据的确定。增量数据主要根据业务逻辑来确定是否,通常根据时间戳来确定,但是存在一些特殊的情况,需要通过 日志来判

12、断。如:某条数据在当天被做了修改,但是时间戳没有改变,仍然是以前的某个时间,这就只能通过日志或者其他辅助手段 进行判断。增量数据的处理方法,同历史数据相比,二者的数据不 一定完全相同,因此需要单独考虑。数据整合方法论-设计方法n设计注意事项(三)失败、异常的处理策略 由于数据整合过程是一个复杂的数据处理流程,没有好的失败、异常处理策略会增加维护的难度,同时给维护带来大量的工作。下图是一个好的监控系统,维护人员可以很方便的看到系统的 执行状态,并及时进行维护。主 题n数据整合方法论数据整合方法论主流方法简介主流方法简介设计方法论设计方法论实施方法论实施方法论nAscentialDataInteg

13、rationSolutionnDatastage组件组件AdministratorManagerDirectordesignn基本功能基本功能nDatastage高级功能高级功能数据整合方法论-实施方法论需求分析需求分析报告书报告书开始开始业务需求分析业务需求分析规则评审规则评审数据源分析数据源分析数据处理数据处理规则确定规则确定概要设计概要设计概要设计评审概要设计评审详细设计详细设计(历史、增量、(历史、增量、失败处理等)失败处理等)详细设计评审详细设计评审编码编码单元功能测试单元功能测试数据质量测试数据质量测试数据质量评审数据质量评审流程测试流程测试性能测试性能测试结束结束处理规则处理规则

14、说明书说明书业务规则业务规则数据源数据源分析报告分析报告脏数据脏数据处理规则处理规则概要设计概要设计说明书说明书开发计划开发计划详细设计详细设计说明书说明书测试计划测试计划数据数据测试报告测试报告流程流程测试报告测试报告性能性能测试报告测试报告YesYesYesYesNoNoNoNoYesYesNoNoNoNoYesYes主 题n数据整合方法论数据整合方法论主流方法简介主流方法简介设计方法论设计方法论实施方法论实施方法论nAscentialDataIntegrationSolutionnDatastage组件组件AdministratorManagerDirectordesignern基本功能

15、基本功能nDatastage高级功能高级功能Ascential 数据集成解决方案Ascential Enterprise Integration SuiteParallel Execution EngineDISCOVERDiscover data content and structurePREPAREStandardize,match,and correct dataTRANSFORM and DELIVERTransform,enrich,and deliver dataProfileStageQualityStageDataStageMeta Data ManagementReal-T

16、ime Integration ServicesEnterprise Connectivityand Event ManagementComplementary To BPM,EAI,and EII TechnologiesOpen,Service-Oriented ArchitectureIntegrated Data Profiling&Data Quality Advanced Data Transformation and RoutingReusable Components&RulesUnlimited Performance with Linear ScalabilityRobus

17、t,Intelligent AdaptersAnytime,Anywhere ConnectivityIndustry Standard Compliant(XML,EDI,JMS,JCA)Industry-Ready Integration SolutionsService-Oriented ArchitectureDataStage Deployment ModesTarget(Database or File)ODBC/NativeDataStage Client Manager,Designer,Director(WinNT or Win2000)DataStage Connect A

18、PIDataStage Server (WinNT,Win2000 or UNIX)ODBC/NativeData Sources(Database or File)DataStage ManagerDataStage DesignerDataStage DirectorDataStage Connect APIDataStage Connect APIDataStage Connect APIData flowData flowDataStage Servern运行 DataStage 作业n底层引擎 采用UniVerse RDBMS n可运行于6种平台Intel NT,Alpha NTAI

19、X,HP UX,Sun Solaris,Compaq Tru64DataStage Repositoryn存储各种定义Meta dataTransformationsStagesn存储运行信息n存于 UniVerse RDBMS中能 import/export 从/到各种环境主 题n数据整合方法论数据整合方法论主流方法简介主流方法简介设计方法论设计方法论实施方法论实施方法论nAscentialDataIntegrationSolutionnDatastage组件组件AdministratorManagerDirectordesignn基本功能基本功能nDatastage高级功能高级功能Mana

20、ger DesignerDirector4 Components in DataStageMetadata collection and management Design Job/process flowRun jobs,check logs and set schedulesAdministratorConfig system environment DataStage Administratorn系统配置创建Project系统变量n管理DataStage引擎清除,调整n查看设置License 情况n权限管理DataStage Managern管理各种定义Meta data(元数据)Tra

21、nsformationsStagesnImport/ExportODBC 或 APIMetaBrokersMicrosoft Repository/Sybase WCCActiveX transformationsMeta data repositoryDataStage Directorn作业管理n作业调度n作业状态监控n大规模环境中的 作业过滤n可以使用外部的 调度引擎DataStage Designer Overview快捷的ETL开发、部署、调试和维护DataStage Designern设计 ETL处理过程可视化的数据流程设计n每一个图标是一个“stage”每一个“stage”都可编辑n将“stage”连接起来形成数据流DataStages MethodologyMeta data for Job/Data Flow ProcessManagerJob/Data Flow Process DesignerDirectorAny Question?

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据整合培训课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|