1、数据质量管理数据质量管理数据质量管理1、什么是数据质量、什么是数据质量2、为什么要建立数据质量管理体系、为什么要建立数据质量管理体系3、数据质量管理的范围、数据质量管理的范围4、数据质量管理项目构架、数据质量管理项目构架什么是数据质量何谓数据质量可从两个方面来理解:第一:数据本身的数据质量第一:数据本身的数据质量数据的真实性:数据必须真实准确的反映实际发生的业务。数据的完备性:数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。什么是数据质量数据的自洽性:数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约束描述了数据的关联关系。数据必须能够满足这种数据之间的关联关系,而不
2、能够相互矛盾。数据的真实性、完备性、自洽性是数据本身应具有的属性,称为数据的绝对质量,是保证数据质量的基础。除了数据的绝对质量外,还有我们在利用和存贮数据的过程中所产生的数据质量,包括使用质量、存贮质量和传输质量,称之为过程质量。什么是数据质量第二:数据的过程质量第二:数据的过程质量数据的使用质量:数据的使用质量是指数据被正确的使用。再正确的数据,如果被错误的使用,就不可能得出正确的结论。数据的存贮质量:数据的存贮质量是指数据被安全的存贮在适当的介质上。所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏,备份是我们常使用的技术,包括异地备份和双机备份什么是数据质量数据的传输质量
3、:数据的传输质量是指数据在传输过程中的效率和正确性。在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性非常重要。为什么要建立数据质量管理体系目前企业存在多地区,多产品,多业务,多系统的环境,在数据信息,报表统计,业务分析和业务元定义上存在数据不一致,不完整,不统一以及不真实和不及时的情况,这样让业务人员,管理者,信息使用者存在误解,导致决策出现偏差,同时低下的数据质量往往造成开发出来的系统与用户的预期大相径庭,而在维护阶段,也出现维护成本不断上升,工作量加大,系统难以扩展。这样的情况急切等待数据质量管理的标准和指导方案.数据质量管理的范围数据质量管理是针对企业在建设
4、数据仓库,数据挖掘和数据中心时存在的数据质量问题提出的解决方案和指导评估标准,所以数据质量管理模型项目是1、数据质量管理规范和数据质量问题的解决方案,不是软件和产品,更不是数据模型和ETL模型;2、只针对重构数据和目标数据进行修改,而不对源数据进行修改;3、提供源数据的检测分析以及质量报告,不对业务模型进行分析;4、可以用作主数据管理,数据仓库和数据挖掘系统作为参考,但不包 含此类系统的构架模型;数据质量管理项目构架项目涉及到数据质量的分析和验证,因此有数据的分析流程和数据的管理流程,如下图:数据质量管理项目构架首先是分析源数据系统,从业务和数据本身的角度剖析,包括对数据源中存储的逻辑定义,表
5、结构,视图结构,约束,触发器,唯一性等等,得出相关的定义。由定义以及定义的关联产生相应的业务规则和数据逻辑规则。数据的验证引擎利用这些产出的规则,对源数据和目标数据进行校验,并对应校验规则保存校验结果;修正引擎用业务和数据逻辑的修正规则对校验结果进行自动修正和提供手动修正接口,同时保留修改前后的记录;数据质量管理项目构架在数据质量管理模型中,需要对数据检验结果和修正结果进行分析,利用校验结果发现数据源和数据流程中存在的问题,同时可以参考修正记录,对数据的质量提出适当的改进策略,并采取适当的行为。数据质量管理项目构架项目包括的主要任务有项目包括的主要任务有源系统剖析:源系统剖析:源数据剖析的深度
6、和业务层次,来定义数据语义的一致性,将企业相关数据元就行分析,看看各系统间数据的不同部门对数据的定义,这是确定数据含义是否一致。数据质量管理项目构架元定义:元定义:原系统的数据剖析是对分析各个原系统的数据存储的结构,包括表数据,视图数据,Excel数据等以及计算公式,比较方式,查看数据方式,都数据剖析的范围,这需要一个比较可行的方式,对于数据库中的内容,需要有相应的导出完整数据字典的结构过程,能在Excel中修改,也能导入到制定的表中进行保存,同时还能定期检查表结构是否发生变化。数据质量管理项目构架数据验证数据验证:这里的验证有几种,数据结构验证,还有数据一致性,完整性,唯一性和准确性的验证,
7、每一种验证就需要建立固定的可变化的验证规则,而且验证规则,验证体,验证结构都需要记录日志和验证结果,同时还需要提供接口给UI,最好能做到让业务人员自己更新验证规则,自己查看验证过程和结果,为数据修补引擎提供接口。数据质量管理项目构架数据修正数据修正:针对不同类型的数据验证规则验证的数据进行更新,有指定规则自动更新的,有人工干预修改的,主要是能有UI接口,提供修改功能和修改策略,以及记录修改日志和标记。便于和正常数据区分。数据质量管理项目构架元数据管理:元数据管理:数据质量的元数据管理是贯穿整个解决方案体系,从数据剖析到最后的质量检测和管理部分,记录管理元数据,操作元数据,业务规则元数据,验证规
8、则和修正规则等元数据,它是数据质量管理模型的灵魂。数据质量管理项目构架检验分析:检验分析:这里的分析报表,如可以利用6Sigma的原理,对数据质量情况进行分析,可以预先制定标准和参考依据,对数据质量进行等级划分。方便企业制定数据质量管理制度。也可以按照数据的检验结果,按照不同的数据源划分,检测数据误差来源点,逐步解决数据质量问题。数据质量管理项目构架数据质量管理标准和等级定义数据质量管理标准和等级定义:这部分是数据质量管理的汇总部分,借鉴系统剖析,元定义,数据验证和修正,以及元数据和检验分析等部分的汇总和指标而建立的,意在提出较完整的数据质量管理标注,并由此划分等级。数据质量管理项目构架结合本
9、项目的总体结构,可以将任务分解为:1 1、数据分析和定义、数据分析和定义:a、源数据系统剖析范围和标准b、数据语义的一致性的定义标准c、数据元的完整性的定义标准d、数据体的唯一性的定义标准e、数据描述的准确性的定义标准f、业务的关联性的定义标准g、数据粒度的定义标准h、数据生命周期的定义标准数据质量管理项目构架2 2、数据质量问题发现、数据质量问题发现:a、业务规则定义标准和方案b、数据业务逻辑定义c、据量定义d、数据验证引擎实现方案数据质量管理项目构架3 3、数据质量问题修正数据质量问题修正:a、数据自动修改条件和标准b、数据手动修改条件和标准c、数据修补引擎实现方案数据质量管理项目构架4
10、4、数据质量元数据管理、数据质量元数据管理:a、数据分析和定义部分元数据存储和管理b、数据质量问题发现部分元数据存储和管理c、数据质量问题修正部分元数据存储和管理d、管理型元数据存储和管理数据质量管理项目构架5 5、据质量检测分析、据质量检测分析:a、数据质量评估范围b、检测分析报告内容定义生活中的辛苦阻挠不了我对生活的热爱。生活中的辛苦阻挠不了我对生活的热爱。22.11.1722.11.17Thursday,November 17,2022人生得意须尽欢,莫使金樽空对月。人生得意须尽欢,莫使金樽空对月。14:02:2214:02:2214:0211/17/2022 2:02:22 PM做一枚
11、螺丝钉,那里需要那里上。做一枚螺丝钉,那里需要那里上。22.11.1714:02:2214:02Nov-2217-Nov-22日复一日的努力只为成就美好的明天。日复一日的努力只为成就美好的明天。14:02:2214:02:2214:02Thursday,November 17,2022安全放在第一位,防微杜渐。安全放在第一位,防微杜渐。22.11.1722.11.1714:02:2214:02:22November 17,2022加强自身建设,增强个人的休养。加强自身建设,增强个人的休养。2022年年11月月17日日下午下午2时时2分分22.11.1722.11.17精益求精,追求卓越,因为相
12、信而伟大。精益求精,追求卓越,因为相信而伟大。2022年年11月月17日星期四日星期四下午下午2时时2分分22秒秒14:02:2222.11.17让自己更加强大,更加专业,这才能让自己更好。让自己更加强大,更加专业,这才能让自己更好。2022年年11月月下午下午2时时2分分22.11.1714:02November 17,2022这些年的努力就为了得到相应的回报。这些年的努力就为了得到相应的回报。2022年年11月月17日星期四日星期四14时时02分分22秒秒14:02:2217 November 2022科学,你是国力的灵魂;同时又是社会发展的标志。科学,你是国力的灵魂;同时又是社会发展的标
13、志。下午下午2时时2分分22秒秒下午下午2时时2分分14:02:2222.11.17每天都是美好的一天,新的一天开启。每天都是美好的一天,新的一天开启。22.11.1722.11.1714:0214:02:2214:02:22Nov-22相信命运,让自己成长,慢慢的长大。相信命运,让自己成长,慢慢的长大。2022年年11月月17日星期四日星期四14时时02分分22秒秒Thursday,November 17,2022爱情,亲情,友情,让人无法割舍。爱情,亲情,友情,让人无法割舍。22.11.172022年年11月月17日星期四日星期四14时时02分分22秒秒22.11.17谢谢大家!谢谢大家!