1、数据转换和加载数据转换和加载主 讲:主 讲:X X XX X X目录C o n t e n t数据清洗转换数据清洗转换1数据质量评估数据质量评估2数据加载数据加载3数 据 清 洗 1、缺失值清洗顺序 1)确定范围,计算源端数据中字段缺失值比例,之后根据缺失率和重要性分别制定策略。2)去除重要性低的字段,通常重要性低的字段,且缺失严重,可以采取将数据抽取的结果放入一中间临时库中,在数据清洗之前,先备份临时库数据,然后直接删除不需要的字段。3)填充缺失内容,通常会在某些缺失值的补齐中,采取一定的值去填充缺失项,从而使数据完备化。通常基于统计学原理,根据决策表中其余对象取值的分布情况来对一个空值进行
2、填充,例如用其属性的平均值来进行补充等。2、格式内容清洗 1)进行时间日期格式清洗:当采取多个源端整合数据时,因源端系统的不够严谨,采取了字符串类型作为数据的存储类型,可能在不同的源中存储日期、时间的格式不一,导致数据多源抽取到临时表后存在不同的日期格式,从而导致目标系统无法应用。2)进行全角半角清洗:全角指一个字符占用两个标准字符位置,半角指一字符占用一个标准的字符位置。在数据采集时,时常因输入法设置问题,将字母或者数字输入存储为全角格式。故在对数据进行ETL操作时,需要进行全角和半角转换。3)清洗不应有的字符:在源端系统中,数据采集时因人为原因可能存在一些数据不应有的字符。4)进行重新取数
3、:某些指标非常重要又缺失率高,且存在其他数据源可以获取,可采取重新抽取不同数据源的数据进行关联对比清洗。数 据 清 洗 3、逻辑错误清洗 1)进行排重清洗:数据排重是指在数据中查找和删除重复内容,而不会影响其保真度或完整性。数据排重需要技巧,首先一定要有信息去识别一条数据的唯一性,也就是类似数据库中的主键,如果唯一性都无法识别,排重也就无所依据。2)去除不合理值:不合理数据指在业务系统中收录的部分数据存在不合理性。3)修正矛盾内容:源端系统在提供数据时,存在部分信息可以相互验证的校验。数 据 校 验 数据检验是在数据清洗转换过程中,通过对转换的数据项增加验证约束,实现对数据转换过程的有效性验证
4、。可能存在的数据验证方法有数据项规则设置、数据类型检验、正则表达式约束检验、查询表检验等。对数据执行检验后,ETL工具提供验证结果的输出。在Kettle中,可以在数据转换过程中增加“数据检验”(Data Validator)步骤来完成数据的有效性校验 在Kettle中,可以在数据转换过程中增加“数据检验”(Data Validator)步骤来完成数据的有效性校验,通常包含:(1)设置校验规则。(2)NULL验证。(3)日期类型验证。(4)正则表达式验证。数 据 校 验 错误处理:数据错误是指数据在转换过程中出现数据丢失、数据失效和数据的完整性被破坏等问题。错误处理方式包括:1)转换过程错误:在
5、设计ETL过程中,存在一些设计未对转换过程进行错误处理,进而造成ETL执行完成后,目标端的数据未能按照约定数据标准进行组织存储,从而导致“脏”数据进入目标端。转换过程错误是在执行ETL过程中发生的转换错误,该错误一旦发生,应该进入错误处理环节,终止ETL转换,保证进入目标系统的数据干净可靠。数 据 校 验 转换数据错误:所谓数据转换,从计算机审计的需求来讲,主要包括两个方面的内容:一是将被审计单位的数据有效地装载到审计软件所操纵的数据库中;二是明确地标识出每张表、每个字段的具体含义及其相互之间的关系。具体包括:(1)对于命名错误,可以先检查数据源中的保留字,建立保留字集合,对于保留字中的命名冲
6、突,根据需要重新命名。(2)对于格式错误,可以从数据源的驱动程序中取出相对应的数据源的数据类型后,对一些特定的类型进行特殊的处理。(3)对于结构错误,建立不同的模型的的转换关系实体,通过属性之间的映射关系防止实体信息的丢失。(4)对于不同数据库的同一数据类型的精度冲突,类型转换中将类型和精度结合起来决定源端数据类型和目标数据类型的映射关系。找出目的数据源中与源端数据类型的精度最匹配的数据类型作为默认的映射关系。数 据 校 验 数据错误是数据工作者需要注意的指标之一,因为数据错误能导致完全错误的分析结果。具体包括:(1)数据输入错误:人工在数据收集、记录、输入造成的错误,可能会成为数据中的异常值
7、。(2)测量误差:当使用错误的测量仪器测量时,通常会出现异常值。(3)数据处理错误:当进行数据分析时,错误的数据处理操作可能会造成异常值。数 据 校 验 针对数据错误的处理方法是在转换环节增加数据检验,在执行数据检验过程中,当检验错误发生时,可以采取如下方法进行错误处理:(1)删除错误数据:如果数据错误是由于数据输入错误、数据处理错误或数据错误数目很少造成的,可以采取直接删除错误数据的方式处理。(2)错误数据替换:类似于替换缺失值,我们也可以替换错误数据。可以使用均值、中位数、众数替换方法。(3)分离对待:如果数据错误的数目比较多,在统计模型中我们应该对它们分别处理。一个处理方法是异常值一组,
8、正常值一组,然后分别建立模型,最后对结果进行合并。数据质量评估 1、数据质量评估:数据质量是保证数据应用的基础,我们提出了一些数据质量的评估指标。在进行数据质量评估时,要根据具体的数据质量评估需求对评估指标进行相应的取舍。(1)完整性:完整性主要是指信息是否存在缺失的情况,数据缺失的情况可能是整个记录的缺失,也可能是某个字段信息的记录缺失。具体包括:域完整性 实体完整性 参照完整性 (2)一致性:类似于替换缺失值,我们也可以替换错误数据。可以使用均值、中位数、众数替换方法。(3)准确性:数据的准确性在数据清洗中多指记录的信息是否出现异常或者错误。(4)及时性:数据的及时性多指数据从产生到可以查
9、看的时间间隔,也可以称为延时时长。数据质量评估 2、审计数据:数据质量是保证数据应用的基础,我们提出了一些数据质量的评估指标。在进行数据质量评估时,要根据具体的数据质量评估需求对评估指标进行相应的取舍。1)数据查询 数据查询是审计人员根据自己的经验,按照一定的审计分析模型,在软件中采用查询命令来分析采集来的电子数据,或者采用一些审计软件,通过运行各种各样的查询命令以某种预定义的格式来检测被审计单位的数据,是目前最常用的方法。2)审计抽样 审计抽样是审计人员在实施审计程序时,从审计对象总体中选取一定数量的样本进行测试,并根据测试结果推断总体特征的一种方法。3)统计分析 在面向数据的计算机审计中,
10、统计分析的目的是探索被审计数据内在的数量规律性,以发现异常数据,快速寻找审计的突破口。通常的统计分析方法一般包含一般统计、分层分析和分类分析。统计分析一般和其它审计数据处理方法配合使用。4)数值分析 数值分析是根据字段具体的数据值的分布情况,出现频率等对字段进行分析,从而发现审计线索的一种数据处理方法。这种方法先不考虑具体的业务,对分析出现的可以数据结合具体的业务进行审计,易于发现被审计数据中的隐藏信息。数据加载 数据加载是继数据抽取和转换清洗后的一个阶段,它负责将从数据源中抽取加工所需的数据,经过数据清洗和转换后,最终按照预定义好的数据仓库模型,将数据加载到目标数据集市或数据仓库中去,可实现SQL或批量加载。数据加载方式:1)全量加载 全量加载是指全表删除后再进行全部(全量)数据加载的方式。2)增量加载 增量加载指目标表仅更新源表变化(增量)的数据。Thanks谢谢您的聆听!谢谢您的聆听!