《数据清洗:概论》课件.pptx

上传人(卖家):晟晟文业 文档编号:4768439 上传时间:2023-01-08 格式:PPTX 页数:21 大小:1.90MB
下载 相关 举报
《数据清洗:概论》课件.pptx_第1页
第1页 / 共21页
《数据清洗:概论》课件.pptx_第2页
第2页 / 共21页
《数据清洗:概论》课件.pptx_第3页
第3页 / 共21页
《数据清洗:概论》课件.pptx_第4页
第4页 / 共21页
《数据清洗:概论》课件.pptx_第5页
第5页 / 共21页
点击查看更多>>
资源描述

1、第一章概论1.1 数据清洗概述1.2 数据标准化1.3 数据仓库习题1.1数据清洗概述1.1.1 数据科学过程 数据科学则是一门新兴的以数据为研究中心的学科。作为一门学科,数据科学以数据的广泛性和多样性为基础,探寻数据研究的共性。数据科学是一门关于数据的工程,它需要同时具备理论基础和工程经验,需要掌握各种工具的用法。数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。数据清洗是数据科学家完成数据分析和处理任务过程中必须面对的重要一环。具体来说,数据科学的一般处理过程包括如下几个步骤:u 问题陈述,明确需要解决的问题和任务。u 数据收集与存储,通过多种手段采集和存放来自众多

2、数据源的数据。u 数据清洗,对数据进行针对性地整理和规范以便于后面的分析和处理。u 数据分析和挖掘,运用特定模型和算法来寻求数据中隐含的知识和规律。u 数据呈现和可视化,以恰当的方式程序数据分析和挖掘的结果。u 科学决策:根据数据分析和处理结果来决定问题的解决方案。1.1.2 数据清洗定义 来自多样化数据源的数据内容并不完美,存在着许多“脏数据”,即数据不完整有缺失、存在错误和重复的数据,数据的不一致和冲突等缺陷。数据清洗(Data Cleaning/Cleansing)对数据进行审查和校验,发现不准确、不完整或不合理数据,进而删除重复信息、纠正存在的错误,并保持数据的一致性、精确性、完整性和

3、有效性以提高数据的质量。数据清洗并没有统一的定义,其定义依赖于具体的应用领域。从广义上讲,数据清洗是将原始数据进行精简以去除冗余和消除不一致,并使剩余的数据转换成可接收的标准格式的过程;而狭义上的数据清洗特指在构建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完整性、一致性、唯一性和有效性以适应后续操作的过程。一般而言,凡是有助于提高信息系统数据质量的处理过程,都可认为是数据清洗。1.1数据清洗概述1.1.3 数据清洗任务 数据清洗就是对原始数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并使得数据保持精确性、完整性、一致性、有效性及唯一性,还可能涉及数据的分

4、解和重组,最终将原始数据转换为满足数据质量或应用要求的数据。数据清洗对保持数据的一致和更新起着重要的作用,因此被用于如银行、保险、零售、电信和交通的多个行业3。数据清洗主要有三个应用领域:数据仓库(Data Warehouse,DW)、数据库中知识的发现(Knowledge Discovery in Database,KDD)和数据质量管理(Data Quality Management,DQM)。数据清洗对随后的数据分析非常重要,因为它能提高数据分析的准确性。但是数据清洗依赖复杂的关系模型,会带来额外的计算和延迟开销,必须在数据清洗模型的复杂性和分析结果的准确性之间进行平衡。1.1数据清洗概

5、述1.1.4 数据清洗流程 数据清洗通过分析“脏数据”的产生原因和存在形式,利用数据溯源的思想,从“脏数据”产生的源头开始分析数据,对数据流经环节进行考察,提取数据清洗的规则和策略,对原始数据集应用数据清洗规则和策略来发现“脏数据”并通过特定的清洗算法来清洗“脏数据”,从而得到满足预期要求的数据。具体而言,数据清洗流程包含以下基本步骤:1.1数据清洗概述1分析数据并定义清洗规则 2搜寻并标识错误实例3纠正发现的错误4干净数据回流5数据清洗的评判u数据清洗是一项十分繁重的工作,数据清洗在提高数据质量的同时要付出一定的代价,包括投入的时间、人力和物力成本。通常情况下,大数据集的数据清洗是一个系统性

6、的工作,需要多方配合以及大量人员的参与,需要多种资源的支持。1.1.5 数据清洗环境1.1数据清洗概述 数据清洗环境是指为进行数据清洗所提供的基本硬件设备和软件系统,特别是已得到广泛应用的开源软件和工具。u 终端窗口和命令行界面,比如Mac OS X上的Terminal程序或Linux上的bash程序。u 适合程序员使用的编辑器,如Mac上的Text Wrangler,Linux上的vi或emacs,或是Windows上的Notepad+、Sublime编辑器等。u Python客户端程序,如Enthought Canopy。另外,还需要足够的权限来安装一些程序包文件。u 电子表格程序,如Mi

7、crosoft Excel和Google Spreadsheets。数据呈现和可视化,以恰当的方式程序数据分析和挖掘的结果。u 数据库软件,如MySQL数据库和Microsoft Access。1.1.6 数据清洗实例说明1.1数据清洗概述 以网站文件下载为例,假定一组记录文件下载时间长度的原始数据集如表1-1所示。直接计算网站文件平均下载时长,计算结果约为23000秒,约6小时,与实际情况严重不符,说明这一数据集受到了显著的噪声的影响而导致部分数据值出现严重偏差。为此,必须对原始数据集做异常值识别并尽可能剔除错误数据。表1-1 各个文件的下载时间1.1.6 数据清洗实例说明1.1数据清洗概述

8、 具体来说,可以基于数据的分布特征利用分箱法或聚类法来识别上例数据集中的噪声数据。对于表1中的数据,清洗数据时首先将数据集等分为2403个区间,找到数据的集中域0,3266。然后,利用分箱法对取值在0,3266之间的数据作进一步分析,对新数据组剔除离群值,得到清洗后的离群数据组。最后,统计计算清洗后的目标数据源的平均下载时长为192.93秒,约3.22分钟,符合网站文件下载的实际情况。从这个简单的例子可看出,基于数据的分布特征,数据清洗可以采用分箱法或聚类方法较为快捷地识别和剔除数据集中的噪声数据,从而获得良好的清洗效果。图1 基于聚类的孤立点识别大数据应用人才培养系列教材第一章概论1.1 数

9、据清洗概述1.2 数据标准化1.3 数据仓库习题1.2.1 数据标准化概念 数据标准化/规范化(Data Standardization/Normalization)是机构或组织对数据的定义、组织、分类、记录、编码、监督和保护进行标准化的过程,有利于数据的共享和管理,可以节省费用,提高数据使用效率和可用性。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,必须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,然后再加总才能得出正确结果。数据无量纲化处理主要用于消除变量间的量纲关

10、系,解决数据评价分析中数据的可比性。例如,多指标综合评价方法需要把描述评价对象不同方面的多个信息综合起来得到一个综合指标,由此对评价对象做整体评判,并进行横向或纵向比较。1.2数据标准化1.2数据标准化1.2.1 数据标准化常用方法max-min标准化对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过max-min标准化映射成在区间0,1中的值x,其公式为:x=(x-minA)/(maxA-minA)z-score 标准化基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化,将A的原始值x标准化到x,其公式

11、为:x=(x-mean)/standard deviation。12Decimal scaling标准化通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x到x的计算方法公式为:x=x/(10j)。其中,j是满足条件的最小整数。其他标准化方法还有一些标准化方法的做法是将原始数据除以某一值,如将原始数据除以行或列的和,称总和标准化;如果原始数据除以每行或每列中的最大值,叫做最大值标准化;如果原始数据除以行或列的和的平方根,则称为模标准化(norm standardization)。34大数据应用人才培养系列教材第一章概论1.1 数据清洗概述1

12、.2 数据标准化1.3 数据仓库习题1.3数据仓库简介1.3.1 数据仓库定义 数据仓库(Data Warehouse,DW)是基于信息系统业务发展需要,基于传统数据库系统技术发展形成能够并逐步独立出来的一系列新的应用技术,目标是通过提供全面、大量的数据存储来有效支持高层决策分析。W.H.Inmon在书中对数据仓库的定义是:数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持经营管理中的决策制定过程。数

13、据库是面向事务的设计,而数据仓库是面向主题设计的。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计。数据库一般存储在线交易数据,数据仓库一般存储的是历史数据。1.3数据仓库简介1.3.2 数据仓库组成要素 数据仓库不是一种提供战略信息的软件或硬件产品,而是一个便于用户找到战略信息和做出更好决策的计算环境,是一个以用户为中心的环境。数据仓库需要提供数据抽取、数据转换、数据装载和数据存储功能,并为用户提供交互接口。典型数据仓库的基本组成要素包括:1源数据单元 2数据准备单元3数据存储单

14、元4信息传递单元5元数据单元6管理控制单元u 传统数据仓库 企业把数据分成内部数据和外部数据,内部数据包括OLTP交易系统和OLAP分析系统的数据。企业首先需要将这些数据集中起来,经过转换放到这类数据库中,然后在数据库上对数据进行加工,建立各种主题模型,再提供报表分析业务。u 数据集市 数据集市一般是用于某一类功能需求的数据仓库的简单模式,往往是由一些业务部门构建,也可以构建在企业数据仓库上。一般来说数据集市的数据源较少,但往往对数据分析的延时有很高的要求,并需要和各种报表工具有很好的对接。1.3数据仓库简介1.3.3 数据仓库分类u 关联发现数据仓库 在一些场景下,企业可能不知道数据的内联规

15、则,而是需要通过数据挖掘的方式找出数据之间的关联关系,隐藏的联系和模式等,从而挖掘出数据的价值。很多行业的新业务都有这方面的需求,如金融行业的风险控制,反欺诈等业务。上下文无关联的数据仓库一般需要在架构设计上支持数据挖掘能力,并提供通用的算法接口来操作数据。u 实时处理数据仓库 随着业务的发展,企业客户需要对实时的数据做一些商业分析,譬如零售行业需要根据实时的销售数据来调整库存和生产计划。这类行业用户对数据的实时性要求很高,传统的离线批处理的方式不能满足需求,因此需要构建实时处理的数据仓库。数据可以通过各种方式完成采集,然后数据仓库可以在指定的时间限期内对数据进行处理和统计分析等,再将数据存入

16、数据仓库以满足一些其他业务的需求。1.3数据仓库简介1.3.3 数据仓库分类1.3数据仓库简介1.3.4 数据仓库相关技术数据清洗数据仓库需要从种类各异的多个数据源中导入大量数据,数据仓库的一个重要任务就通过数据清洗保证数据的一致性与正确性。数据粒度数据仓库中存储的数据粒度将直接影响到数据仓库中数据的存储量及查询质量,并进一步影响数据仓库能否满足最终用户的分析需求。设计数据仓库时要合理确定数据粒度。12索引优化不论是数据库还是数据仓库,索引查找是优化查询响应时间的重要方法,索引建立的好坏直接影响数据访问效率。物化视图选择和维护数据仓库中以物化视图(Materialized View)的形式存储

17、大量来自多个异质数据源中的数据,数据仓库中采用物化视图进行快速查询和分析,能有效提高查询速度和响应时间。34数据仓库的管理维护为了减少数据更新量,数据仓库一般采用增量式更新策略。此外,数据仓库必须建立有效的安全策略和授权访问控制机制。最后,数据仓库必须提供稳定可靠的数据备份和恢复策略。51.3数据仓库简介1.3.5 常用工具简介u 数据仓库不是一门纯粹的技术,更是一种架构和理念,核心在于对数据的整合集成,把企业原始数据进行集成、归类、分析,从而提供了企业决策分析需要的目标数据。SQL Server、Sybase、DB2和Oracle都是传统的关系数据库,但是只要经过合理的数据模型设计或参数设置

18、也可将其转变为很好的数据仓库实体。u 目前,OLAP已逐渐融合到数据仓库中,例如微软的Analysis Service和DB2的OLAP Server,通过自身提供的专用接口可以加快多维数据的转换处理。当然,也有如Essbase这样纯粹的OLAP产品,实际上许多大型OLAP都采用Essbase。u 对于ETL而言,广泛使用的ETL工具主要包括Informatica PowerCenter、IBM的Datastage、SQLServer搭配的SSIS、Oracle的OWB和ODI以及开源的Kettle等。u 数据仓库可用的报表工具很多,专业性的报表工具有Hyperion、B0、Congos和Br

19、io,这些产品价格相对昂贵。便宜的报表工具可选用微软的ReportService。大数据应用人才培养系列教材第一章概论1.1 数据清洗概述1.2 数据标准化1.3 数据仓库习题1什么是数据科学,请简要阐述数据清洗在数据科学过程中扮演什么角色?2数据清洗的目的何在,你是如何理解数据清洗这一概念的?3数据清洗的主要任务有哪些,当前有哪些主要的应用领域?4结合一个实例说明数据清洗的流程包括哪些步骤,并简要说明数据清洗的主要评价标准。5什么是数据标准化,其作用主要有体现在哪些方面?6请简单介绍一下max-min数据标准化和z-score数据标准化方法。7数据仓库的典型特点是什么,并比较数据仓库和传统数据库的区别和联系。8请举例说明数据仓库包括那些组成要素,并简要阐述不同要素的作用。9请介绍几种常见的数据仓库工具,并说明其作用。习题:感谢聆听

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(《数据清洗:概论》课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|