大数据预处理技术第1章数据预处理概述课件.pptx

上传人(卖家):三亚风情 文档编号:3335837 上传时间:2022-08-20 格式:PPTX 页数:73 大小:2.45MB
下载 相关 举报
大数据预处理技术第1章数据预处理概述课件.pptx_第1页
第1页 / 共73页
大数据预处理技术第1章数据预处理概述课件.pptx_第2页
第2页 / 共73页
大数据预处理技术第1章数据预处理概述课件.pptx_第3页
第3页 / 共73页
大数据预处理技术第1章数据预处理概述课件.pptx_第4页
第4页 / 共73页
大数据预处理技术第1章数据预处理概述课件.pptx_第5页
第5页 / 共73页
点击查看更多>>
资源描述

1、第一章:数据预处理总述1大数据项目开发流程数据数据采集采集数据数据预处理预处理数据数据存储存储数据数据分析分析挖掘挖掘数据数据可视化可视化2目 录u数据预处理目的u 数据预处理的流程u 数据预处理的工具020304u数据预处理背景013数据预处理背景0 1-数据的各种质量4数据质量问题完整性一致性相关性时效性可信性可解释性准确性5数据收集设备故障数据输入错误数据传输过程出错 命名约定、数据代码、输入字段的格式不一致数据质量因素数据数据是正确是正确的,数据存储在数据库中的值对应于真实世界的,数据存储在数据库中的值对应于真实世界的值的值造成数据不准确的原因造成数据不准确的原因准确性6完整性数据质量

2、因素指信息具有一个实体描述的所有必需的部分,在传统关系型数指信息具有一个实体描述的所有必需的部分,在传统关系型数据库中,完整性通常与空值(据库中,完整性通常与空值(NULL)有关。一般包括有关。一般包括记录的缺记录的缺失失和和记录属性的缺失记录属性的缺失。涉及个人隐私,无法获取相关属性数据输入时,由于人为的疏漏导致数据输入或传输时,由于机器的故障导致造成数据造成数据不完整的原因:不完整的原因:7一致性数据质量因素在数据库中是指在不同地方存储和使用的同一数据应在数据库中是指在不同地方存储和使用的同一数据应当是等价的,表示当是等价的,表示数据有相等数据有相等的值和相同的含义的值和相同的含义 逻辑不

3、一致逻辑不一致8一致性数据质量因素在数据库中是指在不同地方存储和使用的同一数据应在数据库中是指在不同地方存储和使用的同一数据应当是等价的,表示当是等价的,表示数据有相等数据有相等的值和相同的含义的值和相同的含义 记录规范不一致记录规范不一致9一致性数据质量因素在数据库中是指在不同地方存储和使用的同一数据应在数据库中是指在不同地方存储和使用的同一数据应当是等价的,表示当是等价的,表示数据有相等数据有相等的值和相同的含义的值和相同的含义 数据冗余时数据内容不一致数据冗余时数据内容不一致10相关性数据质量因素数据的相关性是指数据数据的相关性是指数据与特定的应用和领域有关与特定的应用和领域有关。构造预

4、测模型时,需要采集与模型相关的数据相同的数据,在不同的应用领域中,相关性也是不一样的。数据相关性的应用场景:数据相关性的应用场景:11时效性数据质量因素是指数据仅在一定时间段内对决策具有价值的属性。是指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约着决策的客观效果。数据的时效性很大程度上制约着决策的客观效果。商品推荐城市交通数据时效性的应用场景:数据时效性的应用场景:12数据来源的权威性、数据的规范性、数据产生的时间反映数据是否容易理解数据质量因素13可信性可解释性数据预处理目的0 2-提升提升数据质量数据质量14目的:目的:达到改进数据的质量,提高数据挖掘过程的准确率和

5、效率。保证数据挖掘的正确性和有效性。通过对数据格式和内容的调整,使得数据更符合挖掘的需要。数据预处理的目的数据数据采集采集数据数据预处理预处理数据数据存储存储数据数据分析分析挖掘挖掘数据数据可视化可视化15重要性:重要性:数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。目的 提升数据质量,符合数据挖掘的需求,保证数据挖掘的正确性和有效性16数据预处理流程0 3 数据清理数据清理 数据集成 数据规约 数据变换17预处理流程18数据清理脏数据:由于重复录入重复录入,并发处理等不规范并发处理等不规范的操作,导致产生不完整不完整,不准确不准确的,无效无效的数据。学号姓名性别年龄

6、所在专业95001张 晓云女18M0195002刘 一天男19M0295003邓茹女180M0395004王 小刚男20M05越早处理脏数据,数据清理操作越简单19数据清理p 缺失值处理p 噪声数据平滑数据清理试图填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性。学号姓名性别年龄所在专业95001张晓云女18M0195002刘一天男19M0295003邓茹女18M0395004王小刚男NullM0520缺失值处理缺失值:现有数据集中某个或某些属性的值是不完整的客户编号客户编号客户名称客户名称.风险等级风险等级收入收入0001张三380000002李四2120000003王五21100

7、00004赵六1200000005李木2NULL0006王权125000缺失值处理方法:忽略元组 人工填写 属性的中心度量来填充 使用于给定元组同一类的所有样本平均值 使用最可能的值客户信息表客户信息表21缺失值处理客户编号客户编号客户名称客户名称.风险等级风险等级收入收入0001张三380000002李四2120000003王五2110000004赵六1200000005李木2NULL0006王权125000l 元组l 属性l 中心度量平均值中位数客户信息表客户信息表客户收入:8000、11000、12000、20000、2500022忽略元组缺失值处理客户编号客户编号客户名称客户名称.风险

8、等级风险等级收入收入0001张三380000002李四2120000003王五2110000004赵六1200000005李木2NULL0006王权125000人工填写:人为填充,工作量大,不可行全局变量:采用全局常量来替换空缺值23使用属性的中心度量使用最可能的值:利用回归、贝叶斯计算公式推断最可能的值缺失值处理用同类样本属性的中心度量收入收入80001200011000200001520025000客户编号客户编号客户名称客户名称.风险等级风险等级收入收入0001张三380000002李四2120000003王五2110000004赵六1200000005李木2115000006王权125

9、00024噪声噪声是被测量的变量的随机误差或偏差。噪声处理引起噪声数据的原因:数据收集工具的问题 数据输入错误 数据传输错误 技术的限制 命名规则不一致噪声处理的方法:分箱法回归聚类噪声处理的目的:降低对数据分析和结果的影响孤立点:不符合数据模型的数据。25 分箱:通过考察数据的近邻近邻来光滑有序数据值。噪声处理26 举例:8、24、15、41、6、10、18、67、25等9个数。排序:6、8、10、15、18、24、25、41、67。分箱:箱1:6、8、10 箱2:15、18、24 箱3:25、41、67 分别用三种不同的分箱法求出平滑存储数据的值:平均值:8;箱1:8,8,8。中值:18

10、箱2:18,18,18。边界值:箱3:25,25,67,箱中的最大和最小值被视为箱边界。回归:采用一个函数拟合数据来光滑数据。噪声处理27线性回归:找出拟合两个属性的“最佳”直线,帮助平滑数据及除去噪声。多元线性回归:设计多个属性,拟合到一个多维的面 聚类:可以通过聚类算法来检测离群点,消除噪声噪声处理聚类算法:K均值方法:层次聚类方法基于密度聚类方法28相似或相邻近的数据聚合在一起形成各个聚类集合,而那些位于聚类集合之外的数据对象,被视为离群点。数据清理2930数据预处理流程0 3 数据清理 数据集成数据集成 数据变换 数据规约31数据集成信息孤岛:指不同软件间,尤其是不同部门间的数据信息不

11、能共享,造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性。定义:将互相关联的分布式异构数据源集集成成到一起,使用户能够以透明的方式透明的方式访问这些数据源。阶段性分布性信息孤岛32数据集成 联邦数据库:将各数据源的数据视图视图集成为全局全局模式模式33 中间件集成:通过统一的全局数据模型全局数据模型来访问异构的数据源 数据复制:将各个数据源的数据复制到同一处,即数据仓库数据仓库数据集成的方法:联邦数据库,中间件集成,数据复制。数据集成q 集成过程中需要处理的问题实体识别冗余与相关分析数据冲突和检测34 实体识别:实体识别:匹配多个信息源在现实世界中的等价实体。数据集成同义不同名同义不

12、同名IDcustomer_idcust_numberNo?=?=同名不同义同名不同义discount商品订单35 冗余冗余问题:问题:属性重复,属性相关冗余,元组重复。数据集成数值数据的相关系数数值数据的协方差客户编客户编号号客户名称客户名称.female性别性别月薪月薪年收入年收入0001张三0男8960002李四1女7840003王五1女6720004赵刚0男7.5900005赵刚0男7.59036属性重复属性相关冗余元组重复 数据冲突的检测与处理数据冲突的检测与处理对现实世界的同一实体,来自不同数据源的属性定义不同。原因:表示方法,度量单位、编码或比例的差异原因:表示方法,度量单位、编码

13、或比例的差异数据集成厘米英尺mm磅公斤统一37小结3839数据预处理0 3 影响数据质量的因素 数据清理 数据集成 数据规约数据规约 数据变换40 为什么要数据规约在现实场景中,数据集是很庞大的,数据是海量的,在整个数据集上进行复杂的数据分析和挖掘需要花费很长的时间。数据规约41 数据规约目的用于帮助从原有庞大数据集中获得一个精简精简的数据集合,并使这一精简数据集保持原有数据集的完整性保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同基本相同。标准 用于规约的时间不应当超过或抵消在规约后的数据上挖掘节省的时间。规约得到的数

14、据比原数据小得多,但可以产生相同或几乎相同的分析结果维归约数量归约数据压缩数据规约42维归约-主成分分析主成分分析主成分分析:主成分分析主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复。43-这种方法在引进多方面变量的同时将复杂因素归结为几个主成分,使问题简单化,同时得到的结果更加科学有效的数据信息。属性子集选择属性子集选择l 用于检测并删除不相关、弱相关或冗余的属性。用于检测并删除不相关、弱相关或冗余的属性。l 目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分

15、布维归约-属性子集选择顾客分类顾客分类年龄年龄喜好音乐类型喜好音乐类型 电话号码电话号码住址住址分析顾客是否愿意购买新的流行分析顾客是否愿意购买新的流行CD44数量归约数量归约:通过选择替代的、较小的数据替代的、较小的数据表示形式来减少数据量。数量规约45(1)有参方法:回归和对数的线性模型(2)无参方法:直方图、聚类、抽样和数据立方体聚集(1)有参方法:回归和对数的线性模型回归和对数的线性模型通常使用一个参数模型来评估数据,该方法只需要存储参数,而不是实际数据,能大大减少数据量,但只对数值型数据有效。如:线性回归方法:Y Y=+X X数量规约46(2)无参方法:直方图:直方图:根据属性的数据

16、分布将其分成若干不相交的区间,每个区间的高度与其出现的频率成正比。数量规约例:下面的数据是某商店销售的商品的单价表(已排序):1,1,5,5,5,5,5,8,8,10,10,10,10,12,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,20,20,20,20,20,20,20,21,21,21,21,25,25,25,25,25,28,28,30,30,30。试用直方图表示,以压缩数据。价格清单:1(2),5(5),8(2),10(4),12,14(4),15(5),18(8),20(7),21(4),25(5),28,30(3)47聚

17、类:聚类:将原数据集划分成多个群或聚类。u原则:同类中的数据彼此相似;不同类中的数据彼此不相似。u相似:通常用空间距离度量u 聚类的有效性依赖于实际数据的内在规律。数量规约48数量规约49取样(抽样):允许用数据的较小随机样本(子集)表示大的数据集。取样(抽样):允许用数据的较小随机样本(子集)表示大的数据集。取样方法:取样方法:数量规约50u 不放回简单随机取样(Simple Random Sampling Without Replacement,SRSWOR)u放回简单随机取样(Simple Random Sampling With Replacement,SRSWR)u 聚类取样:先聚类

18、,后取样u 分层取样:先分层,后取样。数量规约:取样SRSSRSWOR(简单随机选样,不回放)SRSWR(简单随机选样,回放)原始数据51数量规约52聚类采样:首先将大数据集D划分为M个互不相交的聚类,然后再从M个类中的数据对象分别进行随机抽取,可最终获得聚类采样的数据子集。聚类采样方法示意图数量规约53聚类取样图示数量规约分层取样:首先将大数据集D划分为互不相交的层,然后对每一层简单随机选样得到D的分层选样。54数量规约分层取样图示分层采样方法示意图根据顾客的年龄组进行分层,然后再在每个年龄组中进行随机选样,从而确保了最终获得分层采样数据子集中的年龄分布具有代表性。55数据立方体聚集数据立方

19、体聚集 数据立方体概念数据立方体是数据的多维建模和表示多维建模和表示,由维度、维度成员和度量值组成。维度维度:观察数据的角度 维度成员维度成员:维的取值 度量值度量值:实际意义的数值 数据立方体聚集定义 将n维维数据立方体聚集成n-1维维的数据立方体数量规约产品类型产品类型时间时间地区地区维度维度维度成员维度成员度量值度量值230056数据立方体聚集数据立方体聚集200220032004Home entertanment203330004000computer300645556000phone60010004000security2005001000数据规约57数据压缩数据压缩:利用数据编码或

20、数据转换将原来的数据集合压缩压缩为一个较小规较小规模模的数据集合。l 无损压缩(loseless):可以不丢失任何信息地还原还原压缩数据;如:字符串压缩,压缩格式:Zip或RARl 有损压缩(lossy):只能重新构造原数据的近似近似表示;如:音频/视频压缩。音频能够在没有察觉的质量下降情况下实现 10:1 的压缩比,视频能够在稍微观察质量下降的情况下实现如 300:1 这样非常大的压缩比。数据归约数据归约58数据规约小结数据规约小结59数据预处理0 3 影响数据质量的因素 数据清理 数据集成 数据规约 数据变换数据变换61数据变换目的:目的:将数据转换或统一成易于进行数据挖掘易于进行数据挖掘

21、的数据存储形式,使得挖掘过程可能更有效。方法策略方法策略:光滑:去掉数据中的噪音。属性构造:由给定的属性构造新的属性构造新的属性并添加到属性集中,帮助数据分析和挖掘。聚集:对数据进行汇总汇总或聚集聚集 规范化:将属性数据按比例缩放比例缩放,使之落入一个小的特定区间 离散化:数值属性用区间标签区间标签或概念标签概念标签替换。由标称数据产生概念分层:属性,如street,可以泛化到较高的概念层,如city或country。62数据变换规范化规范化:将数据按比例进行缩放,使之落入一个特定的区域。常用的算法:最小-最大规范化;零-均值规范化(z-score规范化);小数定标规范化。63例:假定属性in

22、come的最小与最大值分别为$12000和$98000,可根据最小最大规范化方法将其范围映射到0,1:如:属性值$73600将变换为:(73600-12000)/(98000-12000)*(1-0)+0=0.716数据变换64数据变换65663)小数定标规范化小数定标规范化:通过移动属性A的小数点位置进行规范化,小数点的移动依赖于A的最大绝对值:例:例:假定A的取值范围-986,917,则A的最大绝对值为986,为使用小数定标规范化,用1000(即j=3)除每个值,这样-986被规范化为-0.986。其中,其中,j是使是使 Max(|v|)1的最小整数的最小整数数据变换67数据变换总结数据预

23、处理注意项u数据预处理的上述流程并不是完全分开的,在某种场景下是可以一起使用的。68u应该针对具体所要研究的问题通过详细分析后再进行预处理方案的选择。u整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流。u预处理后,若挖掘结果显示和实际差异较大,在排除源数据的问题后,则有必要考虑数据的二次预处理。数据预处理的工具0 4-推荐Kettle&python69数据预处理工具-Kettleu开源,且支持可视化编程。70u支持各种数据源。u数据处理功能很强大。数据预处理工具-Pythonu可以胜任很多领域的工作,是人工智能和大数据时代的明星语言。71u是一种面向对象的解释型计算机程序设计语言,具有丰富和强大的库。72本章总结本章总结感谢您的观赏T H A N K Y O U F O R W A T C H I N G73

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(大数据预处理技术第1章数据预处理概述课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|