数据预处理-ppt课件.ppt_163文库

资源描述

1、数据挖掘目录 CONTENTS1.52 3.13.23.33.4数据存在的问题数据清理数据集成数据归约3.5数据变换与数据离散化Chapter 3.1数据存在的问题4 3.1 数据存在的问题l数据预处理是数据挖掘中的重要一环，而且必不可少。要更有效地挖掘出知识，就必须为其提供干净，准确，简洁的数据。l现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。5 3.1 数据存在的问题数据的不一致：各系统间的数据存在较大的不一致性如属性重量的单位： A数据库重量单位kg B数据库重量单位g6 3.1 数据存在的问题噪声数据：数据中存在着错误或异常（偏离期望值

2、），如：血压和身高为0就是明显的错误。可能的原因有：收集数据的时候难以得到精确的数据，收集数据的设备可能出现故障；数据输入时可能出现错误；数据传输过程中可能出现错误；存储介质有可能出现损坏等。7 3.1 数据存在的问题缺失值：由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素，数据记录可能会出现数据值的丢失或不确定。可能的原因有：l有些属性的内容有时没有；（家庭收入，参与销售事务数据中的顾客信息）l有些数据当时被认为是不必要的；l由于误解或检测设备失灵导致相关数据没有记录下来；l与其它记录内容不一致而被删除；l忽略了历史数据或对数据的修改。8 3.1 数据存在的问题数据质量要求l准

3、确性；l完整性；l一致性；l时效性；l可信性；l可解释性。9 3.1 数据存在的问题数据预处理的任务l数据清理（清洗）去掉数据中的噪声，纠正不一致。l数据集成将多个数据源合并成一致的数据存储，构成一个完整的数据集，如数据仓库。l数据归约（消减）通过聚集、删除冗余属性或聚类等方法来压缩数据。 l数据变换（转换）将一种格式的数据转换为另一格式的数据(如规范化)。10 3.1 数据存在的问题注意：现实世界中的数据需要使用数据预处理来提高数据的质量。这可以提高挖掘过程的准确率和效率。因此，数据预处理是数据挖掘的重要步骤。11 3.1 数据存在的问题Chapter 3.2数据清理12 3.1

4、数据存在的问题12 3.2 数据清理现实世界中大多数的数据是不完整的、有噪声的和不一致的。那么就需要对“脏”的数据进行数据清理。数据清理就是对数据进行重新审查和校验的过程。其目的在于纠正存在的错误，并提供数据一致性。缺失值的处理；噪声数据；不一致数据。13 3.1 数据存在的问题13 3.2 数据清理引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时，有些数据因为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上14 3.1 数据存在的问题14 3.2 数据清理如何处理空缺值？1）忽略元组：若一条记录中有属性值被遗漏

5、了，则将该记录排除在数据挖掘之外但是，当某类属性的空缺值所占百分比很大时，直接忽略元组会使挖掘性能变得非常差2）忽略属性列：若某个属性的缺失值太多，则在整个数据集中可以忽略该属性15 3.1 数据存在的问题15 3.2 数据清理如何处理空缺值？3）人工填写空缺值：工作量大，可行性低4）使用属性的中心度量值填充空缺值：如一条属于a类的记录在A属性上存在缺失值，那么可以用该属性上属于a类全部记录的平均值来代替该缺失值。如面对顾客一次来超市时最常消费的钱数这一字段，可以按照顾客的年龄这一字段进行分类，使用处于相同年龄段的顾客的平均消费的钱数来填充缺失值。16 3.1 数据存在的问题16 3.2 数据

6、清理如何处理空缺值？5）使用一个全局变量填充空缺值：对一个所有属性的所有缺失值都使用一个固定的值来填补（如“Not sure”或）。尽管该方法简单，并不推荐它挖掘的程序可能会误以为这是一个特殊的概念17 3.1 数据存在的问题17 3.2 数据清理如何处理空缺值？6）使用可能的特征值来替换空缺值（最常用）：数据挖掘者可以生成一个预测模型，来预测每个丢失值如可以利用回归、贝叶斯计算公式或判定树归纳确定，推断出该条记录特定属性最大可能的取值如每个样本给定3个特征A、B、C，那么可以根据三个值全都作为一个训练集的样本，生成一个特征之间的关系模型，一旦有了训练好的模型，就可以提出一个包含丢失值的新样本

7、，并产生预测值。 18 3.1 数据存在的问题18 3.2 数据清理噪声数据噪声(noise) ：被测量的变量产生的随机错误或误差数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致19 3.1 数据存在的问题19 3.2 数据清理如何检测噪声数据？11()()1nTnininiVxxxxn1211()()nTiinniniMxxVxx马氏距离很大的n维样本就看作噪声数据。20 3.1 数据存在的问题20 3.2 数据清理21 3.2 数据清理例：给定一组三维样本S，,求在距离阈值d大于等于4，非邻点样本的阈值部分p大于等于3时的噪声数据。123456 , (1,2,0),(

8、3,1,4),(2,1,5),(0,1,6),(2,4,3),(4,4,2)SS S S S S S首先，求数据集的欧几里得距离，使用222121212= ()() +()dxxyyzz，计算结果如表所示。表数据集S的距离表4.5835.1966.1643.7424.1231.4143.6063.3173.7422.2363.6064.6904.6906.4032.23622 3.2 数据清理根据表中的结果，可选择S1、S4、S6作为噪声数据。（因为它们的p值大于等于3）。表 S中每个点的距离大于d的p点个数然后根据阈值距离d=4，计算出每个样本参数p=3的值样本样本p p41231323

9、3.1 数据存在的问题23 3.2 数据清理不一致数据数据的不一致性，就是指各类数据的矛盾性、不相容性数据库系统都会有一些相应的措施来解决并保护数据库的一致性，可以使用数据库系统来保护数据的一致。24 3.2 数据清理数据清理方式噪声和缺失值都会产生“脏”的数据有很多原因会使数据产生错误。这时，就需要对数据进行偏差检测。可以使用唯一性原则、连续性原则和空值原则观察数据，来进行偏差检测。1）唯一性规则2）连续性规则3）空值规则25 3.1 数据存在的问题Chapter 3.3数据集成26 3.1 数据存在的问题26 3.3 数据集成数据集成把不同来源、格式、特点和性质的数据合理地集中并合并起来

10、。这些源可以是关系型数据库、数据立方体或一般文件。它需要统一原始数据中的所有矛盾之处，如字段的同名异义；异名同义；单位不统一；字长不一致等。27 3.1 数据存在的问题27 3.3 数据集成集成过程中需要注意的问题：集成的过程中涉及的实体识别问题；冗余问题。28 3.1 数据存在的问题28 3.3 数据集成整合不同数据源中的元数据；进行实体识别：匹配来自不同数据源的现实世界的实体；如：如何确信一个数据库中的brand_name和另一个数据库中的product_name是同一实体。通常，数据库的数据字典和数据仓库的元数据，可帮助避免模式集成中的错误。集成的过程中涉及的实体识别：29 3.1 数据

11、存在的问题29 3.3 数据集成同一属性值不同的数据库中会有不同的字段名；一个属性可以由另外一个表导出，如：一个顾客数据表中的平均月收入属性，可以根据月收入属性计算出来。冗余问题：30 3.1 数据存在的问题30 3.3 数据集成数值属性：采用相关系数和协方差进行相关性分析标称属性：使用卡方检验进行相关性分析冗余的检测：31 3.1 数据存在的问题31 3.3 数据集成数值属性：采用相关系数和协方差进行相关性分析1. 相关系数：32 3.1 数据存在的问题32 3.3 数据集成相关系数实例例：数值属性的协方差分析。表3.6 体重与血压表123456789101112体重684856608356

12、625977587564血压95988796 110 155 135 128 113 168 120 115表3.7 体重和血压的均值和标准差值均值标准差体重63.8310.14血压118.3324.7433 3.1 数据存在的问题33 3.3 数据集成数值属性：采用相关系数和协方差进行相关性分析2. 协方差：34 3.1 数据存在的问题34 3.3 数据集成协方差实例例：使用表3.6数据，求血压是否会随着体重一起变化。然后，计算协方差协方差为负，血压和体重呈负相关。计算期望值68485660835662+5977587564()=63.8312E X9598 8796 110 155 13

13、5 128 113 168 120 115( )=118.3312E Y,(,)=-0.11210.1424.74=28.10X YXYCov X Yr35 3.1 数据存在的问题35 3.3 数据集成标称属性：使用卡方检验进行相关性分析卡方检验：36 3.1 数据存在的问题36 3.3 数据集成标称属性：使用卡方检验进行相关性分析XYx1x2xixnsumy1O11O12O1iO1nO1.y2O21O22O2iO2nO2.yjOj1Oj2OjiOjnOj.yrOr1Or2OriOrnOr.sumO.1O.2O.iO.nm表列联表37 3.1 数据存在的问题37 3.3 数据集成标称属性

14、：使用卡方检验进行相关性分析独立性检验的步骤如下：（1）统计假设：H0：属性X和属性Y之间是独立的（H1:属性X和属性Y之间是相关的）（2）期望频数的计算，计算公式如式所示。（3）自由度的确定38 3.1 数据存在的问题38 3.3 数据集成标称属性：使用卡方检验进行相关性分析39 3.1 数据存在的问题39 3.3 数据集成标称属性：使用卡方检验进行相关性分析（5）统计推断40 3.1 数据存在的问题40 3.3 数据集成卡方检验实例：二分类情况例：对工农业从业者某一年龄段男性患高血压病的情况进行调查，如下表。分析某一年龄段男性患某种疾病与从事工农业是否有影响。患病情况从业情况患病不

15、患病合计工业3868951281农业65322387合计45112171668表四方格列联表41 3.1 数据存在的问题41 3.3 数据集成卡方检验实例：二分类情况（1）统计假设： H0：某一年龄段男性患某种疾病与从事工农业无关（2）期望频数的计算。患病情况从业情况患病不患病合计工业386(346.36)895(934.64)1281农业65(104.64)322(282.36)387合计45112171668表四方格列联表（期望频数）42 3.1 数据存在的问题42 3.3 数据集成卡方检验实例：二分类情况（3）自由度的确定：df=（2-1）*（2-1）=1（4）卡方统计量的计算患

16、病情况从业情况患病不患病合计工业386(346.36)895(934.64)1281农业65(104.64)322(282.36)387合计45112171668表四方格列联表（期望频数）43 3.1 数据存在的问题43 3.3 数据集成卡方检验实例：二分类情况（5）统计判断显著水平自由度0.990.980.950.900.500.100.050.020.010.00510.0000.0010.0040.0160.0452.713.845.416.6410.8320.0200.0400.1030.2111.364.615.997.829.2113.8230.1150.1850.3520.58

17、42.3666.257.829.8411.3416.27表卡方检验临界值表（部分）25.2043.84，因此拒绝假设H0，说明某一年龄段男性患某种疾病与从事工种是相关的44 3.1 数据存在的问题44 3.3 数据集成卡方检验实例：二分类情况45 3.1 数据存在的问题Chapter 3.4数据归约46 3.1 数据存在的问题46 3.4 数据归约对大规模数据库内容进行复杂的数据分析常需要消耗大量的时间，使得这样的分析变得不现实和不可行；数据归约（data reduction）：数据消减或约简，是在不影响最终挖掘结果的前提下，缩小所挖掘数据的规模；数据归约技术可以用来得到数据集的归约表示，它

18、小得多，但仍接近保持原数据的完整性；对归约后的数据集进行挖掘可提高挖掘的效率，并产生相同（或几乎相同）的结果；47 3.1 数据存在的问题47 3.4 数据归约数据归约的标准：用于数据归约的时间不应当超过或“抵消”在归约后的数据集上挖掘节省的时间。归约得到的数据比原数据小得多，但可以产生相同或几乎相同的分析结果。48 3.1 数据存在的问题48 3.4 数据归约数据归约的策略如下：数量归约：通过直方图、聚类和数据立方体聚集等非参数方法，使用替代的、较小的数据表示形式替换原数据。属性子集选择：检测并删除不相关、弱相关或冗余的属性。抽样：使用比数据小得多的随机样本来表示大型的数据集。 49 3

19、.1 数据存在的问题49 3.4 数据归约数量归约：通过直方图、聚类和数据立方体聚集等非参数方法，使用替代的、较小的数据表示形式替换原数据。直方图是一种常见的数据归约的形式。数据立方体是一类多维矩阵，可以使用户从多个角度探索和分析数据集，它的数据是已经处理过的，并且聚合成了立方形式。50 3.1 数据存在的问题50 3.4 数据归约例：用直方图表示数据已知某人在不同时刻下所量血压值为：95，98，87，96，110，155，135，128，113，168，120，115，110，155，135，128，113，158，87，96，110，98，87，94，80，93，89，95，99，10

20、1，111，123，128，113，158，128，113，168，87，96，110。使用等宽直方图表示数据，如图所示。由于需要继续压缩数据，所以一般都是使用桶来表示某个属性的一个连续值域。图3-2等宽直方图51 3.1 数据存在的问题51 3.4 数据归约数量归约-聚类：将原数据集划分成多个群或聚类。原则：同类中的数据彼此相似；不同类中的数据彼此不相似。相似：通常用空间距离度量。聚类的有效性依赖于实际数据的内在规律。 52 3.1 数据存在的问题52 3.4 数据归约属性子集选择：检测并删除不相关、弱相关或冗余的属性。属性子集选择的基本启发式方法包括逐步向前选择、逐步向后删除、逐步

21、向前选择和逐步向后删除的组合以及决策树归纳，表3.7给出了属性子集选择方法。向前选择向后删除决策树归纳初始属性集：初始属性集：初始属性集：初始化归约集：归约后的属性集：归约后的属性集：归约后的属性集：123456,X XXXXX123456,X XXXXX123456,X XXXXX1X14,XX146,X XX123456,X XXXXX13456,X XXXX1456,XXXX146,X XX146,X XX146,X XX146,X XX表3.7 属性子集选择方法53 3.1 数据存在的问题53 3.4 数据归约抽样允许用数据的较小随机样本（子集）表示大的数据集。取样方法：不放回简

22、单随机取样（Simple Random Sampling Without Replacement, SRSWOR）放回简单随机取样（Simple Random Sampling With Replacement, SRSWR）聚类取样：先聚类，后取样分层取样：先分层，后取样。54 3.1 数据存在的问题54 3.4 数据归约数量归约-聚类采样：首先将大数据集D划分为M个互不相交的聚类，然后再从M个类中的数据对象分别进行随机抽取，可最终获得聚类采样的数据子集。 55 3.1 数据存在的问题55 3.4 数据归约数量归约-聚类采样：原始数据聚类样本56 3.1 数据存在的问题56 3.4

23、数据归约数量归约-分层取样：首先将大数据集D划分为互不相交的层，然后对每一层简单随机选样得到D的分层选样。如，根据顾客的年龄组进行分层，然后再在每个年龄组中进行随机选样，从而确保了最终获得分层采样数据子集中的年龄分布具有代表性。 57 3.1 数据存在的问题Chapter 3.5数据变换与数据离散化58 3.1 数据存在的问题58 3.5 数据变换与数据离散化数据变换：将数据转换成适合数据挖掘的形式- 平滑：去掉数据中的噪声，将连续的数据离散化分箱回归聚类- 聚集：对数据进行汇总和聚集 avg(), count(), sum(), min(), max(), 如，每天销售额（数据）可

24、以进行聚集操作以获得每月或每年的总额可用来构造数据立方体59 3.1 数据存在的问题59 3.5 数据变换与数据离散化数据变换：将数据转换成适合数据挖掘的形式- 数据泛化：使用概念分层，用更抽象（更高层次）的概念来取代低层次或数据层的数据对象如：街道属性，可以泛化到更高层次的概念，如城市、国家；同样，对于数值型的属性，如年龄属性，可以映射到更高层次的概念，如年轻、中年和老年。-规范化：把属性数据按比例缩放，使之落入一个特定的小区间-属性构造：通过已知的属性构建出新的属性，然后放入属性集中，有助于挖掘过程。-离散化：数值属性的原始值用区间标签或概念标签替换。60 3.1 数据存在的问题60 3

25、.5 数据变换与数据离散化概念分层：概念分层定义了一组由低层概念到高层概念集的映射。允许在各种抽象级别上处理数据，从而在多个抽象层上发现知识。用较高层概念替换低层次（如年龄的数值）的概念，以此来减少取值个数。虽然一些细节数据在泛化过程中消失了，但这样所获得的泛化数据或许更易于理解、更有意义。另外，在消减后的数据集上进行信息处理显然效率更高。概念分层结构可以用树来表示，树的每个节点代表一个概念。61 3.1 数据存在的问题61 3.5 数据变换与数据离散化例3.5 根据每个属性的不同值的个数产生概念分层。服装类的级别可以分为男装和女装，然后接下去可以分为上装和下装。服装的概念分层可以自动产生，

26、如图3.3所示。图3.3 服装的概念分层62 3.5 数据变换与数据离散化数据变换：将数据转换成适合数据挖掘的形式规范化：将数据按比例进行缩放，使之落入一个特定的区域，以消除数值型属性因大小不一而造成的挖掘结果的偏差。如将工资收入属性值映射到-1.0, 1.0的范围内常用的方法：小数定标规范化；最小-最大规范化；零-均值规范化（z-score规范化）。63 3.1 数据存在的问题63 3.5 数据变换与数据离散化规范化的目的：将一个属性取值范围影射到一个特定范围之内，以消除数值性属性因大小不一而造成挖掘结果的偏差。数据规范化：在正式进行数据挖掘之前，尤其使用基于对象距离的挖掘算法

27、时，必须进行数据的规格化。如对于一个顾客信息数据库中年龄属性或工资属性，由于工资属性的取值比年龄属性的取值要大得多，若不进行规格化处理，基于工资属性的距离计算值将远远超过基于年龄属性的计算值，这就意味着工资属性的作用在整个数据对象的距离计算中被错误放大了。64 3.1 数据存在的问题64 3.5 数据变换与数据离散化10iijvv 65 3.1 数据存在的问题65 3.5 数据变换与数据离散化数据规范化：最小最大规范化：假定minA和maxA分别为属性A的最小和最大值，则通过下面公式将A的值映射到区间new_min, new_max中的v例：假定某公司员工的最大年龄为52岁，最小年龄为21岁，

28、请将年龄映射到区间0.0,1.0的范围内：min()maxminiivAvbaaAA根据最小-最大值规范化，44岁将变换为：4421(1.00)00.7425221 66 3.1 数据存在的问题66 3.5 数据变换与数据离散化数据规范化：z-score规范化（零均值规范化）：将属性A的值根据其平均值和标准差进行规范化；常用于属性最大值与最小值未知，或使用最小最大规范化方法会出现异常数据的情况。例：某公司员工的平均值和标准差分别为25岁和11岁。请根据z-score规范化，将44岁这个数据规范化。 (44-25）/111.727iiAvAv67 3.1 数据存在的问题67 3.5 数据变

29、换与数据离散化注意：规范化将原来的数据改变很多，特别是上述的后两种方法。有必要保留规范化参数（如平均值和标准差，如果使用z-score规范化）以便将来的数据可以用一致的方式规范化。68 3.1 数据存在的问题68 3.5 数据变换与数据离散化数据变换：将数据转换成适合数据挖掘的形式属性构造：利用已有属性集构造出新的属性，并加入到现有属性集中以帮助挖掘更深层次的模式知识，提高挖掘结果的准确性；如，根据宽、高属性，可以构造一个新属性：面积。69 3.1 数据存在的问题69 3.5 数据变换与数据离散化离散化：连续变量的离散化，就是具体性的问题抽象为概括性的问题，即是将它取值的连续区间划分为

30、小的区间，再将每个小区间重新定义为一个唯一的取值。数据离散化的基本方法主要有分箱法和直方图分析法。70 3.1 数据存在的问题70 3.5 数据变换与数据离散化对连续变量进行离散化处理，一般经过以下步骤：对此变量进行排序。选择某个点作为候选断点，根据给定的要求，判断此断点是否满足要求。若候选断点满足离散化的要求，则对数据集进行分裂或合并，再选择下一个候选断点。重复步骤2和3，如果满足停止准则，则不再进行离散化过程，从而得到最终的离散结果。71 3.1 数据存在的问题71 3.5 数据变换与数据离散化分箱的步骤：首先排序数据，并将它们分到等深（等宽）的箱中；然后可以按箱的平均值、按箱中值或者

31、按箱的边界等进行平滑。按箱的平均值平滑：箱中每一个值被箱中的平均值替换按箱的中值平滑：箱中的每一个值被箱中的中值替换按箱的边界平滑：箱中的最大和最小值被视为箱边界，箱中的每一个值被最近的边界值替换72 3.1 数据存在的问题72 3.5 数据变换与数据离散化等深分箱: 按记录数进行分箱，每箱具有相同的记录数，每箱的记录数称为箱的权重，也称箱子的深度。73 3.1 数据存在的问题73 3.5 数据变换与数据离散化例3.6 分箱法。某公司存储员工信息的数据库里表示收入的字段“income”排序后的值（人民币元）：900，1000，1300，1600，1600，1900，2000，2400，260

32、0，2900，3000，3600，4000，4600，4900，5000，请按照等深分箱法分箱。设定权重（箱子深度）为4，分箱后箱1：900，1000，1300，1600箱2：1600，1900，2000，2400 箱3：2600，2900，3000，3600箱4：4000，4600，4900，5000 用平均值平滑结果为：箱1：1200，1200，1200，1200箱2：1975，1975，1975，1975箱3：3025，3025，3025，3025箱4：4625，4625，4625，462574 3.1 数据存在的问题74 3.5 数据变换与数据离散化等宽分箱 (binning): 在整

33、个属性值的区间上平均分布，即每个箱的区间范围设定为一个常量，称为箱子的宽度。75 3.1 数据存在的问题75 3.5 数据变换与数据离散化上例中设定区间范围（箱子宽度）为1000元人民币，按等宽分箱法分箱后箱1：900，1000，1300，1600，1600，1900 箱2：2000，2400，2600，2900，3000 箱3：3600，4000，4600 箱4：4900，5000 用平均值平滑结果为：箱1：1383，1383，1383，1383，1383，1383 箱2：2580，2580，2580，2580，2580 箱3：4067，4067，4067 箱4：4950，4950 76 3.1 数据存在的问题76 3.5 数据变换与数据离散化直方图分析法: 直方图也可以用于数据离散化。它能够递归的用于每一部分，可以自动产生多级概念分层，直到满足用户需求的层次水平后结束。

展开阅读全文