1、钱峰钱峰通信通信与信息工程学院与信息工程学院2018年年第第3 3章章 数据预处理数据预处理2第第3章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结3数据质量:为什么要对数据预处理数据质量:为什么要对数据预处理?n数据质量的评价数据质量的评价:多维角度多维角度n准确性准确性:correct or wrong,accurate or notn完整性完整性:not recorded,unavailable,n一致性一致性:some modified but some not,da
2、ngling,n时效性时效性:及时更新的及时更新的?n可信性可信性:反映有多少数据是用户信赖的反映有多少数据是用户信赖的?n可解释性可解释性:反映数据是否容易理解反映数据是否容易理解?4数据预处理的主要任务数据预处理的主要任务n数据清理数据清理n填充缺失值填充缺失值,识别识别/去除离群点去除离群点,光滑噪音光滑噪音,并纠正数据不一致并纠正数据不一致n数据集成数据集成n多个数据库多个数据库,数据立方体数据立方体,或文件的集成或文件的集成n数据归约数据归约n得到数据集的简化,它小得多,但能够产生同样的分析结果得到数据集的简化,它小得多,但能够产生同样的分析结果n数据变换数据变换n规范化规范化 n数
3、据离散化和概念分层产生数据离散化和概念分层产生5第第2章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结6数据清理数据清理n现实世界的数据是脏:很多潜在的不正确的数据,比如,仪现实世界的数据是脏:很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误器故障,人为或计算机错误,许多传输错误n数据缺失数据缺失:缺少属性值缺少属性值,缺少某些有趣的属性缺少某些有趣的属性,或仅包含聚或仅包含聚集数据集数据ne.g.,职业职业=“”(missing data)n噪声噪声:
4、包含错误或孤立点包含错误或孤立点ne.g.,Salary=“10”(an error)n不一致不一致:编码或名字存在差异编码或名字存在差异,e.g.,nAge=“42”,Birthday=“03/07/2010”n以前的等级以前的等级“1,2,3”,现在等级现在等级“A,B,C”n重复记录间的差异重复记录间的差异n人为有意的人为有意的(e.g.,默认值默认值)nJan.1 as everyones birthday?7如何处理缺失数据如何处理缺失数据?n忽略元组忽略元组:缺少类别标签时常用(假定涉及分类缺少类别标签时常用(假定涉及分类不是不是很有效,当每个属性的缺失百分比变化大时很有效,当每个
5、属性的缺失百分比变化大时n手工填写缺失数据手工填写缺失数据:乏味乏味+费时费时+不可行不可行?n自动填充(采用一些规则)自动填充(采用一些规则)n一个全局常量一个全局常量:e.g.,“unknown”,a new class?!n使用属性的中心度量(如均值或中位数)使用属性的中心度量(如均值或中位数)n与给定元组同一类的所有样本的属性均值与给定元组同一类的所有样本的属性均值:更巧妙更巧妙n最可能的值最可能的值:基于推理的方法,如回归、基于推理的方法,如回归、贝叶斯公式或贝叶斯公式或决策树决策树8噪声数据噪声数据n噪声噪声:被测量的变量的随机误差被测量的变量的随机误差n不正确的属性值可能由于不正
6、确的属性值可能由于n错误的数据收集工具错误的数据收集工具n数据录入问题数据录入问题n数据传输问题数据传输问题n技术限制技术限制n不一致的命名惯例不一致的命名惯例n其他需要数据清理的问题其他需要数据清理的问题n重复记录重复记录n数据不完整数据不完整n不一致的数据不一致的数据9如何处理噪音数据如何处理噪音数据?n分箱分箱:n排序数据,分布到等频排序数据,分布到等频/等宽的箱等宽的箱/桶中桶中n箱均值光滑、箱中位数光滑、箱边界光滑箱均值光滑、箱中位数光滑、箱边界光滑,etc.n聚类聚类n检测和去除检测和去除 离群点离群点/孤立点孤立点n计算机和人工检查相结合计算机和人工检查相结合n人工检查可疑值人工
7、检查可疑值(e.g.,deal with possible outliers)n回归回归n回归函数拟合数据回归函数拟合数据10分箱:简单的离散化方法分箱:简单的离散化方法n等宽度等宽度剖分剖分:n分成大小相等的分成大小相等的n个区间个区间:均匀网格均匀网格n若若A和和B是是 属性的最低和最高取值属性的最低和最高取值,区间宽度为区间宽度为:W=(B A)/N.n孤立点可能占据重要影响孤立点可能占据重要影响n倾斜的数据处理不好倾斜的数据处理不好n等频剖分等频剖分/等深等深:n分成分成n个区间个区间,每一个含近似相同数目的样本每一个含近似相同数目的样本nGood data scalingn类别属性可
8、能会非常棘手类别属性可能会非常棘手.11Binning Methods for Data Smoothing*Sorted data for price(in dollars):4,8,9,15,21,21,24,25,26,28,29,34*Partition into(等频等频)bins:-Bin 1:4,8,9,15 -Bin 2:21,21,24,25 -Bin 3:26,28,29,34*Smoothing by bin means:-Bin 1:9,9,9,9 -Bin 2:23,23,23,23 -Bin 3:29,29,29,29*Smoothing by bin bounda
9、ries:-Bin 1:4,4,4,15 -Bin 2:21,21,25,25 -Bin 3:26,26,26,3412聚类分析聚类分析13Regressionxyy=x+1X1Y1Y114数据清理作为一个过程数据清理作为一个过程n数据偏差检测数据偏差检测n使用元数据使用元数据(数据性质的知识数据性质的知识)(e.g.,定义域定义域,每个属性可接受每个属性可接受值值,统计分布,统计分布,IQR等等)n检查字段过载检查字段过载:新属性的定义挤进已经定义的属性的未使:新属性的定义挤进已经定义的属性的未使用部分用部分 n检查唯一性规则检查唯一性规则,连续性规则连续性规则,空值规则空值规则n使用商业工
10、具使用商业工具n数据清洗数据清洗:使用简单的领域知识使用简单的领域知识(e.g.,邮编邮编,拼写检查拼写检查)检查纠正错误检查纠正错误n数据审计数据审计:通过分析数据发现规则和联系发现违规者通过分析数据发现规则和联系发现违规者(孤立点孤立点)n数据迁移和集成数据迁移和集成n数据迁移工具数据迁移工具Data migration tools:允许指定转换允许指定转换n提取提取/变换变换/装入工具装入工具:允许用户通过图形用户界面指定变换允许用户通过图形用户界面指定变换n整合两个过程整合两个过程n两个过程迭代和交互执行两个过程迭代和交互执行(e.g.,Potters Wheels)15第第3章章:数
11、据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结16数据集成数据集成n数据集成数据集成:n合并多个数据源中的数据,存在一个一致的数据存储中合并多个数据源中的数据,存在一个一致的数据存储中n涉及涉及3个主要问题:模式集成、冗余数据、冲突数据值个主要问题:模式集成、冗余数据、冲突数据值n模式集成(实体识别)模式集成(实体识别)n例如例如.,A.cust-id?B.cust-#n实体识别问题实体识别问题:n多个数据源的真实世界的实体的识别多个数据源的真实世界的实体的识别,e.g.,Bill
12、 Clinton=William Clintonn集成不同来源的元数据集成不同来源的元数据n冲突数据值的检测和解决冲突数据值的检测和解决n对真实世界的实体,其不同来源的属性值可能不同对真实世界的实体,其不同来源的属性值可能不同n原因原因:不同的表示不同的表示,不同尺度不同尺度,公制公制 vs.英制英制17数据集成中冗余数据处理数据集成中冗余数据处理n冗余数据(集成多个数据库时出现)冗余数据(集成多个数据库时出现)n目标识别目标识别:同一个属性在不同的数据库中有不同的名称:同一个属性在不同的数据库中有不同的名称n衍生数据衍生数据:一个属性值可由其他表的属性推导出:一个属性值可由其他表的属性推导出
13、,e.g.,年收入年收入n相关分析相关分析/协方差分析协方差分析n可用于检测冗余数据可用于检测冗余数据n小心的集成多个来源的数据可以帮助降低和避免结果数据小心的集成多个来源的数据可以帮助降低和避免结果数据集中的冗余和不一致,提高数据挖掘的速度和质量集中的冗余和不一致,提高数据挖掘的速度和质量18相关分析相关分析(数值数据数值数据)nCorrelation coefficient(also called Pearsons product moment coefficient)n相关系数(皮尔逊相关系数)相关系数(皮尔逊相关系数)n元组个数元组个数,和和 属性属性A和和B上的平均值上的平均值,A
14、和和B分别为各分别为各自标准差,自标准差,(aibi)是是 AB叉积叉积(cross-product)之和之和.nrA,B 0,A和和B正相关正相关(值越大相关程度越高值越大相关程度越高)nrA,B=0:不相关不相关;nrAB 0,A 和和B 同时倾向于大于期望值。同时倾向于大于期望值。n负协方差:负协方差:CovA,B 0.21Co-Variance:An Example标称数据的标称数据的X2相关检验相关检验n2(chi-square)卡方检验卡方检验nij是是(ai,bj)的观测频度(实际计数)的观测频度(实际计数)neij是是(ai,bj)的期望频度的期望频度nN数据元组的个数数据元组
15、的个数A属性a1a2iacb1Bb2jbr(A=ai,B=bj)rjijijijciee1212)(NbBcountaAcountejiij)(*)(n2 值越大值越大,相关的可能越大相关的可能越大n对对 2 值贡献最大的项,其实值贡献最大的项,其实际值与期望值相差最大的项际值与期望值相差最大的项n相关不意味着因果关系相关不意味着因果关系23卡方分布卡方分布24Chi-Square 卡方值计算卡方值计算:例子例子n2(卡方)(卡方)计算(括号中的值为期望计值,由两个类别的计算(括号中的值为期望计值,由两个类别的分布数据计算得到)分布数据计算得到)n结果表明结果表明like_fiction 和和
16、play_chess 关联关联93.507840)8401000(360)360200(210)21050(90)90250(22222Play chessNot play chessSum(row)看小说看小说250(90)200(360)450不看小说不看小说50(210)1000(840)1050Sum(col.)30012001500901500300*450)(*)(11Ncountcounte下棋看小说25第第3章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结26
17、数据规约策略数据规约策略n数据归约数据归约:获得数据集的一个获得数据集的一个规约规约表示,小很多,接近保持表示,小很多,接近保持原数据的完整性,使得可原数据的完整性,使得可得到相同得到相同/几乎相同的分析结果几乎相同的分析结果n为什么需要数据归约为什么需要数据归约?数据库和数据仓库可能存储数据库和数据仓库可能存储兆兆字兆兆字节节大小数据,在完整的数据库进行复杂数据分析需要花费大大小数据,在完整的数据库进行复杂数据分析需要花费大量时间量时间.n数据归约策略数据归约策略n维归约维归约,e.g.,e.g.,减少不重要的属性减少不重要的属性n小波变换小波变换n主成分分析主成分分析n特征子集选择特征子集
18、选择n数量归约:数量归约:用较小的数据形式替代原始数据用较小的数据形式替代原始数据n回归和对数回归和对数-线性模型线性模型n直方图直方图,聚类聚类,抽样抽样n数据立方体聚集数据立方体聚集n数据压缩数据压缩27维归约维归约n维数灾难:维数增加,数据变得稀疏维数灾难:维数增加,数据变得稀疏n稀疏数据使得点之间的距离变得不太有意义稀疏数据使得点之间的距离变得不太有意义n计算复杂度增加:子空间的可能的组合将成倍增长计算复杂度增加:子空间的可能的组合将成倍增长n维数归约:降低维度,避免维数灾难维数归约:降低维度,避免维数灾难n有助去掉不相关的属性和减少噪声有助去掉不相关的属性和减少噪声n减少数据挖掘的计
19、算时间和空间减少数据挖掘的计算时间和空间n更容易可视化更容易可视化n维数归约技术维数归约技术n小波变换小波变换n主成分分析主成分分析n有监督和非线性有监督和非线性 (例如:例如:特征选择特征选择)28维归约维归约小波变换小波变换n离散傅里叶变换离散傅里叶变换 通常只关注某一频段,减少数据量通常只关注某一频段,减少数据量n小波变换:将数据变换到新的空间小波变换:将数据变换到新的空间 n离散小波变换离散小波变换 a是时间偏移,是时间偏移,b是尺度是尺度将将a、b离散化取值离散化取值FFT vs wavelet0100200300400500600-1-0.8-0.6-0.4-0.200.20.40
20、.60.81050010001500200025003035404550556065TimeFrequency02004006008001000120014001600180000.10.20.30.40.50.60.70.80.910100200300400500600-1-0.8-0.6-0.4-0.200.20.40.60.81nLinear chirp and waveletnTake a linear chirp and its FFT3030 x2x1e维归约维归约主成分分析主成分分析(PCA)nPrincipal Component Analysis,K-L变换变换n找到一个投影
21、,其能表示数据的最大变化找到一个投影,其能表示数据的最大变化n原始数据投影到一个更小的空间中,导致维度减少原始数据投影到一个更小的空间中,导致维度减少3131n给定给定p维空间中的维空间中的N各点各点,找到找到 k p 个个正交向量正交向量(principal components)可以很好表示原始数据的可以很好表示原始数据的 n归范化输入数据归范化输入数据:每个属性值位于相同的区间内每个属性值位于相同的区间内n计算计算 k 个标准正交向量个标准正交向量,i.e.,principal componentsn每个输入的点是这每个输入的点是这k 个主成分的线性组合个主成分的线性组合n对主成分按对主
22、成分按“重要性重要性”或强度降序排列。或强度降序排列。n既然主城按照既然主城按照“重要性重要性”降序排列,因此可以通过去掉降序排列,因此可以通过去掉较弱的成分来归约数据。较弱的成分来归约数据。n可以用来处理有序和无序的属性,处理稀疏和倾斜数据可以用来处理有序和无序的属性,处理稀疏和倾斜数据维归约维归约主成分分析主成分分析(PCA)32X1X2Y1Y2维归约维归约主成分分析主成分分析(PCA)33维归约维归约特征选择特征选择n特征选择特征选择Feature selection(i.e.,属性子集选择属性子集选择):n删除不相关删除不相关/冗余属性,减少数据集冗余属性,减少数据集n找出最小属性集,
23、类别的数据分布尽可能接近找出最小属性集,类别的数据分布尽可能接近 使用全部属使用全部属性值的原分布性值的原分布n减少了发现的模式数目减少了发现的模式数目,容易理解容易理解nd个属性,有个属性,有2d 个可能的属性子集个可能的属性子集n启发式方法启发式方法Heuristic methods(因为指数级的可能性因为指数级的可能性):n局部最优选择,期望获得全局最优解局部最优选择,期望获得全局最优解n逐步向前选择逐步向前选择n逐步向后删除逐步向后删除 step-wise backward eliminationn向前选择和向后删除结合向前选择和向后删除结合n决策树归纳决策树归纳 decision-t
24、ree induction34出现在决策树中的属性构成最出现在决策树中的属性构成最后的属性子集后的属性子集最初的属性集合:最初的属性集合:A1,A2,A3,A4,A5,A6A4?A1?A6?Class 1Class 2Class 1Class 2最后的集合:A1,A4,A6维归约维归约决策树规约决策树规约35数量规约数量规约n选择替代的、选择替代的、“较小的较小的”数据表示形式数据表示形式n参数方法参数方法n假设数据适合某个模型,估计模型参数,仅存储的参假设数据适合某个模型,估计模型参数,仅存储的参数,并丢弃数据(孤立点除外)数,并丢弃数据(孤立点除外)n对数线性模型对数线性模型:n基于一个较
25、小的维组合的子集来估计基于一个较小的维组合的子集来估计 离散属性的多维离散属性的多维空间中每个点的概率空间中每个点的概率n非参数方法非参数方法n不假定模型不假定模型nhistograms,clustering,sampling 36数量规约数量规约回归分析回归分析n线性回归线性回归:数据拟合到一条直线上数据拟合到一条直线上n通常使用最小二乘法拟合通常使用最小二乘法拟合n多元线性回归多元线性回归n允许响应变量允许响应变量Y表示为多个预测变量的函数表示为多个预测变量的函数n对数线性模型对数线性模型:n近似离散的多维概率分布近似离散的多维概率分布3737数量规约数量规约回归分析回归分析n研究因变量研
26、究因变量/响应变量响应变量Y(dependent variable/response variable)对对个或多个个或多个自变量自变量/解释变量解释变量(independent variable/explanatory variable)的相依关系的方法的相依关系的方法的统称的统称n参数需要估计以最好拟合给定数据参数需要估计以最好拟合给定数据n绝大多数情况绝大多数情况“最好的拟合最好的拟合”是由最小是由最小二乘法二乘法(least squares method)实现实现,其他其他的方法也有的方法也有n用于预测用于预测(包括时间序列数据的预测包括时间序列数据的预测)、推、推断,假设检验和因果关
27、系的建模断,假设检验和因果关系的建模yxy=x+1X1Y1Y138数量规约数量规约直方图直方图Histogramsn把数据划分成不相交把数据划分成不相交的子集或桶的子集或桶n一维时可用动态规划一维时可用动态规划优化构建优化构建n涉及量化问题涉及量化问题39数量规约数量规约聚类聚类n将对象划分成集将对象划分成集/簇簇,用簇用簇的表示替换实际数据的表示替换实际数据n技术的有效性依赖于数技术的有效性依赖于数据的质量据的质量n使用层次聚类,并多维索使用层次聚类,并多维索引树结构存放引树结构存放n非常多的聚类算法和定义非常多的聚类算法和定义40数量规约数量规约抽样抽样n抽样抽样:获得一个小的样本集获得一
28、个小的样本集s来表示整个数据集来表示整个数据集 Nn允许一个挖据算法运行复杂度子线性于样本大小允许一个挖据算法运行复杂度子线性于样本大小n关键原则关键原则:选择一个有代表性的数据子集选择一个有代表性的数据子集n数据偏斜时简单随机抽样的性能很差数据偏斜时简单随机抽样的性能很差n发展适应抽样方法:分层抽样发展适应抽样方法:分层抽样 nNote:Sampling may not reduce database I/Os(page at a time)41抽样类型抽样类型n简单随机抽样简单随机抽样 Simple random samplingn相同的概率选择任何特定项目相同的概率选择任何特定项目n无放
29、回抽样无放回抽样 Sampling without replacementnOnce an object is selected,it is removed from the populationn放回抽样放回抽样Sampling with replacementn一个被抽中的目标不从总体中去除一个被抽中的目标不从总体中去除n分层抽样分层抽样 Stratified sampling:n把数据分成不相交部分把数据分成不相交部分(层层),然后从每个层抽样然后从每个层抽样(按比例按比例/大大约相同比例的数据约相同比例的数据)n偏斜数据偏斜数据4242数据压缩数据压缩 Data Compression
30、n字符串压缩字符串压缩n有丰富的理论和调优的算法有丰富的理论和调优的算法n典型的是有损压缩;典型的是有损压缩;n但只有有限的操作是可行的但只有有限的操作是可行的n音频音频/视频压缩视频压缩n通常有损压缩,逐步细化通常有损压缩,逐步细化n有时小片段的信号可重构,而不需要重建整个信号有时小片段的信号可重构,而不需要重建整个信号n维度和数值规约可以被看成是数据压缩的一种形式维度和数值规约可以被看成是数据压缩的一种形式4343数据压缩数据压缩Original DataCompressed DatalosslessOriginal DataApproximated lossy44数据立方体聚集数据立方体
31、聚集n数据立方体存储多维聚集信息数据立方体存储多维聚集信息n某抽象层上建的数据立方体称为方体某抽象层上建的数据立方体称为方体(cuboid)n最底层建的方体称为基本方体最底层建的方体称为基本方体(base cuboid)n最高层的立方体称为最高层的立方体称为 顶点方体顶点方体(apex cuboid)n每个更高层的抽象将减少数据的规模每个更高层的抽象将减少数据的规模n使用合适的抽象层上的数据使用合适的抽象层上的数据n对数据立方体聚集得到与任务相关的最小立方体对数据立方体聚集得到与任务相关的最小立方体45第第3章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据
32、集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结数据变换数据变换Data Transformationn数据变换:把数据变换或统一成适合挖掘的形式数据变换:把数据变换或统一成适合挖掘的形式n光滑光滑:去掉噪音,技术:分箱、回归、聚类去掉噪音,技术:分箱、回归、聚类n聚集聚集:汇总:汇总,数据立方体构造数据立方体构造n属性属性/特征构造:特征构造:从给定的属性构造新属性从给定的属性构造新属性(机器学习中称为:特征构造)(机器学习中称为:特征构造)n规范化规范化:按比例缩放到一个具体区间:按比例缩放到一个具体区间n离散化:离散化:原始值用区间标签或概念标签替换原始
33、值用区间标签或概念标签替换n概念分层:概念分层:泛化到较高概念层泛化到较高概念层规范化数据的方法规范化数据的方法n最小最小-最大规范化最大规范化n新数据可能新数据可能“越界越界”nz-分数规范化分数规范化n小数定标:移动属性小数定标:移动属性A的小数点位置的小数点位置(移动位数依赖于属性移动位数依赖于属性A的最大值的最大值)AAAAAAminnewminnewmaxnewminmaxminvv_)_(A标准差均值Avvjvv10J为使为使 Max(|)1的最小整数的最小整数 v48离散化和概念分层离散化和概念分层n离散化:离散化:根据属性值把属性分成若干个较大区间根据属性值把属性分成若干个较大
34、区间n区间标号可以代替实际数据值区间标号可以代替实际数据值 n利用离散化减少数据量利用离散化减少数据量n是否使用类的信息,离散化方法可分为是否使用类的信息,离散化方法可分为有监督有监督和和无监督无监督n可以通过递归的方式离散化可以通过递归的方式离散化n分裂分裂 split(top-down)、合并、合并merge(bottom-up)n自顶向下:由一个自顶向下:由一个/几个点开始递归划分整个属性区间几个点开始递归划分整个属性区间n概念分层:概念分层:递归离散化属性,产生属性值分层递归离散化属性,产生属性值分层/多分辨率划分多分辨率划分49n分箱分箱 Binning(Top-down split
35、,unsupervised)n直方图(直方图(Top-down split,unsupervised)n聚类聚类(unsupervised,top-down split or bottom-up merge)n基于基于 2分析的区间合并分析的区间合并(supervised,bottom-up merge)n根据自然划分根据自然划分离散化和概念分层离散化和概念分层50 Chi-merge离散化离散化nChi-merge:2-based discretizationn有监督有监督:use class informationn自低向上自低向上:find the best neighboring in
36、tervals(具有相似的具有相似的类别分布类别分布,i.e.,low 2 values)to mergen递归地合并递归地合并,until a predefined stopping condition算法具体步骤参考(完成习题算法具体步骤参考(完成习题3.12):):https:/www.aaai.org/Papers/AAAI/1992/AAAI92-019.pdf51由自然划分离散化由自然划分离散化n3-4-5 规则规则n如果最高有效位包含如果最高有效位包含 3,6,7 or 9 个不同的值个不同的值,partition the range into 3 个等宽区间(个等宽区间(7:2
37、-3-2分成分成3个区间)个区间)n2,4,or 8 不同的值不同的值,区域分成区域分成 4 个等宽区间个等宽区间n1,5,or 10 不同的值不同的值,区域分成区域分成5 个等宽区间个等宽区间n类似地,逐层使用此规则类似地,逐层使用此规则52标称数据的概念分层标称数据的概念分层n用户用户/专家在模式级显式地指定属性的偏序专家在模式级显式地指定属性的偏序nstreetcitystatecountryn通过显式数据分组说明分层通过显式数据分组说明分层n厄巴纳,香槟,芝加哥厄巴纳,香槟,芝加哥Illinoisn只说明属性集但不说明它们的偏序只说明属性集但不说明它们的偏序 n系统自动产生属性偏序,根
38、据系统自动产生属性偏序,根据 每个属性下不同值的数据每个属性下不同值的数据n启发式规则:相比低层,高层概念的属性通常有较少取值启发式规则:相比低层,高层概念的属性通常有较少取值nE.g.,street city state countryn只说明部分属性值只说明部分属性值自动产生概念分层自动产生概念分层nSome concept hierarchies can be automatically generated based on the analysis of the number of distinct values per attribute in the given data set
39、n含不同值最多的属性放在层次的最低层含不同值最多的属性放在层次的最低层nNote:Exceptionweekday,month,quarter,yearcountryprovince_or_ statecitystreet15 distinct values365 distinct values3567 distinct values674,339 distinct values54SummarynData preparation is a big issue for both warehousing and miningnData preparation includesnData clea
40、ning and data integrationnData reduction and feature selectionnDiscretizationnA lot a methods have been developed but still an active area of research55ReferencesnE.Rahm and H.H.Do.Data Cleaning:Problems and Current Approaches.IEEE Bulletin of the Technical Committee on Data Engineering.Vol.23,No.4n
41、D.P.Ballou and G.K.Tayi.Enhancing data quality in data warehouse environments.Communications of ACM,42:73-78,1999.nH.V.Jagadish et al.,Special Issue on Data Reduction Techniques.Bulletin of the Technical Committee on Data Engineering,20(4),December 1997.nA.Maydanchik,Challenges of Efficient Data Cle
42、ansing(DM Review-Data Quality resource portal)nD.Pyle.Data Preparation for Data Mining.Morgan Kaufmann,1999.nD.Quass.A Framework for research in Data Cleaning.(Draft 1999)nV.Raman and J.Hellerstein.Potters Wheel:An Interactive Framework for Data Cleaning and Transformation,VLDB2001.nT.Redman.Data Qu
43、ality:Management and Technology.Bantam Books,New York,1992.nY.Wand and R.Wang.Anchoring data quality dimensions ontological foundations.Communications of ACM,39:86-95,1996.nR.Wang,V.Storey,and C.Firth.A framework for analysis of data quality research.IEEE Trans.Knowledge and Data Engineering,7:623-640,1995.nhttp:/www.cs.ucla.edu/classes/spring01/cs240b/notes/data-integration1.pdf第一次作业第一次作业n第二章:习题第二章:习题2.4(P53)和习题和习题2.8(P54)n第三章:习题第三章:习题3.3(P79)和习题和习题3.7(P80)n程序题:习题程序题:习题3.12(P80),递交分析和检验报告和,递交分析和检验报告和 MATLAB源代码(加简单注释)文档。源代码(加简单注释)文档。n数据库下载地址:数据库下载地址:http:/archive.ics.uci.edu/ml/datasets/Iris