1、1现实世界的数据是“脏的”随着数据规模增加,会出现很多数据质量问题:不完整不完整(Incomplete)缺失值;缺乏某些重要属性;仅包含聚集数据;噪声噪声(Noisy)包含错误值、离群点(outlier)不一致不一致由于重复存放的数据未能进行一致性地更新造成的多用户系统,更新操作未能保持同步进行而引起由于各种故障、错误造成的为什么要进行数据预处理?正确的数据:John Doe|123 Main Street“脏数据”举例:23预处理为什么是重要的?No quality data,no quality mining results!数据中存在的不一致以及噪声,对很多数据挖掘算法影响较大,甚至“挖
2、掘”出错误的知识;很多挖掘算法对于数据的分布等条件有限制,需要预先处理;数据维数过高会引起“维数灾难”或者“过拟合”,需要进行降维等预处理。It is often postulated that 50-70 percent of the time and effort in a data mining project is used in the Data Preparation Phase -CRISP-DM评价数据质量的指标-1精度精度(precision)(precision):(相同量)重复测量之间的封闭性,通常用值集合的标准差度量,表示观测值与真值的接近程度。偏倚偏倚(bias)(b
3、ias):测量值对真值的偏离。包括测量仪器的不准,样本过小,抽样未随机,测量者有主观倾向等。用值集合的均值与被测量的已知值之间的差度量。准确率准确率(Accuracy)(Accuracy):被测量的测量值与实际值之间的接近度。表示数据测量误差的程度。准确率的重要考虑是有效数字有效数字(significant digit)。偏倚的例子:弹簧秤归零不准;穿鞋量身高;评价数据质量的指标-2完整性完整性(Completeness):(Completeness):记录的缺失,一个对象遗漏一个或多个属性值,实体完整性(Entity Integrity),域完整性(Domain Integrity),参照完
4、整性(Referential Integrity)一致性一致性(Consistency):(Consistency):多个数据间更新的同步,包括数据记录的规范和数据逻辑的一致性,时效性时效性(Timeliness)(Timeliness):是否及时更新可信性可信性(BelievabilityBelievability)解释性解释性(Interpretability)(Interpretability)5认识数据Identify the typical properties of data678数据的汇总统计-Data Summarization量化的,用单个数或小集合捕获可能很大的值集的各种特
5、征。描述数据集中趋势(central tendency)的度量:Mean(均值),median(中位数),mode(众数),midrange(中列数):最大和最小值的均值描述数据离散程度(dispersion)的度量:Quartiles(四分位数),interquartile range(IQR):四分位数极差,and variance(方差)9数据集中趋势(1):平均数最常见的描述数据集中趋势的统计量:算术平均数(Arithmetic Mean)平均数的优点:它能够利用所有数据的特征,而且比较好算。不足之处,平均数容易受极端数据的影响。11niixxn平均数的性质如下 一个集合中的各个数据与
6、算术平均数离差之和等于零:一个集合中的各个数据与算术平均数的离差平方之和是最小的:1()0niixx21()()niif cxc数据集中趋势(2):中位数median(x)中位数(Median)Median):按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。如果大于和小于中位数的数值个数均少于一半,数集中必有若干值等于中位数。例:3,13,7,5,21,23,39,23,40,23,14,12,56,23,29排序后:3,5,7,12,13,14,21,2323,23,23,23,29,39,40,56 这15个数中,第8个数为中位数:23中位数
7、是通过排序得到的,它不受最大、最小两个极端数值的影响。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用来描述这组数据的集中趋势。1011数据集中趋势(3):众数众数(Mode):ode):在一组数据中,出现次数最多的数据;用众数代表一组数据,适合于数据量较多时使用,且众数不受极端数据的影响;当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用,由于可能无法良好定义算术平均数和中位数。例子:苹果,苹果,香蕉,橙,橙,橙,桃的众数是橙。A=1,2,3,5,6,8,2,26,34,3,4,5,2,3,2,4,2,5,2k=mode(A)find(A=k)集中趋势到分布
8、形态度量-偏度12偏度(Skewness):是统计数据分布偏斜方向和程度的度量。皮尔逊偏态系数(Pearsons Coefficient of Skewness)使用众数(Mode):使用中位数(Median)131XMoSks23)XMdSks(14数据离散程度(dispersion)观测变量各个取值之间的差异程度;观测变量各个取值之间的差异程度;常用度量:极差:Range五数概括法:Five-number summary(based on quartiles)四分位距:Interquartile range,IQR标准差:standard deviation.箱形图箱形图(Boxplots
9、)(Boxplots)显示一组数据分散情况资料的统计图。15数据离散程度(2):极差极差(Range):极差是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示。它能体现一组数据波动的范围。极差越大,离散程度越大;未能利用全部测量值的信息,不能细致地反映测量值彼此相符合的程度;易受极端值的影响。数据离散程度(3):百分位数k百分位数(percentile):将一组数据从小到大排序,并计算相应的累计百分位,如处于k%位置的值称第k百分位数用xk%表示16k k百分位数(百分位数(PercentilePercentile)计算计算有很多种计算K百分位数的方法,当xk%位于第i与第j个数
10、据之间时(ij),可以使用几种插值方法来计算:线性插值(linear)、下界(lower)、上界(higher)、中点(midpoint)和最近邻(Nearest)【例】设有一组数据:-35,10,20,30,40,50,60,100,求它的25百分位数,即 x25%。先确定x25%的位置:1+(n-1)k%=1+(8-1)25%=2.75,处于第2和第3个数之间,即10与20之间。线性插值:10+(20-10)0.75=17.5下界、上界、中点和最近邻的方法:10、20、15和201718数据离散程度(4):四分位数 四分位数(quartiles):Q1,第25百分位数;Q2,中位数;Q3,
11、第75百分位数四分位距(Interquartile range(IQR):Q3-Q1经验公式:超过Q3或者低于Q1 1.5IQR的数据,可能是离群点19数据离散程度(4):五数概括法五数概括法(Five-number summary)Five-number summary):(Minimum,Q1,Median,Q3,Maximum)箱形图箱形图(Boxplots):对五数概括法一种可视化的图形表示。20数据离散程度(4):五数概括法77,79,80,86,87,87,94,99Median:(86+87)2=86.5=Q2分成两部分:77,79,80,86|87,87,94,99.Q1=(7
12、9+80)2=79.5Q3=(87+94)2=90.5min:77,Q1:79.5,Q2:86.5,Q3:90.5,max:9921数据离散程度(5):方差和标准差方差(Variance)var(x)总体的方差:样本方差:标准差(Standard Deviation)std(x)标准差=方差的算术平方根22()=XN2211=()1niisxxn数据离散程度(5):方差和标准差分布状态:方差大表示系统的要素两极分化大,方差小表示系统的要素基本处于中等位置,偏离小。方差大的系统要用分层次的策略应对;方差小的系统要用集中性的策略应对。波动性:方差大的系统波动性大,方差小的系统稳定性好。从上述方差和
13、标准差定义来看,它们的大小与数据本身的大小密切相关,并且都带有量纲。具有不同量纲的数据集合或者刻画对象的不同属性之间,就很难比较离散程度的大小。接下来介绍的离散系数则可以避免上述问题。22数据离散程度(6):离散系数(Coefficient of Variation)离散系数又称变异系数变异系数,样本变异系数是样本标准差与样本平均数之比:23vsCx组别组别数据数据均值均值标准标准差差离散系数离散系数成人成人166,167,169,169,169,170,170,171,171,171,171,172,173,173,173,175,175,176,177,179171.853.330.019
14、4幼儿幼儿67,68,69,70,70,71,71,71,72,72,72,72,72,72,73,74,75,76,76,7772.002.640.0366 两组数据平均值相差很大,标准差不能判断各自数据差异的大小。通过计算离散系数,可以看出,虽然成人组的标准差大于幼儿组,但是幼儿组的离散系数明显大于成人组,因此可以说明,幼儿组的身高差异比成人组大。24度量的分类分布式度量分布式度量(Distributive)(Distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样count(),sum(),min(),max()代数度量代数度量(Algebraic)(
15、Algebraic):可以 通过在一个或多个分布式度量上应用一个代数函数而得到avg(),min_N(),max_N(),standard_deviation()整体度量整体度量(Holistic)(Holistic):必须对整个数据集计算的度量计算子聚集所需的存储没有常数界median(中位数),mode(众数),rank().25中位数是一个整体的度量(holistic measureholistic measure)一个集合的中位数可以如下估计:通过直方图估计中位数通过直方图估计平均数26多元汇总:相关性分析(Correlation Analysis)散点图散点图判断两个属性之间是否有相
16、关性,可以首先通过散点图散点图进行直观判断。散点图是将两个属性的成对数据,绘制在直角坐标系中得到的一系列点,可以直观地描述属性间是否相关、相关的表现形式以及相关的密切程度。27多元汇总:相关性分析(Correlation Analysis)28多元汇总:相关性分析(Correlation Analysis)数据的各个属性之间的关系密切程度的度量,主要是通过相关系数的计算与检验来完成的。先来介绍一下协方差协方差的概念:291()()(,)1niiiXX YYCov X Yn协方差可以反应两个属性在变化过程中是同方向变化,还是反方向变化,其同向或反向的共同变化程度如何?协方差的正负代表了两个属性之
17、间相关性的方向,而协方差的绝对值代表了它们相互关系的强弱。协方差的大小与属性的取值范围以及量纲都有关系,造成不同的属性对之间的协方差难以进行横向比较。为了解决这个问题,把协方差归一化,就得到样本相关系数样本相关系数的计算公式:(,)(,)XYCov X Yr X Ys s30多元汇总:相关性分析(Correlation Analysis)线性相关l 相关系数:0.9575 31多元汇总:相关性分析(Correlation Analysis)非线性数据表现不佳:相关系数 0,意味着不相关?但数据确实是相关的 非线性相关32标称数据卡方相关检验标称数据卡方相关检验Correlation Analy
18、sis(Correlation Analysis(Categorical Data)两个数值型属性,用相关系数来分析它们的相关性。对两个标称属性(分类属性),它们之间的独立性检验可以使用卡方检验来推断。2(chi-square)检验两个属性A、B的相关性ExpectedExpectedObserved22)(2=507.93自由度=(2-1)(2-1)=1男男女女合计合计小说小说250(90)200(360)450450非小说非小说50(210)1000(840)10501050合计合计3003001200120015001500标称数据卡方相关检验Correlation Analysis(C
19、ategorical Data)卡方分布表33在0.001的置信水平下,拒绝假设(两个属性独立)的值是10.83。由于我们计算的卡方值大于该值,因此拒绝独立假设。阅读偏好与性别(强)相关。34数据预处理主要任务:数据清洗数据清洗(Data cleaning)缺失值填充:Filling in missing values平滑噪声:Smoothing noisy data识别和去除离群点:Identifying or removing outliers,解决不一致性:Resolving inconsistencies35数据预处理主要任务:数据集成l数据集成:数据集成:Data integrati
20、on36数据变换(Data transformation)规范化:Normalization聚集:Aggregation37数据归约/约简:Data reduction38数据清洗数据清洗Data Cleaning数据缺失的形式将数据集中不含缺失值的变量(属性)称为完全变量完全变量;数据集中含有缺失值的变量称为不完全变量不完全变量Little 和 Rubin定义了以下三种不同的数据缺失机制:1.完全随机缺失(Missing Completely at Random,MCAR)。数据的缺失与不完全变量以及完全变量都是无关的。2.随机缺失(Missing at Random,MAR)。数据的缺失仅
21、仅依赖于完全变量。3.非随机、不可忽略缺失(Not Missing at Random,NMAR,or no ignorable)。不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的。39缺失值填充在许多实际问题的研究中,有一些数据无法获得或缺失。当缺失比例很小时,可直接对完全记录进行数据处理,舍弃缺失记录。但在实际数据中,往往缺失数据占有相当的比重,尤其是多元数据。这时前述的处理将是低效率的,因为这样做丢失了大量信息,并且会产生偏倚,使不完全观测数据与完全观测数据间产生系统差异。4041均值填充法将变量的属性分为数值型和非数值型来分别进行处理。如果缺失值是数值型的,就根据该变量
22、在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,则使用众数来补齐该缺失的变量值。这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。改进:局部均值填充用与元组属于同一个“类别”的元组的均值填充缺失值填充:均值填充法缺失值填充:回归添补法把缺失属性作为因变量,其他相关属性作为自变量,利用他们之间的关系建立回归模型的来预测缺失值,以此完成缺失值插补的方法。42缺失值填充:热卡填充(Hot deck 填补法、就近补齐法)对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能
23、会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准,主观因素较多。43缺失值填充:其它方法极大似然估计期望最大化法K最近距离邻法C4.5方法4445一种最简单的平滑方法:分箱(Binning)存储的值被分布到一些“桶”或箱中。分箱方法参考相邻的值,因此它进行局部平滑。分箱方法:首先排序数据,并将它们分到等深(等宽)的箱中;平滑各个分箱中的数据:平均数平滑:箱中每一个值被箱的平均数替换中位数平滑:箱中每一个值被箱的中位数替换箱边界平滑:箱中每一个值被离它最近的箱边界值替换。数据清洗:去除噪声(Noisy)数据平滑:分箱等深
24、分箱(binning):按记录数进行分箱,每箱具有相同的记录数每箱的记录数称为箱的权重,也称箱子的深度461.数据排序:4,8,9,15,21,21,24,25,26,28,29,342.等深分箱:-Bin1:4,8,9,15 -Bin2:21,21,24,25 -Bin3:26,28,29,343.均值平滑:-Bin1:9,9,9,9 -Bin2:23,23,23,23 -Bin3:29,29,29,294.边界平滑:-Bin1:4,4,4,15 -Bin2:21,21,25,25 -Bin3:26,26,26,3447数据平滑:分箱等宽分箱:在整个属性值的区间上平均分布,即每个箱的区间范围
25、设定为一个常量,称为箱子的宽度。数据排序:4,8,9,15,21,21,24,25,26,28,29,34用等宽(宽度为10)分箱方法对其进行平滑:划分为等宽度箱子:nBin1:4、8、9;nBin2:15、21、21、24、25;nBin3:26、28、29、34均值平滑:nBin1:7、7、7;nBin2:21、21、21、21、21;nBin3:29、29、29、29边界平滑:nBin1:4、9、9;nBin2:15、25、25、25、25;nBin3:26、26、26、34分箱法进行数据平滑实例49原始数据原始数据80,90,100,150,300,250,1600,230,200,2
26、10,170,400,-800,500,530,550排序后排序后-800,80,90,100,150,170,200,210,230,250,300,400,500,530,550,1600等深分箱等深分箱-800,80,90,100150,170,200,210230,250,300,400500,530,550,1600均值平滑均值平滑-132.5182.5295795平滑后平滑后-132.5,-132.5,-132.5,182.5,295.0,295.0,795.0,295.0,182.5,182.5,182.5,295.0,-132.5,795.0,795.0,795.0中值平滑中值
27、平滑85185275540平滑后平滑后85.0,85.0,85.0,185.0,275.0,275.0,540.0,275.0,185.0,185.0,185.0,275.0,85.0,540.0,540.0,540.0分箱法进行数据平滑实例平滑数据:移动平均(Moving Averages)5111.tttntyyyyn52数据清洗:聚类去除噪声数据聚类:相似的数据组成一个“聚类”落在各个聚类之外的数据可以被看成是“噪声”53数据清洗数据清洗:回归方法去除噪声回归方法去除噪声数据集成与变换数据集成与变换Data Integration and Transformation5455数据集成(D
28、ata Integration)将多个数据源的数据集成和存贮例:A.cust-id B.cust-#实体识别:来自多个数据源的现实世界的实体有时并不一定是匹配的:Bill Clinton=William Clinton?分别来自两个数据源的分别来自两个数据源的customer_idcustomer_id 和cust_numbercust_number是同一是同一个人吗个人吗?数据值冲突检测与处理:来自不同数据源的现实世界的同一个实体,属性值可能不同原因:编码、数据类型、单位、字段长度等不同造成。56数据集成:冗余(Redundancy)有些属性的数据可以由另外的属性数据计算出来:“年收入”这个
29、属性可以用各个月份的工资计算出来需要注意的是,这个冗余的属性也可能是为了提高统计查询的效率,故意冗余的!来自不同数据源,由于属性名称的差异造成的“冗余”在进行数据集成的过程中,处理好“冗余数据”对于提高数据挖掘的质量很有帮助。57数据变换:Data Transformation平滑平滑(Smoothing)(Smoothing):去除数据中的噪声,包括之前讲过的技术:binning,regression,and clustering等;聚集操作聚集操作(Aggregation)数据泛化数据泛化(Generalization of the data)数据标准化数据标准化(Normalizatio
30、n)特征创建特征创建(Feature Construction)零均值化(Mean Removal)将每一个属性的数据都减去这个属性的均值,变换后各属性的数据和与均值都为零。多个属性经过零均值化变换后,都以零为均值分布,各属性的方差不发生变方差不发生变化化,各属性间的协方差协方差也不发生变化。零均值化变换在很多场合得到应用,例如对信号数据零均值化,可以消除直流分量的干扰。在图像数据的预处理过程中,以及后面讲的主成分分析中也会用到。58最小-最大规范化(Min-Max Normalization)59AAAAAAnewnewnewvvmin_)min_max_(minmaxmin当多个属性的数值
31、分布区间相差较大时,使用最小-最大规范化,可以让这些属性值变换到同一个区间,这对于属性间的比较以及计算对象之间的距离很重要。最小-最大规范化(Min-Max Normalization)60z score规范化61标准分数(Standard Score)也叫z分数(z-score)是以标准差为单位度量原始分数离开其平均数的分数之上多少个标准差,或是在平均数之下多少个标准差。它是一个抽象值,不受原始测量单位的影响,并可接受进一步的统计处理。变换后,平均数近似为0标准差近似为1AvAvz score规范化对满足不同正态分布的多个属性进行z-score变换,可以将这些正态分布都化成标准正态分布,充分
32、利用标准正态分布的性质,对不同属性的数据进行分析和相互比较。以标准差为度量单位,可计算数据偏离均值超过标准分的概率给定两个长度为100的满足正态分布的序列,那么对于不同序列中同为60的两个数值,它们在各自的集合里处于什么样的水平呢?如何使得两个集合的数具有可比性?62z score规范化63(0.22)58.71%p X(0.03)51.20%p X64数据标准化:z-score65数据标准化独热编码(One Hot Encoding)又称一位有效编码,对标称属性(分类属性)进行编码。例,产品的颜色有黑、白、蓝、黄四种取值,分别用1、2、3、4来编码,假设有5个产品如下所示:66ID颜色颜色1
33、123324154问题:各个不同颜色值之间没有顺序关系,但从上述编码来看,颜色黑和黄之间的差异为3,而蓝和黄差异为1,似乎黄色和蓝色更相似一些。因此,按照这种简单的编码方式计算对象之间的差异时,就会得到错误的结果。独热编码(One Hot Encoding)独热编码将每个标称属性进行扩充,在上面的例子中,可以将一个颜色标称属性扩充为4个二元属性,分别对应黑、白、蓝、黄四种取值。对于每一个产品,它在这四个属性上只能有一个取1,其余三个都为0,所以称为独热编码67ID黑色黑色白色白色蓝色蓝色黄色黄色1100020010301004100050001任意两个不同颜色的产品之间的欧氏距离都是2222(
34、1 0)(0 1)+(0 0)+(0 0)2独热编码实例三个标称属性分别有3、3、4个属性值,那么独热编码扩充为3+3+4=10个二元属性68ID材质材质加工工艺加工工艺颜色颜色10032110322141025012ID材质材质1材质材质2材质材质3工艺工艺1工艺工艺2工艺工艺3颜色颜色1颜色颜色2颜色颜色3颜色颜色41100100000120100101000300100101004010100001051000100010数据归约(Data Reduction)6970数据归约数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身
35、内容)数据归约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录假定在公司的数据仓库选择了数据,用于分析。这样数据集将非常大。在海量数据上进行复杂的数据分析扣挖掘将需要很长时间,使得这种分析不现实或不可行数据归约技术可以用来得到数据集的归约表示,它虽然小,但仍大致保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果71数据归约常用方法数据立方体聚集数据立方体聚集维归约维归约-移除不重要的属性移除不重要的属性数据压缩数据压缩数值归约数值归约有参数模型(回归)有参数模型(回归)非参数模型非参数模型(聚类、采样、直方图聚类、采样、直方图)离散化和概念分层产生离散化和概念分层产生数据立方体聚集72Total annual salesof TV in U.S.A.DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum73维归约(Dimensionality Reduction)维归约是从原有的维度中删除不重要或不相关或者通过对原有维度进行组合来减少特征的个数原则是在保留、甚至提高原有判别能力的同时减少特征向量的维度。