1、Principles and Applications of Business IntelligenceChap 7 : 数据预处理 1Introduction to商务智能方法与应用第7章 数据预处理Chapter 7: Data PreprocessingPrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 2主要内容 7.1 数据预处理的原因和任务 7.2 数据规范化 7.3 数据离散化Principles and Applications of Business IntelligenceChap 7 : 数
2、据预处理 37.1 数据预处理的原因和任务(1)数据离散化(discretization)(2)数据规范化(normalization)(3) 数据清洗(data cleaning)(4)特征提取与特征选择Principles and Applications of Business IntelligenceChap 7 : 数据预处理 47.2 数据规范化 数据规范化又称标准化(standardization),通过将属性的取值范围进行统一,避免不同的属性在数据分析的过程中具有不平等的地位 常用方法- 最小-最大法(min-max normalization)- z-scorePrincip
3、les and Applications of Business IntelligenceChap 7 : 数据预处理 5最小-最大法 假设需要映射到目标区间为L,R。原来的取值范围为l, r,则根据等比例映射的原理,一个值x映射到新区间后的值v的计算方法如下: 例如,对于描述客户的属性“年收入(万元)”,如果原来的取值范围为3,200,新的取值范围为0,1,则若某客户的年收入为60万元,规范化后为(60-3)/(200-3)=0.29()xlvRLLrl-Principles and Applications of Business IntelligenceChap 7 : 数据预处理 6z
4、-score z-score,又称零均值规范化(zero-mean normalization)。给定一个属性A,设其取值的均值为A,标准差为A,A的某个取值x规范化后的值v计算如下:- 均值为A和标准差为A通过已有样本的属性值进行计算。规范化后的属性A取值的均值为零- 例如,年收入属性的均值为82,标准差为39,则年收入60万规范化后为-0.31AAxv-Principles and Applications of Business IntelligenceChap 7 : 数据预处理 77.3 数据离散化Principles and Applications of Business Int
5、elligenceChap 7 : 数据预处理 87.3 数据离散化 7.3.1 分箱离散化 7.3.2 基于熵的离散化 7.3.3 离散化方法ChiMergePrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 97.3.1 分箱离散化 等距离分箱、等频率分箱 等距离(equal- distance)分箱- 又称为等宽度分箱(equal-width binning),是将每个取值映射到等大小的区间的方法- 给定属性A的最小和最大取值分别为min和max,若区间个数为k,则每个区间的间距为I=(max-min)/k
6、,区间分别为min,min+I)、min+I, min+2I)、min+(k-1)I, min+kI- 等距离分箱可能导致属于某些的取值非常多,而某些又非常少Principles and Applications of Business IntelligenceChap 7 : 数据预处理 107.3.1 分箱离散化 等频率(equal-frequency)分箱- 又称等深度分箱(equal-depth binning)。它将每个取值映射到一个区间,每个区间内包含的取值个数大致相同 例如:- 假设14个客户的属性“年收入”的取值按顺序为:20,40,50,58,65,80,80,82,86,9
7、0,96,105,120,200- 利用等距离分箱,区间的个数为4,则区间间距为(200-20)/4=45,则4个箱的区间分别为20,65),65,110),110,155),155,200- 利用等频率分箱,每箱3个值,则4个箱分别为20,40,50,58,65,80,80,82,86,90,96,105,120,200Principles and Applications of Business IntelligenceChap 7 : 数据预处理 117.3.2 基于熵的离散化 分箱离散化由于是一种无监督离散化方法 基于熵的离散化方法是常用的有监督的离散化方法 给定一个数据集D及分类属性
8、的取值,即类别集合C=c1, c2, , ck,数据集D的信息熵entropy(D)的计算公式 其中p(ci)=count(ci)/|D|,count(ci)表示类别ci在D中出现的次数,|D|代表D中的数据行数,即对象个数。信息熵的取值越小,类别分布越纯,反之越不纯21entropy( )( )log( )kiiiDp cp c-Principles and Applications of Business IntelligenceChap 7 : 数据预处理 127.3.2 基于熵的离散化 首先将D中的行按照属性A的取值进行排序。 分割的方法是利用条件Av,v是A的一个取值。相应地,数据集
9、D按照此条件分裂为两个子数据集:D1, D2,综合这2个子数据集的信息熵作为衡量这种分割优劣的度量,entropy(D, v), 一个数据集D按Av分裂前后信息熵的差值称为信息增益,记为gain(D,v)gain(D,v)=entropy(D)-entropy(D,v) 1212|entropy( , )()()|DDD ventropy Dentropy DDDPrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 13基于熵的离散化 Entropy(D,40)=-2/5(2/2log22/2)-3 /5(2/3l
10、og22/3+ 1/3log21/3) =0.52 Entropy(D,58)=-4/5( 1/2log21/2+ 1/2log21/2)-1 /5log21 =0.8 gain(D, 40)=0.97-0.52=0.45 gain(D, 58)=0.97-0.8=0.17年收入 豪华车20否40否50是58是65否Principles and Applications of Business IntelligenceChap 7 : 数据预处理 147.3.3 离散化方法ChiMerge 如果基于熵的方法可以看作是自顶向下的分裂方法,则ChiMerge则属于自底向上的合并方法 ChiMerg
11、e则是从每个值都是一个小区间开始,不断合并相邻区间成为大的区间,它是基于统计量卡方检验实现的豪华车豪华车=是是豪华车豪华车=否否合计合计0,300 (N11)1(N12)1(R1)30,450(N21)1(N21)1(R2)合计合计0(C1)2(C2)222211()kijijijijNEE-12=ijijRCERRk为类别的个数Principles and Applications of Business IntelligenceChap 7 : 数据预处理 157.3.3 离散化方法ChiMerge(1)将待离散化属性“年收入”的取值排序,生成只含有单个取值的区间,以相邻两个值的中点为分界
12、,初始区间为0,30,30,45,45,54,54,61.5,61.5,+。(2)对两个相邻区间构建列联表年收入 豪华车20否40否50是58是65否豪华车豪华车=是是豪华车豪华车=否否合计合计0,300 (N11)1(N12)1(R1)30,450(N21)1(N21)1(R2)合计合计0(C1)2(C2)2Principles and Applications of Business IntelligenceChap 7 : 数据预处理 16ChiMergePrinciples and Applications of Business IntelligenceChap 7 : 数据预处理
13、177.4 数据清洗Principles and Applications of Business IntelligenceChap 7 : 数据预处理 18数据清洗 处理数据的缺失、噪音数据的处理以及数据不一致的识别和处理 处理数据的缺失- 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋予此缺失值;对于离散属性或定性属性,用众数代替均值- 更复杂的方法,可以将其转换为分类问题或数值预测问题Principles and Applications of Business IntelligenceChap 7 : 数据预处理 19数据清洗 噪音数据的处理
14、- 一类是识别出噪音,将其去除;另一类是利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用。- 孤立点的识别属于第一类方法,上一章中介绍聚类算法DBSCAN时提到过,最终不属于任一个簇的点可以看作噪音。- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。Principles and Applications of Business IntelligenceChap 7 : 数据预处理 207.5 特征提取与特征选择Principles and Applications of Business IntelligenceC
15、hap 7 : 数据预处理 217.5.1 特征选择 介绍面向分类的特征选择方法。有效地特征选择不仅降低数据量,提高分类模型的构建效率,有时还可以提高分类准确率。 特征选择方法有很多,总结它们的共同特点,其过程可以分为以下几步: 根据一定的方法选择一个属性子集; 衡量子集的相关性; 判断是否需要更新属性子集,若是,转第1步继续,若否,进入下一步; 输出最终选取的属性子集。Principles and Applications of Business IntelligenceChap 7 : 数据预处理 22属性子集的选择 选择属性子集的方法,一般采用启发式方法,只检验部分可能性比较大的子集,这
16、样可以快速完成属性的选择 常用的方法包括:逐步增加法(stepwise forward selection)、逐步递减法(stepwise backward elimination)、随机选取。Principles and Applications of Business IntelligenceChap 7 : 数据预处理 23衡量子集的相关性 第二步中,通常采用两类不同的方法 一类称为filter方法,利用距离、信息熵以及相关度检验等方法直接衡量属性子集与类别的关联; 另一类称为wrapper方法,利用分类模型来衡量属性子集的效果,通常效率很低Principles and Applicat
17、ions of Business IntelligenceChap 7 : 数据预处理 24Relief: 给定数据集D,属性集A=A1, A2, , Am, class,权重阈值,样本个数N, 主要步骤1. 初始化每个属性Ai的权重wi=0, j=0,数值属性规范化到0,1;2. 从D 中随机抽取一个对象作为样本x,从与x类别相同的对象中选取一个距离与x最近的样本h,h称为x的near-hit;从与x类别不同的对象中选取一个距离与x最近的样本s, s称为x的near-miss;3. 对于每个属性Ai,调整其权重如下:wi=wi- d(x.Ai, h.Ai)+ d(x.Ai, s.Ai) (7
18、-8)4. j=j+1; 如果jN,转至步骤2。否则,输出那些权重大于阈值的属性Principles and Applications of Business IntelligenceChap 7 : 数据预处理 25Reliefwi=wi- d(x.Ai, h.Ai)+ d(x.Ai, s.Ai) x.Ai代表对象x属性Ai的取值;d(x.Ai, h.Ai)代表对象x和h在属性Ai的取值的相异性。 若属性Ai为数值属性,d(x.Ai, h.Ai)=|x.Ai- h.Ai|; 若为标称属性,取值相同时d(x.Ai, h.Ai)=0,不同则d(x.Ai, h.Ai)=1; 若为序数属性,有p个不
19、同取值,按照顺序映射为整数0(p-1),d(x.Ai, h.Ai)=|x.Ai- h.Ai|/(p-1)。 实际上,权值的调整只需要对取值不同的属性进行。Principles and Applications of Business IntelligenceChap 7 : 数据预处理 26Relief对象编号对象编号ABCDEFClass100000102000111030010010400110015010001060101110710100118011100191011001101100001Principles and Applications of Business Intellig
20、enceChap 7 : 数据预处理 277.5.2 特征提取 主成分分析,PCA(principle component analysis)最早由Karl Pearson于1901年提出,后经Harold Hotelling发展,是一种经典的统计方法。 它通过对原有变量(属性、特征)进行线性变换,提取反映事物本质的新的变量,同时去除冗余、降低噪音,达到降维的目的。Principles and Applications of Business IntelligenceChap 7 : 数据预处理 28PCA: 主成分分析 给定数据集D,包括n个对象的数据,每个对象由m个属性A1、A2、Am描述
21、。每个对象可以看作m维空间中的一个点。sepal_lengthsepal_width petal_lengthpetal_widthtype5.72.94.21.3Iris-versicolor6.22.94.31.3Iris-versicolorPrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 29Feature extraction-PCA Principles and Applications of Business IntelligenceChap 7 : 数据预处理 30PCA 计算协方差矩阵C的特征
22、根和主成分矩阵,保留前q 个最大的特征根及对应的特征向量,其中最大特征根对应的特征向量称为第一主成分,第二大特征根对应的是第二主成分, 构造主成分矩阵P,其中其列向量pi是第i个主成分 假设降序排列的特征根为 ,第i个主成分的贡献率的计算如下: 计算最终降维后的数据集Y,Y=XP,其中P是主成分矩阵,X是步骤1中得到的矩阵。12,0m1(1,2,)imkkim11qiimkkPrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 31PCAsepal_lengthsepal_widthpetal_lengthpeta
23、l_width5.72.94.21.36.22.94.31.35.72.84.11.36.33.36.02.55.82.75.11.97.13.05.92.15.13.81.60.24.63.21.40.25.33.71.50.20.690.041.270.520.040.190.320.121.270.323.111.30.520.121.30.58C-Principles and Applications of Business IntelligenceChap 7 : 数据预处理 32PCA特征根特征根贡献率贡献率累积贡献率累积贡献率4.224840.924620.924620.2422
24、40.053020.977630.078520.017190.994820.023680.0051810.3620.6570.0820.73 0.8570.1760.3590.075P-新的特征是原有属性的线性组合,设新的特征为y1和y2,则y1=0.362sepallength-0.082sepalwidth+0.857petallength+0.359petalwidthy2=-0.657sepallength-0.73sepalwidth+0.176petallength+0.075petalwidthPrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 33
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。