ImageVerifierCode 换一换
格式:PPT , 页数:33 ,大小:1.50MB ,
文档编号:2041010      下载积分:15 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-2041010.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(罗嗣辉)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(商务智能课件:第7章 数据预处理.ppt)为本站会员(罗嗣辉)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

商务智能课件:第7章 数据预处理.ppt

1、Principles and Applications of Business IntelligenceChap 7 : 数据预处理 1Introduction to商务智能方法与应用第7章 数据预处理Chapter 7: Data PreprocessingPrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 2主要内容 7.1 数据预处理的原因和任务 7.2 数据规范化 7.3 数据离散化Principles and Applications of Business IntelligenceChap 7 : 数

2、据预处理 37.1 数据预处理的原因和任务(1)数据离散化(discretization)(2)数据规范化(normalization)(3) 数据清洗(data cleaning)(4)特征提取与特征选择Principles and Applications of Business IntelligenceChap 7 : 数据预处理 47.2 数据规范化 数据规范化又称标准化(standardization),通过将属性的取值范围进行统一,避免不同的属性在数据分析的过程中具有不平等的地位 常用方法- 最小-最大法(min-max normalization)- z-scorePrincip

3、les and Applications of Business IntelligenceChap 7 : 数据预处理 5最小-最大法 假设需要映射到目标区间为L,R。原来的取值范围为l, r,则根据等比例映射的原理,一个值x映射到新区间后的值v的计算方法如下: 例如,对于描述客户的属性“年收入(万元)”,如果原来的取值范围为3,200,新的取值范围为0,1,则若某客户的年收入为60万元,规范化后为(60-3)/(200-3)=0.29()xlvRLLrl-Principles and Applications of Business IntelligenceChap 7 : 数据预处理 6z

4、-score z-score,又称零均值规范化(zero-mean normalization)。给定一个属性A,设其取值的均值为A,标准差为A,A的某个取值x规范化后的值v计算如下:- 均值为A和标准差为A通过已有样本的属性值进行计算。规范化后的属性A取值的均值为零- 例如,年收入属性的均值为82,标准差为39,则年收入60万规范化后为-0.31AAxv-Principles and Applications of Business IntelligenceChap 7 : 数据预处理 77.3 数据离散化Principles and Applications of Business Int

5、elligenceChap 7 : 数据预处理 87.3 数据离散化 7.3.1 分箱离散化 7.3.2 基于熵的离散化 7.3.3 离散化方法ChiMergePrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 97.3.1 分箱离散化 等距离分箱、等频率分箱 等距离(equal- distance)分箱- 又称为等宽度分箱(equal-width binning),是将每个取值映射到等大小的区间的方法- 给定属性A的最小和最大取值分别为min和max,若区间个数为k,则每个区间的间距为I=(max-min)/k

6、,区间分别为min,min+I)、min+I, min+2I)、min+(k-1)I, min+kI- 等距离分箱可能导致属于某些的取值非常多,而某些又非常少Principles and Applications of Business IntelligenceChap 7 : 数据预处理 107.3.1 分箱离散化 等频率(equal-frequency)分箱- 又称等深度分箱(equal-depth binning)。它将每个取值映射到一个区间,每个区间内包含的取值个数大致相同 例如:- 假设14个客户的属性“年收入”的取值按顺序为:20,40,50,58,65,80,80,82,86,9

7、0,96,105,120,200- 利用等距离分箱,区间的个数为4,则区间间距为(200-20)/4=45,则4个箱的区间分别为20,65),65,110),110,155),155,200- 利用等频率分箱,每箱3个值,则4个箱分别为20,40,50,58,65,80,80,82,86,90,96,105,120,200Principles and Applications of Business IntelligenceChap 7 : 数据预处理 117.3.2 基于熵的离散化 分箱离散化由于是一种无监督离散化方法 基于熵的离散化方法是常用的有监督的离散化方法 给定一个数据集D及分类属性

8、的取值,即类别集合C=c1, c2, , ck,数据集D的信息熵entropy(D)的计算公式 其中p(ci)=count(ci)/|D|,count(ci)表示类别ci在D中出现的次数,|D|代表D中的数据行数,即对象个数。信息熵的取值越小,类别分布越纯,反之越不纯21entropy( )( )log( )kiiiDp cp c-Principles and Applications of Business IntelligenceChap 7 : 数据预处理 127.3.2 基于熵的离散化 首先将D中的行按照属性A的取值进行排序。 分割的方法是利用条件Av,v是A的一个取值。相应地,数据集

9、D按照此条件分裂为两个子数据集:D1, D2,综合这2个子数据集的信息熵作为衡量这种分割优劣的度量,entropy(D, v), 一个数据集D按Av分裂前后信息熵的差值称为信息增益,记为gain(D,v)gain(D,v)=entropy(D)-entropy(D,v) 1212|entropy( , )()()|DDD ventropy Dentropy DDDPrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 13基于熵的离散化 Entropy(D,40)=-2/5(2/2log22/2)-3 /5(2/3l

10、og22/3+ 1/3log21/3) =0.52 Entropy(D,58)=-4/5( 1/2log21/2+ 1/2log21/2)-1 /5log21 =0.8 gain(D, 40)=0.97-0.52=0.45 gain(D, 58)=0.97-0.8=0.17年收入 豪华车20否40否50是58是65否Principles and Applications of Business IntelligenceChap 7 : 数据预处理 147.3.3 离散化方法ChiMerge 如果基于熵的方法可以看作是自顶向下的分裂方法,则ChiMerge则属于自底向上的合并方法 ChiMerg

11、e则是从每个值都是一个小区间开始,不断合并相邻区间成为大的区间,它是基于统计量卡方检验实现的豪华车豪华车=是是豪华车豪华车=否否合计合计0,300 (N11)1(N12)1(R1)30,450(N21)1(N21)1(R2)合计合计0(C1)2(C2)222211()kijijijijNEE-12=ijijRCERRk为类别的个数Principles and Applications of Business IntelligenceChap 7 : 数据预处理 157.3.3 离散化方法ChiMerge(1)将待离散化属性“年收入”的取值排序,生成只含有单个取值的区间,以相邻两个值的中点为分界

12、,初始区间为0,30,30,45,45,54,54,61.5,61.5,+。(2)对两个相邻区间构建列联表年收入 豪华车20否40否50是58是65否豪华车豪华车=是是豪华车豪华车=否否合计合计0,300 (N11)1(N12)1(R1)30,450(N21)1(N21)1(R2)合计合计0(C1)2(C2)2Principles and Applications of Business IntelligenceChap 7 : 数据预处理 16ChiMergePrinciples and Applications of Business IntelligenceChap 7 : 数据预处理

13、177.4 数据清洗Principles and Applications of Business IntelligenceChap 7 : 数据预处理 18数据清洗 处理数据的缺失、噪音数据的处理以及数据不一致的识别和处理 处理数据的缺失- 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋予此缺失值;对于离散属性或定性属性,用众数代替均值- 更复杂的方法,可以将其转换为分类问题或数值预测问题Principles and Applications of Business IntelligenceChap 7 : 数据预处理 19数据清洗 噪音数据的处理

14、- 一类是识别出噪音,将其去除;另一类是利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用。- 孤立点的识别属于第一类方法,上一章中介绍聚类算法DBSCAN时提到过,最终不属于任一个簇的点可以看作噪音。- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。Principles and Applications of Business IntelligenceChap 7 : 数据预处理 207.5 特征提取与特征选择Principles and Applications of Business IntelligenceC

15、hap 7 : 数据预处理 217.5.1 特征选择 介绍面向分类的特征选择方法。有效地特征选择不仅降低数据量,提高分类模型的构建效率,有时还可以提高分类准确率。 特征选择方法有很多,总结它们的共同特点,其过程可以分为以下几步: 根据一定的方法选择一个属性子集; 衡量子集的相关性; 判断是否需要更新属性子集,若是,转第1步继续,若否,进入下一步; 输出最终选取的属性子集。Principles and Applications of Business IntelligenceChap 7 : 数据预处理 22属性子集的选择 选择属性子集的方法,一般采用启发式方法,只检验部分可能性比较大的子集,这

16、样可以快速完成属性的选择 常用的方法包括:逐步增加法(stepwise forward selection)、逐步递减法(stepwise backward elimination)、随机选取。Principles and Applications of Business IntelligenceChap 7 : 数据预处理 23衡量子集的相关性 第二步中,通常采用两类不同的方法 一类称为filter方法,利用距离、信息熵以及相关度检验等方法直接衡量属性子集与类别的关联; 另一类称为wrapper方法,利用分类模型来衡量属性子集的效果,通常效率很低Principles and Applicat

17、ions of Business IntelligenceChap 7 : 数据预处理 24Relief: 给定数据集D,属性集A=A1, A2, , Am, class,权重阈值,样本个数N, 主要步骤1. 初始化每个属性Ai的权重wi=0, j=0,数值属性规范化到0,1;2. 从D 中随机抽取一个对象作为样本x,从与x类别相同的对象中选取一个距离与x最近的样本h,h称为x的near-hit;从与x类别不同的对象中选取一个距离与x最近的样本s, s称为x的near-miss;3. 对于每个属性Ai,调整其权重如下:wi=wi- d(x.Ai, h.Ai)+ d(x.Ai, s.Ai) (7

18、-8)4. j=j+1; 如果jN,转至步骤2。否则,输出那些权重大于阈值的属性Principles and Applications of Business IntelligenceChap 7 : 数据预处理 25Reliefwi=wi- d(x.Ai, h.Ai)+ d(x.Ai, s.Ai) x.Ai代表对象x属性Ai的取值;d(x.Ai, h.Ai)代表对象x和h在属性Ai的取值的相异性。 若属性Ai为数值属性,d(x.Ai, h.Ai)=|x.Ai- h.Ai|; 若为标称属性,取值相同时d(x.Ai, h.Ai)=0,不同则d(x.Ai, h.Ai)=1; 若为序数属性,有p个不

19、同取值,按照顺序映射为整数0(p-1),d(x.Ai, h.Ai)=|x.Ai- h.Ai|/(p-1)。 实际上,权值的调整只需要对取值不同的属性进行。Principles and Applications of Business IntelligenceChap 7 : 数据预处理 26Relief对象编号对象编号ABCDEFClass100000102000111030010010400110015010001060101110710100118011100191011001101100001Principles and Applications of Business Intellig

20、enceChap 7 : 数据预处理 277.5.2 特征提取 主成分分析,PCA(principle component analysis)最早由Karl Pearson于1901年提出,后经Harold Hotelling发展,是一种经典的统计方法。 它通过对原有变量(属性、特征)进行线性变换,提取反映事物本质的新的变量,同时去除冗余、降低噪音,达到降维的目的。Principles and Applications of Business IntelligenceChap 7 : 数据预处理 28PCA: 主成分分析 给定数据集D,包括n个对象的数据,每个对象由m个属性A1、A2、Am描述

21、。每个对象可以看作m维空间中的一个点。sepal_lengthsepal_width petal_lengthpetal_widthtype5.72.94.21.3Iris-versicolor6.22.94.31.3Iris-versicolorPrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 29Feature extraction-PCA Principles and Applications of Business IntelligenceChap 7 : 数据预处理 30PCA 计算协方差矩阵C的特征

22、根和主成分矩阵,保留前q 个最大的特征根及对应的特征向量,其中最大特征根对应的特征向量称为第一主成分,第二大特征根对应的是第二主成分, 构造主成分矩阵P,其中其列向量pi是第i个主成分 假设降序排列的特征根为 ,第i个主成分的贡献率的计算如下: 计算最终降维后的数据集Y,Y=XP,其中P是主成分矩阵,X是步骤1中得到的矩阵。12,0m1(1,2,)imkkim11qiimkkPrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 31PCAsepal_lengthsepal_widthpetal_lengthpeta

23、l_width5.72.94.21.36.22.94.31.35.72.84.11.36.33.36.02.55.82.75.11.97.13.05.92.15.13.81.60.24.63.21.40.25.33.71.50.20.690.041.270.520.040.190.320.121.270.323.111.30.520.121.30.58C-Principles and Applications of Business IntelligenceChap 7 : 数据预处理 32PCA特征根特征根贡献率贡献率累积贡献率累积贡献率4.224840.924620.924620.2422

24、40.053020.977630.078520.017190.994820.023680.0051810.3620.6570.0820.73 0.8570.1760.3590.075P-新的特征是原有属性的线性组合,设新的特征为y1和y2,则y1=0.362sepallength-0.082sepalwidth+0.857petallength+0.359petalwidthy2=-0.657sepallength-0.73sepalwidth+0.176petallength+0.075petalwidthPrinciples and Applications of Business IntelligenceChap 7 : 数据预处理 33

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|