第4章-R语言数据预处理(ppt可编辑修改)课件.ppt_163文库

资源描述

1、宋万里宋万里计算机工程学院计算机工程学院数据分析与R语言大数据应用开发大数据应用开发第4章数据预处理2022-8-5 3 数据变换31数据清洗4数据集成2数据规约目录5R语言主要数据预处理函数 4l 在数据挖掘的过程中，数据预处理占到了整个过程的60%。l 数据预处理的主要任务包括数据清洗，数据集成，数据变换和数据规约。处理过程如图所示：数据预处理 5数据清洗l 数据清洗主要是删除原始数据集中的无关数据、重复数据，平滑噪声数据，处理缺失值、异常值等。6缺失值处理l 处理缺失值的方法可分为三类：删除记录、数据插补和不处理。其中常用的数据插补方法见下表。7线性回归n lm=linear mod

2、eln lm(ab)就是对a=k*b+c进行线性拟合n 线性回归模型，a是应变量，b是自变量 8线性回归 9线性回归n x y plot(yx)10线性回归 11线性回归 mod summary(mod)Call:lm(formula=y 1+x)Residuals:Min 1Q Median 3Q Max 残差的-2.0431-0.7056 0.1694 0.6633 2.2653 Coefficients:#估计值标准差值值 Estimate Std.Error t value Pr(|t|)(Intercept)28.493 1.580 18.04 5.88e-09*x 130.835

3、9.683 13.51 9.50e-08*-Signif.codes:0*0.001*0.01*0.05.0.1 1Residual standard error:1.319 on 10 degrees of freedom残差标准差，自由度为Multiple R-squared:0.9481,Adjusted R-squared:0.9429 调整F-statistic:182.6 on 1 and 10 DF,p-value:9.505e-08统计量和值。12线性回归n 接下来对所得结果进行分析：n 结果中Call部分列出了相应的回归模型公式；n Residuals部分列出了残差的最小值点

4、、四分之一分位点、中位数点、四分之三分位点和最大值点；n Coefficients部分中 Estimate 是回归方程参数的估计值，Std.Error表示回归参数的标准差，t value 即为t值，Pr(|t|)即为p值，后面的*为显著性标记，*越多越显著；n Multiple R-squared即为R2，越接近于1越优。13线性回归n 模型建立好后可以进行预测：newX predict(mod,newdata=newX,interval=prediction,level=0.95)#interval=pred表示要给出置信区间 fit lwr upr1 49.42639 46.36621 5

5、2.48657 14线性回归n 当模型通过检验，可用于预测，此时我们需要用到R中的predict()函数，假设我们要预测x等于0.16时y的值，其中interval=prediction表示求预测点的值的同时要给出相应的预测区间，level=0.95表示我们求95%的置信区间。n 分析结果：fit 值即为x=0.16时y的预测值，lwr和upr分别表示预测区间的上下限。一般的回归分析做到这里就可以了。15缺失值处理l 插值方法有Hermite插值、分段插值、样条插值法，而最主要的有拉格朗日插值法和牛顿插值法。以下便对这两种进行介绍。拉格朗日插值法第一步：求已知的n个点对的基函数第二步：求

6、已知的n个点对的插值多项式第三步：将缺失的函数值对应的点代入插值多项式得到缺失值的近似值 1122(,),(,)(,)nnx yxyxy,njijj o j iijxxlxxx1122(,),(,)(,)nnx yxyxy 0,nnjiij o j iijxxL xyxx L x 16缺失值处理牛顿插值法第一步:求已知的n个点对的所有阶差商公式；第二步：联立以上差商公式建立如下插值多项式第三步：将缺失的函数值对应的点代入插值多项式得到缺失值的近似值 1122(,),(,),(,)nnx yxyxy11111()(),f xf xf xf xf x xxxxx121212,f

7、x xf xxf xx xxx()f x213213213,f x x xfx xf x x x xxxx11211232112343211211211211()()(),()(),()()(),()()(),()()(),nnnnnnf xf xxxf x xxxxxf x x xxxxxxxf x x x xxxxxxxf xxx xxxxxxxf xxx x()f x 17缺失值处理实例l 餐饮系统中的销量数据可能出现缺失值，下表为某餐厅一段时间的销量表，其中有一天的数据缺失，用拉格朗日插值与牛顿插值法对缺失值补缺。18mice()函数用法n 步骤详细介绍：n 函数mice()首先从一个

8、包含缺失数据的数据框开始，然后返回一个包含多个（默认为5个）完整数据集的对象。n 每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的。由于插补有随机的成分，因此每个完整数据集都略有不同。n 然后，with()函数可依次对每个完整数据集应用统计模型（如线性模型或广义线性模型），n 最后，pool()函数将这些单独的分析结果整合为一组结果。最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。19mice()函数用法n 结果解读：n（1）imp对象中，包含了：每个变量缺失值个数信息、每个变量插补方式（PMM，预测均值法常见）、插补的变量有哪些、预测变量矩阵（在矩阵

9、中，行代表插补变量，列代表为插补提供信息的变量，1和0分别表示使用和未使用）；n 同时利用这个代码imp$imp$sales 可以找到，每个插补数据集缺失值位置的数据补齐具体数值是啥。20mice()函数用法n mice函数主要参数有mice(数据集，m=5，meth=”PMM“)n m为默认插补数据集数量，5为默认值；meth为默认插补方式，PMM为默认方式预测均值匹配。n 还有一些其他methods插补方法，比如贝叶斯线性回归（norm）、基于bootstrap的线性回归（norm.boot）、线性回归预测值（norm.predict）、分类回归树（cart）、随机森林（rf）等等。（详

10、情可help(mice)获取信息）n 使用这些插补方法对数据有严格的要求，比如贝叶斯线性回归等前三个模型都需要数据符合numeric格式，而PMM、cart、rf任意格式都行。n 使用以上模型遇见的问题有：n 1、PMM相当于某一指标的平均值作为插补，会出现插补值重复的问题；n 2、cart以及rf是挑选某指标中最大分类的那个数字，是指标中的某一个数字，未按照规律；n 3、要使用norm.predict，必须先对数据进行格式转换，这个过程中会出现一些错误。21mice包n md.pattern()n 通常，一个可靠的最大阈值是数据集总数的5%。如果某些特征或样本缺失的数据超过了5%，你可能需要

11、忽略掉这些特征或样本。pMiss-function(x)sum(is.na(x)/length(x)*100apply(data,2,pMiss)#列apply(data,1,pMiss)#行 22mice()函数用法 23多重插补 24多重插补 25多重插补 28异常值处理l 在数据预处理时，异常值是否剔除，需视具体情况而定，因为有些异常值可能蕴含着有用的信息。异常值处理常用方法见下表：29 数据变换31数据清洗4数据集成2数据规约目录5R语言主要数据预处理函数 30数据集成l 数据挖掘需要的数据往往分布在不同的数据源中，数据集成就是将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的

12、过程。l 在数据集成时，来自多个数据源的现实世界实体的表达形式是不一样的，不一定是匹配的，要考虑实体识别问题和属性冗余问题，从而把源数据在最低层上加以转换、提炼和集成。31数据集成实体识别l 实体识别的任务是检测和解决同名异义、异名同义、单位不统一的冲突。如：同名异义：数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订单编号，即描述的是不同的实体。异名同义：数据源A中的sales_dt和数据源B中的sales_date都是是描述销售日期的，即A.sales_dt=B.sales_date。单位不统一：描述同一个实体分别用的是国际单位和中国传统的计量单位。32数据集成冗余属性识别

13、l 数据集成往往导致数据冗余，如：同一属性多次出现同一属性命名不一致导致重复l 不同源数据的仔细整合能减少甚至避免数据冗余与不一致，以提高数据挖掘的速度和质量。对于冗余属性要先分析检测到后再将其删除。l 有些冗余属性可以用相关分析检测到。给定两个数值型的属性A和B，根据其属性值，可以用相关系数度量一个属性在多大程度上蕴含另一个属性。33 数据变换31数据清洗4数据集成2数据规约目录5R语言主要数据预处理函数 34数据变换l 主要是对数据进行规范化的操作，将数据转换成“适当的”格式，以适用于挖掘任务及算法的需要。35数据变换简单函数变换l 简单函数变换就是对原始数据进行某些数学函数变换，常用的函

14、数变换包括平方、开方、对数、差分运算等，即:2xx xx log()xx 1()()()kkkf xf xf x 36数据变换规范化l 数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，数值间的差别可能很大，不进行处理可能会影响到数据分析的结果，为了消除指标之间的量纲和大小不一的影响，需要进行数据标准化处理，将数据按照比例进行缩放，使之落入一个特定的区域，从而进行综合分析。如将工资收入属性值映射到-1，1或者0，1之间。l 下面介绍三种规范化方法：最小-最大规范化、零-均值规范化、小数定标规范化 37数据变换规范化最小-最大规范化：也称为离差标准化，是

15、对原始数据的线性变换，使结果值映射到0,1之间。转换函数如：其中为样本数据的最大值，为样本数据的最小值。为极差。零-均值规范化:也叫标准差标准化，经过处理的数据的平均数为0，标准差为1。转化函数为：其中为原始数据的均值，为原始数据的标准差。小数定标规范化:通过移动属性值的小数位数，将属性值映射到-1，1之间，移动的小数位数取决于属性值绝对值的最大值。转化函数为：*minmaxxxmin*xxxx*10kxx 38数据变换连续属性离散化l 一些数据挖掘算法，特别是某些分类算法，要求数据是分类属性形式，如ID3算法、Apriori算法等。这样，常常需要将连续属性变换成分类属性，即连续属性离散化

16、。离散化的过程连续属性变换成分类属性涉及两个子任务：决定需要多少个分类变量，以及确定如何将连续属性值映射到这些分类值。常用的离散化方法常用的无监督离散化方法有：等宽法、等频法、基于聚类分析的方法 39数据变换属性构造l 在数据挖掘的过程中，为了帮助提取更有用的信息、挖掘更深层次的模式，提高挖掘结果的精度，需要利用已有的属性集构造出新的属性，并加入到现有的属性集合中。l 比如进行防窃漏电诊断建模时，已有的属性包括进入线路供入电量、该条线路上各大用户用电量之和，记为供出电量。理论上供入电量和供出电量应该是相等的，但是由于在传输过程中的电能损耗，会使得供入电量略大于供出电量，如果该条线路上的一个

17、或多个大用户存在窃漏电行为，会使供入电量远大于供出电量。反过来，为了判断是否存在有窃漏电行为的大用户，需要构造一个新的关键指标-线损率，该过程就是构造属性，由线户关系图（见图6-1）。新构造的属性线损率计算公式如下：线损率（供入电量-供出电量）/供入电量l 线损率的范围一般在3%15%，如果远远超过该范围，就可以认为该条线路的大用户很大可能存在窃漏电等用电异常行为。40数据变换小波变换基于小波变换的特征提取方法及其方法描述如下表所示：41数据变换小波变换小波基函数是一种具有局部支集的函数，平均值为0，小波基函数满足：。Haar小波基函数是常用的小波基函数，如下图所示：(0)=()0t dt 4

18、2数据变换小波变换l 小波基函数伸缩和平移变换模型为：其中，为伸缩因子，为平移因子。l 任意函数的连续小波变换（CWT）为：l 上式的逆变换为：,1()()|a btbtaaab f t1/2(,)|()()ftbWa baf tdta211()(,)()ftbf tWa bda dbCaa 43数据变换小波变换l 基于小波变换的多尺度空间能量分布特征提取方法：第一步：对进行二进小波分解：其中是近似信号，为低频部分；是细节信号，为高频部分，此时信号的频带分布图如左下图所示：f t()jjf tADAB第二步：计算出信号能量为：第三步：选择第层的近似信号和各层的细节信号的能量作为特征，构

19、造特征向量：jjEEAEDj12,jjFEA ED EDED 44 数据变换31数据清洗4数据集成2数据规约目录5R语言主要数据预处理函数 45数据规约l 数据规约是将海量数据进行规约，规约之后的数据仍接近于保持原数据的完整性，但数据量小得多。l 通过数据规约，可以达到：降低无效、错误数据对建模的影响，提高建模的准确性少量且具代表性的数据将大幅缩减数据挖掘所需的时间降低储存数据的成本 46数据规约属性规约l 属性规约常用方法有：合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析合并属性初始属性集：规约后属性集：逐步向前选择初始属性集：规约后属性集：1234123A,A,A,A

20、,CB B B1234123A,A,A,A A;,B.B B B,A B C123456A,A,A,A,A,A 114A A,A 146A,A,A 47数据规约属性规约逐步向后删除初始属性集：规约后属性集：决策树规约初始属性集：规约后属性集：123456A,A,A,A,A,A 13456A,A,A,A,A 1456A,A,A,A 146A,A,A 123456A,A,A,A,A,A 146A,A,A 48数据规约属性规约下面详细介绍主成分分析计算步骤：1）设原始变量的观测n次数据矩阵为：2）将数据矩阵中心标准化。为了方便，将标准化后的数据矩阵仍然记为。3）求相关系数矩阵的定义为：其中

21、 4）求的特征方程的特征根。5）确定主成分个数m：，根据实际问题确定，一般取80%。12,XpXX 11121212221212,ppPnnnpxxxxxxXXXXxxxX,ijp pR Rr22111/nnnijkiikjjkiikjjkkkrxxxxxxxx,1ijjiiirrrRdet0RE120p11/mpiiii 49数据规约属性规约6）计算m个相应的单位特征向量：7）计算主成分：111222122212122,mmmppm1122iiipipZXXX1,2,im 50数据规约数值规约l 数值规约通过选择替代的、较小的数据来减少数据量。数值规约可以是有参的，也可以是无参的。有参方法是使用一个模型来评估数据，只需存放参数，而不需要存放实际数据。有参的数值规约技术主要有两种：回归（线性回归和多元回归）和对数线性模型（近似离散属性集中的多维概率分布）。数值规约常用方法有直方图、用聚类数据表示实际数据、抽样（采样）、参数回归法。

展开阅读全文