R语言数据建模课件.pptx_163文库

资源描述

1、第九章数据建模9.1Rattle包9.2聚类模型习题9.3关联分析模型9.4传统决策树模型9.8线性回归模型9.5随机森林决策树模型9.6自适应选择决策树模型9.7SVM9.9神经网络模型9.1 Rattle包第九章数据建模install.packages(cairoDevice)install.packages(RGtk2)install.packages(rattle)用上述代码可以完成rattle 包的安装。在Rstudio命令控制台输入如下脚本载入Rattle包：library(rattle)在Rstudio命令控制台输入如下脚本启动Rattle：rattle()lRattle的安

2、装与启动9.1 Rattle包第九章数据建模lRattle选项卡介绍第九章数据建模习题大数据应用人才培养系列教材9.3关联分析模型9.4传统决策树模型9.8线性回归模型9.5随机森林决策树模型9.6自适应选择决策树模型9.7SVM9.9神经网络模型9.1Rattle包9.2聚类模型聚类模型指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类是一种把两个观测数据根据它们之间的距离计算相似度来分组的方法（没有指导样本）。已经开发了大量的聚类算法，如K-means、Hierachical、Ewkm和BiCluster，操作界面见下图。9.2 聚类模型第九章数据建模9.2 聚

3、类模型第九章数据建模(1)算法描述K-means聚类算法属于非层次聚类法的一种,是最简单的聚类算法之一，但是运用十分广泛。k-means的计算方法如下：Step1：随机选取k个中心点。Step2：遍历所有数据，将每个数据划分到最近的中心点中。Step3：计算每个聚类的平均值，并作为新的中心点。Step4：重复Step2-3，直到这k个中线点不再变化（收敛了），或执行了足够多的迭代。方法有两个特点：通常要求已知类别数；只能使用连续性变量。lK-means聚类9.2 聚类模型第九章数据建模(2)操作实例数据集是weather，K=4时的聚类结果，24个变量中数值变量有16个，由于没有选择聚类

4、变量个数，默认对所有数值变量聚类。在下图点击【Data】按钮对聚类结果可视化。lK-means聚类9.2 聚类模型第九章数据建模(2)操作实例下图是对变量MinTemp和Rainfall的可视化展示。lK-means聚类9.2 聚类模型第九章数据建模参数Iterate Clusters允许建立多个聚类模型，利用度量每个模型的结果指导建立多聚类模型。图9.6显示了对变量MinTemp和Rainfall建立3个聚类模型，可视化报告见图9.7。lK-means聚类实线表示每个聚类模型的类内数据的平方和，虚线表示当前聚类模型的类内数据的平方和与前一个聚类模型的类内数据的平方和的差，或改进度量。9

5、.2 聚类模型第九章数据建模一旦完成建模，按钮Stats、Data Plot、Discriminant可用。单击“Stats”按钮，将在结果展示区显示每个聚类簇所有参与模型质量评估的统计量，并比较不同K-means模型。单击“Data Plot”按钮输出数据分布可视化图形，单击“Discriminant”按钮输出判别式坐标图，该图突出原始数据簇与簇之间的关键差异，类似于PCA(principal components analysis)。点击“Discriminant”按钮判别式坐标图显示在下图。lK-means聚类第九章数据建模习题大数据应用人才培养系列教材9.4传统决策树模型9.8线

6、性回归模型9.5随机森林决策树模型9.6自适应选择决策树模型9.7SVM9.9神经网络模型9.1Rattle包9.2聚类模型9.3关联分析模型9.3 关联分析模型第九章数据建模l基本术语9.3 关联分析模型第九章数据建模l基本术语9.3 关联分析模型第九章数据建模lApriori算法9.3 关联分析模型第九章数据建模l实验指导9.3 关联分析模型第九章数据建模通过【Data】选项卡导入数据l实验指导9.3 关联分析模型第九章数据建模变量ID自动选择Ident角色，但需要改变Item变量的角色为Target。在Associate选项卡，确保参数Baskets打钩，单击“Execute

7、”按钮建立由关联规则组成的模型，下图展示区显示相关分析结果，支持度=0.1，置信度=0.1的情况下，共挖掘了29条规则。l实验指导9.3 关联分析模型第九章数据建模单击“Freq Plot”按钮显示频繁项直方图，如下图所示。l实验指导9.3 关联分析模型第九章数据建模单击“Plot”按钮显示可视化规则图，如下图所示。第九章数据建模习题大数据应用人才培养系列教材9.8线性回归模型9.5随机森林决策树模型9.6自适应选择决策树模型9.7SVM9.9神经网络模型9.1Rattle包9.2聚类模型9.3关联分析模型9.4传统决策树模型9.4 传统决策树模型第九章数据建模一般上一般下不是北京人脾

8、气是北京家住址不温柔温柔长相个头一般下一般上lID3算法Step 1：将训练集S分为1.N个类别。Step 2：计算S的总信息熵INFO(S),改值等于最终类别的各自信息量和概率质量函数的乘积，即每个类别所占训练集的比例乘以该比例的对数值取负，然后加和。Step 3：确定用来进行分类的属性向量V1,V2.VnStep 4：计算每个属性向量对应的该属性向量对训练集的信息熵INFO(S)Vi，比如对应的属性Vi将训练集分为了M类，那么改值等于在该属性划分下的某一类值出现的概率乘以对应的该值所在的集的信息熵。改值所在的集的信息熵再套公式发现等于最终分类在Vi属性划分下的某一个类里的概率值乘以该概率值

9、的对数值取负。表述的有些复杂，最好看公式。Step 5：在众多属性对于训练集的信息熵之中取最小的，这样信息增益最大。信息增益最大代表着分类越有效。Step 6：完成了一次属性的分裂，之后的递归。9.4 传统决策树模型第九章数据建模lC4.5算法C4.5算法既可以处理离散型描述属性，也可以处理连续型描述属性。在选择某节点上的分支属性时，对于离散型描述属性，C4.5算法的处理方法与ID3相同，按照该属性本身的取值个数进行计算；对于某个连续性描述属性Ac，假设在某个节点上的数据集的样本数量为total，C4.5算法将做以下处理：将该节点上的所有数据样本按照连续型描述的属性的具体数值，由小到大进行排

10、序，得到属性值的取值序列为A1c，A2c，Atotalc。在取值序列生成total-1个分割点。第i（0itotal）个分割点的取值设置为Vi=（Aic+A(i+1)c）/2，它可以将该节点上的数据集划分为两个子集。从total-1个分割点中选择最佳分割点。对于每个分割点划分数据集的方式，C4.5算法计算它的信息增益比，并且从中选择信息增益比最大的分割点来划分数据集。9.4 传统决策树模型第九章数据建模l传统决策树9.4 传统决策树模型第九章数据建模l分组汇总单击“Draw”按钮得到可视化的决策树，如下图所示9.4 传统决策树模型第九章数据建模第九章数据建模习题大数据应用人才培养系列

11、教材9.8线性回归模型9.4传统决策树模型9.6自适应选择决策树模型9.7SVM9.9神经网络模型9.1Rattle包9.2聚类模型9.3关联分析模型9.5随机森林决策树模型为了克服决策树容易过度拟合的缺点，随机森林算法（Random Forests,RF）在变量（列）的使用和数据（行）的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度，对多元共线性不敏感，可以很好地预测多达几千个解释变量的作用，是当前最好的算法之一。9.5 随机森林决策树模型第九章数据建模 (1)随机森林的定义随机森林是一个由决策树分类器集合h(x,k),k=1,

12、2构成的组合分类器模型，其中参数集k是独立同分布的随机向量，x是输入向量。当给定输入向量时，每个决策树有一票投票权来选择最优分类结果。每个决策树是由分类回归树（CART）算法构建的未剪枝的决策树。(2)随机森林的基本思想随机森林是通过自助法（Bootstrap）重复采样技术，从原始训练样本集N中有放回地重复随机抽取k个样本以生成新的训练集样本集合，然后根据自助样本生成k决策树组成的随机森林。其实质是对决策树算法的一种改进，将多个决策树合并在一起，每棵树的建立依赖一个独立抽取的样本，森林中的每棵树具有相同的分布，分类误差取决于每棵树的分类能力和分类树之间的相关性。9.5 随机森林决策树模型第九

13、章数据建模l实验指导9.5 随机森林决策树模型第九章数据建模规则多少？规则形式如何？规则由哪个节点产生？规则由哪棵颗树产生？这些问题由下图“Rules”按钮右边的数字决定。9.5 随机森林决策树模型第九章数据建模第九章数据建模习题大数据应用人才培养系列教材9.8线性回归模型9.4传统决策树模型9.5随机森林决策树模型9.7SVM9.9神经网络模型9.1Rattle包9.2聚类模型9.3关联分析模型9.6自适应选择决策树模型自适应选择模型包含一批模型，如bagging算法，Boosting算法和adaboost算法，它们是一种把若干个分类器整合为一个分类器的方法。首先简要介绍一下boo

14、tstrapping方法和bagging方法。(1)bootstrapping方法的主要过程主要步骤：重复地从一个样本集合D中采样n个样本。针对每次采样的子样本集进行统计学习，获得假设Hi。将若干个假设进行组合，形成最终的假设Hfinal。将最终的假设用于具体的分类任务。9.6 自适应决策树模型第九章数据建模(2)bagging方法的主要过程主要思路：训练分类器。从整体样本集合中抽样n*N个样本，针对抽样的集合训练分类器Ci。分类器进行投票，最终的结果是分类器投票的优胜结果。9.6 自适应决策树模型第九章数据建模l实验指导9.6 自适应决策树模型第九章数据建模单击“Draw”按钮，显示模

15、型的可视化结果9.6 自适应决策树模型第九章数据建模第九章数据建模习题大数据应用人才培养系列教材9.4传统决策树模型9.5随机森林决策树模型9.9神经网络模型9.1Rattle包9.2聚类模型9.3关联分析模型9.6自适应选择决策树模型9.8线性回归模型9.7SVM9.7 SVM第九章数据建模支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。传统的统计模式识别方法在进行机器学习时，强调经验风险最小化，而单纯的经验风险最小化会

16、产生“过学习问题”，其推广能力较差。根据统计学习理论，学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差，没有最小化置信范围值，因此其推广能力较差。lSVM算法9.7 SVM第九章数据建模nibxwyi,.,2,1,01)(9.7 SVM第九章数据建模满足上述条件，并且使最小的分类面就叫做最优分类面，过两类样本中离分类面最近的点且平行于最优分类面的超平面H1，H2上的训练样本点就称作支持向量(support vector)，因为它们“支持”了最优分类面。利用Lagrange优化方法可以把上述最优分类面问题转化为如下

17、这种较简单的对偶问题，即：在约束条件，01iniiynii,.,2,1,0下面对求解下列函数的最大值：injijijijinixxyy1,1i)(21Q）（l实验指导9.7 SVM第九章数据建模第九章数据建模习题大数据应用人才培养系列教材9.4传统决策树模型9.5随机森林决策树模型9.7SVM9.9神经网络模型9.1Rattle包9.2聚类模型9.3关联分析模型9.8线性回归模型9.6自适应选择决策树模型回归分析(Regression Analysis)是研究变量之间作用关系的一种统计分析方法，其基本组成是一个（或一组）自变量与一个（或一组）因变量。回归分析研究的目的是通过收集到的样本

18、数据用一定的统计方法探讨自变量对因变量的影响关系，即原因对结果的影响程度。回归分析是指对具有高度相关关系的现象，根据其相关的形态，建立一个适当的数学模型(函数式)，来近似地反映变量之间关系的统计分析方法。利用这种方法建立的数学模型称为回归方程，它实际上是相关现象之间不确定、不规则的数量关系的一般化。回归分析分类，如图9.48所示。9.8 线性回归模型第九章数据建模l分类9.8 线性回归模型第九章数据建模l一元线性回归方法(1)确定回归模型由于我们研究的是一元线性回归，因此其回归模型可表示为：y=0+1x+。其中，y是因变量；x是自变量；是误差项；0和1称为模型参数（回归系数）。(2)求出

19、回归系数回归系数的求解，最常用的一种方法就是最小二乘估计法，基本原理是，根据实验观测得到的自变量x和因变量y之间的一组对应关系，找出一个给定类型的函数y=f(x)，使得它所取的值f(x1),f(x2),f(xn)与观测值y1,y2,.,yn在某种尺度下最接近，即在各点处的偏差的平方和达到最小9.8 线性回归模型第九章数据建模l一元线性回归方法9.8 线性回归模型第九章数据建模220111min()min()nniiiiiiyyyx1111221101nnniiiiiiinniiiinx yxynxxyx1111,nniiiixx yynnl实验指导9.8 线性回归模型第九章数据建模l实

20、验指导9.8 线性回归模型第九章数据建模线性回归模型提供了两种策略：Logistic和Probit。下图显示了模型回归模型验证结果。l实验指导9.8 线性回归模型第九章数据建模正态性（右上角QQ图）。如果满足正规假设，则图上的点应落在具有45度角的直线上，否则违反正规性假设。如果因变量与自变量线性相关，则残差值与预测值不相关。该图这暗示着你可能需要对回归模型加上一个二次项。如果相同的方差(齐次性，左下角)满足不变方差假设，则水平线周围的点应随机分布在左下图中。该图似乎满足此假设。最后一幅“残差与杠图”（右下）提供了你可能关注的单个观测点的信息。图形可以识别离群点、高杠杆点和强影响点。第九章

21、数据建模习题大数据应用人才培养系列教材9.4传统决策树模型9.5随机森林决策树模型9.7SVM9.1Rattle包9.2聚类模型9.3关联分析模型9.6自适应选择决策树模型9.8线性回归模型 9.9 神经网络模型l神经元9.9 神经网络模型第九章数据建模pjjkjkxwu1()kkyvpjjkjkxwv0l神经元9.9 神经网络模型第九章数据建模激活函数可以有以下几种:（1）阈值函数0,00,1)(vvv（2）分段线性函数1,011),1(211,1)(vvvvvl神经元9.9 神经网络模型第九章数据建模（3）sigmoid函数（4）双曲正切函数)exp(11)(vv)exp(1)e

22、xp(12tanh)(vvvvl网络拓扑结构9.9 神经网络模型第九章数据建模（1）前馈型网络。各神经元接收前一层的输入，并输出给下一层，没有反馈。节点分为两类，即输入单元和计算单元，每一计算单元可有任意个输入，但只有一个输出（它可耦合到任意多个其它节点作为其输出）。通常前馈网络可分为不同的层，第i层的输入只与第i-1层输出相连，输入和输出节点与外界相连，而其它中间层则称为隐层。（2）反馈型网络所有节点都是计算单元，同时也可接收输入，并向外界输出。l工作过程9.9 神经网络模型第九章数据建模NN的工作过程主要分为两个阶段：第一个阶段是学习期，此时各计算单元状态不变，各连线上的权值可通过学习

23、来修改；第二阶段是工作期，此时各连接权固定，计算单元状态变化，以达到某种稳定状态。l实验指导9.9 神经网络模型第九章数据建模l实验指导9.9 神经网络模型第九章数据建模第一隐藏层权重l实验指导9.9 神经网络模型第九章数据建模第二隐藏层权重l实验指导9.9 神经网络模型第九章数据建模第三隐藏层权重第九章数据建模大数据应用人才培养系列教材9.4传统决策树模型9.5随机森林决策树模型9.7SVM9.1Rattle包9.2聚类模型9.3关联分析模型9.6自适应选择决策树模型9.8线性回归模型 9.9 神经网络模型习题9.9神经网络模型1 中的公式表达了“过原点的线性回归模型”。A lm.

24、sol-lm(y1+x)B lm.sol-lm(yx)C lm.sol-lm(yx-1)D lm.sol-lm(y.)2在线性回归模型的汇总结果中，图中的“*”是表示。A 回归系数显著性检验通过 B回归方程显著性检验通过 C回归系数显著性检验不通过 D 回归方程显著性检验不通过 3在多元线性回归中，一般可以使用“逐步回归”的方法进行变量选择，在R语言中实现的函数是。A regression()B step()C summary()D lm()4分类算法与聚类算法的主要区别是。A 前者有学习集，后者没有 B后者有测试集，前者没有 B 后者有学习集，前者没有 D 前者有测试集，后者没有 5k

25、means算法是。A 聚类算法 B 回归算法 C 分类算法 D 主成份分析算法习题：6以下中的不属于k-means算法的局限性。A 不能处理非球形的簇 B 容易受到所选择的初始值影响 C 离群值可能造成较大干扰 D 不能处理不同尺寸，不同密度的簇7命令iris.rp=rpart(Species.,data=iris,method=class)的作用是对鸢尾花数据集建立。A 线性判别模型 B 神经网络判别模型 C apriori购物篮分析模型 D 决策树判别模型8按照不同标准，相关规则可以进行不同的分类，基于规则中数据的抽象层次可以分为。A.布尔型和数值型 B.单层相关和多层相关 C.单维的和多维 D.整型和浮点型9Apriori算法用于挖掘频繁项集的算法。A.布尔相关规则 B.多维相关规则 C.单精度相关规则 D.多层相关规则10下面算法不是自适应选择模型中包含一批模型？A.bagging算法 B.Boosting算法 C.adaboost算法 D.hessian算法习题：感谢聆听

展开阅读全文