1、 第三章第三章 数据挖掘方法数据挖掘方法分类与聚类分类与聚类u1.分类的概念及分类性能的评估分类的概念及分类性能的评估u2.决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现u3.案例:应用决策树获得影响结局的决策准则及应用随机森案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素林算法预测样本分类并提取结局的重要风险因素u4.主成分分析及应用主成分分析绘制样本分类图主成分分析及应用主成分分析绘制样本分类图分类分类聚类聚类u5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)u6.K均
2、值聚类与系统聚类的均值聚类与系统聚类的R软件实现软件实现u7.双向聚类热图及复杂热图绘制的双向聚类热图及复杂热图绘制的R软件包软件包ComplexHeatmapu8.基于数据挖掘中的分类与聚类发表基于数据挖掘中的分类与聚类发表SCI论文的经验分享论文的经验分享在在高维数据的统计分析高维数据的统计分析中中,分类,分类(Classification)和聚类和聚类(Cluster)是是两种常见分析方法。两种常见分析方法。v分类:有监督学习方法v聚类:无监督学习方法1 分类的概念及分类性能的评估分类的概念及分类性能的评估有监督学习:对已知类别的样本进行分类器的学习无监督学习:对未知类别的样本或不利用样
3、本类别信息进行分类学习1 分类的概念及分类性能的评估分类的概念及分类性能的评估分类(分类(Classification)是一种数据分析过程,即根据记录各种属性的)是一种数据分析过程,即根据记录各种属性的值确定该记录属于预定类别中的哪一类。分类是数据挖掘中的常用方值确定该记录属于预定类别中的哪一类。分类是数据挖掘中的常用方法,在医学应用中,疾病的诊断和鉴别诊断就是典型的分类过程。法,在医学应用中,疾病的诊断和鉴别诊断就是典型的分类过程。1 分类的概念及分类性能的评估分类的概念及分类性能的评估分类器的产生主要通过学习和测试两部分完成。学习过程是依据训练样分类器的产生主要通过学习和测试两部分完成。学
4、习过程是依据训练样本(本(Training Sample)进行有监督的学习,通过学习得到特定的分类)进行有监督的学习,通过学习得到特定的分类器(器(Classifier)。测试过程是以学习得到的分类器对测试样本()。测试过程是以学习得到的分类器对测试样本(Testing Sample)进行分类,并将分类结果与该样本的类别归属进行)进行分类,并将分类结果与该样本的类别归属进行对照,以此判断分类器的性能。当分类器的分类性能达到预定目标后,对照,以此判断分类器的性能。当分类器的分类性能达到预定目标后,即可用该分类器对未知数据的类别进行判定。用于评估分类器性能的测即可用该分类器对未知数据的类别进行判定
5、。用于评估分类器性能的测试样本必须独立于训练样本。试样本必须独立于训练样本。1 分类的概念及分类性能的评估分类的概念及分类性能的评估训练样本与测试样本的选取训练样本与测试样本的选取(1)随机分组法:将已知数据集合随机的分为互不重叠的学习样本和测试样)随机分组法:将已知数据集合随机的分为互不重叠的学习样本和测试样本,训练样本量越大,对于分类器的学习就会越准确。因此,当已知数据集较本,训练样本量越大,对于分类器的学习就会越准确。因此,当已知数据集较大的时候,常采用原始数据的三分之二作为训练样本,但缺点是可能会导致不大的时候,常采用原始数据的三分之二作为训练样本,但缺点是可能会导致不同类别的样本在两
6、个样本中分布不均衡。同类别的样本在两个样本中分布不均衡。1 分类的概念及分类性能的评估分类的概念及分类性能的评估2)N倍交叉验证法:将原有数据集随机的分为倍交叉验证法:将原有数据集随机的分为N组,分别以其中的一组数据作为测组,分别以其中的一组数据作为测试样本,其他组数据作为训练样本进行训练和测试。这样一共训练了试样本,其他组数据作为训练样本进行训练和测试。这样一共训练了N次,得到次,得到N个分类准确率。最后取个分类准确率。最后取N次测试的分类准确率的均值来反应分类器的性能。次测试的分类准确率的均值来反应分类器的性能。1 分类的概念及分类性能的评估分类的概念及分类性能的评估特别的,当特别的,当N
7、为总为总样本数时,此方法样本数时,此方法则成为留一法则成为留一法(leave-one-out)。)。5倍交叉验证倍交叉验证1 分类的概念及分类性能的评估分类的概念及分类性能的评估(3)Bootstrap法(自助法):假设原数据集中有法(自助法):假设原数据集中有M个样本,对样本重复进行抽样,个样本,对样本重复进行抽样,每次取每次取m个样本,没有抽取的样本作为测试样本,训练分类器。该过程重复进行个样本,没有抽取的样本作为测试样本,训练分类器。该过程重复进行n次,次,综合综合n次的结果计算分类正确率。该方法适用于样本量较少的情况。次的结果计算分类正确率。该方法适用于样本量较少的情况。Bootstr
8、ap法法常见的分类方法v决策树(Decision Tree)v随机森林(Random Forest)v支持向量机(SVM)1 分类的概念及分类性能的评估分类的概念及分类性能的评估分类准确率(Classification Accuracy)反映分类器能否将未知数据正确地划归某一特定类别的能力。此外,灵敏度(Sensitivity)、特异度(Specificity)和ROC(Receiver Operating Characteristic)曲线下面积AUC(Area Under ROC curve)也是常用的判断分类器的指标。1 分类的概念及分类性能的评估分类的概念及分类性能的评估决策树是一种十
9、分常用的分类方法。该方法是一种监督学习,每个样本决策树是一种十分常用的分类方法。该方法是一种监督学习,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。一个分类器,这个分类器能够对新出现的对象给出正确的分类。2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现 决策树分类器的构建不需要应用领域的学科知识,无须设置参数,适用于探索性的数据挖掘和知识发现。但对训练样本的噪声较敏感,对海量数据的分类效率较低。2 决策树与随机森林分类器
10、的构建及决策树与随机森林分类器的构建及R软件实现软件实现决策树处理分类问题的主要步骤:决策树处理分类问题的主要步骤:v设计:用训练样本进行分类器的设计。v实现:用设计好的分类器对已知或未知样本进行分类决策。2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现r1n2n3n4n1t2t3t4t5t6t7t决策树的结构决策树的结构根结点根结点n1,n2,n3,n4为非终止为非终止结点结点t1,t2,t3t7为终为终止结点止结点(叶子结点)(叶子结点)2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现决策树的分类原理决策树的分类原理v可以
11、处理两类或多类的问题可以处理两类或多类的问题v产生决策准则,对未知样本进行分类产生决策准则,对未知样本进行分类2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现决策树形成过程决策树形成过程决策树算法决策树算法output训练集训练集决策树input2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现如何构建决策树呢如何构建决策树呢?(分割准则)(分割准则)两种方法:两种方法:1 最大信息增益法最大信息增益法2 最小基尼指数法最小基尼指数法2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现v熵的定义)S
12、v(entropy|S|Sv|)S(entropygainNv)x(plog)x(p)x(Hiini基于熵的分割准则:2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现H(S)=-5/14*log(5/14)-9/14*log(9/14)=AH(S|outlook)=5/14*(-3/5log(3/5)-2/5log(2/5)+4/14*(-4/4log(4/4)-0)+5/14(-3/5log(3/5)-2/5log(2/5)=B H(S|temp)=C H(S|humidity)=D H(S|windy)=Emax(H(S)-H(S|feature)=max
13、(A-B,A-C,A-D,A-E)2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现通过信息熵构建的决策树通过信息熵构建的决策树2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现另一个分割准则:另一个分割准则:GINI INDEXvMinimal Gini index:n1jp2j1)S(gini)S(gini|S|S|)S(giniiiNisplit2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现用决策树进行分析用决策树进行分析NFTFNPTPTFTPaccTraining constructi
14、ng a decision treeTestestimating a decision treeAccuracy:TP:真阳性数 TF:真阴性数NP:假阳性数 NF:假阴性数2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现构建决策树的主要终止条件:构建决策树的主要终止条件:1每一个叶子结点仅包括单一类的样本或每一个叶子结点仅包括单一类的样本或限制叶子限制叶子结点优势类样本的纯度结点优势类样本的纯度2 限制树的深度限制树的深度2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现决策树的决策树的R软件包为软件包为rpart packa
15、ge.2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现安装加载决策树软件包安装加载决策树软件包(rpart)2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现安装加载安装加载rpart package.install.packages(rpart)library(rpart)2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现data(kyphosis)kyphosis我们用我们用R软件包软件包自带的数据集作自带的数据集作分析分析2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件
16、实现软件实现总样本数为总样本数为81例例,取取70例作为训练集例作为训练集,11例作为测试集。例作为测试集。建立训练集和测试集建立训练集和测试集sub-sample(1:81,70)train-kyphosissub,test-kyphosis-sub,2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现用训练集建立决策树模型用训练集建立决策树模型model-rpart(KyphosisAge+Number+Start,data=train)model2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现应用应用rpart.plot软件
17、包绘制图形。软件包绘制图形。安装安装rpart.plot软件包后输入语句:软件包后输入语句:library(rpart.plot)prp(model,type=4,box.palette=auto,faclen=0)2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现prp(model,type=1,extra=?,box.palette=auto,faclen=0)extra=1extra=2extra=4extra=52 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现决策树模型的评价决策树模型的评价分类正确率分类正确率=10/1
18、1=90.9%x-subset(test,select=-Kyphosis)pred-predict(model,x,type=class)k-test,Kyphosistable(pred,k)2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现预测预测 实际实际absentpresentabsent80present1 2灵敏度灵敏度=8/(8+1)=88.9%特异度特异度=2/(2+0)=100.0%2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现 当前,随着生物医学技术的发展及大数据时代的到来,高当前,随着生物医学技术的发
19、展及大数据时代的到来,高通量多指标的高维数据越来越多。比如高通量的通量多指标的高维数据越来越多。比如高通量的Microarray技技术,可以同时检测成千上万个基因的表达谱,已经成为功能基术,可以同时检测成千上万个基因的表达谱,已经成为功能基因组研究中的重要工具。对于这些数据,一方面希望能够构建因组研究中的重要工具。对于这些数据,一方面希望能够构建模型,获得样本最大的分类准确率,另一方面如何能够从海量模型,获得样本最大的分类准确率,另一方面如何能够从海量的指标中提取出重要的特征属性也是较为重要的问题。随机森的指标中提取出重要的特征属性也是较为重要的问题。随机森林(林(Random forest)
20、方法能够比较有效的解决这些问题。)方法能够比较有效的解决这些问题。2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现随机森林方法与原理随机森林方法与原理 随机森林算法是基于递归分类树的有监督学习方法。对原始训练集采用随机森林算法是基于递归分类树的有监督学习方法。对原始训练集采用bootstrap法有放回的随法有放回的随机抽取新的样本集并由此构建分类树,每次未被抽到的样本组成了袋外数据机抽取新的样本集并由此构建分类树,每次未被抽到的样本组成了袋外数据OOB(out-of-bag),),作为测试集。在树的每个分叉结点对特征空间作一次穷尽搜索,提取一个特征基因作为测试
21、集。在树的每个分叉结点对特征空间作一次穷尽搜索,提取一个特征基因 ,使得在结点,使得在结点t的划分最大程度降低类别杂质度。采用的划分最大程度降低类别杂质度。采用Gini差异性指标作为结点差异性指标作为结点t t的杂质函数:的杂质函数:21()1(),()/(1,2,3,.)KkkkkkE tPwtP wtpnn kK 其中其中 表示结点表示结点t中某一样品属于第中某一样品属于第k k类的频率。这种递归反复进行,直到满足树的增长停止类的频率。这种递归反复进行,直到满足树的增长停止规则。每棵树保证最大限度的增长,中间不作任何修剪。用袋外样本数据检验树的分类效果。规则。每棵树保证最大限度的增长,中间
22、不作任何修剪。用袋外样本数据检验树的分类效果。将生成的多棵分类树组成随机森林,用随机森林对袋外数据进行判别与分类,分类结果按树分将生成的多棵分类树组成随机森林,用随机森林对袋外数据进行判别与分类,分类结果按树分类器的投票多少而定。类器的投票多少而定。kp2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现随机森林方法与原理随机森林方法与原理基于平均基尼指数减少量的特征属性选择基于平均基尼指数减少量的特征属性选择 先来看基尼指数的定义。假设在样本采集中有两种不同性质的样本,其中包含目标检测物的待测样本为 个,不包括目标检测物的对照样本为 个,则特征属性S的基尼指数定
23、义为:根据上述基尼指数的定义,如果采用决策树模型,可以获得在决策树中分裂结点(每一个分裂结点对应一个特征属性S)的基尼指数,即:在上述公式中,N表示N个分裂条件,表示满足第i个分裂条件的样本数占全部样本数的比例。其中:。这里的 和 表示在第i个分裂条件下待测样本和对照样本占全部样本的比例。12121222()1()()nnnnnngini S()()Ns p l i tiiig i n iSpg i n iS)(1)(22controlicaseiippSginipcaseipcontroli1n2n2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现 越小,表明
24、该分裂结点(每一个分裂结点对应一个特征属性)对样本的分类越好。平均基尼指数减少量的定义为:MDG(Mean Decrease in the Gini index)就定义为:其中,表示决策森林中总的树的个数。该公式表明平均基尼指数减少量MDG是用总的分裂结点的杂质减少量除以构建的决策森林中的树的个数。MDG越大,表明该分裂结点对样本的分类越好。换句话说,某个特征属性的平均基尼指数减少量MDG越大,表明该特征属性的特异性越明显,对样本的分类贡献越大。()splitginiS)()(SginiSginiDGsplit1Niit r e eD GNM D GtreeN2 决策树与随机森林分类器的构建及
25、决策树与随机森林分类器的构建及R软件实现软件实现 以一个简单的例子进行说明:假设在决策森林中构建了2棵决策树,有一个特征属性S对样本进行了分类,如下图所示。942302023010)()(1)(Sgini2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现942155215101)()(1)(Sgini942155215102)()(1)(Sgini4499()()()0s p litD GSg in i Sg in iS则S的基尼指数减少量为:此时得到了特征属性S分裂结点的基尼指数为:对于第一棵决策树,假设有两个分裂条件S1(特征属性S1000),则可得:114
26、12229()()()sp litg in iSg in i Sg in i S2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现221553120208()1()()gini S22551210102()1()()gini S125231132)()()(SginiSginiSginisplit54191 23 6()()()sp litD GSg in i Sg in iS13 60127 2()M D GS类似的,对于第二棵决策树进行相同的计算。假设有两个分裂条件S1(特征属性S1200),则可得:此时得到了特征属性S分裂结点的基尼指数为:则S的基尼指数减
27、少量为:如果按照2棵决策树来计算,则可以获得特征属性S的平均最小基尼指数减少量,即:2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现随机森林在R的randomForest package安装随机森林软件包安装随机森林软件包2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现加载加载randomForest package2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现应用应用R自带数据自带数据iris分类标签分类标签2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现
28、构建随机森林模型构建随机森林模型袋外样本袋外样本(out of bag)分类错误率分类错误率data(iris)iris.rf-randomForest(Species.,ntree=5000,data=iris,importance=TRUE)iris.rf2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现OOB=6/150=4%混淆矩阵混淆矩阵2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现下面进行分类器的评价下面进行分类器的评价从从150个样本中随机取个样本中随机取100个样本作为训练集个样本作为训练集,其余其余50个样本
29、作为测试集。个样本作为测试集。2 决策树与随机森林分类器的构建及决策树与随机森林分类器的构建及R软件实现软件实现输入语句:输入语句:sub-sample(1:150,100)train-irissub,test-iris-sub,model-randomForest(Species.,ntree=5000,data=train,importance=TRUE)x-subset(test,select=-Species)pred-predict(model,x,type=class)kasub-sample(1:392,260)train-asub,test-a-sub,model-rpart(
30、group.,data=train)prp(model,type=4,box.palette=auto,faclen=0)决策树模型构建:决策树模型构建:将年龄,性别,疾病病史和六个指标:index1-index6进行决策树模型的构建。程序如下:程序如下:3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素预测样本分类并提取结局的重要风险因素决策树模型决策树模型 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取
31、结局的重要风险因素预测样本分类并提取结局的重要风险因素x-subset(test,select=-group)pred-predict(model,x,type=class)kaa.rfadata-ak=5id-sample(1:k,nrow(data),replace=TRUE)list-1:ktrain-subset(data,id%in%list-1)for(i in 1:k)train-subset(data,id%in%list-i)test-subset(data,id%in%c(i)model-randomForest(group.,data=train,importance=T
32、RUE)print(importance(model,type=2)pred-predict(model,test,-16,type=class)n-test,groupprint(table(pred,n)5倍倍交叉交叉验证验证程序程序 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素预测样本分类并提取结局的重要风险因素 SCI论文的撰写大纲论文的撰写大纲1)单因素分析单因素分析 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法案例:应用决策树获得影响结局的决策准则及应用随机森
33、林算法预测样本分类并提取结局的重要风险因素预测样本分类并提取结局的重要风险因素绘制箱式图:绘制箱式图:Index4和和Index2在实验组与对照组中的比较在实验组与对照组中的比较 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素预测样本分类并提取结局的重要风险因素2)多因素多因素Logistic回归分析回归分析 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素预测样本分类并提取结局的重要风
34、险因素3)与随机森林和决策树的结果进行比较)与随机森林和决策树的结果进行比较index4都是最重要的特征变量都是最重要的特征变量 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素预测样本分类并提取结局的重要风险因素4)ROC曲线分析曲线分析 Index4的的ROC曲线分析曲线分析AUC=0.954 3 案例:应用决策树获得影响结局的决策准则及应用随机案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素森林算法预测样本分类并提取结局的重要风险因素Resp
35、onse:Thanks for the reviewer to provide such a good method to assess the accuracy of our prediction of cases and controls.We adopt 5-fold cross validation to implement the analysis.The results showed that the classification accuracy rate for each test data were In addition,for each analysis,we calcu
36、lated the Mean Decrease Gini(MDG)involved in random forest algorithm which was used to quantify which taxa contributes most to classification accuracy.For each analysis,we filtered the top ten ranked taxas contributing to the classification according to their MDG.We found that Prevotellaceae and Eub
37、acterimu were ranked the top ten in all of five analyses.Specially,Prevotellaceae was one of the discriminative features obtained by the LEfSe analysis(LDA score=4.608,pa pc.craautoplot(stats:prcomp(a-1),data=a,frame=TRUE,frame.type=t,frame.colour=group,colour=group)4 主成分分析及应用主成分分析绘制样本分类图主成分分析及应用主成分
38、分析绘制样本分类图绘制二维主成分分析结果图绘制二维主成分分析结果图 4 主成分分析及应用主成分分析绘制样本分类图主成分分析及应用主成分分析绘制样本分类图 聚类分析聚类分析 5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)对事物进行归类是人类认识自然的根本方对事物进行归类是人类认识自然的根本方法法.聚类分析是多元统计分析方法之一聚类分析是多元统计分析方法之一,虽虽然理论上还不完善然理论上还不完善,但具有很高的适用性但具有很高的适用性.5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)聚类分析的基本思想聚类分
39、析的基本思想:设对设对n个观察单位测量了个观察单位测量了m个指标个指标样品样品 指标指标X1X2X3.Xm1X11X12X13.X1m2X21X22X23.X2m3X31X32X33.X3m.nXn1Xn2Xn3.Xnm 5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)从而将观察单位分为若干类从而将观察单位分为若干类,满足同一类内的差满足同一类内的差别较小别较小,而类与类之间的差别较大而类与类之间的差别较大,此为聚类分析此为聚类分析的实质的实质.5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)根据测量指
40、标对根据测量指标对各观察单位聚类各观察单位聚类,称为称为Q型分析型分析,根据观察单位的测量值对根据观察单位的测量值对指标进指标进行聚类行聚类,称为称为R型分析型分析.5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)聚类分析常用的统计量为距离和相似系数聚类分析常用的统计量为距离和相似系数 5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)(一一)距离距离(常用于对样品聚类常用于对样品聚类)1)绝对距离绝对距离1(1)mijikjkkdxx把各个样品看作是把各个样品看作是m维空间上的一个点维空间上的一个点,若
41、有若有n个个样品样品,就有就有n个点个点,任何两点间都有一个距离任何两点间都有一个距离.5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)2)欧氏距离欧氏距离3)明氏距离明氏距离21(2)()mijikjkkdxx11()1,2.qqmi ji kj kkdqxxqq当时为绝对距离时为欧氏距离 5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)4)马氏距离马氏距离211()()(),ijijijijdMxxVxxVxx为两 个 向 量 的 协 方 差 阵计算距离时计算距离时,由于各指标单位不同由于各指标单位
42、不同,需将原始需将原始数据标准化以消除量纲影响数据标准化以消除量纲影响,然后计算距离然后计算距离 5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)(二二)相似系数相似系数(常用于对指标聚类常用于对指标聚类)1)相关系数相关系数12211()()()()nilijljlnnilijljllxxxxijxxxxr相关系数越大相关系数越大,表示相似程度越高表示相似程度越高.5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)2)指数相关系数指数相关系数22()3141()exp()iljllmxxijmSlre3
43、)列联系数列联系数22/()ijCn(适用于双向有序列联表资料适用于双向有序列联表资料)5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)4)点相关系数点相关系数()()()()()adbcijabaccdbdrp当观察值当观察值Xi,Xj为二值分类变量时为二值分类变量时,将将Xi与与Xj构建成构建成四格表四格表,a,b,c,d为四格表中相应的频数为四格表中相应的频数.5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)聚类的方法主要有聚类的方法主要有K均值聚类法均值聚类法(K-means cluster)和
44、系统聚类法和系统聚类法(Hierarchical cluster)5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)K均值聚类法均值聚类法1 指定分类数指定分类数,并指定某些观测为凝聚点作为各类并指定某些观测为凝聚点作为各类的初始核心的初始核心;2 按就近原则将其余观测向凝聚点聚集按就近原则将其余观测向凝聚点聚集,从而得到从而得到初始分类初始分类,计算初始分类的中心位置计算初始分类的中心位置;3 对中心位置重新聚类对中心位置重新聚类,完毕后再次计算中心位置完毕后再次计算中心位置,反复循环反复循环,直到中心位置改变很小直到中心位置改变很小(即收敛标准即
45、收敛标准).5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)系统聚类法系统聚类法1 n个观测看成不同的个观测看成不同的n类类,将性质最接近的两类合并将性质最接近的两类合并为一类为一类;2 从从n-1类中再找最接近的两类加以合并类中再找最接近的两类加以合并3以此类推以此类推,直到所有变量被合并为一类直到所有变量被合并为一类4 得到结果后得到结果后,再根据具体问题和聚类结果决定分为再根据具体问题和聚类结果决定分为几类几类.一般一般28类较为合适类较为合适.缺点是速度较慢缺点是速度较慢.5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系
46、统聚类均值聚类与系统聚类)类间合并递推公式有最短距离法类间合并递推公式有最短距离法,最长距离法最长距离法,平均平均距离法距离法,重心法重心法,中位数法等九种方法中位数法等九种方法.下面我们以最下面我们以最短距离法来说明系统聚类短距离法来说明系统聚类.当然也可以用相似系数进当然也可以用相似系数进行聚类行聚类.5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)例如例如:设抽取设抽取5个样品个样品,每个样品测一个指标每个样品测一个指标.其测其测量值为量值为1,2,5,7,9距离公式采用绝对距离。距离公式采用绝对距离。5.聚类的概念及常用聚类方法聚类的概念及
47、常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)D(0)G1G2G3G4G21G343G4652G58742 第一步聚类第一步聚类 5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)第二步聚类第二步聚类(G1,G2合并为合并为G6)D(1)G6G3G4G33G452G5742 5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚类与系统聚类)第三步聚类第三步聚类(G3,G4,G5合并为合并为G7)D(2)G6G7 3G7与G6合并为一类.5.聚类的概念及常用聚类方法聚类的概念及常用聚类方法(K均值聚类与系统聚类均值聚
48、类与系统聚类)例:例:20种塑料样品种塑料样品,根据有关知识根据有关知识,认为它们可以分为认为它们可以分为3类类,我们根我们根据据tear,gloss,opacity三个变量把三个变量把20个样品分为三类。个样品分为三类。数据存于数据存于d盘,命名为盘,命名为kmeans.csv6.K均值聚类与系统聚类的均值聚类与系统聚类的R软件实现软件实现K均值聚类均值聚类输入语句:输入语句:read.table(d:kmeans.csv,header=TRUE,sep=,)-akmarownames(a)-c(j1,j2,j3,j4,j5,j6,j7,j8)hc-hclust(dist(a),ave)pl
49、ot(hc)6.K均值聚类与系统聚类的均值聚类与系统聚类的R软件实现软件实现系统聚类谱系图:系统聚类谱系图:如果聚为两类:如果聚为两类:j2,j4,j6是一是一类;类;j1,j3,j5,j7和和j8是一类。是一类。如果聚为三类:如果聚为三类:j2,j4,j6是是一类;一类;j8是一类;是一类;j1,j3,j5,j7是一类。是一类。6.K均值聚类与系统聚类的均值聚类与系统聚类的R软件实现软件实现如果采用最短距离法如果采用最短距离法如果聚为两类:如果聚为两类:j8是一类;是一类;j1-j7是一类。是一类。如果聚为三类:如果聚为三类:j8是一类;是一类;j2,j6,j4是一类是一类;j1,j3,j5
50、和和j7是一类是一类hc1aa-as.matrix(a)heatmap.2(a)7.双向聚类热图及复杂热图绘制的双向聚类热图及复杂热图绘制的R软件包软件包ComplexHeatmap输出结果图:输出结果图:该图顶部是对指标的系统聚类结果,左侧是对样本的聚类结果。底部是指标名称,该图顶部是对指标的系统聚类结果,左侧是对样本的聚类结果。底部是指标名称,右侧是样本编号。图的左上角是颜色标识。如果想对图的颜色,文字大小等进行优右侧是样本编号。图的左上角是颜色标识。如果想对图的颜色,文字大小等进行优化,也可以输入相应语句进行修改。化,也可以输入相应语句进行修改。7.双向聚类热图及复杂热图绘制的双向聚类热