《统计计算及统计软件》课件ch8.pptx_163文库

资源描述

1、第八章第八章多元统计分析（介绍多元统计分析（介绍选讲）选讲）1 多维随机变量多维随机变量2 距离与相似距离与相似3 判别分析判别分析4 聚类分析聚类分析5 主成分分析主成分分析方法篇：多元统计分析(第八章）8.1 多维随机变量多维随机变量方法篇：多元统计分析(第八章）12(,.,)TpXX XXp维随机向量维随机向量或维随机变量维随机变量。12(,.,)TpEXEX EXEXp维随机向量维随机向量的期望的期望(cov(,)ijp pDXX Xp维随机向量维随机向量的协方差矩阵的协方差矩阵11212211(,)exp()()2(2)|Tppf x xxxx(,)pXN8.1 多维随机变量多维随

2、机变量方法篇：多元统计分析(第八章）12(,.,)抽取总体的个样本点，构成一个样本。TpXX XXn11121(1)21222(1)12(),TpTpijn pTnnnpnxxxxxxxxXxxxxx()1111样本均值 nnijijiixxxxnn1()()()1=样本离差阵样本协方差阵样本相关阵，ijp pnijkiikjjkijijii jjLllxx xxLnlR rl l8.1 多维随机变量多维随机变量方法篇：多元统计分析(第八章）()1,1,2,.,个总体的汇总样本，第个总体，Kn pnpKXnnGXK()1()()1()()()()()总样本离差阵各总体样本离差阵组内离差阵组

3、间离差阵=(ijp pijp pkijp pkTijp pWwLlEeLB bn xx xx+WE B方法篇：多元统计分析(第八章）协方差估计都相等时1 Ln Enk数据例子：数据例子：方法篇：多元统计分析(第八章）8.2 距离与相似距离与相似描述总体之间、样品之间和指标之间的相似程度的方法很多，描述总体之间、样品之间和指标之间的相似程度的方法很多，比较常见有比较常见有距离法、相似系数等。距离法、相似系数等。样品间距离样品间距离闵科夫斯基距离：闵科夫斯基距离：马氏距离：马氏距离：方法篇：多元统计分析(第八章）8.2 距离与相似距离与相似样品与总体距离样品与总体距离方法篇：多元统计分

4、析(第八章）8.2 距离与相似距离与相似总体间的距离总体间的距离方法篇：多元统计分析(第八章）8.2 距离与相似距离与相似相似度指标相似度指标方法篇：多元统计分析(第八章）8.3 判别分析判别分析()112,1,2,.,.,)个总体的汇总样本，第个总体，任给一个样本点(，问它是归属于哪个总体？判别问题Kn pnppKXnnGXKx xx,样本构造一种分类规则，将其分解成几个类别？聚类问题n pX有监督的过程无监督的过程方法篇：多元统计分析(第八章）8.3 判别分析判别分析判别分析 1.样本点与总体的距离最小为准则进行归类欧式距离判别法，马氏距离判别法同协方差马氏法异协方差马氏法引

5、入协方差，（单一的距离不是决定因素）方法篇：多元统计分析(第八章）8.3 判别分析判别分析欧式距离判别(重心法)(1)x(2)x(K)xxT1(,)min(（）（）tKD x Gxxxx方法篇：多元统计分析(第八章）8.3 判别分析判别分析马氏距离判别(1)x(2)x(K)xxT-11(,)min(（）（）tKD x GxxxxT-11(,)min(（）（）tKD x Gxxxx方法篇：多元统计分析(第八章）8.3 判别分析判别分析2.平均误判损失最小的准则贝叶斯判别既考虑先验概率，也考虑误判损失。（1）需要知道各总体的密度函数（2）需要事先确定误判损失矩阵()jf x(|)L i jj

6、q方法篇：多元统计分析(第八章）8.3 判别分析判别分析1(|)=,()、如果损失都相等，即对所有的L i jmij1()max()tttkq f xq fxxG()1()1()()2/21/22(1()2|（）、如果，），且同方差（）TxxpGNf xe注：当再满足1条件时，可以推出一组线性判别式方法篇：多元统计分析(第八章）8.3 判别分析判别分析2.投影降维Fisher判别利用方差分析思想，将p维数据投影到低维空角中，再根据低维空间的其他判别方法实现判别。即找出一个或多个p维向量u,对样本数据实施变换z=ux，确保z线性可分；降维后，可考虑使用欧式距离进行归类。()()()(),1,2

7、,;1,2,TiiTzu xinkzu x方法篇：多元统计分析(第八章）8.3 判别分析判别分析()()2()()21111()()()()11()()()()=nnKKTTiiiinKTTTiiiezzu xu xuxxxxu u Eu()2()211()()1()()()()=KKTTKTTTbn zzn u xu xun xx xx u u Bu()=max()令，求TTubu Buueu Euu为便于求解，构建模型max(),.1Tuustu Eu由拉格朗日乘数法，易得1(1)()0TTFu Buu EuE BI u方法篇：多元统计分析(第八章）8.3 判别分析判别分析对于数据表对于

8、数据表8.3.1，采用，采用Fisher判别判别 (MASS包中包中lda,qda函数函数)(lda.out=lda(belongx1+x2,data=dat)tmp=predict(lda.out,dat)$class table(dat,3,tmp)Prior probabilities of groups:1 2=0.4285714 0.5714286 Group means:x1 x2 1 25.38333 -2.416667 2 22.02500 -1.187500Coefficients of linear discriminants:LD1 x1 -0.7648749 x2 0.

9、6791055方法篇：多元统计分析(第八章）8.4 聚类分析聚类分析聚类分析研究无监督下的分类问题，实现物以类聚。通常可作R型指标聚类，Q型样本聚类。常见方法包括：谱系聚类法(系统聚类)，K-mean聚类，有序样品聚类等方法篇：多元统计分析(第八章）8.4 聚类分析聚类分析谱系聚类法：(1)各样本点自成一类，然后各类间的距离矩阵由于式样本点间的距离，故采用欧式距离(2)合并距离最短的两个样品点成新类(3)重新计算所有类之间的距离矩阵此时距离为总体(类)间的距离。(4)同样合并距离最短的两个类(5)直到所有的类合并成1个大类为止。方法篇：多元统计分析(第八章）8.4 聚类分析聚类分析后续工

10、作：（1）绘制谱系图（2）确定合适的分类数（3）不同的距离公式对分类的影响例题：表8.4.1大学男生身高x1和体重x2的聚类分析方法篇：多元统计分析(第八章）8.4 聚类分析聚类分析例题：表8.4.1大学男生身高x1和体重x2的聚类分析假设数据读入 dat (data.frame类型变量中)dat=data.frame(x1=c(170,173,180,185,168,165,177,165,178,182),x2=c(66,66,68,72,63,62,68,59,69,71)methods=c(single,ward.D,ward.D2,complete,average,mcquitty

11、,median,centroid)d=dist(dat,method=euclidean)par(mfrow=c(2,4)for(i in 1:8)hc=hclust(d,method=methodsi);plot(hc,hang=-1,main=)方法篇：多元统计分析(第八章）8.4 聚类分析聚类分析分两类：分两类：3,7,9,4,10 和和 1,2,5,6,8 注意：最短距离法不同于其他方法。注意：最短距离法不同于其他方法。方法篇：多元统计分析(第八章）8.4 聚类分析聚类分析kmeans快速聚类法快速聚类法基本思路：（1）在样本中随机选取k个样本点作为初始中心点(集合)；（2）遍历所

12、有样本点，将每个样本点划分到最近的中心点(集合),即聚类；（3）计算每个中心点(集合)的平均值，并作为新的中心点(集合)；（4）重复(2)(3)步，直到这k个中心点(集合)不再变化(表现为迭代收敛)；为避免可能存在的不收敛情况，可以设置一个迭代上限。kmeans(x,centers,iter.max=10,nstart=1,trace=FALSE,algorithm=c(Hartigan-Wong,Lloyd,Forgy,MacQueen“)其中x数据矩阵或数据；若centers是指定分类的个数，此时nstart表示选取的随机集个数；centers也可以指定聚类中心的初值；iter.max是最

13、大迭代次数；algorithm是聚类过程采用的算法。方法篇：多元统计分析(第八章）8.4 聚类分析聚类分析kmeans快速聚类法快速聚类法 kmeans(dat,centers=2)K-means clustering with 2 clusters of sizes 5,5Cluster means:x1 x2 x1 x21 180.4 69.6 2 168.2 63.2Clustering vector:1 2 2 1 1 2 2 1 2 1 1Within cluster sum of squares by cluster:1 54.4 81.6(between_SS/total_SS=

14、77.7%)Available components:1“cluster”“centers”“totss”“withinss”“tot.withinss”“betweenss”“size”“iter”“ifault”(注意:totss=withinss+betweenss,同方差分析)方法篇：多元统计分析(第八章）8.5 主成分分析主成分分析多变量间的相关导致信息重叠和冗余，不但增加样本内部关系的复杂度，也增加了问题分析过程的复杂度。将多变量综合成几个不相关的变量，既保留原来变量的信息，又减少了变量个数，进而降低了复杂度。这就是降维分析的一种思想。主成分是降维分析的一种方法，在实际问题中应用

15、比较广泛，但要注意综合变量的实际意义，避免滥用和误用。方法篇：多元统计分析(第八章）8.5 主成分分析主成分分析基本原理：寻找综合变量y，满足y=ux，并且确保y尽可能表达x的信息，即希望y的方差达到最大。()()()=1达到最大即可。TTD yu D x uD xu u1212.,./,取的个非零特征值，相应的标准化特征向量令为第个主成分，为第个主成分的方差贡献率Tiiiijj ppu uyu xifi通常认为：方差贡献率越大的主成分，综合x的信息能力就越强。方法篇：多元统计分析(第八章）8.5 主成分分析主成分分析求解：一般使用样本相关阵的估计阵来计算特征信息=1LRn85%来选择

16、主成分个数ii mfm注意：由于量纲的不同，由协方差阵和相关阵计算得到的主成分相差较大。res=princomp(dat,cor=TRUE);TRUE/FALSE 采用相关阵/协方差阵summary(res,loading=TRUE)方法篇：多元统计分析(第八章）8.5 主成分分析主成分分析res=princomp(dat,cor=TRUE);TRUE/FALSE 采用相关阵/协方差阵summary(res,loading=TRUE)Importance of components:Comp.1 Comp.2 Comp.3 Comp.4Standard deviation 1.8817805

17、0.55980636 0.28179594 0.25711844Proportion of Variance 0.8852745 0.07834579 0.01985224 0.01652747 占比Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000 累计占比Loadings:Comp.1 Comp.2 Comp.3 Comp.4 x1 -0.497 0.543 0.450 0.506 x2 -0.515 -0.210 0.462 -0.691 x3 -0.481 -0.725 -0.175 0.461 X4 -0.507 0.368 -0.744 -0.232特征根平方根特征向量(列)方法篇：多元统计分析(第八章）8.5 主成分分析主成分分析应用1：指标分类利用指标之间的相关系数矩阵R，得到主成分，以及Loadings(载荷矩阵)绘制载荷的1维或者2维图，直观判定分类应用2：主成分回归特别适用于多重共线性场合下，用来克服经典回归的不足。构建主成分的回归模型后，需要通过变换，还原到原自变量的回归模型

展开阅读全文