1、第八章第八章 多元统计分析(介绍多元统计分析(介绍选讲)选讲)1 多维随机变量多维随机变量2 距离与相似距离与相似3 判别分析判别分析4 聚类分析聚类分析5 主成分分析主成分分析方法篇:多元统计分析(第八章)8.1 多维随机变量多维随机变量方法篇:多元统计分析(第八章)12(,.,)TpXX XXp维随机向量维随机向量或维随机变量维随机变量。12(,.,)TpEXEX EXEXp维随机向量维随机向量的期望的期望(cov(,)ijp pDXX Xp维随机向量维随机向量的协方差矩阵的协方差矩阵11212211(,)exp()()2(2)|Tppf x xxxx(,)pXN8.1 多维随机变量多维随
2、机变量方法篇:多元统计分析(第八章)12(,.,)抽取总体的 个样本点,构成一个样本。TpXX XXn11121(1)21222(1)12(),TpTpijn pTnnnpnxxxxxxxxXxxxxx()1111样本均值 nnijijiixxxxnn1()()()1=样本离差阵样本协方差阵样本相关阵,ijp pnijkiikjjkijijii jjLllxx xxLnlR rl l8.1 多维随机变量多维随机变量方法篇:多元统计分析(第八章)()1,1,2,.,个总体的汇总样本,第 个总体,Kn pnpKXnnGXK()1()()1()()()()()总样本离差阵各总体样本离差阵组内离差阵组
3、间离差阵=(ijp pijp pkijp pkTijp pWwLlEeLB bn xx xx+WE B方法篇:多元统计分析(第八章)协方差估计 都相等时1 Ln Enk数据例子:数据例子:方法篇:多元统计分析(第八章)8.2 距离与相似距离与相似 描述总体之间、样品之间和指标之间的相似程度的方法很多,描述总体之间、样品之间和指标之间的相似程度的方法很多,比较常见有比较常见有 距离法、相似系数等。距离法、相似系数等。样品间距离样品间距离 闵科夫斯基距离:闵科夫斯基距离:马氏距离:马氏距离:方法篇:多元统计分析(第八章)8.2 距离与相似距离与相似 样品与总体距离样品与总体距离 方法篇:多元统计分
4、析(第八章)8.2 距离与相似距离与相似总体间的距离总体间的距离 方法篇:多元统计分析(第八章)8.2 距离与相似距离与相似相似度指标相似度指标 方法篇:多元统计分析(第八章)8.3 判别分析判别分析()112,1,2,.,.,)个总体的汇总样本,第 个总体,任给一个样本点(,问它是归属于哪个总体?判别问题Kn pnppKXnnGXKx xx,样本构造一种分类规则,将其分解成几个类别?聚类问题n pX有监督的过程无监督的过程方法篇:多元统计分析(第八章)8.3 判别分析判别分析判别分析 1.样本点与总体的距离最小为准则进行归类 欧式距离判别法,马氏距离判别法 同协方差马氏法 异协方差马氏法 引
5、入协方差,(单一的距离不是决定因素)方法篇:多元统计分析(第八章)8.3 判别分析判别分析欧式距离判别(重心法)(1)x(2)x(K)xxT1(,)min(()()tKD x Gxxxx方法篇:多元统计分析(第八章)8.3 判别分析判别分析马氏距离判别(1)x(2)x(K)xxT-11(,)min(()()tKD x GxxxxT-11(,)min(()()tKD x Gxxxx方法篇:多元统计分析(第八章)8.3 判别分析判别分析2.平均误判损失最小的准则贝叶斯判别 既考虑先验概率 ,也考虑误判损失。(1)需要知道各总体的密度函数 (2)需要事先确定误判损失矩阵()jf x(|)L i jj
6、q方法篇:多元统计分析(第八章)8.3 判别分析判别分析1(|)=,()、如果损失都相等,即对所有的L i jmij1()max()tttkq f xq fxxG()1()1()()2/21/22(1()2|()、如果,),且同方差()TxxpGNf xe注:当再满足1条件时,可以推出一组线性判别式方法篇:多元统计分析(第八章)8.3 判别分析判别分析2.投影降维Fisher判别 利用方差分析思想,将p维数据投影到低维空角中,再根据低维空间的其他判别方法实现判别。即找出一个或多个p维向量u,对样本数据实施变换z=ux,确保z线性可分;降维后,可考虑使用欧式距离进行归类。()()()(),1,2
7、,;1,2,TiiTzu xinkzu x方法篇:多元统计分析(第八章)8.3 判别分析判别分析()()2()()21111()()()()11()()()()=nnKKTTiiiinKTTTiiiezzu xu xuxxxxu u Eu()2()211()()1()()()()=KKTTKTTTbn zzn u xu xun xx xx u u Bu()=max()令,求TTubu Buueu Euu为便于求解,构建模型max(),.1Tuustu Eu由拉格朗日乘数法,易得1(1)()0TTFu Buu EuE BI u方法篇:多元统计分析(第八章)8.3 判别分析判别分析 对于数据表对于
8、数据表8.3.1,采用,采用Fisher判别判别 (MASS包中包中lda,qda函数函数)(lda.out=lda(belongx1+x2,data=dat)tmp=predict(lda.out,dat)$class table(dat,3,tmp)Prior probabilities of groups:1 2=0.4285714 0.5714286 Group means:x1 x2 1 25.38333 -2.416667 2 22.02500 -1.187500Coefficients of linear discriminants:LD1 x1 -0.7648749 x2 0.
9、6791055方法篇:多元统计分析(第八章)8.4 聚类分析聚类分析 聚类分析研究无监督下的分类问题,实现物以类聚。通常可作R型指标聚类,Q型样本聚类。常见方法包括:谱系聚类法(系统聚类),K-mean聚类,有序样品聚类等方法篇:多元统计分析(第八章)8.4 聚类分析聚类分析 谱系聚类法:(1)各样本点自成一类,然后各类间的距离矩阵由于式样本点间的距离,故采用欧式距离(2)合并距离最短的两个样品点成新类(3)重新计算所有类之间的距离矩阵此时距离为总体(类)间的距离。(4)同样合并距离最短的两个类(5)直到所有的类合并成1个大类为止。方法篇:多元统计分析(第八章)8.4 聚类分析聚类分析 后续工
10、作:(1)绘制谱系图(2)确定合适的分类数(3)不同的距离公式对分类的影响例题:表8.4.1大学男生身高x1和体重x2的聚类分析方法篇:多元统计分析(第八章)8.4 聚类分析聚类分析 例题:表8.4.1大学男生身高x1和体重x2的聚类分析假设数据读入 dat (data.frame类型变量中)dat=data.frame(x1=c(170,173,180,185,168,165,177,165,178,182),x2=c(66,66,68,72,63,62,68,59,69,71)methods=c(single,ward.D,ward.D2,complete,average,mcquitty
11、,median,centroid)d=dist(dat,method=euclidean)par(mfrow=c(2,4)for(i in 1:8)hc=hclust(d,method=methodsi);plot(hc,hang=-1,main=)方法篇:多元统计分析(第八章)8.4 聚类分析聚类分析 分两类:分两类:3,7,9,4,10 和和 1,2,5,6,8 注意:最短距离法不同于其他方法。注意:最短距离法不同于其他方法。方法篇:多元统计分析(第八章)8.4 聚类分析聚类分析kmeans快速聚类法快速聚类法 基本思路:(1)在样本中随机选取k个样本点作为初始中心点(集合);(2)遍历所
12、有样本点,将每个样本点划分到最近的中心点(集合),即聚类;(3)计算每个中心点(集合)的平均值,并作为新的中心点(集合);(4)重复(2)(3)步,直到这k个中心点(集合)不再变化(表现为迭代收敛);为避免可能存在的不收敛情况,可以设置一个迭代上限。kmeans(x,centers,iter.max=10,nstart=1,trace=FALSE,algorithm=c(Hartigan-Wong,Lloyd,Forgy,MacQueen“)其中x数据矩阵或数据;若centers是指定分类的个数,此时nstart表示选取的随机集个数;centers也可以指定聚类中心的初值;iter.max是最
13、大迭代次数;algorithm是聚类过程采用的算法。方法篇:多元统计分析(第八章)8.4 聚类分析聚类分析kmeans快速聚类法快速聚类法 kmeans(dat,centers=2)K-means clustering with 2 clusters of sizes 5,5Cluster means:x1 x2 x1 x21 180.4 69.6 2 168.2 63.2Clustering vector:1 2 2 1 1 2 2 1 2 1 1Within cluster sum of squares by cluster:1 54.4 81.6(between_SS/total_SS=
14、77.7%)Available components:1“cluster”“centers”“totss”“withinss”“tot.withinss”“betweenss”“size”“iter”“ifault”(注意:totss=withinss+betweenss,同方差分析)方法篇:多元统计分析(第八章)8.5 主成分分析主成分分析 多变量间的相关导致信息重叠和冗余,不但增加样本内部关系的复杂度,也增加了问题分析过程的复杂度。将多变量综合成几个不相关的变量,既保留原来变量的信息,又减少了变量个数,进而降低了复杂度。这就是降维分析的一种思想。主成分是降维分析的一种方法,在实际问题中应用
15、比较广泛,但要注意综合变量的实际意义,避免滥用和误用。方法篇:多元统计分析(第八章)8.5 主成分分析主成分分析 基本原理:寻找综合变量y,满足y=ux,并且确保y尽可能表达x的信息,即希望y的方差达到最大。()()()=1达到最大即可。TTD yu D x uD xu u1212.,./,取 的 个非零特征值,相应的标准化特征向量 令为第个主成分,为第个主成分的方差贡献率Tiiiijj ppu uyu xifi通常认为:方差贡献率越大的主成分,综合x的信息能力就越强。方法篇:多元统计分析(第八章)8.5 主成分分析主成分分析求解:一般使用样本相关阵的估计阵来计算特征信息=1LRn85%来选择
16、主成分个数ii mfm注意:由于量纲的不同,由协方差阵和相关阵计算得到的主成分相差较大。res=princomp(dat,cor=TRUE);TRUE/FALSE 采用相关阵/协方差阵summary(res,loading=TRUE)方法篇:多元统计分析(第八章)8.5 主成分分析主成分分析res=princomp(dat,cor=TRUE);TRUE/FALSE 采用相关阵/协方差阵summary(res,loading=TRUE)Importance of components:Comp.1 Comp.2 Comp.3 Comp.4Standard deviation 1.8817805
17、0.55980636 0.28179594 0.25711844Proportion of Variance 0.8852745 0.07834579 0.01985224 0.01652747 占比Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000 累计占比Loadings:Comp.1 Comp.2 Comp.3 Comp.4 x1 -0.497 0.543 0.450 0.506 x2 -0.515 -0.210 0.462 -0.691 x3 -0.481 -0.725 -0.175 0.461 X4 -0.507 0.368 -0.744 -0.232特征根平方根特征向量(列)方法篇:多元统计分析(第八章)8.5 主成分分析主成分分析应用1:指标分类利用指标之间的相关系数矩阵R,得到主成分,以及Loadings(载荷矩阵)绘制载荷的1维或者2维图,直观判定分类应用2:主成分回归特别适用于多重共线性场合下,用来克服经典回归的不足。构建主成分的回归模型后,需要通过变换,还原到原自变量的回归模型