《应用多元统计分析》课件yydyfx9-11.ppt

上传人(卖家):momomo 文档编号:5566897 上传时间:2023-04-25 格式:PPT 页数:34 大小:461.50KB
下载 相关 举报
《应用多元统计分析》课件yydyfx9-11.ppt_第1页
第1页 / 共34页
《应用多元统计分析》课件yydyfx9-11.ppt_第2页
第2页 / 共34页
《应用多元统计分析》课件yydyfx9-11.ppt_第3页
第3页 / 共34页
《应用多元统计分析》课件yydyfx9-11.ppt_第4页
第4页 / 共34页
《应用多元统计分析》课件yydyfx9-11.ppt_第5页
第5页 / 共34页
点击查看更多>>
资源描述

1、1应用多元统计分析应用多元统计分析第九章第九章 对应分析对应分析第十章第十章 典型相关分析典型相关分析第十一章第十一章 偏最小二乘回归分析偏最小二乘回归分析2第九章第九章 对应分析对应分析 对应分析又称相应分析对应分析又称相应分析,于于19701970年由法年由法国统计学家国统计学家J.P.BeozecriJ.P.Beozecri提出的提出的.它是在它是在R R型和型和Q Q型因子分析基础上发展起来的多元型因子分析基础上发展起来的多元统计分析方法统计分析方法,故也称为故也称为R-QR-Q型因子分析型因子分析.因子分析方法是用少数几个公共因子去提取因子分析方法是用少数几个公共因子去提取研究对象的

2、绝大部分信息研究对象的绝大部分信息,既减少了因子的数目既减少了因子的数目,又把握住了研究对象的相互关系又把握住了研究对象的相互关系.在因子分析在因子分析中根据研究对象的不同中根据研究对象的不同,分为分为R R型和型和Q Q型型,如果研如果研究变量间的相互关系时采用究变量间的相互关系时采用R R型因子分析型因子分析;如果如果研究样品间相互关系时采用研究样品间相互关系时采用Q Q型因子分析型因子分析.3第九章第九章 对应分析对应分析 无论是无论是R R型或型或Q Q型都未能很好地揭示变量和样品型都未能很好地揭示变量和样品间的双重关系间的双重关系.另方面在处理实际问题中另方面在处理实际问题中,样本的

3、大小经常是样本的大小经常是比变量个数多得多比变量个数多得多.当样品个数当样品个数n很大很大(如如n100),100),进行进行Q Q型因子分析时型因子分析时,计算计算n阶方阵的特征值和特阶方阵的特征值和特征向量对于微型计算机的容量和速度都是难以胜征向量对于微型计算机的容量和速度都是难以胜任的任的.还有进行数据处理时还有进行数据处理时,为了将数量级相差很大为了将数量级相差很大的变量进行比较的变量进行比较,常常先对变量作标准化处理常常先对变量作标准化处理,然然而这种标准化处理对于变量和样品是非对等的而这种标准化处理对于变量和样品是非对等的,这这给寻找给寻找R R型和型和Q Q型之间的联系带来一定的

4、困难型之间的联系带来一定的困难.4第九章第九章 什么是对应分析什么是对应分析 对应分析方法是在因子分析的基础上发展起对应分析方法是在因子分析的基础上发展起来的来的,它对原始数据采用适当的标度方法它对原始数据采用适当的标度方法.把把R R型型和和Q Q型分析结合起来型分析结合起来,同时得到两方面的结果同时得到两方面的结果-在同一因子平面上对变量和样品一块进行分类在同一因子平面上对变量和样品一块进行分类,从而揭示所研究的样品和变量间的内在联系从而揭示所研究的样品和变量间的内在联系.对应分析由对应分析由R R型因子分析的结果型因子分析的结果,可以很容易可以很容易地得到地得到Q Q型因子分析的结果型因

5、子分析的结果,这不仅克服样品量这不仅克服样品量大时作大时作Q Q型因子分析所带来计算上的困难型因子分析所带来计算上的困难,且把且把R R型和型和Q Q型因子分析统一起来型因子分析统一起来,把样品点和变量把样品点和变量点同时反映到相同的因子轴上点同时反映到相同的因子轴上,这就便于我们对这就便于我们对研究的对象进行解释和推断研究的对象进行解释和推断.5第九章第九章 对应分析对应分析的基本思想的基本思想 由于由于R R型因子分析和型因子分析和Q Q型分析都是反映一个整型分析都是反映一个整体的不同侧面体的不同侧面,因而它们之间一定存在内在的联因而它们之间一定存在内在的联系系.对应分析就是通过一个变换后

6、的过渡矩阵对应分析就是通过一个变换后的过渡矩阵Z Z将二者有机地结合起来将二者有机地结合起来.具体地说具体地说,首先给出变量间的协差阵首先给出变量间的协差阵SR=ZZ和和样品间的协差阵样品间的协差阵SQ=ZZ,由于由于ZZ和和ZZ有相同有相同的非零特征根的非零特征根,记为记为1 12 2m,如如果果SR的特征根的特征根i i对应的特征向量为对应的特征向量为vi,则则SQ的特的特征根征根i i对应的特征向量对应的特征向量ui=Z=Zvi/./.由此可由此可以很方便地由以很方便地由R R型因子分析而得到型因子分析而得到Q Q型因子分析型因子分析的结果的结果.i6第九章第九章 对应分析的基本思想对应

7、分析的基本思想 由由A的特征根和特征向量即可写出的特征根和特征向量即可写出R R型因型因子分析的因子载荷阵子分析的因子载荷阵(记为记为AR)和和Q Q型因子型因子分析的因子载荷阵分析的因子载荷阵(记为记为AQ).).vp1ARvp2vpm7第九章第九章 9.1 什么是对应什么是对应分析分析 基本思想基本思想 由于由于A A和和B B具有相同的非零特征根具有相同的非零特征根,而这些特征根又而这些特征根又正是各个公共因子的方差正是各个公共因子的方差,因此可以用相同的因子轴同因此可以用相同的因子轴同时表示变量点和样品点时表示变量点和样品点,即把变量点和样品点同时反映即把变量点和样品点同时反映在具有相

8、同坐标轴的因子平面上在具有相同坐标轴的因子平面上,以便对变量点和样品以便对变量点和样品点一起考虑进行分类点一起考虑进行分类.AQun1un2unm8第十章第十章 典型相关分析典型相关分析 相关分析是研究多个变量与多个变量之间的相关分析是研究多个变量与多个变量之间的相关关系相关关系.如研究两个随机变量之间的相关关系如研究两个随机变量之间的相关关系可用简单相关系数表示可用简单相关系数表示;研究一个随机变量与多研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表个随机变量之间的相关关系可用全相关系数表示示.1936年年Hotelling首先将相关分析推广到研究首先将相关分析推广到研究多个随机

9、变量与多个随机变量之间的相关关系多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析故而产生了典型相关分析,广义相关系数等一些广义相关系数等一些有用的方法有用的方法.9第十章第十章 什么是什么是典型相关分析典型相关分析 在实际问题中在实际问题中,经常遇到要研究一部分变量和经常遇到要研究一部分变量和另一部分变量之间的相关关系另一部分变量之间的相关关系,例如例如:在工业在工业中中,考察原料的主要质量指标考察原料的主要质量指标(X1,.,Xp)与产品的主要质量指标与产品的主要质量指标(Y1,.,Yq)间的相关性间的相关性;在经济学在经济学中中,研究主要肉类的价格与销售量之间研究主要肉类的

10、价格与销售量之间的相关性的相关性;在地质学在地质学中中,为研究岩石形成的成因关系为研究岩石形成的成因关系,考察考察岩石的化学成份与其周围围岩化学成份的相关性岩石的化学成份与其周围围岩化学成份的相关性;在气象学在气象学中为分析预报中为分析预报24小时后天气的可靠程小时后天气的可靠程度度,研究当天和前一天气象因子间的相关关系研究当天和前一天气象因子间的相关关系;10第十章第十章 什么是什么是典型相关分析典型相关分析 在教育学在教育学中中,研究学生在高考的各科成绩与高研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系二年级各主科成绩间的相关关系;在婚姻的研究在婚姻的研究中中,考察小伙子对追求姑

11、娘的主考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的要指标与姑娘想往的小伙子的主要尺度之间的相关关系相关关系;在医学在医学中中,研究患某种疾病病人的各种症状程研究患某种疾病病人的各种症状程度与用科学方法检查的一些结果之间的相关关度与用科学方法检查的一些结果之间的相关关系系;在体育学在体育学中中,研究运动员的体力测试指标与运研究运动员的体力测试指标与运动能力指标之间的相关关系等动能力指标之间的相关关系等.11第十章第十章 什么是什么是典型相关分析典型相关分析 一般地一般地,假设有一组变量假设有一组变量X1,.,Xp 与另一组变与另一组变量量Y1,.,Yq(也可以记为也可以记为X

12、p+1,.,Xp+q),我们要研究我们要研究这两组变量的相关关系这两组变量的相关关系,如何给两组变量之间的如何给两组变量之间的相关性以数量的描述相关性以数量的描述,这就是本章研究的典型相这就是本章研究的典型相关分析关分析.当当p=q=1时时,就是研究两个变量就是研究两个变量X与与Y之间的相之间的相关关系关关系.简单相关系数是最常见的度量简单相关系数是最常见的度量.其定义为其定义为12第十章第十章 什么是什么是典型相关分析典型相关分析 当当p 1,q=1时时(或或 q 1,p=1)设设则称则称为为Y与与(X1,Xp)的的 全相关系数全相关系数.其实其实Y对对X的回归为的回归为1(|)()()YY

13、XXXXE Y Xxx且且(,()YxR,并称并称R为全相关系数为全相关系数.1/21YXXXXYYYR1(,),0XXXYpYXYYXNY def=13第十章第十章 什么是什么是典型相关分析典型相关分析 当当p,q1时时,利用主成分分析的思想利用主成分分析的思想,可以把多可以把多个变量与多个变量之间的相关化为两个新变量个变量与多个变量之间的相关化为两个新变量之间的相关之间的相关.也就是求也就是求=(1,p)和和 =(1,q),使使得新变量得新变量:V=1X1+pXp=X W=1Y1+qYq=Y之间有最大可能的相关之间有最大可能的相关,基于这个思想就产生基于这个思想就产生了典型相关分析了典型相

14、关分析(Canonical correlatinal analysis).14第十章第十章 总体总体典型相关典型相关 设设X=(X1,.,Xp)及及Y=(Y1,.,Yq)为随机向量为随机向量(不妨设不妨设pq),记随机向量记随机向量Z=XYZ的协差阵为的协差阵为其中其中 11是是X的协差阵的协差阵,22是是Y的协差阵的协差阵,12=21是是X,Y的协差阵的协差阵.2221121115第十章第十章 总体总体典型相关典型相关 我们用我们用X和和Y的线性组合的线性组合V=a X和和W=b Y之间之间的相关来研究的相关来研究X和和Y之间的相关之间的相关.我们希望找到我们希望找到a和和b,使使(V,W)

15、最大最大.由相关系数的定义由相关系数的定义:又已知又已知16第十章第十章 总体总体典型相关典型相关故有故有对任给常数对任给常数c1,c2,d1,d2,显然有显然有 (c1V+d1,c2W+d2)=(V,W)即使得相关系数最大的即使得相关系数最大的V=a X和和W=b X并不唯并不唯 一一.故加附加约束条件故加附加约束条件 Var(V)=a 11 a=1,Var(W)=b 22 b=1.问题化为在约束条件问题化为在约束条件Var(V)=1,Var(W)=1下下,求求a和和b,使得使得(V,W)=a 12 b达最大达最大.17第十章第十章 样本样本典型相关典型相关 设总体设总体Z=(=(X1 1,

16、.,.,Xp,Y1 1,Yq).在实际在实际问题中问题中,总体的均值总体的均值E(E(Z)=)=和协差阵和协差阵D(D(Z)=)=通常是未知的通常是未知的,因而无法求得总体的典型相关因而无法求得总体的典型相关变量和典型相关系数变量和典型相关系数.首先需要根据观测到的样本资料阵对其进首先需要根据观测到的样本资料阵对其进行估计行估计.已知总体已知总体Z的的n个样品个样品:()()()()1(1,2,.,)tttpqXZtnY18第十章第十章 样本样本典型相关典型相关 样本资料阵为样本资料阵为x11 x12 x1p y11 y12 y1qx21 x22 x2p y21 y22 y2q .xn1 xn

17、2 xnp yn1 yn2 ynq若假定若假定Z ZN(N(,),),则协差阵则协差阵 的最大似然估的最大似然估计为计为 Z(1)Z(2)=.Z(n)()()11()()ntttZZZZSn def=*19第十章第十章 样本样本典型相关典型相关 我们从协差阵我们从协差阵 的最大似然估计的最大似然估计S*(或样或样本协差阵本协差阵S)出发出发,按上节的方法可以导出样按上节的方法可以导出样本典型相关变量和样本典型相关系数本典型相关变量和样本典型相关系数.还可还可以证明样本典型相关变量和样本典型相关以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数是总体典型相关变量和样本典

18、型相关系数的极大似然估计系数的极大似然估计.也可以从样本相关阵也可以从样本相关阵R出发来导出样本出发来导出样本典型相关变量和样本典型相关系数典型相关变量和样本典型相关系数.20第十章第十章 样本样本典型相关典型相关典型相关系数的典型相关系数的显著性检验显著性检验 总体总体Z的两组变量的两组变量X=(X=(X1 1,.,.,Xp)和和Y=(=(Y1 1,Yq)如果不相关如果不相关,即即COV(COV(X,Y)=)=1212=0,=0,以上以上有关两组变量典型相关的讨论就毫无意义有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间相关关系之前故在讨论两组变量间相关关系之前,应首先应首先对以下假

19、设对以下假设H H0 0作统计检验作统计检验.(1)(1)检验检验H H0 0:1212=0(=0(即即 1=0)=0)设总体设总体Z ZN Np+qp+q(,).).用似然比方法可导出检用似然比方法可导出检验验H H0 0的似然比统计量为的似然比统计量为(A,A1111,A2222为离差阵为离差阵)11221122|ASAASS 21第十章第十章 样本样本典型相关典型相关典型相关系数的典型相关系数的显著性检验显著性检验 (2)(2)检验检验H H0 0(i)(i):i=0=0(i=2,.,=2,.,p)当否定当否定H H0 0时时,表明表明X,Y相关相关,进而可得出至少第进而可得出至少第一个

20、典型相关系数一个典型相关系数 1 0.0.相应的第一对典型相相应的第一对典型相关变量关变量V V1 1,W W1 1可能已经提取了两组变量相关关系可能已经提取了两组变量相关关系的绝大部分信息的绝大部分信息.22 在实际问题中,经常迂到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法.第十一章第十一章 什么是什么是偏最小二乘回归偏最小二乘回归23 偏最小二乘回归提供一

21、种多对多线性回归偏最小二乘回归提供一种多对多线性回归建模的方法建模的方法,特别当两组变量的个数很多特别当两组变量的个数很多,且都且都存在多重相关性存在多重相关性,而观测数据的数量而观测数据的数量(样本量样本量)又较少时又较少时,用偏最小二乘回归建立的模型具有用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。传统的经典回归分析等方法所没有的优点。偏最小二乘回归分析在建模过程中集中了偏最小二乘回归分析在建模过程中集中了主成分分析主成分分析,典型相关分析和线性回归分析方典型相关分析和线性回归分析方法的特点法的特点,因此在分析结果中因此在分析结果中,除了可以提供一除了可以提供一个更为

22、合理的回归模型外个更为合理的回归模型外,还可以同时完成一还可以同时完成一些类似于主成分分析和典型相关分析的研究内些类似于主成分分析和典型相关分析的研究内容容,提供更丰富、深入的一些信息。提供更丰富、深入的一些信息。第十一章第十一章 什么是什么是偏最小二乘回归偏最小二乘回归24 本章结合SAS/STAT软件中用于完成偏最小二乘回归的PLS过程,介绍偏最小二乘回归分析的建模方法;并通过例子从预测角度对所建立的回归模型进行比较。第十一章第十一章 什么是什么是偏最小二乘回归偏最小二乘回归25 考虑考虑p个因变量个因变量Y1,Yp与与m个自变量个自变量X1,Xm的建模问题。的建模问题。偏最小二乘回归的基

23、本作法是首先在自变量偏最小二乘回归的基本作法是首先在自变量集中提取第一成分集中提取第一成分T1(T1是是X1,Xm的线性组合的线性组合,且尽可能多地提取原自变量集中的变异信息且尽可能多地提取原自变量集中的变异信息);同时在因变量集中也提取第一成分同时在因变量集中也提取第一成分U1,并要求并要求T1与与U1相关程度达最大。然后建立因变量相关程度达最大。然后建立因变量Y1,Yp与与T1的回归,如果回归方程已达到满意的回归,如果回归方程已达到满意的精度,则算法终止。的精度,则算法终止。第十一章第十一章 偏最小二乘回归分析偏最小二乘回归分析26第十一章第十一章 什么是什么是偏最小二乘回归偏最小二乘回归

24、 否则继续第二对成分的提取否则继续第二对成分的提取,直到直到能达到满意的精度为止。能达到满意的精度为止。若最终对自变量集提取若最终对自变量集提取r个成分个成分T1,T2,Tr,偏最小二乘回归将通过偏最小二乘回归将通过建立建立Y1,Yp与与T1,T2,Tr的回归式的回归式,然后再表示为然后再表示为Y1,Yp与原自变量的与原自变量的回归方程式回归方程式,即偏最小二乘回归方程式即偏最小二乘回归方程式.27 假定假定p个因变量个因变量Y1,Yp与与m个自变个自变量量X1,Xm 均为标准化变量。因变量均为标准化变量。因变量组和自变量组的组和自变量组的n次标准化观测数据次标准化观测数据阵分别记为:阵分别记

25、为:第十一章第十一章 偏最小二乘回归分析偏最小二乘回归分析Y0=y11 y1p yn1 ynpX0=x11 x1m xn1 xnmn pn m28偏最小二乘回归分析建模的具体步骤如下:偏最小二乘回归分析建模的具体步骤如下:(1)分别提取两变量组的第一对成分分别提取两变量组的第一对成分T1和和U1,并使之相关性达最大。并使之相关性达最大。为了回归分析的需要为了回归分析的需要,要求:要求:T1和和U1各自尽可能多地提取所在变量组的变各自尽可能多地提取所在变量组的变异信息;异信息;T1和和U1的相关程度达到最大。的相关程度达到最大。(2)建立建立Y1,Yp对对T1的回归及的回归及X1,Xm 对对T1

26、的回归的回归,得得:第十一章第十一章 偏最小二乘回归分析偏最小二乘回归分析.00YX 和29第十一章第十一章 偏最小二乘回归分析偏最小二乘回归分析 (3)用残差阵用残差阵E1和和F1代替代替X0和和Y0重复以上重复以上步骤步骤.如果残差阵如果残差阵F1中元素的绝对值近似中元素的绝对值近似为为0,则认为用第一个成分建立的回归,则认为用第一个成分建立的回归式精度已满足需要了,可以停止抽取式精度已满足需要了,可以停止抽取成分成分.否则用残差阵否则用残差阵E1和和F1代替代替X0和和Y0重复以上步骤重复以上步骤.,001001YYFXXE30 第十一章第十一章 偏最小二乘回归分析偏最小二乘回归分析即得

27、即得p个标准化因变量的偏最小二乘回归方程个标准化因变量的偏最小二乘回归方程rjrjjjtttY.2211*),.,1(.*2*2*1*1*pjXaXaXaYmjmjjj然后再还原为原始变量的偏最小二乘回归方程然后再还原为原始变量的偏最小二乘回归方程:),.,2,1(.22110pjXaXaXaaYmjmjjjj (4)设设nm数据阵数据阵X0的秩为的秩为rmin(n-1,m),则存则存在在r个成分个成分t1,t2,tr,并建立并建立Yj*与与t1,t2,tr的回归的回归式式:31 第十一章第十一章 偏最小二乘回归分析偏最小二乘回归分析 (5)确定抽取成分的个数确定抽取成分的个数l.一般情况下一

28、般情况下,偏最小二乘回归并不需要选偏最小二乘回归并不需要选用存在的所有用存在的所有r个成分个成分t1,t2,tr来建立回归来建立回归式式,而像主成分分析一样而像主成分分析一样,只选用前只选用前k个成分个成分(kr),即可得到预测能力较好的回归模型即可得到预测能力较好的回归模型.),1()()(PRESS2)(1pjkyykijniijj 抽取抽取k个成分时第个成分时第j个因变量个因变量Yj(j=1,p)的预测残差平方和为的预测残差平方和为32 第十一章第十一章 应用例子应用例子 以下通过康复俱乐部以下通过康复俱乐部20名成员测试数据的偏最名成员测试数据的偏最小二乘回归分析例子介绍小二乘回归分析

29、例子介绍PLS过程的用法过程的用法.例例11.2.1 康复俱乐部对康复俱乐部对20名中年人测量了三名中年人测量了三个生理指标:个生理指标:WEIGHT(体重),(体重),WAIST(腰(腰围),围),PULSE(脉膊)和三个训练指标:(脉膊)和三个训练指标:CHINS(拉单杠次数),(拉单杠次数),SITUPS(仰卧起坐次(仰卧起坐次数),数),JUMPS(跳高)(跳高)(数据见第十章例数据见第十章例10.3.1).试用偏最小二乘回归方法建立由三个生理指标试用偏最小二乘回归方法建立由三个生理指标分别预测三个训练指标回归模型,并对计算结分别预测三个训练指标回归模型,并对计算结果进行分析果进行分析

30、.33 第十一章第十一章 应用例子应用例子 解解 使用使用SAS/STAT软件中软件中PLS过程来完成偏过程来完成偏最小二乘回归分析最小二乘回归分析.假设测试数据已生成为假设测试数据已生成为d1121的的SAS数据集,数据集,SAS程序如下:程序如下:proc pls data=d1121 details;/*cv=one 或或 nfac=2*/model chins situps jumps=weight waist pulse /solution;output out=outpls yscore=u xscore=t predicted=pr1-pr3;run;34 第十一章第十一章 应用例子应用例子

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(《应用多元统计分析》课件yydyfx9-11.ppt)为本站会员(momomo)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|