1、第第19章章 判别分析判别分析学习目标学习目标 了解判别分析的基本思想; 熟悉Bayes判别分析法和Fisher判别分析法; 掌握BAYES参数分析法的判别准则效能的评估; 掌握判别分析的SAS过程步:DISCRIM、CANDISC和STEPDISC过程步。概述概述 在医学研究和疾病防治工作中,经常会遇到需要根据观测到的资料对所研究的对象进行分类的问题。例如,需要根据就诊者的各项症状、体征及化验指标,作出就诊者是否患有某种疾病或某种疾病的哪一类型的诊断;又如,在环境监测中,根据对某地区的环境污染的综合测定结果判断该地区属于哪一种污染类型等。概述概述 判别分析的任务是根据已掌握的一批分类明确的样
2、品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。判别分析是对样本个体进行分类的另一种统计分析方法,它和聚类分析一样,都可以将样本个体按其具有的特性进行分类。 概述概述 聚类分析和判别分析有很大的区别,判别分析是根据一批分类明确的样本在若干指标上的观察值,建立一个判别函数和判别准则,然后以此准则对新的样本进行分类。由此可知,这两种分类方法有着本质的不同:聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类;聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类;聚类分析不需要分类的历史资料,而直接对
3、样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。判别分析判别分析 判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法,它对于需要根据对样本中每个个案的观测来建立一个分组预测模式的情况是非常适用的。分析过程基于对预测变量的线性组合产生一系列判别函数,但是这些预测变量应该能够充分地体现各个类别之间的差异。判别函数是从一个每个个案所属的类别已经确定的样本中拟合出来的,并且生成的函数能够运用于同样进行了预测变量观测的新的样本点,以判断其类别归属。 判别分析判别分析 判别分析的基本原理可以表述为:在一个P维空间R中,有K个已知的总体G1,G2,G3,GK,同时
4、有样本点X(X1,X2,X3,XP),它属于且仅属于这K个总体中的一个,判别分析所要解决的问题是确定这个样本点X具体应该属于那一个G总体。实际上判别分析的过程分为两个部分,首先是依据已知样本及其预测变量建立起一系列分类规则或判别规则,其次是运用这一规则对样本的原有分类进行检验以确定原有分类错判率。同时如果原有分类具有较低的错判率,则建立起来的分类规则可以应用于实际工作中。 判别分析判别分析 判别分析的基本思想是根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。例如,以一批正
5、常和一批已确诊的病人为样本,收集他们的各项指标,如化验指标、X线、心脑电图、超声波等诊断指标,然后利用这批分类明确的样本在这些指标上的观察值,建立一个关于指标的判别函数和判别准则(区分正常人和病人的方法),使得按此准则来判断这批样本归属的正确率达到最高。它有着广泛的应用价值,尤其在计算机疾病辅助诊断等医学科学研究中起了重要作用。判别分析判别分析 判别函数是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一确定的函数值,将所有样本按其函数值的大小和事先规定的判别原则分到不同的组里,并使得分组结果与原样本归属最吻合。这就是判别分析方法的基本过程。进行判别分析的目的是根据
6、样本建立判别函数和判别准则,用以对新的样本进行归类。不同判别分析方法的区别在于其建立判别函数的方法和判别准则的规定是不同的。判别分析判别分析 判别分析的方法中较常使用的有Bayes判别分析法和Fisher判别分析法。Fisher判别分析法是以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类;而Bayes判别分析法是以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类。前者仅适用于两类判别,后者适用于多类判别。 对判别分析结果的优劣评价明确尚无系统的检验理论,只能通过错判率和事后概率错误率的估计来评估判别分类的有效性。FISHER判别分析法判别分析法 假设A和B为分类明确的两
7、类症状。在总体A中观察了p例,在总体B中观察了q例,每一例记录了k个指标,它们是 。令y是这k个指标的一个线性函数,即: 其中, 是待估计的未知系数。称上述线性函数是FISHER判别分析法的判别函数。如果a是总体A中的一个样本,b是总体B中的一个样本,这y (a)和y (b)分别是这两个样本的判别函数值。 FISHER判别分析法的基本原理是选择一组适当的系数,使得类间差异最大且类内差异最小。kxxx,21kkxcxcxcy2211kccc,21FISHER判别分析法判别分析法 根据FISHER判别分析法的基本原理,就是要选择一组适当的系数,使得类间差异最大且类内差异最小,即使得下式的Q值达到最
8、大。 使得Q值达到最大就是Q的一阶偏导函数等于0的方程组的解,由)()()()(),(21babyaycccQQk0,0,021kcQcQcQFISHER判别分析法判别分析法 可以得到: 其中, kkkktktksksktstskkttdcfcfcfdcfcfcfdcfcfcf1111111111ksbadsss, 2 , 1,ktsbbbbaaaaftitqisistitpisisst, 2 , 1,),( )()( )(11FISHER判别分析法判别分析法 令上述方程的解是 ,那么FISHER判别函数估计式是: 因此,对于任意一个样本在k个指标上的观察值,都可以计算出对应的判别函数值,令判
9、别临界点是:kccc,21kkxcxcxcy2211)( )( ( ,)( )( 0110ayybyqpbcqacpqpbyqaypykjkjjjjjFISHER判别分析法判别分析法 那么,FISHER判别准则是: 时,该样本属于B类; 时,该样本属于A类; 各项指标在判别分析中所起的作用是不同的。贡献率的大小由下式决定:0*yy 0*yykjdcdcxkjjjjjj,2, 1,1的贡献率BAYES判别分析法判别分析法 BAYES判别分析法是以概率为判别准则使得每一类中的每一个样本都以最大概率进入该类。BAYES判别是一种概率型的判别分析,在分析过程开始时需要获得各个类别的分布密度函数,同时也
10、需要知道样本点属于各个类别的先验概率,以建立一个合适的判别规则;而分析过程结束时则计算每个样本点归属于某个类别的最大概率或最小错判损失,以确定各个样本点的预测类别归属。BAYES判别分析法判别分析法 BAYES判别分析法在理论和处理方法上都比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,使得判别分析的效能得到较大的提高。SAS软件的判别分析过程是以BAYES判别分析法为理论基础的。BAYES判别分析法判别分析法 BAYES判别法的判别准则是,将每一个点x判别到事后概率最大的类中。利用已知的数据以及求极小值的方法,可以估计出的系数,从而可以得到判
11、别函数的系数估计值,这些估计出的系数使得每一个样本x属于某个类的事后概率达到最大。判别分析判别分析 判别分析的结果对应着分析的不同步骤过程,也就包括了分类规则和分类结果两个部分。在分类规则中应该包括典型判别函数、衡量预测变量与判别函数之间关系的结构矩阵以及Fisher线性分类函数。典型判别函数是基于BAYES判别思想建立起来的,主要用途在于对参与分析的各个类别、各个预测变量、各个类别中的各个样本点及其相互关系进行考察。判别分析判别分析 要将典型判别函数应用于大量的实践操作中是不现实的,因为这涉及到对被分类的样本计算各种概率,十分繁琐不利用操作。而FISHER线性分类函数则是针对每个类别分别建立
12、起来的,可以直接应用实践操作中对新的样本进行分类。在分类结果部分则依据已经建立起来的分类规则对参与分析的各个样本点重新进行分类,并通过与原有分类进行比较来确定原有分类的判对率。判别函数中判别能力检验判别函数中判别能力检验 一个判别函数判别样本归类的功能强弱很大程度上取决与指标的选取。如果判别函数中特异性强的指标越多,则判别函数的判别功能也就越强。相反,不重要的指标越多,判别函数就越不稳定,其判别效果非但得不到改善,甚至会适得其反。因此,要建立一个有效的判别函数,指标的选取很重要,过多过少都不一定合适。一方面要根据专业知识和经验来筛选指标,另一方面要借助统计分析方法检验指标的性能。判别函数中判别
13、能力检验判别函数中判别能力检验 在一个判别函数中,每一个指标变量对判别函数的判别能力都有所贡献。贡献的大小可以用一元方差分析和多元方差分析来检验。一元方差分析可以检验每一个指标是否对判别函数的判别能力有显著性意义,统计检验的无效假设是:单一指标对判别函数的作用不显著。多元方差分析可以检验所有指标是否联合对判别函数的判别能力有显著性意义,统计检验的无效假设是:所有指标对判别函数的联合作用不显著。BAYES参数分析法的判别准则效能评估参数分析法的判别准则效能评估 对于BAYES参数分析法的判别准则效能的评估,常用的是两个错误率估计指标。一个为错判率估计,另一个为事后概率错误率估计。 错误率估计是从
14、回代过程得到的结果,类内错判率等于类内被错判的样本数所占的比例。例如,原数据中第一类有n1个样本,用判别函数判别后,有m1个被判到其它类中,那么第一类的错判率等于m1/ n1。总体错判率等于总体被错判的样本数所占的比例。例如,原数据有两类,第一类有n1个样本,第二类有n2个样本,用判别函数判别后,第一类有m1个被判到其它类中,第二类有m2个样本被判到其它类中,那么总体的错判率等于(m1m2)/(n1n2)。BAYES参数分析法的判别准则效能评估参数分析法的判别准则效能评估 在回代过程和判别新的样本时,都可以估计事后概率错判率。令x属于类t的事前概率为pt,事后概率为,样本总数为n,类t的样本数
15、为nt,类t的事后概率错判率为Et,总体事后概率错判率为E,其估计公式是: ) )(11)()(tRittxipnpedunstratifiE) )(11)()(1iRjgiiittxjpnppstratifiedEgiiiEpE1BAYES参数分析法的判别准则效能评估参数分析法的判别准则效能评估 其中,第一个公式表示从所有类中被判别到类t的所有x的事后概率之和,称为无分层概率之和。第二个公式表示从类i中被判别到类t的所有x的事后概率之和,称为无分层概率之和。第一个公式定义的错误率为无分层事后概率错误率,第二个公式定义的错误率为分层事后概率错误率。当事前概率和类内样本数成比例时,这两个错误率相
16、等。BAYES参数分析法的判别准则效能评估参数分析法的判别准则效能评估 对于一个估计的BAYES判别准则,错判率和事后概率错误率越小,判别准则越准确可靠。当被判别的新样本与样本独立时,这两种错误率估计是非偏的。但是,当新样本数很小时,可能会产生很大的变异,这时,事后概率错误率估计值有时会小于0。因此,为了得到一个有效的错误率估计,被判别的数据中样本数不应当太小,且类内样本数比例应当接近类内事前概率。BAYES参数分析法的判别准则效能评估参数分析法的判别准则效能评估 总之,评估一个判别函数的判别效能,涉及到以下几方面: 原数据的分类要可靠准确; 指标变量对判别函数的作用要显著; 错判率和事后概率
17、错误率要适当小。判别分析判别分析SAS程序程序 SAS系统里用来进行判别分析的过程步有DISCRIM过程步、STEPDISC过程步和CANDISC过程步。CANDISC过程步用来进行正交判别分析。正交判别分析是一种减少维数(指标个数)的判别分析,作用类似于主成分分析。较常用的过程步是DISCRIM过程步和STEPDISC过程步,它们的区别是后者仅用来筛选指标变量,且仅适用于类内为多元正态分布,具有相同方差协方差矩阵的数据。前者可以筛选指标,但适用于各种数据,且类内为多元正态分布时,不要求具有相同方差协方差矩阵。一般地,当指标变量较多时,将两者结合使用:首先使用STEPDISC过程步筛选指标变量
18、,然后用DISCRIM过程步将筛选出来的指标变量建立判别函数。本章小节本章小节 判别分析的基本思想是根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。它有着广泛的应用价值,尤其在计算机疾病辅助诊断等医学科学研究中起了重要作用。 判别函数是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一确定的函数值,将所有样本按其函数值的大小和事先规定的判别原则分到不同的组里,并使得分组结果与原样本归属最吻合。这就是判别分析方法的基本过程。本章小节本章小节 判别
19、分析的方法中较常使用的有Bayes判别分析法和Fisher判别分析法。Fisher判别分析法是以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类;而Bayes判别分析法是以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类。前者仅适用于两类判别,后者适用于多类判别。 对于BAYES参数分析法的判别准则效能的评估,常用的是两个错误率估计指标。一个为错判率估计,另一个为事后概率错误率估计。错误率估计是从回代过程得到的结果,类内错判率等于类内被错判的样本数所占的比例。本章小节本章小节 SAS系统里用来进行判别分析的过程步有DISCRIM过程步、STEPDISC过程步和CANDIS
20、C过程步。CANDISC过程步用来进行正交判别分析。正交判别分析是一种减少维数(指标个数)的判别分析,作用类似于主成分分析。较常用的过程步是DISCRIM过程步和STEPDISC过程步,它们的区别是后者仅用来筛选指标变量,且仅适用于类内为多元正态分布,具有相同方差协方差矩阵的数据。一般地,当指标变量较多时,将两者结合使用:首先使用STEPDISC过程步筛选指标变量,然后用DISCRIM过程步将筛选出来的指标变量建立判别函数。第20章 典型相关分析学习目标学习目标 了解典型相关分析的数学表达方式,假定条件; 熟悉典型相关系数的数学含义; 掌握典型变量系数的数学含义; 掌握简单相关,复相关和典型相
21、关的意义; 掌握典型相关分析的SAS过程步:CANCORR过程步。概述概述 对于两个变量,是用它们的相关系数来衡量它们之间的线性相关关系的。当考虑一个变量与一组变量的线性相关关系时,是用它们的多重相关系数来衡量。但是,许多医学实际问题中,常常会碰到两组变量之间的线性相关性研究问题。例如,教育研究者想了解3个学术能力指标与5个在校成绩表现之间的相关性;对于这类问题的研究引进了典型相关系数的概念,从而找到了揭示两组变量之间线性相关关系的一种统计分析方法典型相关分析。 典型相关典型相关 典型关系分析是分析两组变量之间相关性的一种统计分析方法,它包含了简单的Pearson相关分析(两个组均含一个变量)
22、和复相关分析(一个组含有一个变量,而另一组含有多个变量)这两种特殊情况。典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。典型相关典型相关 典型相关分析方法的基本原理是:所有研究的两组变量为x组和y组,x 组有p个变量 , y 组有q个变量 ,则分别对这两组变量各做线性组合后,再计算此两加权和的简单相关系数,然后以这个简单相关系数当做这两组变数之间相关性的衡量指标。即),(21pxxx),(21qyyyppx
23、xx2211qqyyy2211典型相关典型相关 对于任意一组系数 和 都可以通过上式求出一对典型变量,典型相关分析中称之为典型变量。进而可以求出典型变量的简单相关系数,称之为典型相关系数。 x 组的p个变量组合成一个,y组的q个变量也组合成一个,然后计算简单相关来衡量两组之间的相关性。问题是如何组合? ),(21p),(21q典型相关典型相关 设两组变量分别为x组有p个变量 ,而y组有q个变量 ,我们先分别把x组和y组的变量组合起来(当然是用线性组合),也就是 其中这些系数都是一些常数,就是组合的比例,由于是线性组合,所以 且 。 Tpxxx),(21Tqyyy),(21ppxxxx12121
24、11*1qqybybyby1212111*1111211p111211qbbb典型相关典型相关 有两个问题需要解决: 给定不同组合比例 以及 ,都可以算出不一样的简单相关系数,这使得这个方法非常的不科学,每个人都可以依照自己的喜好来决定组合比例,并且在衡量两组变量之间相关性的问题上,也没有一个统一的标准。 各组内变量之间的尺度不太相同,例如身高的尺度跟脚掌长度的尺度就不相同,显然前者的变异数会大于后者,这种情况是不合理的。p11211,qbbb11211,典型相关典型相关 针对第一个问题,“在所有的组合中,寻找一个组合使得简单相关系数为最大”,可能是个好想法;另外,寻找一个组合使得简单相关系数
25、为最小,此简单相关系数就是典型相关系数,而典型相关系数的平方称为典型根。典型相关典型相关 对于第二个问题,解决的方法就是对资料进行标准化。 典型相关分析的第一步是估计组合系数,使得对应的典型变量和的相关系数达到最大。这个最大的相关系数是第一典型相关系数,且称具有最大相关系数的这对典型变量为第一典型变量。典型相关典型相关 典型相关分析的第二步是再次估计组合系数,使得对应的典型变量相关系数达到第二大,且第二对典型变量中的第一次变量与第一对典型变量中的每一个变量不相关。这个最二大的相关系数是第二典型相关系数,且称具有最二大相关系数的这对典型变量和为第二典型变量。 如果两个组中变量的个数为p,q,pq
26、,那么寻求典型变量的过程可以一直连续进行下去,直到得到p对典型变量为止。典型相关典型相关 从上述分析的过程可以看出,第一对典型变量的第一典型相关系数描述了两个组中变量之间的相关程度,且它提取的有关这两组变量相关性的信息量最多。第二对典型变量的第二典型相关系数也描述了两个组中变量之间的相关程度,但它提取的有关这两组变量相关性的信息量次多。以此类推,典型相关典型相关 可以得知,由上述方法得到的一系列典型变量的典型相关系数所包含的有关原变量组之间相关程度的信息一个比一个少。如果少数几对典型变量就能够解释原数据的主要信息,特别是如果一对典型变量就能够反映出原数据的主要信息,那么,对两个变量组之间相关程
27、度的分析就可以转化为对少数几对或者是一对典型变量的简单相关分析。这就是典型相关分析的主要目的。典型相关分析的理论架构典型相关分析的理论架构 设两组变量分别为x组有p个变量 ,而y组有q个变量 ,典型相关分析是找x组的线性组合 与y组的线性组合 ,使得简单相关系数为最大,其中Tpxxx),(21Tqyyy),(21ppxxxx1212111*1qqybybyby1212111*1p112111qbbbb112111典型相关分析的理论架构典型相关分析的理论架构 设x组的共变异数矩阵为 , y组的共变异数矩阵为 ,x与y的共变异数矩阵为 ,则 的变异数为 的变异数为 共变异数为 xxyyxy*1x1
28、11*1)()(xxxVarxVar*1y111*1)()(bbybVaryVaryy1111*1*1),(),(bybxCovyxCovxy典型相关分析的理论架构典型相关分析的理论架构 典型变量的系数称为典型权重,权重愈大表示此变量对此典型变量的贡献愈大。在以上的计算中,此权重为标准化后的资料所得的,故k个资料的第i 典型变量得点为jjjkijsxxa)(冗余分析冗余分析 冗余分析是通过原始变量与典型变量间的相关性,分析引起原始变量变异的原因。以原始变量为因变量,以典型变量为自变量,建立线性回归模型,则相应的确定系数等于因变量与典型变量间的相关系数的平方,它描述了由于因变量与典型变量的线性关
29、系引起的因变量变异在因变量的总变异中的比例。 典型负荷为变量与典型变量的相关系数,可由相关系数的平方了解此典型变量解释了此变量多少比例的变异数。CANCORR过程过程 SAS系统中利用CANCORR过程步进行典型相关分析。 CANCORR过程的语法格式如下: PROC CANCORR DATA= OUTSTAT= OUT= ALL ; VAR 一组变量; WITH 另一组变量; PARTIAL 变量; RUN;CANCORR过程过程 DATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。 ALL选择项指令输出所有结果。 COR
30、R选择项指令输出原始变量间的相关系数矩阵。 VP选择项用来为VAR语句中变量的典型变量命名前缀,名字不超过40个字符串长。CANCORR过程过程 WP选择项用来为WITH语句中变量的典型变量命名前缀,名字不超过40个字符串长。 EDF选择项用来指定该回归分析的残差自由度。 VAR语句列出两组变量中的第一组变量。若缺省,则所有不出现在其它语句中的数值变量均将列在第一组内。 WITH语句列出两组变量中的第二组变量。该语句不能省略。 PARTIAL语句用来指定协变量。系统以此协变量来计算偏相关系数矩阵,然后进行典型相关分析。 另外,freq语句、weight语句、by语句等也实用。本章小节本章小节
31、典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。典型相关分析方法的基本原理是:所有研究的两组变量为x组和y组,x 组有p个变量 , y 组有q个变量 ,则分别对这两组变量各做线性组合后,再计算此两加权和的简单相关系数,然后以这个简单相关系数当做这两组变数之间相关性的衡量指标。),(21pxxx),(21qyyy本章小节本章小节 有典型相关分析得到的一系列典型变量的典型相关系数所包含的有关原变量组之间相关程度
32、的信息一个比一个少。如果少数几对典型变量就能够解释原数据的主要信息,特别是如果一对典型变量就能够反映出原数据的主要信息,那么,对两个变量组之间相关程度的分析就可以转化为对少数几对或者是一对典型变量的简单相关分析。这就是典型相关分析的主要目的。本章小节本章小节 冗余分析是通过原始变量与典型变量间的相关性,分析引起原始变量变异的原因。以原始变量为因变量,以典型变量为自变量,建立线性回归模型,则相应的确定系数等于因变量与典型变量间的相关系数的平方,它描述了由于因变量与典型变量的线性关系引起的因变量变异在因变量的总变异中的比例。 通过实例详细介绍了CANCORR过程步的语法及基本格式,并阐述了如何利用此SAS过程步进行典型相关分析以及进行结果解释。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。