1、第十章 鉴别分析知识链接 SPSS之判别分析 https:/ spss进行判别分析步骤 http:/ 鉴别分析是一种进行统计鉴别和分组的技术方法。它可以就一定数量案例已知的一个分类变量和相应的其他多元变量的信息,检查和定量描述分组与其他多元变量之间的关系,建立鉴别函数。然后便可以利用这些函数关系对其他已知多元变量信息但未知类别信息的案例进行鉴别分组。鉴别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定
2、某一样本属于何类。当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于鉴别分析问题。总的来说,鉴别分析包括两个阶段的工作:第一阶段是分析和解释各组的鉴别变量值特征之间存在的差异,并建立鉴别函数。第二阶段所要处理的是那些未知类别属性的其他案例,以第一阶段的鉴别函数为根据将这些“新”案例进行鉴别分类。二、鉴别分析的假定条件和基本模型(一)鉴别分析的假定条件 鉴别分析最基本的要求是:分组类别(,用 表示)在两种以上,g;在第一阶段工作时每组案例的规模必须至少在一个以上,即n(下标j表示所在类型组);各鉴别变量均为间距测度等级;各分组的案例在各鉴别变量的数值上能够体现出差别。在这种情
3、况下,鉴别分析能够帮助我们分析各类别反映在鉴别变量上的差别,并提供一套鉴别统计指标。(二)鉴别分析的基本模型 鉴别分析的基本模型就是鉴别函数,它是鉴别分析中的担纲模型表达式,鉴别分析中众多统计指标和统计检验都与鉴别函数有关。如前所述,尽管鉴别分析本质上要反映一个分组变量与一套鉴别变量之间的关系,但是这种关系的数学模型表达式却并没有直接将分组变量表示为鉴别变量(即自变量)的线性函数,而是采取了迂回的途径。鉴别分析首先结合案例分类信息与其鉴别变量信息优化地构造了一套间距测度等级变量鉴别值,在这套鉴别值上可以最有效地反映出各组之间差异。所构造的鉴别值实际上是按获得各组案例最大区分度的原则对原鉴别变量
4、的数据空间进行坐标转换的结果,其原理和证明不属本书内容范围。这一过程的具体计算均由软件去完成,而我们只需要知道,鉴别函数的因变量就是这样推导出来的鉴别值。三、例题数据说明 本章例题是在第三章因子分析的示例数据的基础上加上了一个分组变量构成的。该数据文件名为,在本书所附光盘中提供。该数据有全国个省市自治区的案例,包括有个狓变量,分别为多孩率、综合节育率、初中及以上受教育程度的人口比例、人均国民收入、城镇人口比例。将这些变量作为鉴别变量来对各地区类型进行鉴别分组,以便更好地进行分类指导。假设有理由可以将其中一些地区分别归为一类、二类和三类地区,但是同时还有一些地区则很难进行类型归属,于是我们虚构了
5、一个分组变量来反映每个案例的分组属性。其中,编码、分别表示一类、二类和三类地区,“”则表示案例的这个变量值缺失,即不知道该案例属于哪一类地区。下面我们先对软件根据已知分组类型的案例建立鉴别方程,对计算输出各种鉴别分析统计指标的意义加以说明。然后,我们再示范取得这些统计指标的操作,最后在此基础上完成对未知分组属性的那些案例的鉴别分组工作。四、鉴别分析模型的各参数指标及统计检验 个鉴别分析不光要有基本模型,还需要多个不同指标来表示模型的不同方面。有的用于表示数量联系关系,有的用于评价和比较。下面分别对鉴别模型中所涉及的主要指标加以介绍。为了避免有的参数计算过程所必须涉及的矩阵代数形式或其他复杂的数
6、学公式,这里将不对每个参数的来龙去脉加以详细讨论。由于本章在介绍鉴别分析时将与统计软件的应用相结合,读者不用在估计过程的原理和细节上花费许多功夫,因为只要我们正确地输入数据和设置好鉴别分析的程序命令,计算机便能够提供全部统计结果。本节先讨论本例鉴别分析中输出的各种指标的意义和用途。有关的操作步骤在第五节中介绍。(一)非标准化鉴别系数 鉴别系数又称函数系数,其中还进一步分为两种:非标准化的和标准化的。(二)标准化鉴别系数 通过对于非标准化系数加以特定形式的调整,就得到标准化鉴别系数。以标准化系数表达的鉴别函数不再有常数项,并且函数中出现的自变量不再是原始变量,而是标准化的变量。也就是说,如果将经
7、过标准化的鉴别变量输入鉴别模型,那么可以直接得到标准化的回归系数。(三)结构系数 鉴别分析中的结构系数又被称为鉴别负载。它实际上是某个鉴别变量x与鉴别值y之间的相关系数,用于表达两者之间的拟合水平。当结构系数的绝对值很大(接近或)时,这个鉴别函数(值)表达的信息与这个鉴别变量的信息几乎相同。当这个系数接近于时,两者之间就没有什么共同之处。类似在因子分析中的做法,如果鉴别分析中一些鉴别变量与一个鉴别函数之间有很大的结构系数值,我们就可以用这些变量的名字来命名这个函数。如果这些变量似乎有类似方面的特征,我们也可以用这种共同的特征来命名这个函数。(四)分组的矩心 分组的矩心描述在鉴别空间中每一组案例
8、的中心位置。它是通过计算各组案例鉴别值的平均值来确定各组中心坐标的。其结果,每个分组在各维鉴别值上的平均值便是该组在鉴别空间中该维上的矩心坐标值。考察在鉴别空间中每个案例点与各组的矩心之间的距离,便于分析具体案例分组属性的倾向。(五)鉴别力指数 鉴别力指数就是这样一个评价各鉴别函数的指标,有时它也被更直接地称为方差百分比。鉴别分析通过一个鉴别函数所能代表的所有原始数据中组间总差异的百分比来表示每个鉴别函数的鉴别力。在鉴别分析中,一个鉴别函数所代表的组间总差异的相对数量用特征值来表示。这个特征值其实就是该维函数的组间差异量相对于组内差异量的倍数。换句话说,它是以组内差异量为基准单位计量的组间差异
9、量。而组内差异指是数据中与分组类别毫无关系的那些差异,即所有鉴别函数都不能解释的差异,那么根据上述分析假定,可认为各组的组内差异相等。(六)残余鉴别力的检验 就此,我们已经讨论的前五个指标都不用考虑数据的抽样及推断性质。它们对于总体资料和任何类型的样本都同样适宜。但残余鉴别力有所不同。(七)Fisher鉴别系数 鉴别系数可以用来对一个案例原始鉴别变量直接进行鉴别分组。也就是说,如果有这套系数,再有一个新案例的数据,就可以通过这套鉴别系数直接进行手工计算的鉴别。因此,鉴别系数主要服务于在没有计算机及统计软件的情况下对新案例的鉴别。五、用对例题做鉴别分析的操作 在中进行鉴别分析时,所有鉴别变量的格
10、式与一般情况毫无二致,只是对于分组变量有一定要求。分组变量的案例有两种情况:第一种是已知所属分组类型,鉴别分析根据它们来建立鉴别函数;第二种是未知所属分组类型,需要通过分析进行鉴别。(二)spss鉴别分析设置的操作(三)犛犘犛犛鉴别分类结果的输出格式 关于鉴别分析各项主要统计指标的意义及输出格式已经在前面介绍过了,这里主要讨论的是关于案例鉴别结果和概要鉴别结果的输出指标及格式。每个案例的鉴别结果 鉴别分析的主要目的是通过已知分组案例信息建立鉴别函数,再利用鉴别函数对所有案例进行重新鉴别分组。鉴别分析可以输出所有案例的鉴别分类结果,既包括原来分组变量中已知类别的案例,也包括其他类别未知的案例。研
11、究人员可以从前一种案例重新鉴别结果来考查鉴别函数的效果,又可以取得对后一种案例的鉴别分类估计。鉴别分析的概要结果 鉴别分析输出鉴别的概要结果可以提供按原始分组类别与预测分组类别型的案例数交互表,并提供相应的所占比例。这种信息提供了对鉴别函数效果的评价。表10-9是输出的本例鉴别的概要结果。图形输出 鉴别分析所输出的本例所有各组合并的鉴别图展示在图10-1中。为了便于查看,我们利用图形编辑器将其中原来分属第一、二、三组的案例用分别三角、圆圈和方块符号表示,而原来未分组的案例则用交叉符号表示。原鉴别图中还自动提供各组矩心的位置,我们将其改用十字符号表示。从统计方法论角度而言,并不能用已知分组的案例
12、建立的鉴别函数反过来的再次鉴别(即我们沿用软件所说的“预测”)的正确率来证明这套鉴别函数一定适合于那些尚未分组的案例,而对其进行分类的结果又无法证明自身的鉴别是否正确。其他统计评价指标所说明的是已知分组属性的那些案例在鉴别变量方面的差异是否被鉴别函数所表达,因而也只是一个参考。为了实证一个鉴别方案的效力,可以考虑另一种做法。即先将已知分类的案例先随机地分成两半,用其中的一半建立鉴别函数,计算各统计指标。而将另一半权且当作未知分类的案例来进行鉴别。最后再将这一半的鉴别结果与原来的已知分组进行比较,以证明鉴别方案的实际效力。如果鉴别效果同样很好,这一鉴别方案便可以在实际中应用了。当然,这就要求已知
13、分组的案例数量相对较多才能实施。基本概念 分组变量 鉴别变量 维空间 鉴别函数 多元共线性问题 协方差矩阵相等假定 多 元正态分布假定 非标准化鉴别系数 鉴别值 标准化鉴别系数 结构系数 总结构系数 组 内结构系数 分组的矩心 鉴别力指数 方差百分比 典型相关系数 残余鉴别力 wilks检 验 fisher鉴别系数 案例鉴别结果 最大可能组 预测组别 条件概率 后验概率 马氏距 离的平方 鉴别概要表 鉴别图本章要点 鉴别分析是根据以往经验归纳对案例进行统计鉴别和分类的方法。鉴别分析的第一阶段以一部分已知类型的观测案例的多元变量观测值作为鉴别变量,建立不同类型的鉴别函数,即用纯统计的手段对不同类型与鉴别变量之间的数量关系进行归纳。虽然从数学上可能得到多个鉴别函数,实际上其中只有少数鉴别函数富有功效,而其他的鉴别函数功效很差,因而可以忽略。鉴别分析的第二阶段根据有显著意义的鉴别函数对所有的案例重新进行鉴别分类。这相当于根据以往分类经验来“预测”案例的类型属性。参考文献 王国梁,何晓群多变量经济数据统计分析西安:陕西科学技术出版社,方开泰实用多元统计分析上海:华东师范大学出版社,吴国富,安万福实用数据分析方法北京:中国统计出版社,