1、第十三章SPSS的判别分析判别分析的一般内容判别分析是多元统计分析中实现数据分类的方法判别分析是多元统计分析中实现数据分类的方法例如:不同类型客户的预测应用例如:不同类型客户的预测应用特点:特点:数据中包含用于预测的变量数据中包含用于预测的变量(自变量自变量),称为判别,称为判别变量(定距)变量(定距)数据中包含已知所属类别的变量数据中包含已知所属类别的变量(因变量因变量),称为,称为类别变量(定类,不同类别依次用整数表示)类别变量(定类,不同类别依次用整数表示)判别分析可以根据已有数据,确定类别变量与判判别分析可以根据已有数据,确定类别变量与判别变量之间的数量关系,建立判别函数,并可通别变量
2、之间的数量关系,建立判别函数,并可通过判别函数实现对未知数据类别的预测过判别函数实现对未知数据类别的预测判别分析与聚类分析的不同点:判别分析与聚类分析的不同点:聚类分析中的类别是未知的,完全通过数据来确聚类分析中的类别是未知的,完全通过数据来确定;判别分析,通过对已知类别的定;判别分析,通过对已知类别的“训练样本训练样本”的学习,建立判别准则,具有的学习,建立判别准则,具有“预测预测”意义意义判别分析的一般要求:判别分析的一般要求:判别变量不应有较强的相关性判别变量不应有较强的相关性判别变量服从正态分布判别变量服从正态分布判别分析方法的划分:判别分析方法的划分:根据类数:两组判别分析、多组判别
3、分析根据类数:两组判别分析、多组判别分析根据模型:线性判别、非线性判别根据模型:线性判别、非线性判别根据判别准则:距离判别法、根据判别准则:距离判别法、FisherFisher判别法、判别法、BayesBayes判别法判别法判别分析中的数据设有分别来自设有分别来自k k 2 2个总体的个总体的k k个样本,每个样本都有关个样本,每个样本都有关于于X X1 1,X X2 2,X Xp p的判别变量的判别变量(p(pk)k)总样本量为总样本量为n n,各样本的样本量为,各样本的样本量为n ni i(i=1,2,.k)(i=1,2,.k)例:设有两个总体例:设有两个总体G G1 1和和G G2 2,
4、从从G G1 1中抽取中抽取n n个观测,从个观测,从G G2 2中抽取中抽取m m个观测;有个观测;有p p个判别变量个判别变量思路:思路:将将n n个观测数据看成个观测数据看成p p维空间中的点,计算每个类维空间中的点,计算每个类别的中心别的中心(类别均值类别均值)计算任一观测点到各个类别中心的距离计算任一观测点到各个类别中心的距离(通常采用通常采用平方马氏距离平方马氏距离)根据距离最近的原则,距离哪个中心近,则属于根据距离最近的原则,距离哪个中心近,则属于哪个类哪个类例:设例:设(1)(1),(2)(2),(1)(1),(2)(2)分别为分别为G G1 1和和G G2 2的均值向量的均值
5、向量和协差阵和协差阵,则点则点X X到到G Gi i的距离定义为平方马氏距离为的距离定义为平方马氏距离为:21 )()()()(i)(i)(i)2,iX,GDiXX1距离判别u u未知时用样本均值未知时用样本均值替代替代当各维度存在数量级的差异时,欧氏距离不恰当当各维度存在数量级的差异时,欧氏距离不恰当马氏距离:马氏距离:除以方差除以方差)(.)()(),(222222221211pppiSxSxSxGXD为什么采用马氏距离21 )()()()(i)(i)(i)2,iX,GDiXX1体现了从概率角度出发的距离体现了从概率角度出发的距离(A(A距距u u2 2更近更近,A,B,A,B距离相距离相
6、等等)例如:均值为例如:均值为0 0标准差为标准差为1 1以及均值为以及均值为5 5标准差为标准差为2 221 )()()()(i)(i)(i)2,iX,GDiXX1ABx1x2为什么采用马氏距离距离判别法根据根据D D2 2(X,G(X,G1 1)、D D2 2(X,G(X,G2 2)判断:判断:如果如果D D2 2(X,G(X,G1 1)D)D2 2(X,G(X,G2 2),),则则:XG:XG1 1如果如果D D2 2(X,G(X,G2 2)D)0,W(X)0,则则:XG:XG1 1如果如果W(X)0,W(X)0,W(X)0,则则:XG:XG1 1如果如果W(X)0,W(X)0,W(X)
7、0,则则:XG:XG1 1如果如果W(X)0,W(X)0,W(X)0,则则:XG:XG1 1如果如果W(X)0,W(X)0,则则:XG:XG2 2如果如果W(X)=0,W(X)=0,则待判则待判多个总体的均值检验多个总体的均值检验:H H0 0:(1)=(1)=(k)(k)Wilks Wilks 统计量:统计量:Wilks Wilks =|SSE|/|SSG+SSE|=|SSE|/|SSG+SSE|,服,服从从WilksWilks分布。分布。SPSSSPSS输出一元单因素方差分析表输出一元单因素方差分析表(F(F统计量统计量)多个总体的协差阵检验多个总体的协差阵检验:BOX:BOXss检检验验
8、H0H0:若协差阵等,合并的协差阵的广义若协差阵等,合并的协差阵的广义方差与各类别广义方差差异不显著方差与各类别广义方差差异不显著统计量:统计量:M M(近似服从(近似服从F F分布)分布)Fisher判别法FisherFisher判别也称典型判别判别也称典型判别基本思想是先投影的距离判别基本思想是先投影的距离判别将原来将原来p p维维X X空间的判别变量通过线性变换投影到空间的判别变量通过线性变换投影到m(mp)m(m0,相应的相应的特征向量为特征向量为v1,vr.则判别函数为则判别函数为:yi(x)=vix(=ax)记记pi为第为第i i个判别函数的判别能力个判别函数的判别能力(效率效率)
9、:m m个判别函数的判别能力为:个判别函数的判别能力为:最大的值为方程最大的值为方程|B-E|=0的最大特征值根的最大特征值根 11iirhhpa Baa Ea111mimiirihhp使使Bayes判别 在认为所有在认为所有k k个类别都是空间互斥的子域的条件下,个类别都是空间互斥的子域的条件下,利用贝叶斯方法进行判别利用贝叶斯方法进行判别n贝叶斯方法是一种研究不确定性问题的决策方法贝叶斯方法是一种研究不确定性问题的决策方法n通过贝叶斯概率描述不确定性通过贝叶斯概率描述不确定性n引进效用函数(引进效用函数(Utility FunctionUtility Function)n选择使期望效用最大
10、的最优决策选择使期望效用最大的最优决策n贝叶斯概率贝叶斯概率n一种主观概率:对事物发生概率的主观估计一种主观概率:对事物发生概率的主观估计n主观概率取决于先验知识的正确性和后验知识的主观概率取决于先验知识的正确性和后验知识的丰富性丰富性n贝叶斯概率贝叶斯概率n首先首先,用先于数据的概率描述最初的不确定性用先于数据的概率描述最初的不确定性n然后然后,将其和试验数据相结合,产生一个后于将其和试验数据相结合,产生一个后于数据的修订了的概率数据的修订了的概率n不确定性须用概率来描述,不确定性的表述须不确定性须用概率来描述,不确定性的表述须与概率论的运算规则相结合与概率论的运算规则相结合n贝叶斯公式贝叶
11、斯公式n事件事件A A与事件与事件B B独立独立n事件事件A A与事件与事件B B不独立不独立)|()()|()()(ABPAPBAPBPABP)()()(BPAPABPBayes判别Bayes判别n贝叶斯公式贝叶斯公式nP(A)P(A)称为先验概率称为先验概率;P(B|A);P(B|A)为条件概率,在贝为条件概率,在贝叶斯判别中为似然函数叶斯判别中为似然函数;P(A|B);P(A|B)为后验概率为后验概率n后验概率可看做一种简化的效用函数后验概率可看做一种简化的效用函数n最大后验概率假设是贝叶斯决策的依据最大后验概率假设是贝叶斯决策的依据kiiiABPAPABPAPBPABPAPBPABPB
12、AP1)|()()|()()()|()()()()|(Bayes判别 设:设:有有k k个总体个总体G G1 1,G,G2 2,G,Gk k,观测从属于各总体的先验观测从属于各总体的先验概率分别为概率分别为q q1 1,q,q2 2,q,qk k;似然函数为似然函数为f f1 1(X),f(X),f2 2(X),f(X),fk k(X)(x(X)(x连续为密度连续为密度)则:样本则:样本x x来自第来自第g g总体的后验概率为:总体的后验概率为:对于新样本分别计算其落入各个子域的后验概率,对于新样本分别计算其落入各个子域的后验概率,其所归属的类别为后验概率最大的类别(总体)其所归属的类别为后验概率最大的类别(总体)kgXfqXfqxgPkiiigg,.2,1,)()()|(1 先验概率:一般为等概率先验概率:一般为等概率(熵最大原则熵最大原则)计算似然函数:计算似然函数:计算后验概率计算后验概率 只根据对分子计算对数的结果即可判断只根据对分子计算对数的结果即可判断kgXfqXfqxgPkiiigg,.2,1,)()()|(1