1、第十八判别分析(优选)第十八判别分析讲述内容第一节第一节 Fisher Fisher判别判别第二节第二节 最大似然判别法最大似然判别法第三节第三节 Bayes Bayes公式判别法公式判别法第四节第四节 Bayes Bayes判别判别第五节第五节 逐步判别逐步判别第六节第六节 判别分析中应注意的问题判别分析中应注意的问题目的作出以多个判别指标判别个体分类的判目的作出以多个判别指标判别个体分类的判别函数或概率公式。别函数或概率公式。资料个体分两类或多类,判别指标全部为数资料个体分两类或多类,判别指标全部为数值变量或全部为分类变量。值变量或全部为分类变量。用途解释和预报(主要用于计量诊断)。用途解
2、释和预报(主要用于计量诊断)。分类(经典)分类(经典)Fisher判别和判别和Bayes判别。判别。1.计量资料判别分析。目的是作出以定量指标判别个体属性分类或等级的判别函数。按资料类型分:2.计数资料判别分析。目的是作出以定性或等 级指标判别个体属性分类或等级的概率公式概率公式。按方法名分1.Fisher判别2.最大似然判别法3.Bayes公式判别法4.Bayes判别5.逐步判别第一节 Fisher判别适用于指标为定量指标的两类判别(或多类判别)级指标判别个体属性分类或等级的概率公式。目的作出以多个判别指标判别个体分类的判别函数或概率公式。判别规则:归属最大Yg 类。资料:个体分G类,判别指
3、标定量。表18-1 22例患者三项指标观察结果(Zc=-0.资料:个体分两类或多类,判别指标全部为定性或等级(优选)第十八判别分析88%(回顾性估计,见表188)。二、判别效果的评价 用误判概率P衡量表18-2 变量的均数及类间均值差等概率(有选择性偏倚);例181 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患者(B)类10例。第六节 判别分析中应注意的问题对例18-2中给出的待判病有例181 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患者(B)类10例。第五节 逐步判别第三
4、节 Bayes公式判别法例181 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患者(B)类10例。适用于指标为定量指标的两类判别(或多类判别)表18-1 22例患者三项指标观察结果(Zc=-0.1.Fisher判别的原理 已知 A、B 两类观察对象,A 类有An例,B 类有Bn例,分别记录了mXXX,21个观察指标,称为判别指标或变量。Fisher 判别法就是找出一个线性组合 1122 (18-1)mmZC XC XC X一、两类判别Fisher 准则:使得综合指标 Z 在 A 类的 均 数AZ与 在B 类 的 均 数 BZ的 差 异A
5、BZZ尽可能大,而两类内综合指标 Z 的变异22ABSS尽可能小,即使得 达到最大。AB22AB ZZSS (18-2)判别系数 C 可通过对求导,由下列方程组解出 11112211211222221122 (18-3)mmmmmmmmmmS CS CS CDS CS CS CDS CS CSCD 式中(A)(B)jjjDXX,(A)(B),jjXX分别是 A 类和 B 类第 j 个 指标的均数),2,1(mj;ijS是12,mXXX的合并协方差阵的元素。(A)(A)(A)(A)(B)(B)(B)(B)AB()()()()(18-4)2iijjiijjijXXXXXXXXSnn 式中(A)(B
6、)(A)(B),iijjXXXX分别为ijXX和于 A 类和 B 类的观察值。目的作出以多个判别指标判别个体分类的判别函数或概率公式。结果:G 个判别函数判别效果评价,误判概率为1/17=5.第三节 Bayes公式判别法例181 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患者(B)类10例。目的作出以多个判别指标判别个体分类的判别函数或概率公式。资料:个体分两类或多类,判别指标全部为定性或等级用途解释和预报(主要用于计量诊断)。(优选)第十八判别分析适用于指标为定量指标的多类判别(也可用于两类判别)例181 收集了22例某病患者的三个
7、指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患者(B)类10例。误判概率的刀切法估计为 。第六节 判别分析中应注意的问题资料:个体分两类或多类,判别指标全部为定性或等级表18-2 变量的均数及类间均值差目的作出以多个判别指标判别个体分类的判别函数或概率公式。2 判别规则 建立判别函数后,按公式(18-1)逐例计算判别函数值iZ,进一步求iZ的两类均数AZ、BZ与总均数Z,按下式计算判别界值:AB 18-52cZZZ()判别规则:,A,B 18-6 icicicZZZZZZ判为 类判为 类(),判为任意一类 例181 收集了22例某病患者的三个指标(X1,X2,X
8、3)的资料列于表181,其中前期患者(A)类12例,晚期患者(B)类10例。试作判别分析。观察值 类别 编号 X1 X2 X3 Z Fisher 判别结果 A 1 23 8 0 0.19 A A 2-1 9-2 2.73 A A 3-10 5 0 1.83 A A 4-7-2 1-0.28 B A 5-11 3-4 2.72 A A 6-10 3-1 1.69 A A 7 25 9-2 0.91 A A 8-19 12-3 4.98 A A 9 9 8-2 1.81 A A 10-25-3-1 1.39 A A 11 0-2 2-1.09 B A 12-10-2 0 0.25 A B 13 9
9、-5 1-2.07 B B 14 2-1-1-0.05 A B 15 17-6-1-2.22 B B 16 8-2 1-1.33 B B 17 17-9 1-3.53 B B 18 0-11 3-3.43 B B 19-9-20 3-4.82 B B 20-7-2 3-0.91 B B 21-9 6 0 1.98 A B 22 12 0 0-0.84 B 表表18-1 22例患者三项指标观察结果(例患者三项指标观察结果(Zc=-0.147)类别 例数 1X 2X 3X A 12 3 4 1 B 10 4 5 1 类间均值差jD 7 9 2 表18-2 变量的均数及类间均值差 (1)计算变量的类
10、均数及类间均值差Dj,计算结果列于表18-2。(2)计算合并协方差矩阵:按公式(184),例如3.17521012)412()42()49()310()31()323(22222211S 175.320.32.320.338.25.82.35.82.7S代入公式(18-3)得27.28.53.2 9 8.52.383.20 73.23.203.175321321321CCCCCCCCC得到合并协方差阵 解此正规方程得 070.01C,225.02C,318.03C 判别函数为 321318.0225.0070.0XXXZ。逐例计算判别函数值iZ列于表18-1 中的Z 列,同 时计算出428.1
11、AZ、722.1BZ与总均数004.0Z。第三节 Bayes公式判别法资料:个体分两类或多类,判别指标全部为定性或等级回顾性误判概率估计往往夸大判别效果。第二节 最大似然判别法(优度法)88%(回顾性估计,见表188)。如某病例昨晚开始出现右下腹痛、呕吐等症状,大便正常。级指标判别个体属性分类或等级的概率公式。例181 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患者(B)类10例。用途解释和预报(主要用于计量诊断)。如某病例昨晚开始出现右下腹痛、呕吐等症状,大便正常。表18-3 5668例不同型阑尾炎病例的症状发生频率(%)(2)计算
12、合并协方差矩阵:按公式(184),例如目的作出以多个判别指标判别个体分类的判别函数或概率公式。第四节 Bayes判别目的作出以多个判别指标判别个体分类的判别函数或概率公式。例18-2 有人试用7个指标对4种类型的阑尾炎作鉴别诊断,收集的5668例完整、确诊的病史资料归纳于表18-3。分类(经典)Fisher判别和Bayes判别。表18-2 变量的均数及类间均值差第一节 Fisher判别(3)确定界值,进行两类判别:按公式(18-5)计算147.02)722.1428.1(cZ,将147.0iZ判为A 类,147.0iZ判为B 类。判别结果列于表18-1 的最后一列,有4 例错判。二、判别效果的
13、评价 用误判概率P衡量 回顾性误判概率估计往往夸大判别效果。回顾性误判概率估计往往夸大判别效果。第二节 最大似然判别法(优度法)适用于指标为定性指标的两类判别或多类判别。资料:个体分两类或多类,判别指标全部为定性或等级 资料。原理:用独立事件的概率乘法定理得到判别对象归属某 类的概率。1122()|)()|)()|),1,2,(18-7)klklkmlmkPP XSYP XSYP XSYkg 求1,Max()kkgPP,如果0kPP,即被判为第0k类。2.判别规则 3.最大似然判别法的应用 例18-2 有人试用7个指标对4种类型的阑尾炎作鉴别诊断,收集的5668例完整、确诊的病史资料归纳于表1
14、8-3。表表18-3 5668例不同型阑尾炎病例的症状发生频率(例不同型阑尾炎病例的症状发生频率(%)00017.008.061.008.095.072.011.057.01P 0018.028.032.039.093.045.037.034.02P 30.35 0.55 0.35 0.81 0.79 0.18 0.610.0047P 00015.057.010.096.009.022.065.021.04P 如某病例昨晚开始出现右下腹痛、呕吐等症状,大便正常。经检查,右下腹部压痛,肌性防御(+)、压跳痛(+),体温36.6,白细胞23.7109/L。P3最大,故诊断该病例为坏疽型阑尾炎。手术
15、所见与判别分析结果一致。根据表18-3得资料:个体分两类或多类,判别指标全部为定性资料:个体分两类或多类,判别指标全部为定性或等级资料个体分两类或多类,判别指标全部为数值变量或全部为分类变量。第二节 最大似然判别法目的作出以多个判别指标判别个体分类的判别函数或概率公式。资料:个体分两类或多类,判别指标全部为定性或等级第四节 Bayes判别由此可见,判别指标并不是越多越好。(2)计算合并协方差矩阵:按公式(184),例如Bayes公式判别法(优选)第十八判别分析回顾性误判概率估计往往夸大判别效果。(2)计算合并协方差矩阵:按公式(184),例如Fisher判别的原理资料:个体分两类或多类,判别指
16、标全部为定性或等级等概率(有选择性偏倚);例181 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患者(B)类10例。级指标判别个体属性分类或等级的概率公式。资料:个体分两类或多类,判别指标全部为定性代入公式(18-3)得应用:只适用于Bayes判别。第三节第三节 Bayes公式判别法公式判别法适用于指标为定性指标的两类判别或多类判别。资料:资料:个体分两类或多类,判别指标全部为定性个体分两类或多类,判别指标全部为定性 或等级资料。或等级资料。原理:原理:条件概率条件概率+事前概率(各病型或病种的总事前概率(各病型或病种的总 体构成比)体
17、构成比)112211221()()|)()|)()|)(|)(18-8)()()|)()|)()|)klklkmlmkkgklklkmlmkkP YP X SY P XSYP XSYP YaP YP X SY P XSYP XSY 求1,M ax()kkgPP,如 果0kPP,即 被 判 为 第0k类。判别规则:判别规则:举例说明:例举例说明:例18-3例例 18-3 资料见表资料见表 18-3,用四种类型阑尾炎病人的构成比:,用四种类型阑尾炎病人的构成比:卡他型阑尾炎卡他型阑尾炎 20%蜂窝织炎型阑尾炎蜂窝织炎型阑尾炎 50%坏疽型阑尾炎坏疽型阑尾炎 25%腹膜型阑尾炎腹膜型阑尾炎 5%作为
18、先验概率作为先验概率)(kYP的估计。的估计。对例对例18-2中给出的待判病中给出的待判病有有11111232131314141515161617371()()|)()|)()|)()|)()|)()|)()|)0.20 0.57 0.11 0.72 0.95 0.08 0.61 0.080.000033P YP X SY P XSY P XSY P XSY P XSY P XSYP XSY2111223227372()()|)()|)()|)0.000900P YP X SY P XSYP XSY3111323237373()()|)()|)()|)0.001175P YP X SY P X
19、SYP XSY4111423247374()()|)()|)()|)0.000075P YP X SY P XSYP XSY如其中32S表示变量2X取第三个状态,余同。利用公式(利用公式(18-8)计算得)计算得1(|)P Y a)=015.0002183.0000033.0000075.0001175.0000900.0000033.0000033.0 同样的2(|)0.412P Ya,3(|)0.538P Ya,4(|)0.034P Ya。3(|)P Ya最大,诊断为坏疽型阑尾炎,与最大似然判别法结果一致。:B Ba ay ye es s公公式式判判别别法法当当事事前前概概未未知知率率:最
20、最大大若若判判别别指指标标为为定定性性或或等等级级资资似似然然估估计计法法料料,已已知知注意:第四节第四节 Bayes判别判别适用于指标为定量指标的多类判别(也可用于两类判别)适用于指标为定量指标的多类判别(也可用于两类判别)先验概率确定:先验概率确定:1.等概率(有选择性偏倚);等概率(有选择性偏倚);2.频率估计。频率估计。判别规则:归属最大判别规则:归属最大Yg 类类。应用:应用:快速、正确。快速、正确。资料:资料:个体分个体分G类,判别指标定量。类,判别指标定量。原理:原理:Bayes准则。准则。结果:结果:G 个个判别函数判别函数12gYYY 例184 欲用4个指标鉴别3类疾病,现收
21、集17例完整、确诊的资料,见表184。试建立判别Bayes函数。Bayes判别函数判别函数 3366.17202.44568.170396.00940.1904140.16606.40970.180448.05311.1995822.15492.44112.190739.05108.223432134321243211XXXXYXXXXYXXXXY判别效果评价:误判概率 (回顾性估计,见表18-6)。误判概率的刀切法估计为 。%76.11172%4.29175判别分析的目的就是根据判别函数对其它的样品进行判别,如本例需用 4个指标鉴别 3 类疾病,如某个编号的病人,X1、X2、X3、X4分别为
22、:0.4,-13.6,21,34。试判别该病人患 3 类疾病中的哪类疾病?一类疾病:Y=-223.516-0.0739*0.4-19.412*-13.6+4.549*21+1.582*34=189.7746 二类疾病:Y=-199.536-0.0480*0.4-18.097*-13.6+4.661*21+1.414*34=192.4922 三类疾病:Y=-190.099+0.0396*0.4-17.457*-13.6+4.720*21+1.337*34=191.8148 该病人患 3 类疾病中的 2 类疾病。第五节第五节 逐步判别逐步判别目的:选取具有判别效果的指标建立判别函数。目的:选取具有
23、判别效果的指标建立判别函数。应用:应用:只适用于只适用于Bayes判别。判别。原理原理:Wilks统计量统计量 ,F 检验。检验。例185 利用表184的数据作逐步Bayes判别。0.2,0.3Bayes判别函数:124224324101.48739.86520.953374.92608.47370.800962.76547.73970.7215YXXYXXYXX 判别效果评价,误判概率为1/17=5.88%(回顾性估计,见表188)。误判概率的刀切法估计17.6%。与例184比较,变量筛选后,尽管判别指标由4个减为2个,判别效能却提高了。由此可见,判别指标并不是越多越好。原理:用独立事件的概
24、率乘法定理得到判别对象归属某适用于指标为定性指标的两类判别或多类判别。目的作出以多个判别指标判别个体分类的判别函数或概率公式。表18-2 变量的均数及类间均值差例181 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患者(B)类10例。目的作出以多个判别指标判别个体分类的判别函数或概率公式。经检查,右下腹部压痛,肌性防御(+)、压跳痛(+),体温36.目的作出以多个判别指标判别个体分类的判别函数或概率公式。第二节 最大似然判别法等概率(有选择性偏倚);级指标判别个体属性分类或等级的概率公式。等概率(有选择性偏倚);级指标判别个体属性分类或
25、等级的概率公式。原理:用独立事件的概率乘法定理得到判别对象归属某判别效果评价,误判概率为1/17=5.级指标判别个体属性分类或等级的概率公式。资料:个体分两类或多类,判别指标全部为定性或等级资料:个体分G类,判别指标定量。第六节 判别分析中应注意的问题适用于指标为定性指标的两类判别或多类判别。第六节 判别分析中应注意的问题资料:个体分G类,判别指标定量。资料:个体分两类或多类,判别指标全部为定性用途解释和预报(主要用于计量诊断)。资料:个体分G类,判别指标定量。2.目的作出以多个判别指标判别个体分类的判别函数或概率公式。回顾性误判概率估计往往夸大判别效果。或等级资料。代入公式(18-3)得资料
26、:个体分两类或多类,判别指标全部为定性或等级结果:G 个判别函数Fisher判别的原理资料:个体分两类或多类,判别指标全部为定性或等级第六节 判别分析中应注意的问题原理:用独立事件的概率乘法定理得到判别对象归属某用途解释和预报(主要用于计量诊断)。第二节 最大似然判别法(优度法)资料:个体分两类或多类,判别指标全部为定性或等级第五节 逐步判别判别效果评价,误判概率为1/17=5.1判别分析中所用的样本资料视为总体的估计,所以要求样本足够大,有较好的代表性。样本的原始分类必须正确无误,否则得不到可靠的判别函数。判别指标的选择要适当,必要时应对判别指标进行筛选。2各类型先验概率可以由训练样本中各类
27、的构成比作为估计值。此时要注意样本构成比是否具有代表性。如果取样存在选择性偏倚,就不能用构成比来估计先验概率,不如把各类型的发生视为等概率事件,先验概率取g1更为妥当。3判判别别函函数数的的判判别别能能力力不不能能只只由由训训练练样样本本的的回回代代情情况况得得出出结结论论。小小样样本本资资料料建建立立的的判判别别函函数数回回代代时时可可能能有有很很低低的的误误判判率率,但但训训练练样样本本以以外外的的样样品品误误判判率率不不一一定定低低,因因此此要要预预留留足足够够的的验验证证样样品品以以考考察察判判别别函函数数的的判判别别能能力力。4判判别别函函数数建建立立后后,可可在在判判别别应应用用中
28、中不不断断积积累累新新的的资资料料,不不断断进进行行修修正正,逐逐步步完完善善。临临界界值值型型多多用用于于两两类类判判别别,概概率率型型多多用用于于多多类类判判别别。5Fisher 两类判别是线性判别。另外二分类 logistic 回归也可以用于两类判别,称为 logistic 判别,是非线性的。用 Y 表示类别,类属于类属于BAY ,0 ,1,建立 logistic 回归模型 011011exp1 18-171expmmmmXXP YXX()()()()用 Newton-Raphson 迭代获得m,10的最大似然估计。公式(18-17)就是 logistic 判别函数。判别规则如下 逐例计
29、算判别函数值)1(YPi,如果 类判为类判为BYPAYPii ,5.0)1(,5.0)1(。Group Statistics-14.42938.261677.000-17.3434.103677.00012.7144.990577.00031.14344.039577.000.80078.107844.000-17.4253.085944.00017.5002.081744.000.00030.757144.000-6.65019.780266.000-17.3334.143366.00020.1676.493666.000-15.00035.832966.000-8.10043.049617
30、17.000-17.3593.66961717.00016.4715.90681717.0007.52941.88541717.000X1X2X3X4X1X2X3X4X1X2X3X4X1X2X3X4原分类123TotalMeanStd.DeviationUnweightedWeightedValid N(listwise)Covariance Matrices1463.95267.31297.190821.90567.31216.84018.619174.12497.19018.61924.905204.381821.905174.124204.3811939.4766100.827149.5
31、8770.4671432.200149.5879.5226.21794.86770.4676.2174.33362.3331432.20094.86762.333946.000391.2559.670-75.050369.7209.67017.16712.667129.100-75.05012.66742.1674.400369.720129.1004.4001284.000X1X2X3X4X1X2X3X4X1X2X3X4原分类123X1X2X3X4Eigenvalues3.116a99.699.6.870.012a.4100.0.111Function12Eigenvalue%of Vari
32、anceCumulative%CanonicalCorrelationFirst 2 canonical discriminant functions were used in theanalysis.a.Wilks Lambda.24017.8408.022.988.1543.985Test of Function(s)1 through 22Wilks LambdaChi-squaredfSig.表18-2 变量的均数及类间均值差目的是作出以定量指标判别个体属性分类或等级的判别函数。与例184比较,变量筛选后,尽管判别指标由4个减为2个,判别效能却提高了。如某病例昨晚开始出现右下腹痛、呕吐
33、等症状,大便正常。用途解释和预报(主要用于计量诊断)。适用于指标为定量指标的两类判别(或多类判别)目的作出以多个判别指标判别个体分类的判别函数或概率公式。88%(回顾性估计,见表188)。适用于指标为定量指标的两类判别(或多类判别)(1)计算变量的类均数及类间均值差Dj,计算结果列于表18-2。目的作出以多个判别指标判别个体分类的判别函数或概率公式。级指标判别个体属性分类或等级的概率公式。级指标判别个体属性分类或等级的概率公式。表18-3 5668例不同型阑尾炎病例的症状发生频率(%)二、判别效果的评价 用误判概率P衡量表18-1 22例患者三项指标观察结果(Zc=-0.回顾性误判概率估计往往
34、夸大判别效果。分类(经典)Fisher判别和Bayes判别。结果:G 个判别函数资料:个体分两类或多类,判别指标全部为定性或等级应用:只适用于Bayes判别。Standardized CanonicalDiscriminant Function Coefficients.4501.0402.130-.418.244-.125-2.642.039X1X2X3X412FunctionStructure Matrix.398*-.258-.332*.053.060.891*-.001-.093*X3X4X1X212FunctionPooled within-groups correlations b
35、etween discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation withinfunction.Largest absolute correlation between each variableand any discriminant function*.Functions at Group Centroids-1.846-3.20E-02.616.1781.744-8.14E-02原分类12312
36、FunctionUnstandardized canonical discriminantfunctions evaluated at group meansPrior Probabilities for Groups.33377.000.33344.000.33366.0001.0001717.000原 分 类123TotalPriorUnweightedWeightedCases Used in AnalysisClassification Function Coefficients-7.39E-02-4.48E-02-3.96E-02-19.412-18.097-17.4574.5494
37、.6614.7201.5821.4141.337-223.516-199.536-190.099X1X2X3X4(Constant)123原分类Fishers linear discriminant functionsClassification Resultsb,c61070404105685.714.3.0100.0.0100.0.0100.016.7.083.3100.061071214114685.714.3.0100.025.050.025.0100.016.716.766.7100.0原分类123123123123Count%Count%OriginalCross-validate
38、da123Predicted Group MembershipTotalCross validation is done only for those cases in the analysis.In cross validation,each case is classified by the functions derived from all cases other than thatcase.a.88.2%of original grouped cases correctly classified.b.70.6%of cross-validated grouped cases corr
39、ectly classified.c.例181 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患者(B)类10例。误判概率的刀切法估计17.适用于指标为定量指标的多类判别(也可用于两类判别)资料:个体分两类或多类,判别指标全部为定性(优选)第十八判别分析适用于指标为定性指标的两类判别或多类判别。判别规则:归属最大Yg 类。Bayes公式判别法目的作出以多个判别指标判别个体分类的判别函数或概率公式。判别规则:归属最大Yg 类。应用:只适用于Bayes判别。用途解释和预报(主要用于计量诊断)。适用于指标为定量指标的两类判别(或多类判别)目的作
40、出以多个判别指标判别个体分类的判别函数或概率公式。代入公式(18-3)得资料个体分两类或多类,判别指标全部为数值变量或全部为分类变量。Fisher判别的原理例181 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患者(B)类10例。原理:条件概率+事前概率(各病型或病种的总Classification Function Coefficients-9.865-8.474-7.740.953.801.721-101.487-74.926-62.765X2X4(Constant)123原分类Fishers linear discriminant functions