医学统计学第十八章-判别分析-课件.ppt

上传人(卖家):晟晟文业 文档编号:5177828 上传时间:2023-02-16 格式:PPT 页数:68 大小:751.51KB
下载 相关 举报
医学统计学第十八章-判别分析-课件.ppt_第1页
第1页 / 共68页
医学统计学第十八章-判别分析-课件.ppt_第2页
第2页 / 共68页
医学统计学第十八章-判别分析-课件.ppt_第3页
第3页 / 共68页
医学统计学第十八章-判别分析-课件.ppt_第4页
第4页 / 共68页
医学统计学第十八章-判别分析-课件.ppt_第5页
第5页 / 共68页
点击查看更多>>
资源描述

1、第十八章第十八章 判别分析 Discriminant Analysis2023-2-16医学统计学Content Fisher discriminant analysis Maximum likelihood method Bayes formula discriminant analysis Bayes discriminant analysis Stepwise discriminant analysis 讲述内容第一节第一节 FisherFisher判别判别第二节第二节 最大似然判别法最大似然判别法第三节第三节 BayesBayes公式判别法公式判别法第四节第四节 BayesBayes判

2、别判别第五节第五节 逐步判别逐步判别第六节第六节 判别分析中应注意的问题判别分析中应注意的问题目的目的:作出以多个判别指标判别个体分类的:作出以多个判别指标判别个体分类的判别函数或概率公式。判别函数或概率公式。资料资料:个体分两类或多类,判别指标全部为:个体分两类或多类,判别指标全部为数值变量或全部为分类变量。数值变量或全部为分类变量。用途用途:解释和预报(主要用于计量诊断)。:解释和预报(主要用于计量诊断)。分类分类(经典):(经典):Fisher判别和判别和Bayes判别。判别。1.计量资料判别分析。目的是作出以定量指标判别个体属性分类或等级的判别函数。按资料类型分:2.计数资料判别分析。

3、目的是作出以定性或等 级指标判别个体属性分类或等级的概率公式概率公式。按方法名分1.Fisher判别2.最大似然判别法3.Bayes公式判别法4.Bayes判别5.逐步判别第一节 Fisher判别适用于指标为定量指标的两类判别(或多类判别)1.Fisher判别的原理 已知 A、B 两类观察对象,A 类有An例,B 类有Bn例,分别记录了mXXX,21个观察指标,称为判别指标或变量。Fisher 判别法就是找出一个线性组合 1122 (18-1)mmZC XC XC X一、两类判别Fisher 准则:使得综合指标 Z 在 A 类的 均 数AZ与 在B 类 的 均 数 BZ的 差 异ABZZ尽可能

4、大,而两类内综合指标 Z 的变异22ABSS尽可能小,即使得 达到最大。AB22AB ZZSS (18-2)判别系数 C 可通过对求导,由下列方程组解出 11112211211222221122 (18-3)mmmmmmmmmmS CS CS CDS CS CS CDS CS CSCD 式中(A)(B)jjjDXX,(A)(B),jjXX分别是 A 类和 B 类第 j 个 指标的均数),2,1(mj;ijS是12,mXXX的合并协方差阵的元素。(A)(A)(A)(A)(B)(B)(B)(B)AB()()()()(18-4)2iijjiijjijXXXXXXXXSnn 式中(A)(B)(A)(B

5、),iijjXXXX分别为ijXX和于 A 类和 B 类的观察值。2 判别规则 建立判别函数后,按公式(18-1)逐例计算判别函数值iZ,进一步求iZ的两类均数AZ、BZ与总均数Z,按下式计算判别界值:AB 18-52cZZZ()判别规则:,A,B 18-6 icicicZZZZZZ判为 类判为 类(),判为任意一类 例18-1 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于表18-1,其中前期患者(A)类12例,晚期患者(B)类10例。试作判别分析。观察值 类别 编号 X1 X2 X3 Z Fisher 判别结果 A 1 23 8 0 0.19 A A 2-1 9-2 2.73

6、 A A 3-10 5 0 1.83 A A 4-7-2 1-0.28 B A 5-11 3-4 2.72 A A 6-10 3-1 1.69 A A 7 25 9-2 0.91 A A 8-19 12-3 4.98 A A 9 9 8-2 1.81 A A 10-25-3-1 1.39 A A 11 0-2 2-1.09 B A 12-10-2 0 0.25 A B 13 9-5 1-2.07 B B 14 2-1-1-0.05 A B 15 17-6-1-2.22 B B 16 8-2 1-1.33 B B 17 17-9 1-3.53 B B 18 0-11 3-3.43 B B 19-

7、9-20 3-4.82 B B 20-7-2 3-0.91 B B 21-9 6 0 1.98 A B 22 12 0 0-0.84 B 表表18-1 22例患者三项指标观察结果(例患者三项指标观察结果(Zc=-0.147)类别 例数 1X 2X 3X A 12 3 4 1 B 10 4 5 1 类间均值差jD 7 9 2 表18-2 变量的均数及类间均值差 (1)计算变量的类均数及类间均值差Dj,计算结果列于表18-2。(2)计算合并协方差矩阵:按公式(18-4),例如:3.17521012)412()42()49()310()31()323(22222211S 175.320.32.320

8、.338.25.82.35.82.7S代入公式(18-3)得27.28.53.2 9 8.52.383.20 73.23.203.175321321321CCCCCCCCC得到合并协方差阵 解此正规方程得 070.01C,225.02C,318.03C 判别函数为 321318.0225.0070.0XXXZ。逐例计算判别函数值iZ列于表18-1 中的Z 列,同 时计算出428.1AZ、722.1BZ与总均数004.0Z。(3)确定界值,进行两类判别:按公式(18-5)计算147.02)722.1428.1(cZ,将147.0iZ判为A类,147.0iZ判为B类。判别结果列于表18-1 的最后

9、一列,有4 例错判。二、判别效果的评价 用误判概率P衡量 回顾性误判概率估计往往夸大判别效果。回顾性误判概率估计往往夸大判别效果。第二节 最大似然判别法(优度法)适用于指标为定性指标的两类判别或多类判别。资料:个体分两类或多类,判别指标全部为定性或等级 资料。原理:用独立事件的概率乘法定理得到判别对象归属某 类的概率。1122()|)()|)()|),1,2,(18-7)klklkmlmkPP X SYP XSYP XSYkg 求1,Max()kkgPP,如果0kPP,即被判为第0k类。2.判别规则 3.最大似然判别法的应用 例18-2 有人试用7个指标对4种类型的阑尾炎作鉴别诊断,收集的56

10、68例完整、确诊的病史资料归纳于表18-3。表表18-3 5668例不同型阑尾炎病例的症状发生频率(例不同型阑尾炎病例的症状发生频率(%)00017.008.061.008.095.072.011.057.01P 0018.028.032.039.093.045.037.034.02P 30.35 0.55 0.35 0.81 0.79 0.18 0.610.0047P 00015.057.010.096.009.022.065.021.04P 如某病例昨晚开始出现右下腹痛、呕吐等症状,大便正常。经检查,右下腹部压痛,肌性防御(+)、压跳痛(+),体温36.6,白细胞23.7109/L。P3最

11、大,故诊断该病例为坏疽型阑尾炎。手术所见与判别分析结果一致。根据表18-3得第三节第三节 Bayes公式判别法公式判别法适用于指标为定性指标的两类判别或多类判别。资料:资料:个体分两类或多类,判别指标全部为定性个体分两类或多类,判别指标全部为定性 或等级资料。或等级资料。原理:原理:条件概率条件概率+事前概率(各病型或病种的总事前概率(各病型或病种的总 体构成比)体构成比)112211221()()|)()|)()|)(|)(18-8)()()|)()|)()|)klklkmlmkkgklklkmlmkkP YP X SY P XSYP XSYP YaP YP X SY P XSYP XSY

12、求1,M ax()kkgPP,如 果0kPP,即 被 判 为 第0k类。判别规则:判别规则:举例说明:举例说明:例例18-3例例 18-3 资资料料见见表表 18-3,用用四四种种类类型型阑阑尾尾炎炎病病人人的的构构成成比比:卡卡他他型型阑阑尾尾炎炎 20%蜂蜂窝窝织织炎炎型型阑阑尾尾炎炎 50%坏坏疽疽型型阑阑尾尾炎炎 25%腹腹膜膜型型阑阑尾尾炎炎 5%作作为为先先验验概概率率)(kYP的的估估计计。对例对例18-2中给出的待判病中给出的待判病有有11111232131314141515161617371()()|)()|)()|)()|)()|)()|)()|)0.20 0.57 0.1

13、1 0.72 0.95 0.08 0.61 0.080.000033P YP X SY P XSY P XSY P XSY P XSY P XSYP XSY2111223227372()()|)()|)()|)0.000900P YP X SY P XSYP XSY3111323237373()()|)()|)()|)0.001175P YP X SY P XSYP XSY4111423247374()()|)()|)()|)0.000075P YP X SY P XSYP XSY如其中32S表示变量2X取第三个状态,余同。利用公式(利用公式(18-8)计算得)计算得1(|)P Y a)=01

14、5.0002183.0000033.0000075.0001175.0000900.0000033.0000033.0 同样的2(|)0.412P Ya,3(|)0.538P Ya,4(|)0.034P Ya。3(|)P Ya最大,诊断为坏疽型阑尾炎,与最大似然判别法结果一致。:Bayes公式判别法:Bayes公式判别法当事前概当事前概未知未知率率:最大:最大若判别指标为定性或等级资若判别指标为定性或等级资似然估计法似然估计法料,料,已知已知注意:第四节第四节 Bayes判别判别适用于指标为定量指标的多类判别(也可用于两类判别)适用于指标为定量指标的多类判别(也可用于两类判别)先验概率确定先验

15、概率确定:1.等概率(有选择性偏倚);等概率(有选择性偏倚);2.频率估计。频率估计。判别规则:归属最大判别规则:归属最大Yg 类类。应用:应用:快速、正确。快速、正确。资料:资料:个体分个体分G类,判别指标定量。类,判别指标定量。原理:原理:Bayes准则。准则。结果:结果:G 个个判别函数判别函数12gYYY 例18-4 欲用4个指标鉴别3类疾病,现收集17例完整、确诊的资料,见表18-4。试建立判别Bayes函数。Bayes判别函数判别函数 3366.17202.44568.170396.00940.1904140.16606.40970.180448.05311.1995822.154

16、92.44112.190739.05108.223432134321243211XXXXYXXXXYXXXXY判别效果评价:误判概率 (回顾性估计,见表18-6)。误判概率的刀切法估计为 。%76.11172%4.29175判别分析的目的就是根据判别函数对其它的样品进行判别,如本例需用 4个指标鉴别 3 类疾病,如某个编号的病人,X1、X2、X3、X4分别为:0.4,-13.6,21,34。试判别该病人患 3 类疾病中的哪类疾病?一类疾病:Y=-223.516-0.0739*0.4-19.412*-13.6+4.549*21+1.582*34=189.7746 二类疾病:Y=-199.536-

17、0.0480*0.4-18.097*-13.6+4.661*21+1.414*34=192.4922 三类疾病:Y=-190.099+0.0396*0.4-17.457*-13.6+4.720*21+1.337*34=191.8148 该病人患 3 类疾病中的 2 类疾病。第五节第五节 逐步判别逐步判别目的:目的:选取具有判别效果的指标建立判别函数。选取具有判别效果的指标建立判别函数。应用:应用:只适用于只适用于Bayes判别。判别。原理原理:Wilks统计量统计量 ,F 检验。检验。例18-5 利用表18-4的数据作逐步Bayes判别。0.2,0.3Bayes判别函数:12422432410

18、1.48739.86520.953374.92608.47370.800962.76547.73970.7215YXXYXXYXX 判别效果评价,误判概率为1/17=5.88%(回顾性估计,见表18-8)。误判概率的刀切法估计17.6%。与例18-4比较,变量筛选后,尽管判别指标由4个减为2个,判别效能却提高了。由此可见,判别指标并不是越多越好。第六节 判别分析中应注意的问题1判别分析中所用的样本资料视为总体的估计,所以要求样本足够大,有较好的代表性。样本的原始分类必须正确无误,否则得不到可靠的判别函数。判别指标的选择要适当,必要时应对判别指标进行筛选。2各类型先验概率可以由训练样本中各类的构

19、成比作为估计值。此时要注意样本构成比是否具有代表性。如果取样存在选择性偏倚,就不能用构成比来估计先验概率,不如把各类型的发生视为等概率事件,先验概率取g1更为妥当。3判判别别函函数数的的判判别别能能力力不不能能只只由由训训练练样样本本的的回回代代情情况况得得出出结结论论。小小样样本本资资料料建建立立的的判判别别函函数数回回代代时时可可能能有有很很低低的的误误判判率率,但但训训练练样样本本以以外外的的样样品品误误判判率率不不一一定定低低,因因此此要要预预留留足足够够的的验验证证样样品品以以考考察察判判别别函函数数的的判判别别能能力力。4判判别别函函数数建建立立后后,可可在在判判别别应应用用中中不

20、不断断积积累累新新的的资资料料,不不断断进进行行修修正正,逐逐步步完完善善。临临界界值值型型多多用用于于两两类类判判别别,概概率率型型多多用用于于多多类类判判别别。5Fisher 两类判别是线性判别。另外二分类 logistic 回归也可以用于两类判别,称为 logistic 判别,是非线性的。用 Y 表示类别,类属于类属于BAY ,0 ,1,建立 logistic 回归模型 011011exp1 18-171expmmmmXXP YXX()()()()用 Newton-Raphson 迭代获得m,10的最大似然估计。公式(18-17)就是 logistic 判别函数。判别规则如下 逐例计算判

21、别函数值)1(YPi,如果 类判为类判为BYPAYPii ,5.0)1(,5.0)1(。Group Statistics-14.42938.261677.000-17.3434.103677.00012.7144.990577.00031.14344.039577.000.80078.107844.000-17.4253.085944.00017.5002.081744.000.00030.757144.000-6.65019.780266.000-17.3334.143366.00020.1676.493666.000-15.00035.832966.000-8.10043.04961717

22、.000-17.3593.66961717.00016.4715.90681717.0007.52941.88541717.000X1X2X3X4X1X2X3X4X1X2X3X4X1X2X3X4原分类123TotalMeanStd.DeviationUnweightedWeightedValid N(listwise)Covariance Matrices1463.95267.31297.190821.90567.31216.84018.619174.12497.19018.61924.905204.381821.905174.124204.3811939.4766100.827149.587

23、70.4671432.200149.5879.5226.21794.86770.4676.2174.33362.3331432.20094.86762.333946.000391.2559.670-75.050369.7209.67017.16712.667129.100-75.05012.66742.1674.400369.720129.1004.4001284.000X1X2X3X4X1X2X3X4X1X2X3X4原分类123X1X2X3X4Eigenvalues3.116a99.699.6.870.012a.4100.0.111Function12Eigenvalue%of Varian

24、ceCumulative%CanonicalCorrelationFirst 2 canonical discriminant functions were used in theanalysis.a.Wilks Lambda.24017.8408.022.988.1543.985Test of Function(s)1 through 22Wilks LambdaChi-squaredfSig.Standardized CanonicalDiscriminant Function Coefficients.4501.0402.130-.418.244-.125-2.642.039X1X2X3

25、X412FunctionStructure Matrix.398*-.258-.332*.053.060.891*-.001-.093*X3X4X1X212FunctionPooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation withinfunction.Largest absolute correlation betw

26、een each variableand any discriminant function*.Functions at Group Centroids-1.846-3.20E-02.616.1781.744-8.14E-02原分类12312FunctionUnstandardized canonical discriminantfunctions evaluated at group meansPrior Probabilities for Groups.33377.000.33344.000.33366.0001.0001717.000原分类123TotalPriorUnweightedW

27、eightedCases Used in AnalysisClassification Function Coefficients-7.39E-02-4.48E-02-3.96E-02-19.412-18.097-17.4574.5494.6614.7201.5821.4141.337-223.516-199.536-190.099X1X2X3X4(Constant)123原分类Fishers linear discriminant functionsClassification Resultsb,c61070404105685.714.3.0100.0.0100.0.0100.016.7.0

28、83.3100.061071214114685.714.3.0100.025.050.025.0100.016.716.766.7100.0原分类123123123123Count%Count%OriginalCross-validateda123Predicted Group MembershipTotalCross validation is done only for those cases in the analysis.In cross validation,each case is classified by the functions derived from all cases

29、 other than thatcase.a.88.2%of original grouped cases correctly classified.b.70.6%of cross-validated grouped cases correctly classified.c.Classification Function Coefficients-9.865-8.474-7.740.953.801.721-101.487-74.926-62.765X2X4(Constant)123原分类Fishers linear discriminant functionsClassification Re

30、sultsb,c700704041056100.0.0.0100.0.0100.0.0100.016.7.083.3100.061070314105685.714.3.0100.0.075.025.0100.016.7.083.3100.0原分类123123123123Count%Count%OriginalCross-validateda123Predicted Group MembershipTotalCross validation is done only for those cases in the analysis.In cross validation,each case is classified by the functions derived from all cases other than thatcase.a.94.1%of original grouped cases correctly classified.b.82.4%of cross-validated grouped cases correctly classified.c.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(医学统计学第十八章-判别分析-课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|