《实用统计方法》课件sh5.ppt

上传人(卖家):momomo 文档编号:5715974 上传时间:2023-05-05 格式:PPT 页数:94 大小:1.43MB
下载 相关 举报
《实用统计方法》课件sh5.ppt_第1页
第1页 / 共94页
《实用统计方法》课件sh5.ppt_第2页
第2页 / 共94页
《实用统计方法》课件sh5.ppt_第3页
第3页 / 共94页
《实用统计方法》课件sh5.ppt_第4页
第4页 / 共94页
《实用统计方法》课件sh5.ppt_第5页
第5页 / 共94页
点击查看更多>>
资源描述

1、1实用统计方法实用统计方法第五章 属性数据分析(Categorical Data Analysis)2第五章第五章 属性数据分析属性数据分析 为了某种目的通过调查表进行社会调查得到的数据-调查数据,一般都是属性数据。即在许多调查研究中,所得到的信息是样本中个体的分类,而不是定量变量的值。例如,在某次调查中,根据人们的性别,对颜色的喜好等,将他们分类。在某次政府调查中,根据公司的产品类型,公司的所在地区,及产品是否出口,将这些公司分为不同组。在市场研究中,为了了解一种新产品的吸引力,根据顾客是否已看到这种新产品的广告以及是否已购买了该新产品,将顾客分为不同组。这种类型的数据可以方便地汇总在一张表

2、格中,用来表示每个组中的观测个数。3第五章第五章 属性数据分析属性数据分析 例例1 性别与所喜爱颜色的调查表性别与所喜爱颜色的调查表 假定随机地抽取100个人,提问每个人下面的问题:红、兰、绿三色中,你最喜欢那种颜色?那么将结果整理为以下最简单的一张调查汇总表(见表5.1或表5.2)我们关心的问题是性别不同是否与所喜爱的颜色我们关心的问题是性别不同是否与所喜爱的颜色有关。有关。例例2 为了比较两种冶疗方法的效果,将患者随机地分为两个处理组,每组50人。分别用两种方法治疗一段时间后,记录患者的状态(全愈,未愈)。假定得到的结果见表5.3。我们关心的问题是两种方案的疗效是否有显著的我们关心的问题是

3、两种方案的疗效是否有显著的差别差别?哪种冶疗方案更好些哪种冶疗方案更好些。4第五章第五章 5.1 属性数据属性数据变量的类型变量的类型-名义变量名义变量 (Nominal)变量:饮料的种类 名义变量的值之间无逻辑次序 可按任何次序排序编码例如性别例如性别,职业职业,地区地区,都是名义变量都是名义变量.5第五章第五章 5.1 属性数据属性数据变量的类型变量的类型-有序变量有序变量(Ordinal)变量:饮料杯的型号小小 中中大大有序变量的值有明确的逻辑次序,但各个值之间的距离并不清楚6第五章第五章 5.1 属性数据属性数据变量的类型变量的类型-连续型连续型(区间变量和比率变量区间变量和比率变量)

4、区间变量是有大小顺序的连续数值变量,且数值区间变量是有大小顺序的连续数值变量,且数值间的差值是有意义的间的差值是有意义的。例如考虑温度,40度比10度热30度,而40度和10度是相对于人们取定的0度而言的。这类变量对减法:两值之差是有意义的;但对两个数值的比率是没有意义的。例如由40/10=4,而认为40度比10度热3倍的说法是不合适。区间变量与有序变量相对比,有序变量值之差是没有什么意义.7第五章第五章 5.1 属性数据属性数据变量的类型变量的类型-连续型连续型(区间变量和比率变量区间变量和比率变量)比率变量也是连续型的变量,不仅数值之差有意义,而且要求有绝对的零点,两数值的比率也是很重要。

5、例如变量:饮料的体积,金子的重量等.连续型变量的值是有逻辑次序的可连续变化的数值,且它们之间的距离也是有意义的.8第五章第五章 5.1 属性数据属性数据变量的类型变量的类型-属性的与连续的属性的与连续的 属性变量是指其测量结果只能取属性变量是指其测量结果只能取到较少的不同的值,通常用以表示对到较少的不同的值,通常用以表示对象的分类属性。象的分类属性。与属性变量对立的是连续型变量。与属性变量对立的是连续型变量。名义的、有序的变量可作为属性名义的、有序的变量可作为属性变量处理变量处理,而连续型变量当它们可能而连续型变量当它们可能取到的数值较少时,可作为属性变量取到的数值较少时,可作为属性变量处理。

6、处理。变量的类型不是绝对不变的变量的类型不是绝对不变的.9第五章第五章 5.1 属性数据属性数据属性数据与连续数据分析属性数据与连续数据分析 属性数据分析(Categorical data analysis)是当目标变量为属性记录时的数据分析,不管问题的预测变量(自变量)是否为属性或连续的。属性的结果通常反映属性分类的信息。连续数据分析(Continuous data analysis)是当目标变量为连续记录时的数据分析,也不论它的预测变量是属性的或连续的。10第五章第五章 5.1 属性数据属性数据属性数据与连续数据分析属性数据与连续数据分析目标变量目标变量(第三第三,四章四章)(第五章第五章

7、)11第五章第五章 5.1 属性数据属性数据属性数据分析属性数据分析(参见习题参见习题5-5)12第五章第五章 5.1 属性数据属性数据属性数据分析属性数据分析 对属性数据进行分析,将达到以下几方面的目的:产生汇总分类数据-列联表;检验属性变量间的独立性(无关联性);计算属性变量间的关联性统计量 对高维数据进行分层分析和建模.13第五章第五章 5.2 列联表分析列联表分析属性变量取值的频数表属性变量取值的频数表 对属性变量最基本的统计特征就是它可取到的不同数值及取各个不同数值的频数和概率(频率).(中学生数据的频数表和条形图.)14第五章第五章 5.2 列联表分析列联表分析属性变量取值的频数表

8、属性变量取值的频数表Insight:Distribution(Y)Frequency TableAnalyst:Statistics Descriptive Frequency Count.编程编程:PROC FREQ DATA=CLASS;tables age;run;15第五章第五章 5.2 列联表分析列联表分析多个属性变量取值的交叉表多个属性变量取值的交叉表 在实际问题中,如问卷调查中,经常会迂二个或更多个属性变量.以上给出的频数表是一个属性变量(年龄)的情况下取各个值的频数和百分数(频率).当涉及两个或多个属性变量时,仅有每个属性变量(分类变量)的频数和频率是不够的.因为它不能反映属性

9、变量间的联系.为了得到变量间的关联信息,必须考虑各个变量取值的不同组合情况下取各个值的频数和百分数(频率).这样的一张表称为列联表(或称为交叉表)。具有两个变量的列联表通常称为双向表,具有三个变量的表称为三向表,依次类推。当双向表中的两个变量都仅有两个水平时,这种特殊的表称为22 表。本章虽给出了怎样生成具有多个变量的交叉表,但是所讨论的分析方法仅适用于双向表。16第五章第五章 5.2 列联表分析列联表分析多个属性变量取值的交叉表多个属性变量取值的交叉表17第五章第五章 5.2 列联表分析列联表分析由原始数据生成列联表的例子由原始数据生成列联表的例子 例例5.2.15.2.1 对某个对某个“统

10、计入门统计入门”课题,记录了该课课题,记录了该课程中所有学生的性别和专业程中所有学生的性别和专业(是是为统计专业为统计专业,非非为其他专业为其他专业).).数据见以下数据见以下SASSAS程序的数据行程序的数据行.试用编试用编程方法或菜单系统生成列联表程方法或菜单系统生成列联表.解解 (1)(1)使用使用FREQFREQ过程来生成列联表过程来生成列联表.下面的下面的DATADATA步用来生成该数据集步用来生成该数据集,然后使用然后使用FREQFREQ过过程生成列联表,其中程生成列联表,其中TABLESTABLES语句要求用分类变量性别语句要求用分类变量性别(SEX)(SEX)和主修专业和主修专

11、业(MAJOR)(MAJOR)来生成列联表来生成列联表.这些语句产这些语句产生的输出见上页生的输出见上页.18data statclas;data statclas;input student sex$major$;input student sex$major$;cards;cards;1 1 男男 是是 2 2 男男 非非 3 3 女女 是是 4 4 男男 非非 5 5 女女 是是 6 6 女女 是是 7 7 男男 非非8 8 男男 非非 9 9 男男 是是 10 10 女女 是是 11 11 男男 非非 12 12 女女 是是 13 13 男男 是是 14 14 男男 是是15 15 男

12、男 非非 16 16 女女 是是 17 17 男男 是是 18 18 男男 非非 19 19 女女 非非 20 20 男男 是是;proc freq data=statclas;proc freq data=statclas;tables sex tables sex*major;major;title title 统计课程中学生的专业和性别统计课程中学生的专业和性别;run;run;第五章第五章 5.2 列联表分析列联表分析 由原始数据生成列联表的例子由原始数据生成列联表的例子19 (2)(2)使用使用SASSAS菜单系统菜单系统“分析员应用分析员应用”生成生成列联表列联表.首先启动首先启动

13、“分析员应用分析员应用”,并打开并打开SASSAS数据集数据集STATCLAS.STATCLAS.进行列联表分析的步骤如下:进行列联表分析的步骤如下:在在“分析员应用分析员应用”菜单栏目中选菜单栏目中选 Statistics=Table Analysis.Statistics=Table Analysis.在弹出的列联表分析主窗口中选择行变量在弹出的列联表分析主窗口中选择行变量和列变量和列变量:SEX=Row,MAJOR=Column.SEX=Row,MAJOR=Column.第五章第五章 5.2 列联表分析列联表分析 由原始数据生成列联表的例子由原始数据生成列联表的例子20第五章第五章 5.

14、1 属性数据属性数据由原始数据生成列联表的例子由原始数据生成列联表的例子行分类变量行分类变量列分类变量列分类变量单元记数变量单元记数变量分层变量分层变量21第五章第五章 5.1 属性数据属性数据由原始数据生成列联表的例子由原始数据生成列联表的例子 指定分类变量排序的原则指定分类变量排序的原则各单元输出的内容各单元输出的内容关关联联统统计计量量设设定定分组变量设定分组变量设定要要求求表表格格22第五章第五章 5.1 属性数据属性数据由原始数据生成列联表的例子由原始数据生成列联表的例子 在列联表分析主窗口的下方有几个键:Tables键让用户选择所要求的计算结果,如观测频数、期望频数及两者的偏差,还

15、有单元百分数、行百分数和列百分数;Input键让用户指定输出的列联表中分类变量各个水平的排列次序,是按DATA步的输入顺序还是按分类变量内部值的次序等;Statistics键让户选择希望计算的统计量.按Tables键,在弹出的窗口中选择计算观测频数、单元百分数、行百分数和列百分数=OK.23 将要求分析计算的项选择完毕后,从相应窗口按OK键,返回到列联表分析的主窗口=OK,系统将按用户的要求进行分析计算.看输出结果,从“分析员应用”的数据窗口左边的树状表可以选择你想查看的各类计算结果.输出的列联表分析的结果见前面(即书上输出5.2.1).结果解释见书上P113-114.第五章第五章 5.2 列

16、联表分析列联表分析 由原始数据生成列联表的例子由原始数据生成列联表的例子24 第五章第五章 5.2 列联表分析列联表分析 由现有的汇总表生成列联表由现有的汇总表生成列联表 有些情况下,已经汇总并得出表格中每个单元有多少个观测.在收集数据时,也许是先建立一张表,然后将观测个数记到每个单元中,这样得到的信息.或许是使用以表格形式发表的数据.如:白人白人 黑人黑人 是是 19 17 19 17 否否 141 149 141 149 在这种情况下,没有给出样本中每一个个体的观测数据.为了由这种类型的数据生成一张列联表,首先建立一个包含所有单元观测个数的数据集,然后使用带有WEIGHT语句的FREQ过程

17、.25 例例5.2.25.2.2 杀人犯的种族是否会影响判处死刑的问题.对1976至1977年美国佛罗里达州20个地区杀人案件中的326个被告进行调查.考虑的种族有白人与黑人;用“是”或“否”表示是否判处死刑.调查后已把数据整理成表格形式(见下表).试用编程方法或菜单系统生成列联表.白人白人 黑人黑人 是是 19 17 3619 17 36 否否 141 149 290141 149 290 160 166 326 160 166 326 第五章第五章 5.2 列联表分析列联表分析 由现有的汇总表生成列联表的例子由现有的汇总表生成列联表的例子26 解解 (1)首先用DATA步生成一个数据集.然

18、后由带有WEIGHT语句的FREQ过程步来生成列联表,结果见下页.data penalty;data penalty;input decision$defrace$numcell;input decision$defrace$numcell;cards;cards;是是 白人白人 19 19 是是 黑人黑人 17 17 否否 白人白人 141 141 否否 黑人黑人 149149;proc freq data=penalty;proc freq data=penalty;tables decision tables decision*defrace;defrace;weight numcell

19、;weight numcell;title title 死刑数据的列联表死刑数据的列联表;run;run;第五章第五章 5.2 列联表分析列联表分析 由现有的汇总表生成列联表的例子由现有的汇总表生成列联表的例子27 注意这种情况下注意这种情况下,数据步中除输入行变量和数据步中除输入行变量和列变量外列变量外,还要键入另一变量还要键入另一变量(这里为这里为NUMCELL)NUMCELL)来给出各单元的观测个数来给出各单元的观测个数.因为这个列联表仅有因为这个列联表仅有四个单元四个单元,所以该数据集仅包含四个观所以该数据集仅包含四个观 测测.WEIGHT.WEIGHT语句指出用来说明每个单元中有多少

20、语句指出用来说明每个单元中有多少观测的变量为观测的变量为NUMCELL.NUMCELL.如果使用如果使用TABLESTABLES语句而语句而不用不用WEIGHTWEIGHT语句的话语句的话,将将会得到一张每个单元只有会得到一张每个单元只有一个观测的列联表一个观测的列联表.第五章第五章 5.2 列联表分析列联表分析 由现有的汇总表生成列联表的例子由现有的汇总表生成列联表的例子28第五章第五章 5.2 列联表分析列联表分析 由现有的汇总表生成列联表的例子由现有的汇总表生成列联表的例子29 (2)使用SAS菜单系统“分析员应用”生成列联表的步骤与例5.2.1类似.只是在步骤中除了指定行变量和列变量外

21、,还要给出频数变量:NUMCELL=ell Countes(参见图示5.2).输出的列联表分析的结果见前面(即书上输出5.2.2).第五章第五章 5.2 列联表分析列联表分析 由现有的汇总表生成列联表的例子由现有的汇总表生成列联表的例子30第五章第五章 5.2 列联表分析列联表分析 由现有的汇总表生成列联表的例子由现有的汇总表生成列联表的例子PROC FREQ DATA=数据集名 order=noprint;TABLES 分层变量*行变量*列变量./nocol norow nocum nofreq nopercent missing list out=数据集;WEIGHT 变量名;BY 变量名

22、;RUN;order=data|internal|freq|formatted31第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验(Association)两个属性变量,若一个变量的取值(水平)不同影响到另一个变量的分布,就称这两个属性变量间存在关联性 两个属性变量,若一个变量的分布不随另一个变量取值(水平)不同而改变,就称这两个属性变量间不存在关联性32第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验(Association)28%72%72%28%您上司的态度与天气有关联吗?无关联性高兴不高兴晴天晴天阴天阴天33第五章第五章 5.3 属性变量的无关联性检

23、验属性变量的无关联性检验(Association)您上司的态度与天气有关联吗?18%82%60%40%有关联性高兴不高兴晴天晴天阴天阴天34第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验(Association)为了分析两个属性变量间的关联性,通常从双向列联表中的频数或期望频数进行分析35第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验Insight:用拼花图表现两个属性变量 的频数分布与关联性36第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验(General Association)C1C2Cc行和R1n11n12n1cn1+R2n2

24、1n22n2cn2+Rrnr1nr2nrcnr+列和n+1n+2n+cn+行百分率nij/ni+列百分率nij/n+j单元百分率pij=nij/n+,pi+=ni+/n+,p+j=n+j/n+这些公式是列联这些公式是列联表每个单元中所表每个单元中所计算统计量计算统计量37第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验(General Association)简单随机抽样(两个变量都随机):无关联:两变量分布独立pij =pi+p+j (nijn=ni+n+j)38第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验(General Association)分层

25、简单随机抽样(一个变量控制)无关联:男女作肯定回答的比例相等nnnnnnnnnnnn/././22221121221111 无关联:jiijjiijpppnnnn/无关联:39第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验(General Association)C1C2Cc行和R1p11p12p1cp1+R2p21p22p2cp2+Rrpr1pr2prcpr+列和p+1p+2p+c1jiijppp 无关联:jiijppp 有关联:40第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验c c2-检验法检验法检验属性变量间是否存在关联性的常用检验法是Pears

26、on的c2检验法。它基于两个变量频数分布的交叉表(列联表)上进行H0:无关联性 观测频数=期望频数jiijpnpEnOEEO-期望频数 观测频数:22)(cH1:有关联性 观测频数 期望频数41第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验c c2-检验法检验法 例例(死刑数据死刑数据)用A表示杀人犯是否判处死刑;B表示杀人犯的种族.问种族是否会影响判处死刑的问题(即A与B是否无关联).解:(1)检验的假设H0:A与B无关联性;H1:A与B有关联性.(2)构造检验统计量c2 记 P11=PA=否,B=黑人=P被告为黑人没有判死刑 P1+=PA=否;P+1=PB=黑人当H0成

27、立时,由概率论知识知道,应有 P11=PA=否,B=黑人=PA=否*PB=黑人42第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验c c2-检验法检验法 当H0成立时,每个单元的期望频数(理论频数)记为m11,m12,m21,m22.显然有 mij=Pij*n(n为观测总个数)=Pi+*P+j*n =ni+*n+j/n 利用nij 和mij 可以构造检验统计量c2(Chi-square)c2 =(3)给定显著性水平0.05;(n nij ij-m-mij ij)2 2 m mijij43第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验c c2-检验法检验法

28、(4)由样本值(观测数据)计算c2值和p值.由观测到的数据,可以计算期望频数mij,如m11为 m11=P11*n=P1+*P+1*n=*326 =147.67类似地有:m12=142.33,m21=18.33,m22=17.67 c2=+.=0.2213 p值=P c2=0.2213=0.638290326326166(149-147.67)2147.67(141-142.33)2142.3344第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验c c2-检验法检验法 (5)(5)统计推断统计推断 因 p=0.6380.05,所以H0 相容.即在0.05的显著性水平下,可以认

29、为A与B无关联性;也就是种族的不同不会影响是否判处死刑.45第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验c c2-检验法检验法Analyst:Statistics Table AnalysisStatistics46PROC FREQ DATA=数据集;TABLES 行变量*列变量/chisq cellchi2 expected;RUN;chisq:进行无关联性的c2检验和生成基于c2 统计量的关联性度量 cellchi2:打印单元格的c2贡献expected:打印无关联时单元格的期望频数 第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验 c c2-检验

30、法检验法47第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验c c2-检验法检验法 c2检验法及相应的p-值只是检验是否存在关联性 c2统计量及相应的p-值大小并不度量关联程度的强弱(c2统计量依赖样本容量)c2检验法的p-值是根据其大样本分布确定的。当有20%或更多的单元格期望频数小于5时,使用它并不一定有效,应改用精确 p-值48第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验其它检验统计量其它检验统计量 ijijijijmnnG)/ln(2:22似然比c(与Pearsons c2渐近一致)-ijijijijCijijijijPmmnQmmnQ/)5.0

31、|,0max(/)(:sPearson2222:的连续修正cc(仅对四格表)(mij为期望频数 df=(r-1)(c-1)22)1(:Haenszel-MantelrnQMH-c(df=1,r为按scores选项规定的刻度计算的Pearson相关系数)(只对有序测量水平)SAS的过程的过程Freq提供以下几种提供以下几种检验关联性的统计量:检验关联性的统计量:49第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验小样本的精确小样本的精确p-值值期望频数c2当多于当多于 20%的单元格其期望频数小于的单元格其期望频数小于5不宜使用基于渐近分布的c2检验法50第五章第五章 5.3

32、属性变量的无关联性检验属性变量的无关联性检验小样本的精确小样本的精确p-值值样样 本本 容容 量量小小 样样 本本大大 样样 本本精精 确确 p-值值渐渐 近近 p-值值51第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验小样本的精确小样本的精确p-值值观测到的汇总数据:(2x2表)p=0.286 p=0.571 p=0.142 P(c2 2.1)0.2860.142 0.428 (双侧)52第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验小样本的精确小样本的精确p-值值Fisher精确分布基于固定边缘频数用超几何分布计算各个结果的概率!/),|(22211

33、211212112121111111nnnnnnnnnnnnnnnnnnP286.072!2!2!3!0!7!4!3!5!2p53第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验小样本的精确小样本的精确p-值值H1:p11 p1+p+1,右尾左尾 H1:p11 Table Analysis.在弹出的列联表分析主窗口中选择行变量和列变量:A(工艺A1和A2)=Row,B(质量合格或不合格)=Column,C(单元观测频数)=Cell Counts.在列联表分析主窗口的下方,按Tables键来选择所要求的计算内容(比如选观测频数、期望频数及两者的偏差等);按Statistics键

34、,并在弹出的窗口中由Statistics(统计量)栏目下选择Chi-square statistics(使前面方框中打勾),同时选择不输出列联表而仅计算统计量=OK,回到列联表分析主窗口后按OK,系统将按用户的要求进行分析计算。56第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验进行精确进行精确Fisher 检验的例子检验的例子 查看输出结果,从“分析员应用”的数据窗口左边的树状表可以选择你想查看的各类计算结果。输出的检验工艺和产品质量是否有关联性的结果见下面(书上输出5.3.2)。输出5.3.2下方的WARNING(警告)信息指出有75%的单元其期望频数0.05,Fishe

35、r精确检验(双侧)的结果给出在0.05的水平下,无关联性的假设是相容的.57第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验进行精确进行精确Fisher 检验的例子检验的例子58第五章第五章 5.3 属性变量的无关联性检验属性变量的无关联性检验(变量间的其它关联性变量间的其它关联性)若两个变量测量水平都是有序的,则可考虑对多数观测来说,一个变量水平的增加另一个变量的水平是否也随之增加(或减少),这种关联称为线性关联(或有序的关联)。例如工资水平的提高对职业的满意程度是否也会提高,病痛的严重和手术的效果是否有线性关联.59第五章第五章 5.4 有序变量的关联性分析有序变量的关联

36、性分析有序变量的无有序关联检验有序变量的无有序关联检验 前节介绍的两种检验方法适用于一般的属性变量.如果属性变量是有序的,有时还关心有序变量间是否存在有序关联性.即随着一个变量取值的增加,另一个变量的取值是否也有变大(或变小)的趋势.比如随着学历的提高,犯罪率是否减少.Mentel Haenszel检验法就是针对以下假设的一种检验方法:H0:行列变量无有序关联,H1:行列变量存在有序关联该检验方法在发现有序关联方面比2检验法要敏感.60第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析有序变量的关联性度量有序变量的关联性度量 对两个有序的属性变量,(xi,yi),(xj,yj)为一

37、对观测(这里把有序值用数值表示):(xi-xj)(yi-yj)0,称为一致对(concordant)(xi-xj)(yi-yj)0,称为不一致对(discordant)(xi-xj)(yi-yj)=0,称为平分对(tied)YX121A B2CD单元A,D中配成的对为一致的单元B,C中配成的对为不一致的其它的对为平分的61第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析有序变量的关联性度量有序变量的关联性度量 用C表示所有观测对中一致对的个数;D表示所有观测对中不一致对的个数.则上表中一致对的总数C和不一致对的总数D为:C=9(4+88+19+136)+5(19+136)+18(

38、88+136)+4136=7574,D=9(18+4+11+88)+5(18+11)+19(11+88)+411=3159.奶牛疾病数据奶牛疾病数据 没有没有(0)低低(1)高高(2)小小 9 5 9 中中 18 4 19 大大 11 88 136 62第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析有序变量的关联性度量有序变量的关联性度量)11(,)()(Gamma-DCDC,)(KendallbCRwwDC-jjCiiRnnwnnw,2222),min(,/)1()(Stuart 2CRmmmnDCc-RwDCRCD/)()|(Somers-iijjnnsWnjCiRr,/)

39、()()(Spearman 22秩相关,)()(,2/)1()(3333121-jjiiiikknnnnWjC(i)inniR列的刻度为第 行的刻度,为第 63第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析与与c c2统计量联系的关联性度量统计量联系的关联性度量 与c2统计量联系的关联性度量64第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析有序变量的关联性度量有序变量的关联性度量两个变量都是有序的测量水平不要求两个变量都是有序的测量水平65第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析有序变量的关联性度量有序变量的关联性度量 对有序变量,列联表中

40、变量各测量水平必须按顺序排列,否则有序关联性的度量是不准确的(正确的次序正确的次序)(不正确的次序不正确的次序)66第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析有序变量的关联性度量有序变量的关联性度量正确的次序正确的次序不正确的次序不正确的次序l l系数系数不确定性系数不确定性系数不要求两不要求两个变量都个变量都是有序的是有序的两个变量两个变量都是有都是有序变量序变量67第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析l系数YX123411020304010022030252510030505565200X值最佳Y值 期望正确数 期望错误数14406022307

41、0未知4651351351301351)|(-取值错误数预测未知取值错误数预测已知YXYXXYl68第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析l系数)(max ),(max )2/()(jjijjijjiinrnrcrncrcr-l对称-ijjjjijjnnnnRC)(max/()(max)(max()|(l1)|(0RCl69第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析不确定性系数)(/)()()()|(YHXYHYHXHYYXRCU-的不确定性列变量不确定性的减少量量时列变 已知行变量-ijijijiiinnnnYXHnnnnXH)/ln()/()()

42、/ln()/()()()()()()(2YHXHXYHYHXHU-对称70第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析相对风险和优比率 对22列联表,还有相对风险和优比率两个关联性度量有无行和A(常锻炼)35465500B(不常锻炼)50450500 有无心血管疾病锻炼与否前瞻性研究(prospective,cohort)不同组的选择在获得响应之前A组有心血管病的百分率=35/500=7%B组有心血管病的百分率=50/500=10%RR(相对风险)=0.07/0.10=0.7071第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析相对风险和优比率 对一般的22列联

43、表:12An11n12Bn21n22结果组别相对风险为:122212121211)2(,)1(nnnnRRnnnnRR0 RR 1,A组更可能发生结果1OR(1)1,B组更可能发生结果174第五章第五章 5.4 有序变量的关联性分析有序变量的关联性分析相对风险和优比率 对22列联表,使用选项measure显示关联性度量时,自动地提供相对风险和优比率的结果优比率相对风险75第五章第五章 5.5 属性数据的分层分析属性数据的分层分析有无单身23032已婚6145151心血管疾病婚姻状况优比率=1.6有无单身34120154已婚73037心血管疾病婚姻状况优比率=1.2经常锻炼不经常锻炼有无单身36

44、150186已婚13175188心血管疾病婚姻状况优比率=3.2不分层数据:76第五章第五章 5.5 属性数据的分层分析属性数据的分层分析 将列联表的数据按行列变量以外的其它变量进行分组后分别制作列联表进行行列关联性分析称为分层分析(Stratified Analysis)分层分析常用的是CMH(Cochran-Mantel-Haenszel)统计量,它检验的原假设为:H0:每层的行列变量间无关联77第五章第五章 5.5 属性数据的分层分析属性数据的分层分析 CMH统计量是将各层的关联性度量汇总成一个渐近c2分布统计量。它并不要求每一层的样本容量都很大,它只要求总容量较大。CMH统计量象Fis

45、her精确检验一样要求固定每层行列的总和。当各层间的行列关联有很大的变化时,CMH统计量并不合适。即它并不允许层与行列有交互。78第五章第五章 5.5 属性数据的分层分析属性数据的分层分析 CMH统计量在考虑各层的关联性度量时可有三种不同的选择:当行列变量都是有序变量是可用线性关联作度量 当行(列)变量中为有序时可用比较各行(列)的平均得分(score)作度量 当不考虑行列的有序性时可用 Pearson c2作度量79第五章第五章 5.5 属性数据的分层分析属性数据的分层分析检验线性关联比较列(行)得分检验一般关联80第五章第五章 5.5 属性数据的分层分析属性数据的分层分析 CMH统计量对有

46、序变量计算起得分时有以下几种选择:Table:取行列变量的值或表中行列号作得分 Rank:以行列和排定不同水平的秩次作得分 Radit:将Rank规定的秩次分层归一化 Modradit:将Radit乘以 nh+/(nh+1),表示均匀分布次序统计量的期望值81第五章第五章 5.5 属性数据的分层分析属性数据的分层分析PROC FREQ DATA=数据集名 ;TABLES 分层变量*行变量*列变量./cmhcmh1cmh2 scores=tablerankraditmodradit;WEIGHT 变量名;RUN;cmh:所有CMH统计量cmh1:检验线性关联的CMH统计量(相关)cmh2:前两个

47、CMH统计量(相关,ANOVA)82第五章第五章 5.6 成对数据无关联性检验成对数据无关联性检验McNemar检验法检验法 有时得到有关联的对象对同一事情的反映,例左右眼视力是否要矫正,夫妇对同一侯选人的态度,同一顾客在商品促销前后对商品的购买意向。这些数据的观测结果也常用22列联表表示.YesNoYes20525No101020列和301545妻子态度丈夫态度行和C1C2R1n11n12R2n21n2283第五章第五章 5.6 成对数据无关联性检验成对数据无关联性检验McNemar检验法检验法YesNoYes20525No101020列和301545妻子态度丈夫态度行和C1C2R1n11n

48、12R2n21n22McNemar 检验法:H0:p1+=p+1检验用统计量:分布-21-c,211222112)(nnnnQM67.1)105()105(2-MQ84第五章第五章 5.6 成对数据无关联性检验成对数据无关联性检验McNemar检验法检验法PROC FREQ DATA=数据集名 ;TABLES 行变量*列变量/agree;WEIGHT 变量名;RUN;对一般的列联表,选项agree还提供:检验对称性(pij=pji)的Bowker统计量检验符合性的各种k 统计量85第五章第五章 5.7 Logistic回归初步回归初步 关联分析(相关分析):估计属性(连续)变量间的关联(相关)

49、程度,检验其显著性 回归分析或方差分析:用一些变量(自变量)说明或预测因变量的变化 连连续续的的属属性性的的线线 性性回回归归分分析析响响应应变变量量分分析析方方法法回回归归分分析析Logistic属性的或连续的因变量86第五章第五章 5.7 Logistic回归初步回归初步连连续续的的属属性性的的线线 性性回回归归分分析析响响应应变变量量分分析析方方法法回回归归分分析析LogisticLogistic回归是用于说明或预测属性的因变量的回归,不论自变量是连续的或属性的属性的或连续的因变量87第五章第五章 5.7 Logistic回归初步回归初步响响应应变变量量YesNo二二值值的的两两个个类类

50、别别Logistic 回回归归类类型型二二值值的的列列名名的的有有序序的的三三个个或或多多个个类类别别列列名名的的有有序序的的88第五章第五章 5.7 Logistic回归初步回归初步ppxbxbbY.110 在线性回归模型中,是用自变量的线性组合预测或说明因变量 Y 的均值.在Logistic回归模型中,因变量为属性变量,重要的是它取什麽值,以及取这些值的概率。对于只取0,1值的变量,取1的概率就是这个变量的均值。89第五章第五章 5.7 Logistic回归初步回归初步 在Logistic回归中,预测的是属性变量取不同值的概率 若仿照一般线性回归用自变量的线性组合来预测或说明属性变量取不同

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(《实用统计方法》课件sh5.ppt)为本站会员(momomo)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|