1、1第四章第四章 分类变量资料的统计分析分类变量资料的统计分析 statistical analysis for categorical data2简要回顾o数值变量数值变量o分类变量:将观察单位按事物的某种属性分类变量:将观察单位按事物的某种属性或类别进行分组,再清点每组观察单位的或类别进行分组,再清点每组观察单位的个数得到的资料。个数得到的资料。3简要回顾统计分析统计分析统计描述统计描述统计推断统计推断参数估计参数估计假设检验假设检验均数、标准差均数、标准差总体均数估计总体均数估计t t检验,方差分析检验,方差分析Example数值资料数值资料4统计分析统计分析统计描述统计描述统计推断统计推
2、断参数估计参数估计假设检验假设检验Example分类分类资料资料率、比、构成比率、比、构成比总体率可信区间总体率可信区间2 2检验检验5主要内容主要内容o分类变量资料的统计描述分类变量资料的统计描述常用的相对数指标常用的相对数指标应用相对数时应注意的几个问题;应用相对数时应注意的几个问题;率的标准化法。率的标准化法。o分类变量资料的统计推断分类变量资料的统计推断估计率的抽样误差估计率的抽样误差总体率可信区间的估计总体率可信区间的估计两个率的比较两个率的比较 6第一节第一节 分类变量资料的统计描述分类变量资料的统计描述7o常用的相对数常用的相对数比例比例率率比比o相对数应用的注意事项相对数应用的
3、注意事项o率的标准化率的标准化8计数资料计数资料o用定性的方法得到的资料称作分类变量资料用定性的方法得到的资料称作分类变量资料o按某种属性分类,然后清点每类的数据按某种属性分类,然后清点每类的数据住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565527无无中学中学顺产顺产足月足月202565322无无小学小学助产助产足月足月202583025管理人员管理人员大学大学顺产顺产足月足月202567724知识分子知识分子中学中学顺产顺产早产早产202564730管理人员管理人员大学大学顺产顺产足月足月202584832无无小学小学剖宫产剖宫产足月足月201991
4、527无无中学中学顺产顺产死产死产9绝对数和相对数绝对数和相对数o绝对数:绝对数:实际数实际数反映某事物现象发生的实际情况,总量指标反映某事物现象发生的实际情况,总量指标 缺点:不利于比较。缺点:不利于比较。o相对数相对数是两个有联系的数据的比值。是两个有联系的数据的比值。目的:将基数化为相同,便于比较。目的:将基数化为相同,便于比较。10 问问 题题p 某部队野营训练,发生中暑某部队野营训练,发生中暑12人,北方籍人,北方籍战士战士10人,南方籍战士人,南方籍战士2人,结论:北方人,结论:北方籍战士容易中暑。籍战士容易中暑。p 1999年某幼儿园有年某幼儿园有36名儿童患了腮腺炎,名儿童患了
5、腮腺炎,该幼儿园有该幼儿园有200名儿童(其中名儿童(其中25名儿童以名儿童以前患过腮腺炎),该幼儿园儿童前患过腮腺炎),该幼儿园儿童1999年腮年腮腺炎发病率是多少?腺炎发病率是多少?11一、常用的相对数指标一、常用的相对数指标o构成比构成比(proportion)o率率(rate)o比比(ratio)o动态数列动态数列(dynamic series)121、构成比、构成比(proportion)o概念:概念:说明某一事物内部各组成部分所占说明某一事物内部各组成部分所占的比重,常以百分数表示,又称比例。的比重,常以百分数表示,又称比例。o 计算公式:计算公式:%100 观观察察单单位位总总数
6、数同同一一事事物物各各组组成成部部分分的的位位数数某某一一组组成成部部分分的的观观察察单单构构成成比比13例:例:手术前后胸腔积液白细胞分类手术前后胸腔积液白细胞分类 14构成比特点:构成比特点:o各部分构成比的总和为各部分构成比的总和为100,值在,值在0-1间间变动;变动;o某部分构成比发生变化时,其他部分也相某部分构成比发生变化时,其他部分也相应变化。应变化。152、率、率(rate)o定义:定义:一定时间内,实际发生某现象的观一定时间内,实际发生某现象的观察单位数与可能发生该现象的观察单位总察单位数与可能发生该现象的观察单位总数之比。数之比。o计算公式:计算公式:K比例基数比例基数16
7、o用以说明某现象发生的频率或强度用以说明某现象发生的频率或强度oK:比例基数,常用百分率:比例基数,常用百分率(%)、千分率、千分率()、万分率、万分率(1/万万)或十万分率或十万分率(1/10万万)等表等表示。示。使计算结果保留使计算结果保留12位整数。位整数。o平均率不能由各组率相加后求平均,应为平均率不能由各组率相加后求平均,应为分子合计除以分母合计。分子合计除以分母合计。关于率关于率17例例 几种药物不良反应发生情况几种药物不良反应发生情况o半合成青霉素不良反应发生水平最高,达半合成青霉素不良反应发生水平最高,达35.5o总发生率:总发生率:87/3803=22.9 ()18p发病率发
8、病率 p患病率患病率 率常用统计指标率常用统计指标1000 同同时时期期平平均均人人口口数数某某时时期期新新发发病病人人次次发发病病率率1000 调调查查人人数数调调查查时时患患某某病病人人数数患患病病率率19%100 经经治治疗疗人人数数病病死死人人数数病病死死率率1000 该地同时期平均人口数该地同时期平均人口数某地某时期死亡人数某地某时期死亡人数死亡率死亡率p病死率病死率 p死亡率死亡率 203、比(、比(ratio)o定义:定义:也称相对比,指两个有联系的指标之比,也称相对比,指两个有联系的指标之比,常以百分数或倍数表示。常以百分数或倍数表示。o计算公式计算公式:o两个指标可以性质相同
9、,也可以性质不相同;可两个指标可以性质相同,也可以性质不相同;可以是相对数、绝对数或平均数等。以是相对数、绝对数或平均数等。%)100(乙乙指指标标甲甲指指标标相相对对比比21224、动态数列(、动态数列(dynamic series)o概念:概念:指一系列按时间顺序排列起来的统指一系列按时间顺序排列起来的统计指标计指标(包括绝对数、相对数和平均数包括绝对数、相对数和平均数),用,用以说明事物在时间上的变化和发展趋势。以说明事物在时间上的变化和发展趋势。o常用指标:常用指标:有绝对增长量、发展速度和增有绝对增长量、发展速度和增长速度、平均发展速度与平均增长速度。长速度、平均发展速度与平均增长速
10、度。23o绝对增长量绝对增长量:说明事物在一定时期内所增:说明事物在一定时期内所增减的绝对数量,表现为两指标之差。减的绝对数量,表现为两指标之差。累计绝对增长量累计绝对增长量 报告期与基期指标之差报告期与基期指标之差。逐年绝对增长量逐年绝对增长量 报告期与前一期指标之差报告期与前一期指标之差24o发展速度和增长速度:说明事物在一定时发展速度和增长速度:说明事物在一定时期内发展变化的幅度和速度。期内发展变化的幅度和速度。定基比发展速度定基比发展速度 环比发展速度环比发展速度 定基比增长速度定基比增长速度 环比增长速度环比增长速度25107.5%-100%26二、应用相对数应注意的问题二、应用相对
11、数应注意的问题o计算相对数的分母不宜过小计算相对数的分母不宜过小稳定性差,缺乏代表性稳定性差,缺乏代表性 例数较少时,用绝对数例数较少时,用绝对数o分析时不能以构成比代替率分析时不能以构成比代替率构成比是构成比是比例指标比例指标,它用来说明事物内部各组成,它用来说明事物内部各组成部分所占的比重或分布,分子仅是分母中同一事部分所占的比重或分布,分子仅是分母中同一事物现象的一部分,是概率的估计值。物现象的一部分,是概率的估计值。率则与时间有关,它具有率则与时间有关,它具有速率速率的概念,也具有概的概念,也具有概率估计值的意义,是与时间有关的比例率估计值的意义,是与时间有关的比例 27o正确计算平均
12、率正确计算平均率不能将这几个率直接相加求其均值,而应将各个不能将这几个率直接相加求其均值,而应将各个率的分子、分母率的分子、分母分别相加分别相加后,再求总率即平均率后,再求总率即平均率 o相互比较时注意可比性相互比较时注意可比性除研究因素不同外,其他影响研究结果的因素应除研究因素不同外,其他影响研究结果的因素应尽可能相同或相近尽可能相同或相近 研究对象同质、方法相同、其他基本条件一致、研究对象同质、方法相同、其他基本条件一致、内部构成要相同,不同则进行率的标化后再比较内部构成要相同,不同则进行率的标化后再比较同一地区不同时期资料的比较,应注意客观条件同一地区不同时期资料的比较,应注意客观条件的
13、变化的变化 28o样本率或构成比的比较应进行假设检验样本率或构成比的比较应进行假设检验样本率(或构成比)是通过抽样得到的,存在抽样本率(或构成比)是通过抽样得到的,存在抽样误差,因此不能只凭数值表面相差的大小作结样误差,因此不能只凭数值表面相差的大小作结论,应进行差别的假设检验。论,应进行差别的假设检验。29三、三、标准化法标准化法30为什么要进行标化为什么要进行标化311、标化法的基本思想、标化法的基本思想o当两组资料进行比较时,如果其当两组资料进行比较时,如果其内部不同内部不同小组率有明显差别,而且各小组内部构成小组率有明显差别,而且各小组内部构成也明显不同也明显不同,直接比较不合理。,直
14、接比较不合理。o在两个及两个以上总率在两个及两个以上总率(总均数总均数)进行对比时,进行对比时,为了消除内部构成不同的影响,采用为了消除内部构成不同的影响,采用统一统一标准标准,分别计算标准化率后再作对比的方,分别计算标准化率后再作对比的方法称为标准化法。法称为标准化法。32 1.以人口数作为标准以人口数作为标准 2.以人口构成比作为标准以人口构成比作为标准 1.选择有代表性的、较稳定的、数量较大的人群选择有代表性的、较稳定的、数量较大的人群 作标准。作标准。2.两组之和的人口数或人口构成比;两组之和的人口数或人口构成比;3.两组间较稳定一组的人口数或人口构成比;两组间较稳定一组的人口数或人口
15、构成比;33以人口数作为标准以人口数作为标准预期发生数预期发生数=标准人口数标准人口数x原发生率原发生率34计算标准化率计算标准化率35以人口构成比作为标准以人口构成比作为标准361.标准化法标准化法只适用于只适用于某因素两组内部构成不某因素两组内部构成不同,并有可能影响两组总率比较的情况。同,并有可能影响两组总率比较的情况。对于因其它条件不同而产生的不具可比性对于因其它条件不同而产生的不具可比性的问题,标准化法不能解决。的问题,标准化法不能解决。2.由于选择的标准人口不同,算出的标准化由于选择的标准人口不同,算出的标准化率也不同。当比较几个标准化率时,应采率也不同。当比较几个标准化率时,应采
16、用用同一标准人口同一标准人口。373.标准化率已经标准化率已经不再反映不再反映当时当地的实际当时当地的实际水平,它只是表示相互比较的资料间在水平,它只是表示相互比较的资料间在共同标准下的相对水平,用于比较。共同标准下的相对水平,用于比较。4.两样本标准化率是样本值,存在抽样误两样本标准化率是样本值,存在抽样误差。比较两样本的标准化率,当样本含差。比较两样本的标准化率,当样本含量较小时,应作量较小时,应作假设检验假设检验。38第二节第二节 分类变量资料的统计推断分类变量资料的统计推断 39统计推断统计推断用样本信息推论总体特征的过程。用样本信息推论总体特征的过程。包括:包括:参数估计参数估计:运
17、用统计学原理,用从样本计算出来的运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。统计指标量,对总体统计指标量进行估计。假设检验:假设检验:又称显著性检验,是指由样本间存在的又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出差别对样本所代表的总体间是否存在着差别做出判断。判断。40简要回顾统计分析统计分析统计描述统计描述统计推断统计推断参数估计参数估计假设检验假设检验Example分类分类资料资料率、比、构成比率、比、构成比总体率的可信区间总体率的可信区间2 2检验、检验、u u检验检验41主要内容主要内容o率的抽样误差和总体率的区间估计率的抽样
18、误差和总体率的区间估计o率的率的u检验检验 o 2检验检验42一、率的抽样误差和总体率的估计一、率的抽样误差和总体率的估计431、率的抽样误差与标准误、率的抽样误差与标准误o概念:样本率概念:样本率(p)和总体率和总体率()的差异称为率的差异称为率的的抽样误差抽样误差(sampling error of rate),用,用率的标准误率的标准误(standard error of rate)度)度量。量。o1np)1(如果总体率如果总体率未知,用未知,用样本率样本率p估计估计nppsp)1(44o率的标准误越小,说明率的抽样误差越小,率的标准误越小,说明率的抽样误差越小,用样本推论总体时,可信程
19、度越高。用样本推论总体时,可信程度越高。o例例4.5 某地随机抽取某地随机抽取500名儿童,乙肝感染名儿童,乙肝感染率为率为4.50%,求乙肝感染率的标准误。,求乙肝感染率的标准误。该地该地500名儿童乙肝感染率的标准误为名儿童乙肝感染率的标准误为0.93%。452、总体率的可信区间、总体率的可信区间o点估计:点估计:就是把样本率看作总体率;就是把样本率看作总体率;o区间估计:区间估计:按一定的概率,以样本信息按一定的概率,以样本信息来估计总体率所在的范围,即计算总体来估计总体率所在的范围,即计算总体率的率的1-置信区间。这里,置信区间。这里,一般取一般取0.05或或0.01查表法:查表法:正
20、态近似法正态近似法 46查表法查表法o对于对于小样本资料小样本资料(n50),可根据样本阳性,可根据样本阳性例数例数X及样本例数及样本例数n,直接查二项分布参数,直接查二项分布参数的置信区间表,的置信区间表,o例例:某新药的毒理研究中,用某新药的毒理研究中,用20只小白鼠作只小白鼠作急性毒性实验,死亡急性毒性实验,死亡3只,估计该药急性致死只,估计该药急性致死率的率的95%可信区间。可信区间。从附表(根据二项分布原理制成)查得,从附表(根据二项分布原理制成)查得,在在n=20与与X=3纵列交叉处的数值为纵列交叉处的数值为338,即,即该药急性致死率的该药急性致死率的95%可信区间为可信区间为3
21、%38%47正态近似法正态近似法o条件:条件:当当n足够大,足够大,p和和(1p)均不太小,且均不太小,且np和和n(1p)均大于均大于5时,样本率时,样本率p的抽样分的抽样分布近似服从正态分布。可用公式估计总体布近似服从正态分布。可用公式估计总体率的置信区间。率的置信区间。o公式公式:(:(p-u sp,p+u sp)式中,式中,u:标准正态分布曲线下,双尾面积:标准正态分布曲线下,双尾面积为为 时 对 应 的时 对 应 的 u 界 值,当界 值,当 =0.0 5 时,时,u0.05=1.96;=0.01时,时,u0.01=2.58。48例例 某地随机抽取某地随机抽取500名儿童,乙肝感染率
22、为名儿童,乙肝感染率为4.50%,估计该地儿童乙肝感染率的估计该地儿童乙肝感染率的95%可信区间?可信区间?o(p-u sp,p+u sp)=(0.045-1.960.0093,0.045+1.960.0093)=(2.68%,6.32%)o该地儿童该地儿童95%乙肝患病率置信区间为(乙肝患病率置信区间为(2.68%,6.32%)。49二、率的二、率的u检验检验50o样本率存在抽样误差,比较两样本的率时,样本率存在抽样误差,比较两样本的率时,应作应作假设检验假设检验。o当样本例数当样本例数n较大,样本率较大,样本率p和和1p均不太均不太小,且小,且np和和n(1p)均大于均大于5时,时,样本率
23、与样本率与总体率、两样本率间总体率、两样本率间差别进行比较时,可差别进行比较时,可采用采用u检验。检验。511、样本率与总体率的比较、样本率与总体率的比较 o条件:条件:当样本率的分布近似服从正态分布当样本率的分布近似服从正态分布时,样本率时,样本率p与已知总体率与已知总体率0的比较,可用的比较,可用u检验检验o公式:公式:式中,式中,0:总体率,一般为理论值、经验值或大:总体率,一般为理论值、经验值或大量观察得到的稳定值。量观察得到的稳定值。52例例4.6 根据以往经验,一般胃溃疡患者中有根据以往经验,一般胃溃疡患者中有20%发生发生胃出血症状。某医院观察胃出血症状。某医院观察65岁以上溃疡
24、病患者岁以上溃疡病患者152例,例,有有31.6%的患者出现胃出血症状。问老年人溃疡病的患者出现胃出血症状。问老年人溃疡病患者是否容易发生胃出血?患者是否容易发生胃出血?o1)建立假设,确定水准建立假设,确定水准 53o2)计算)计算u值值54o3)确定)确定P值,做出结论值,做出结论552、两样本率的比较、两样本率的比较 o条件:条件:两样本含量两样本含量n1与与n2均较大;两样本率均较大;两样本率p1、(1p1)及及p2、(、(1p2)均不太小;如均不太小;如n1p1、或、或n1(1p1)及及n2p2、或、或n2(1p2)均均大于大于5时,时,可采用正态近似法。可采用正态近似法。o公式:公
25、式:式中,式中,p1和和p2:分别为两个样本率;:分别为两个样本率;Sp1-p2:两率之差的标准误;:两率之差的标准误;Xl和和X2:分别表示两样本发生某现象的观察单位数。分别表示两样本发生某现象的观察单位数。56例例4.7 调查两个城市的甲状腺肿患病率,其中甲市调查两个城市的甲状腺肿患病率,其中甲市调查调查3315例,甲状腺肿患病率为例,甲状腺肿患病率为1.78%,乙市调查,乙市调查3215例,患病率为例,患病率为5.60%,问两个城市甲状腺肿患,问两个城市甲状腺肿患病率有无差别?病率有无差别?1)建立假设,确定检验水准)建立假设,确定检验水准572)计算)计算u值值58o3)确定)确定P值
26、,做出结论值,做出结论59o当样本量当样本量不大不大,或,或几个率几个率进行比较时进行比较时 2检验检验o两样本率的比较除可用两样本率的比较除可用u检验,还可检验,还可采用采用 2检验,且检验,且=1时,时,u2=2。60三、三、2检验检验61o用途:用途:推断两个总体率或推断两个总体率或构成比构成比之间有无差别之间有无差别 多个总体率或构成比之间有无差别多个总体率或构成比之间有无差别 多个样本率比较的分割多个样本率比较的分割 两个分类变量之间有无关联性两个分类变量之间有无关联性 频数分布拟合优度的检验。频数分布拟合优度的检验。o检验统计量检验统计量:o应用:应用:计数资料计数资料262一、一
27、、2检验基本思想检验基本思想oFor a given phenomenon,the chi-square test compares the actual frequencies(A)with the theoretical frequencies(T).实际频数实际频数(A):observed frequencies理论频数理论频数(T).:calculated from some hypothesis.63oSuppose you toss a coin 100 times H:40 timesT:60 timesoIf you hypothesize that the coin is f
28、air,theoretical:50 times each.64oWhether the Hypothesis is true?Compare the A with the T.If they are quite different,then the theory might not be true;Otherwise,the theory is acceptable.65oWhether they are quite different?whether the deviations between A and T are significant.Deviations=22()A TT66o基
29、本公式基本公式:A:实际频数,如四个基本数据;:实际频数,如四个基本数据;T:理论频数,是根据检验设:理论频数,是根据检验设 ,且用,且用合并率合并率 来估计而定的。来估计而定的。22(),()(1)A TT行数-1 列数012:H2222()(4050)(6050)45050A TT 67 2-distribution,df=16.83P=0.053.84P=0.01 2 valueProbability distribution for the statistic,when the sample sizes and the theoretical frequencies are not t
30、oo small.68oP valueSuppose the deviations are not significant,or there is no difference between the A and T,the probability that we get the value of 2.With df=1,the probability that we get the value of 3.84 is 0.05.69oP0.05Suppose the deviations are not significant,or there is no difference between
31、the A and T,the probability that we get the value of 2 is less than 0.05.Impossible!So the deviations are significant.Reject the hypothesis.70oWhether the coin is fair?hypothesis that the coin is fair,2=4P=0.05P40,且全部,且全部T5时时 o校正校正:当:当n40,但有任一格子但有任一格子1T5时时o确切概率:确切概率:当当n40或或T40,且全部,且全部T5时时 o校正校正:当:当n
32、40,但有任一格子但有任一格子1T5时时o当当n40或或T40 b+c40,校正校正22()bcbc85例例4.8 为比较两种检验方法中和法和血凝法检测关节痛病人为比较两种检验方法中和法和血凝法检测关节痛病人的抗的抗“O”结果,观测结果,观测105例关节痛患者,结果见表例关节痛患者,结果见表4-11,问两种检验结果有无差别?问两种检验结果有无差别?8687 多个样本率比较时,有多个样本率比较时,有R R行行2 2列,称为列,称为R R 2 2表;表;两个样本的构成比比较时,有两个样本的构成比比较时,有2 2行行C C列,称列,称2 2C C表;表;多个样本的构成比比较,以及双向无序分类资料多个
33、样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为关联性检验时,有行列,称为R R C C表。表。3、行、行列表资料列表资料 2检验检验88检验统计量22(1)(1)(1)RCAnnn行 数列 数式中,式中,n:总例数;:总例数;ARC::第第R行行C列的实列的实际频数;际频数;nR、nC:分别为行、列合计数。:分别为行、列合计数。89例例4.9 某医院研究急性白血病与慢性白血病患者的某医院研究急性白血病与慢性白血病患者的血型构成情况有无不同,资料见表血型构成情况有无不同,资料见表4-12,问两组差,问两组差别有无统计学意义别有无统计学意义。90911行列表中的各格行列表中的各格
34、T1,并且,并且1T5的格子数的格子数不不宜超过宜超过1/5格子总数格子总数,否则可能产生偏性。处理方,否则可能产生偏性。处理方法有三种法有三种:增大样本含量增大样本含量将理论频数太小的行或列与性质相近的邻行将理论频数太小的行或列与性质相近的邻行 或邻或邻列合并;列合并;删去理论频数太小的格子所对应的行或列删去理论频数太小的格子所对应的行或列。行行列表资料列表资料2检验的注意事项检验的注意事项 922当多个样本率当多个样本率(或构成比或构成比)比较时,如结论比较时,如结论为拒绝检验假设,只能认为各总体率或总为拒绝检验假设,只能认为各总体率或总体构成比之间差别有统计学意义,但并不体构成比之间差别有统计学意义,但并不能说明它们彼此之间都有差别,或某两者能说明它们彼此之间都有差别,或某两者之间有差别。之间有差别。93掌握掌握o常用相对数指标常用相对数指标构成比,率,比构成比,率,比o率的标准化法率的标准化法基本思想,计算方法基本思想,计算方法o卡方检验卡方检验四格表资料的卡方检验四格表资料的卡方检验配对资料的卡方检验配对资料的卡方检验94Thank you!个人观点供参考,欢迎讨论!