1、统计资料的类型统计资料的类型数值变量数值变量:定量资料定量资料分类变量分类变量:有序分类有序分类 :变量之间有程度的差变量之间有程度的差 别别,且排列有序且排列有序.(等级资料等级资料)无序分类无序分类:(计数资料)(计数资料)二项分类二项分类多项分类多项分类变量的转换变量的转换:定量定量 定性定性连续型计量资料连续型计量资料离散型计量资料离散型计量资料第十章第十章 分类变量资料的统计分析分类变量资料的统计分析第一节第一节 统计描述统计描述一一.描述指标描述指标(相对数相对数)1.率率(rate):说明一定时间内某事件发生的频率或强度说明一定时间内某事件发生的频率或强度KNnR单位单位:%,1
2、/万万,1/10万万2.构成比构成比(constituent ratio):说明事物内部构成,或各部:说明事物内部构成,或各部分所占百分比,分所占百分比,单位单位%3.相对比相对比(relative ratio):说明两个指标的比例关系说明两个指标的比例关系 常用率比常用率比 例例10-1 某研究者某研究者2000年对某校的初中生进行了近视患病年对某校的初中生进行了近视患病情况调查情况调查,试计算各年级近视患病率和构成比及试计算各年级近视患病率和构成比及三年级和一年级患病率的相对比三年级和一年级患病率的相对比.年级年级 检查人数检查人数 患病人数患病人数 患病率患病率 构成比构成比 相对比相对
3、比一年级一年级 442 67 二年级二年级 428 68三年级三年级 405 74 合计合计 1275 209 16.39 100.015.16 32.0615.89 32.53 18.27 35.41 1.2二.应用相对数时注意事项应用相对数时注意事项1.分母分母不宜太小不宜太小2.率和构成比的区别率和构成比的区别3.样本含量不等的样本含量不等的几个率的平均值几个率的平均值不等于几个率不等于几个率的算数平均值的算数平均值4.对率或构成比进行比较时对率或构成比进行比较时,应注意应注意资料的可比资料的可比性性5.率的标准化率的标准化6.两样本率进行比较时应进行两样本率进行比较时应进行假设检验假设
4、检验三三.率的标准化率的标准化1.基本思想基本思想:为消除内部构成不同对指标的影响为消除内部构成不同对指标的影响,采用统一的内部构成计算标准化率采用统一的内部构成计算标准化率,使得出的标使得出的标准化率具有可比性准化率具有可比性.2.计算方法计算方法:直接法直接法:已知各年龄组的实际发病率已知各年龄组的实际发病率,用标准人口数或用标准人口数或 标准人口构成进行计算标准人口构成进行计算 间接法间接法:标准化死亡比标准化死亡比(SMR),实际死亡数与预实际死亡数与预 期死亡数的比期死亡数的比 3.率的标准化应注意的问题率的标准化应注意的问题第二节第二节 计数资料统计推断计数资料统计推断一.率的抽样
5、误差和标准误率的抽样误差和标准误 样本率和总体率或样本率之间存在的差异样本率和总体率或样本率之间存在的差异,称称抽样误差抽样误差.率的抽样误差用率的标准误表示率的抽样误差用率的标准误表示.(p p or Spor Sp).).np)1(nPpSp)1(p=阳性率,1-p=阴性率)二.总体率的区间估计总体率的区间估计2.查表法查表法:当当n 50,样本率样本率p 接近于接近于0或或1时时,该资料服从该资料服从二项分布二项分布,用查表法估计总体率可信区间用查表法估计总体率可信区间p u Sp1.正态近似法正态近似法:np 和和 n(1-p)5条件条件:n n 足够大足够大,样本率样本率p p 或或
6、1-p1-p均不太均不太小时小时,即即例例10-5 为了解某地乙肝表面抗原携带情况为了解某地乙肝表面抗原携带情况,某研究者在该某研究者在该地人群中随机检测了该地地人群中随机检测了该地200人人,乙肝表面抗原阳性乙肝表面抗原阳性7人人,乙肝表面抗原携带率为乙肝表面抗原携带率为3.5%,试计算标准误并估试计算标准误并估计计95%和和99%可信区间可信区间.nPpSp)1(95%可信区间可信区间:3.5%1.96 Sp 99%可信区间可信区间:3.5%2.58 Spn=200 X=7,P=3.5%三三.两个率比较的两个率比较的u 检验检验当当np和和 n(1-p)5 时时 样本率的分布近似正态分布样
7、本率的分布近似正态分布 u 检验检验(一一)检验步骤检验步骤:1.建立假设建立假设,确定检验水准确定检验水准 H0:H1:=0.05 2.选择检验方法选择检验方法,计算计算 u 值值 3.确定确定 P 值值,判断结果判断结果(二二)资料类型资料类型1.样本率与总体率的比较样本率与总体率的比较 (例例10-6)计算公式计算公式:nppup)1(2.两个样本率的比较两个样本率的比较 (例例10-7)计算公式计算公式:)11)(1(2121nnppppucc2121nnXXpc例例10-8 10-8 某医生用某医生用A,BA,B两种药物治疗急性下呼吸两种药物治疗急性下呼吸道感染道感染.A.A药治疗药
8、治疗7474例例,有效有效6868例例;B;B药治疗药治疗6363例例,有效有效5252例例.问两种药物的有效率是否有问两种药物的有效率是否有差别差别?处理处理 有效有效 无效无效 合计合计 有效率有效率(%)A 药药 68(64.82)6 (9.18)74 91.89B 药药 52(55.18)11(7.82)63 82.54合计合计 120 17 137 87.59H0:1=2H1:1 2=0.05第三节第三节 X2 检验检验(chi-square test)基本思想基本思想 检验实际频数与理论频数的吻合程度检验实际频数与理论频数的吻合程度,实实际频数与理论频数越相近际频数与理论频数越相近
9、,X2 值越小值越小;反反之之,实际数与理论数相差越大实际数与理论数相差越大,X2值越大值越大.计算公式计算公式:理论频数的计算理论频数的计算:TRC=nRnC/n df=(行数行数-1)(列数列数-1)TTA22例例10-8 10-8 某医生用某医生用A,BA,B两种药物治疗急性下呼吸两种药物治疗急性下呼吸道感染道感染.A.A药治疗药治疗7474例例,有效有效6868例例;B;B药治疗药治疗6363例例,有效有效5252例例.问两种药物的有效率是否有问两种药物的有效率是否有差别差别?处理处理 有效有效 无效无效 合计合计 有效率有效率(%)A 药药 68(64.82)6 (9.18)74 9
10、1.89B 药药 52(55.18)11(7.82)63 82.54合计合计 120 17 137 87.59TTA22二二.2 检验的基本步骤检验的基本步骤1.建立检验假设建立检验假设,确定检验水准确定检验水准 H H0 0:1=1=2 2 H H1 1:1 1 2 2 =0.05=0.052.2.计算计算2 值值 资料类型不同资料类型不同,计算公式不同计算公式不同3.确定确定 P 值值,判断结果判断结果 根据查根据查2 界值表界值表,确定确定P值值三三.四格表资料的四格表资料的2 检验检验 处理有效无效合计A药aba+bB药cdc+d合计a+cb+dn1.四格表资料的四格表资料的2 检验的
11、检验的专用公式专用公式 df=(R-1)(C-1)=1)()()()(22dbcadcbanbcad2.四格表资料的四格表资料的2 检验的校正检验的校正 -Yates 连续校正连续校正校正公式校正公式:TTA25.02)()()(2/22dcbadbcannbcad校正的目的校正的目的:英国统计学家英国统计学家(Yates)认为认为 2分布是一种连续分布是一种连续性分布性分布,而四格表中的资料属离散性分布而四格表中的资料属离散性分布,得到得到的的 2统计量的抽样分布也是离散的统计量的抽样分布也是离散的.因此因此,为改为改善善 2统计量分布的连续性统计量分布的连续性,建议进行校正建议进行校正.连
12、续性校正应遵循的条件连续性校正应遵循的条件:1.T 5,且且 N 40时时,用非校正的公式用非校正的公式2.1 T 5,且且N 40时时,用连续性校正公式用连续性校正公式3.T 1 或或 N40:cbcb212当当 b+c40 时时,用校正公式用校正公式.(McNemar 检验检验)例例 随机选择随机选择239例胃、十二指肠疾病患者和例胃、十二指肠疾病患者和187名健名健康输血员,其血型分布见下表,问胃、十二指肠疾病康输血员,其血型分布见下表,问胃、十二指肠疾病患者和健康输血员血型分布有无差别?患者和健康输血员血型分布有无差别?胃十二指肠疾病患者与健康输血员的血型分布胃十二指肠疾病患者与健康输
13、血员的血型分布 分分 组组 A B AB O 合合 计计胃十二指肠疾病胃十二指肠疾病健康输血员健康输血员47 66 20 106 239 52 54 19 62 187合合 计计 99 120 39 168 426 检验步骤:检验步骤:1.建立检验假设建立检验假设,确定检验水准确定检验水准2.计算计算 2值值3.确定概率确定概率P值值,判断结果判断结果4.行行列表资料的列表资料的 2检验检验 (R C 表资料表资料)基本公式基本公式:122CRnnAnA 每个格子的实际频数每个格子的实际频数 nR A所对应的行合计所对应的行合计nC A所对应的列合计所对应的列合计例例表表 甲、乙两城市空气质量
14、状况比较甲、乙两城市空气质量状况比较组组 空气质量类别空气质量类别别别 优优 良良 轻度污染轻度污染 中度污染中度污染 重度污染重度污染合计合计甲甲 193 67 28 7 5 300乙乙 154 94 28 18 6 300合计合计 347 161 56 25 11 600检验步骤:检验步骤:1.建立检验假设建立检验假设,确定检验水准确定检验水准2.计算计算 2值值3.确定概率确定概率P值值,判断结果判断结果行行 列表资料列表资料 2检验应注意事项检验应注意事项 1.行行 列表资料列表资料 2检验公式的应用条件检验公式的应用条件:不能有不能有1/5以上以上的格子的的格子的理论数理论数5,或者
15、或者,不能有不能有1个格子个格子的的理论数理论数1 2.如果资料不能满足上述条件如果资料不能满足上述条件,则可以通过则可以通过 (1)在可能的情况下再增加样本量在可能的情况下再增加样本量;(2)专业上允许的情况下专业上允许的情况下,合并相邻的行或列合并相邻的行或列;(3)删去理论数太小的行和列删去理论数太小的行和列 3.假设检验结果有差别假设检验结果有差别,只能认为总的率或构成只能认为总的率或构成比有差别比有差别小结 计数资料的统计描述计数资料的统计描述 指标指标:率、构成比、相对比率、构成比、相对比 计数资料的统计推断计数资料的统计推断 总体参数估计:总体参数估计:Pu*Sp 率的假设检验:
16、率的假设检验:样本率与总体率的比较样本率与总体率的比较-u检验检验 两个大样本率的比较两个大样本率的比较 -u检验检验 两个小样本率的比较两个小样本率的比较 -2检验检验 配对设计资料的两个率比较配对设计资料的两个率比较-2检验检验 多个样本率的比较多个样本率的比较 -RC表的表的2检验检验 假设检验的基本步骤完全相同假设检验的基本步骤完全相同统计资料处理的基本思路统计资料处理的基本思路 资料的整理资料的整理:统计图,统计表统计图,统计表统计资料的描述统计资料的描述(描述指标)(描述指标)统计学推断统计学推断 总体参数的估计(可信区间)总体参数的估计(可信区间)假设检验假设检验 统计资料类型的
17、判断统计资料类型的判断例例1.某研究者欲比较甲乙两药治疗高血压的效果某研究者欲比较甲乙两药治疗高血压的效果,进进行了随机对照试验行了随机对照试验.甲乙药组各选择了甲乙药组各选择了50名病人名病人,甲药甲药组血压平均下降了组血压平均下降了2.67mmHg,标准差是标准差是0.27mmHg,乙药组平均下降了乙药组平均下降了3.20mmHg,标准差是标准差是0.33mmHg.问两药降压效果是否不同问两药降压效果是否不同?例例2.为调查为调查2型糖尿病发病易感因素型糖尿病发病易感因素,某研究者进行某研究者进行了一项以医院为基础的病例对照研究了一项以医院为基础的病例对照研究.结果发现结果发现,在在200
18、名糖尿病病例中名糖尿病病例中,100人有糖尿病遗传家族史人有糖尿病遗传家族史;而而200名对照者中只有名对照者中只有50人有糖尿病家族史人有糖尿病家族史.问糖问糖尿病家族史是否在两组中分布不同尿病家族史是否在两组中分布不同?例例3.为比较为比较A,B,C,D四种药物治疗小细胞肺四种药物治疗小细胞肺癌的效果癌的效果,将将160人随机分配进入四个治疗人随机分配进入四个治疗组组.每组每组40人人.治疗结果见下表治疗结果见下表,试比较四种试比较四种药物治疗效果有无差别药物治疗效果有无差别?处理组处理组 有效有效 无效无效 合计合计 A 药 15 25 40 B 药 10 30 40 C 药 13 27
19、 40 D 药 8 32 40合计合计 46 114 160例例4.为研究铅作业与工人尿铅含量的关系为研究铅作业与工人尿铅含量的关系,随机抽查了随机抽查了3种作业工人的尿铅结果种作业工人的尿铅结果,见下见下表表.问问3种作业工人的尿铅含量是否不同种作业工人的尿铅含量是否不同?铅作业组铅作业组 调离铅作业组调离铅作业组 非铅作业组非铅作业组0.01 0.11 0.090.16 0.23 0.020.24 0.18 0.050.18 0.14 0.020.28 0.20 0.010.14 0.12 0.10参数统计参数统计(parametric statistics)以特定的总体分布作为前提以特定
20、的总体分布作为前提,对总体参数进行对总体参数进行 估计和假设检验估计和假设检验非参数统计非参数统计(nonparametric statistics)不是对总体参数进行估计和检验不是对总体参数进行估计和检验,而是检验总而是检验总 体分布的位置的统计方法体分布的位置的统计方法 它不依赖总体分布的具体形式它不依赖总体分布的具体形式参数统计和非参数统计的区别参数统计和非参数统计的区别:1.总体分布总体分布 2.检验效能检验效能 第七章第七章 秩和检验秩和检验 秩和检验秩和检验(rank sum test):秩秩:秩序秩序,顺序顺序.把资料从小到大排序把资料从小到大排序,再求顺序的和再求顺序的和 秩和。秩和。以秩和作为统计量进行假设检验以秩和作为统计量进行假设检验,称秩和检验称秩和检验.资料设计类型不同有不同的检验方法资料设计类型不同有不同的检验方法 配对设计配对设计(符号秩和检验)(符号秩和检验)成组设计成组设计 (两个样本比较)(两个样本比较)多组设计多组设计 (多个样本比较)(多个样本比较)