1、 统计学医医学学统统计计学学的的基基本本概概念念和和步步骤骤计计量量资资料料的的统统计计描描述述计计量量资资料料的的统统计计推推断断计计数数资资料料的的统统计计描描述述计计数数资资料料的的统统计计推推断断相相关关与与回回归归医学统计学简介医学统计学简介一、医学统计学的定义一、医学统计学的定义 统计学统计学是一门研究数据的科学。它指导人们在科学实践中是一门研究数据的科学。它指导人们在科学实践中如何如何有效地有效地获取获取数据数据、正确地正确地分析分析数据数据以及以及合理地合理地解释解释所所得到的结果。得到的结果。医学统计学医学统计学是统计学的一个是统计学的一个分支分支。它是把概率论和数理统计。它
2、是把概率论和数理统计学的基本原理和方法应用于医学科学领域,涉及医学研究设学的基本原理和方法应用于医学科学领域,涉及医学研究设计、数据搜集、数据整理和数据分析的一门计、数据搜集、数据整理和数据分析的一门应用性应用性学科。学科。医学研究的对象是人,而人既具有生物属性,又具有社医学研究的对象是人,而人既具有生物属性,又具有社会属性,其变异性大,影响因素错综复杂。例如:会属性,其变异性大,影响因素错综复杂。例如:1 1)同样是健康人,即使年龄和性别相同,其身高、体重、)同样是健康人,即使年龄和性别相同,其身高、体重、血压等数值有所不同;血压等数值有所不同;2 2)同一个人,即使在同一天中,其不同时间段
3、的血压等)同一个人,即使在同一天中,其不同时间段的血压等数值有所不同;数值有所不同;3 3)采用同样方案治疗某病,即使年龄、性别、病情、病)采用同样方案治疗某病,即使年龄、性别、病情、病程均相同,其治疗效果有所不同;程均相同,其治疗效果有所不同;上述几例都是由于个体存在变异的结果。变异是人群的上述几例都是由于个体存在变异的结果。变异是人群的特征,医学统计学研究的对象就是来自人群的、具有特征,医学统计学研究的对象就是来自人群的、具有变异特征的数据资料。变异特征的数据资料。偶然现象偶然现象合理的合理的统计分析统计分析客观规律性客观规律性 如:如:19481948年,年,链霉素治疗结核病的对照研究链
4、霉素治疗结核病的对照研究 临床试验临床试验 随机化原则随机化原则 将病人分别分配到链霉素疗效观察将病人分别分配到链霉素疗效观察组与对照组组与对照组(不用链霉素不用链霉素)。6 6个月治疗后个月治疗后 观察组观察组 5555名结核病人名结核病人 死亡死亡4 4人人 对照组对照组 5252名结核病人名结核病人 死亡死亡1414人人 X X光检查,观察组病人的病情比对照组有更大的改善光检查,观察组病人的病情比对照组有更大的改善 又如:又如:孕期补充维生素孕期补充维生素(叶酸叶酸)与婴儿神经管缺陷与婴儿神经管缺陷 8080年代初,有文章报道孕期补充维生素年代初,有文章报道孕期补充维生素(叶酸叶酸)可以
5、减少生可以减少生育神经管缺陷婴儿的危险。育神经管缺陷婴儿的危险。据报道,先服用维生素后怀孕的妇女比怀孕后才开始服用据报道,先服用维生素后怀孕的妇女比怀孕后才开始服用维生素的妇女和拒绝参加试验的怀孕妇女所生的婴儿神经维生素的妇女和拒绝参加试验的怀孕妇女所生的婴儿神经管缺陷的发生率要低。管缺陷的发生率要低。参加服用维生素试验和拒绝试验的孕妇之间存在某些生参加服用维生素试验和拒绝试验的孕妇之间存在某些生理特征上的系统差别,致使在解释试验结果时发生困理特征上的系统差别,致使在解释试验结果时发生困难。这不能不认为是因实验设计缺乏周密考虑所造成难。这不能不认为是因实验设计缺乏周密考虑所造成的经验教训。的经
6、验教训。补救补救 随机化分配受试者随机化分配受试者 叶酸补充组叶酸补充组 安慰剂组安慰剂组 样本人数过少样本人数过少 无法作出肯定的科学结论无法作出肯定的科学结论 19911991年年 大样本的随机化试验大样本的随机化试验 获得了肯定的科学结论获得了肯定的科学结论 怀孕妇女怀孕妇女 新生儿神经管缺陷新生儿神经管缺陷 安慰剂组安慰剂组 602602名名 2121名名 叶酸补充组叶酸补充组 592592名名 6 6名名 统计学分析证实,叶酸对预防新生儿神经管缺陷确有明显统计学分析证实,叶酸对预防新生儿神经管缺陷确有明显的效果的效果 学习医学统计学的重要性学习医学统计学的重要性医学统计学在医学领域里
7、具有不可低估的重要性,医学统计学在医学领域里具有不可低估的重要性,是医学科学工作者不可缺少的知识和技能。是医学科学工作者不可缺少的知识和技能。第一节第一节 统计学中的几个基本概念统计学中的几个基本概念第一章第一章 医学统计学的基本概念和步骤医学统计学的基本概念和步骤一、总体和样本一、总体和样本 总体总体(populationpopulation)根据研究目的确定的同质的全部研究对象。根据研究目的确定的同质的全部研究对象。有限总体:总体中个体的总数是有限的。有限总体:总体中个体的总数是有限的。无限总体:总体的时间、空间未加以限制,总体中的个无限总体:总体的时间、空间未加以限制,总体中的个 体数可
8、无限增加。体数可无限增加。如研究糖尿病人的血压测定值;如研究糖尿病人的血压测定值;由于无时间和空间的限制,全部糖尿病人的血压测定值由于无时间和空间的限制,全部糖尿病人的血压测定值 为无限总体。为无限总体。样本样本(samplesample)根据随机化的原则从总体中抽出有代表性的一部分观察单根据随机化的原则从总体中抽出有代表性的一部分观察单位。位。抽样:抽取样本的过程。抽样:抽取样本的过程。统计推断:对样本进行观察,用样本的特征推断总体的统计推断:对样本进行观察,用样本的特征推断总体的 特征。是研究人群健康经常用到的方法。特征。是研究人群健康经常用到的方法。二、同质和变异二、同质和变异同质同质(
9、homogeneityhomogeneity)指被研究指标的非实验因素相同指被研究指标的非实验因素相同.变异变异(variationvariation)指在同质的基础上各观察单位(或个体)之间的差异。指在同质的基础上各观察单位(或个体)之间的差异。同性别、同年龄、同地区、同体重儿童的某项指标有高同性别、同年龄、同地区、同体重儿童的某项指标有高有低,称为某项指标的变异。有低,称为某项指标的变异。被研究指标:儿童身高被研究指标:儿童身高影响较大、易控制的因素:性别、年龄、民族、地区影响较大、易控制的因素:性别、年龄、民族、地区(相同)(相同)三、参数和统计量三、参数和统计量 参数参数(parame
10、ter parameter)描述描述总体总体的统计指标。的统计指标。如研究中国如研究中国1212岁以上男性的吸烟率,观察岁以上男性的吸烟率,观察1212岁以上的全部岁以上的全部中国男性,登记他们的目前吸烟情况,计算出的吸烟率中国男性,登记他们的目前吸烟情况,计算出的吸烟率即为参数。即为参数。统计量统计量(statisticstatistic)描述描述样本样本的统计指标。的统计指标。用随机的方法从总体中抽出一部分用随机的方法从总体中抽出一部分1212岁的男性,计算的吸岁的男性,计算的吸烟率称作统计量。烟率称作统计量。四、误差四、误差误差误差(error)(error):观察值与实际值之差:观察值
11、与实际值之差 。主要有主要有3 3种:系统误差,随机测量误差,抽样误差种:系统误差,随机测量误差,抽样误差 1.1.系统误差系统误差 在资料的搜集过程中,因试剂未标定、仪器未校正、标在资料的搜集过程中,因试剂未标定、仪器未校正、标 准未统一等而导致测量结果有倾向性的误差。应严格控准未统一等而导致测量结果有倾向性的误差。应严格控 制,它影响结果的准确度。制,它影响结果的准确度。2.2.随机测量误差随机测量误差 在试剂、仪器已校正,操作方法已统一的情况下,由于在试剂、仪器已校正,操作方法已统一的情况下,由于 偶然因素的影响,导致同一研究对象在多次测定中结果偶然因素的影响,导致同一研究对象在多次测定
12、中结果 不一致的情况。应控制在允许范围内。不一致的情况。应控制在允许范围内。3.3.抽样误差抽样误差 由于抽样而使某变量值的统计量与总体参数不相同。由于抽样而使某变量值的统计量与总体参数不相同。抽样误差不可避免,但它可以用统计学方法处理抽样误差不可避免,但它可以用统计学方法处理。五、概率五、概率 概率概率(probability)(probability)描述随机事件发生可能性大小的数值,常用描述随机事件发生可能性大小的数值,常用P P表示。表示。小数或百分数。小数或百分数。P P值的范围:介于值的范围:介于0 0和和1 1之间。之间。P P值愈接近值愈接近1 1,表示事件发生的可能性愈大;,
13、表示事件发生的可能性愈大;P=1P=1,表示该事件一定会发生;,表示该事件一定会发生;P P值愈接近值愈接近0 0,表示事件发生的可能性愈小;,表示事件发生的可能性愈小;P=0P=0,表示该事件一定不会发生;,表示该事件一定不会发生;在医学统计学中,主要是处理大概率和小概率的问题。在医学统计学中,主要是处理大概率和小概率的问题。大小概率的分界点为大小概率的分界点为0.050.05(5%5%)。习惯上称)。习惯上称P P 0.050.05为为小概率事件,表示在一次实验或观察中该事件发生的小概率事件,表示在一次实验或观察中该事件发生的可能性很小。可能性很小。统计分析中的很多结论都是带有概率性的。统
14、计分析中的很多结论都是带有概率性的。六、变量及变量值六、变量及变量值变量变量(variablevariable):观察对象的特征或指标):观察对象的特征或指标 如,性别,年龄,体重如,性别,年龄,体重 变量值变量值(value of variable)(value of variable):测量的结果:测量的结果 如,性别如,性别男、女男、女 年龄年龄数值,体重数值,体重测量值测量值第二节第二节 统计资料的类型统计资料的类型定定量量计量资料计量资料 measurement data用定量的方法对观察单位进行测量取得的资料。如身用定量的方法对观察单位进行测量取得的资料。如身高、体重、血压等。高、
15、体重、血压等。计数资料计数资料 enumeration data用定性的方法取得的资料。如性别,职业等用定性的方法取得的资料。如性别,职业等等级资料等级资料 rank data将观察对象按照某种属性分为几个等级的资料。如将将观察对象按照某种属性分为几个等级的资料。如将贫血分为轻、中、重贫血分为轻、中、重3 3个等级,治疗效果分为显效、好个等级,治疗效果分为显效、好转、有效和无效转、有效和无效4 4个等级等。个等级等。资料类型不同,选择的统计分析方法也不同资料类型不同,选择的统计分析方法也不同较常见的是计量资料和计数资料,区分方法:较常见的是计量资料和计数资料,区分方法:计量资料:计量资料:(1
16、 1)可以是任意数,如整数、小数、正数、负数;)可以是任意数,如整数、小数、正数、负数;(2 2)有明确的计量单位,如)有明确的计量单位,如 kg,cmkg,cm。计数资料:计数资料:(1 1)只能是正整数;)只能是正整数;(2 2)无计量单位。)无计量单位。资料间的相互转化:资料间的相互转化:血红蛋白血红蛋白 正常与异常正常与异常(计数资料计数资料)正常否正常否重度贫血,中度贫血,轻度重度贫血,中度贫血,轻度贫血,正常,血红蛋白增高贫血,正常,血红蛋白增高(等级资料等级资料)含量多少含量多少血红蛋白含量血红蛋白含量(g/L)()(计量资料计量资料)第三节第三节 统计工作的基本步骤统计工作的基
17、本步骤 1.1.设计设计 2.2.搜集资料搜集资料 3.3.整理资料整理资料 4.4.分析资料分析资料四个步骤相互联系四个步骤相互联系 科学、周密、严谨的科学、周密、严谨的设计设计是搜集准确可靠资料的保证;是搜集准确可靠资料的保证;准确、完整、及时地准确、完整、及时地搜集资料搜集资料、恰当地、恰当地整理资料整理资料是统计是统计分析的基础;分析的基础;选择正确的方法选择正确的方法分析资料分析资料和表达资料可获得科学的结论。和表达资料可获得科学的结论。调查设计调查设计实验设计实验设计专业设计专业设计统计设计统计设计资资料料搜搜集集资资料料整整理理资资料料分分析析三个原则三个原则 对对照照重重复复随
18、随机机二、资料搜集二、资料搜集(data collection)资料来源:资料来源:1.1.统计报表统计报表 医院工作报表、疫情报表医院工作报表、疫情报表 2.2.报告卡报告卡传染病、职业病、肿瘤、出生、死亡传染病、职业病、肿瘤、出生、死亡 3.3.日常医疗卫生工作记录日常医疗卫生工作记录门诊及住院病历门诊及住院病历 4.4.专题调查或实验专题调查或实验 要求:及时、完整、准确要求:及时、完整、准确 参与搜集资料人员的选择是关键。参与搜集资料人员的选择是关键。高素质、有相关专业基础、以往曾有类似研究经历高素质、有相关专业基础、以往曾有类似研究经历 严格培训和管理严格培训和管理三、资料整理三、资
19、料整理(data sorting)目的:将搜集到的原始资料系统化、条理化,便于进一目的:将搜集到的原始资料系统化、条理化,便于进一步计算统计指标和深入分析。步计算统计指标和深入分析。整理前:要对资料再次检查与核对,发现缺项或错项较整理前:要对资料再次检查与核对,发现缺项或错项较多的调查表,须补查或剔除。多的调查表,须补查或剔除。审查无误后,设计分组审查无误后,设计分组 分组方式常用的有两种:分组方式常用的有两种:1.1.质量分组质量分组 将观察单位按属性和类别分组,如按性别、职业、病种将观察单位按属性和类别分组,如按性别、职业、病种等分组。等分组。2.2.数量分组数量分组 将观察单位按数值大小
20、分组,如划分年龄组、身高组等。将观察单位按数值大小分组,如划分年龄组、身高组等。手工汇总或计算机汇总手工汇总或计算机汇总四、资料分析四、资料分析(data analysis)根据研究设计的目的、要求、资料的类型和分布特征根据研究设计的目的、要求、资料的类型和分布特征选择选择正确的统计方法正确的统计方法进行统计分析:进行统计分析:1.统计描述统计描述2.统计推断统计推断第四节第四节 医学统计学的应用医学统计学的应用一、拓宽医学研究思路一、拓宽医学研究思路二、医学科研设计科学合理二、医学科研设计科学合理三、资料准确可靠三、资料准确可靠四、选择合适分析方法及正确解释结果四、选择合适分析方法及正确解释
21、结果小结 SUMMARY一、医学统计学定义一、医学统计学定义 运用概率论和数理统计的基本原理和方法,结合医学运用概率论和数理统计的基本原理和方法,结合医学实际,研究数据收集、整理和分析的一门实际,研究数据收集、整理和分析的一门应用性应用性科学。科学。二、几个基本概念二、几个基本概念1.1.总体和样本总体和样本 总体总体:同质的全部研究对象。有限总体,无限总体同质的全部研究对象。有限总体,无限总体 样本样本:总体中有代表性的一部分总体中有代表性的一部分2.2.同质和变异同质和变异 同质同质:被研究指标的非实验因素相同被研究指标的非实验因素相同 变异变异:在同质的基础上各观察单位之间的差异在同质的
22、基础上各观察单位之间的差异3.3.参数和统计量参数和统计量 参数:参数:总体总体 统计量:统计量:样本样本4.4.误差误差观察值观察值 实际值实际值 主要有主要有3 3种:系统误差,随机测量误差,抽样误差种:系统误差,随机测量误差,抽样误差5.5.概率概率 可能性可能性大小,常用大小,常用P P表示。表示。P P值的范围:值的范围:0-10-1 分界点为分界点为0.050.05(5%5%)。)。P P 0.050.05为小概率事件。为小概率事件。6.6.变量及变量值变量及变量值 变量:指标变量:指标 变量值:观察值变量值:观察值三、统计资料类型三、统计资料类型 计量资料、计数资料、等级资料计量
23、资料、计数资料、等级资料四、统计工作的基本步骤四、统计工作的基本步骤 1.1.设计:专业设计:专业、统计统计 2.2.搜集资料:搜集资料:准确准确、完整完整、及时及时 3.3.整理资料:整理资料:质量质量分组,分组,数量数量分组分组 4.4.分析资料:分析资料:统计统计描述描述,统计,统计推断推断五、医学统计学的应用五、医学统计学的应用返回目录第二章第二章 计量资料的统计描述计量资料的统计描述第一节第一节 计量资料的频数分布计量资料的频数分布l例例 某农村地区某农村地区20012001年年1414岁女孩的身高资料如下,请编制频数表岁女孩的身高资料如下,请编制频数表和观察频数分布情况。和观察频数
24、分布情况。表表 某农村地区某农村地区20012001年年1414岁女孩的身高资料(岁女孩的身高资料(cmcm)一、频数分布表及其制作一、频数分布表及其制作 1 1计算极差或全距计算极差或全距(rangerange)常用常用R R表示表示 R=R=最大值最大值-最小值最小值 即即R R162.6-125.9=36.7162.6-125.9=36.7(cmcm)2 2决定组段和组距决定组段和组距 组段:组段:1010个左右个左右 下限,上限下限,上限 组距(组距(class intervalclass interval):相邻两组段下限值之差。):相邻两组段下限值之差。等距,等距,“极差组段数极差
25、组段数”的整数值的整数值 本例:分本例:分1010个组段个组段 组距极差组段数组距极差组段数=36.7/10=3.67=36.7/10=3.67(cmcm)取整为取整为4cm4cm 第一个组段的下限应略小于最小值,即取第一个组段的下限应略小于最小值,即取124cm124cm 最末组上限要略大于最大值,即取最末组上限要略大于最大值,即取164cm164cm。3 3列表划记列表划记 某农村地区某农村地区2001年年14岁女孩的身高资料(岁女孩的身高资料(cm)频数分布图频数分布图两个重要的特征两个重要的特征 集中趋势集中趋势(central tendency)身高的测量值虽然高低不等,但向中间集中
26、,中等身材身高的测量值虽然高低不等,但向中间集中,中等身材(140-144cm140-144cm)的人数最多)的人数最多 离散趋势离散趋势(tendency of dispersion)随着身高测量值逐渐变大或变小,人数越来越少,随着身高测量值逐渐变大或变小,人数越来越少,向两端分散向两端分散第二节第二节 集中趋势指标集中趋势指标 一、一、均数均数(mean)-算术均数算术均数 描述一组计量资料集中趋势(或平均水平)的指标。描述一组计量资料集中趋势(或平均水平)的指标。总体均数:总体均数:(读作(读作mumu)样本均数:样本均数:适用条件:资料呈正态或近似正态分布。适用条件:资料呈正态或近似正
27、态分布。作用:作用:描述数值变量资料的平均水平描述数值变量资料的平均水平常用指标:常用指标:算术均数、几何均数、中位数算术均数、几何均数、中位数1.直接法直接法 观察例数不多(如样本含量观察例数不多(如样本含量n n小于小于3030)公式:公式:求和,读作求和,读作sigmasigma,x xi i:各观察值,各观察值,n n:总例数总例数例例 有有8 8名正常人的空腹血糖测定值(名正常人的空腹血糖测定值(mmolmmol/L/L)为)为6.26.2,5.45.4,5.75.7,5.35.3,6.16.1,6.06.0,5.85.8,5.95.9,求其均数。,求其均数。5.8(mmol/L)2
28、.加权法加权法 观察例数很多,观察例数很多,先编制频数表,再计算先编制频数表,再计算 (自(自 学)学)fi 每组的频数每组的频数 x xi i 组中值组中值-(下限(下限+上限)上限)/2/2二、几何均数二、几何均数(geometric mean)表示法:表示法:G G 适用条件:适用条件:1.1.资料呈偏态分布,但经对数变换后呈正态分布;资料呈偏态分布,但经对数变换后呈正态分布;2.2.观察值间呈倍数关系或近似倍数关系的资料。观察值间呈倍数关系或近似倍数关系的资料。如抗体的平均滴度、药物的平均效价等。如抗体的平均滴度、药物的平均效价等。计算方法:计算方法:1.1.直接法直接法:观察例数不多
29、(如样本含量观察例数不多(如样本含量nn3030)例例 有有8 8份血清的抗体效价分别为份血清的抗体效价分别为 1:5,1:10,1:20,1:40,1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640,1:80,1:160,1:320,1:640,求平均抗体效价。求平均抗体效价。将各抗体效价的倒数代入公式,得:将各抗体效价的倒数代入公式,得:=lg-1(1.752575)=57即血清的抗体平均效价为即血清的抗体平均效价为1 1:57572.2.加权法:加权法:观察例数很多时采用观察例数很多时采用(自(自 学)学)三、中位数和百分位数三、中位数和百分位数 (一一)
30、中位数中位数(median)定义:一组由小到大排列的观察值中位置居中的数值定义:一组由小到大排列的观察值中位置居中的数值 中位数是一个位置指标,以中位数为界,将观察值中位数是一个位置指标,以中位数为界,将观察值 分为左右两半分为左右两半。表示法:表示法:M M适用条件:资料呈明显的偏态分布;开口资料;适用条件:资料呈明显的偏态分布;开口资料;资料分布不清楚资料分布不清楚计算方法:计算方法:1.1.直接法直接法(n n较小时)较小时)(1 1)将观察值按大小顺序排列;)将观察值按大小顺序排列;(2 2)n n为奇数为奇数 n n为偶数为偶数 21nXM)(21122nnXXM例例(1 1)有有7
31、 7个人的血压(收缩压)测定值(个人的血压(收缩压)测定值(mmHgmmHg)为:)为:120120,123123,125125,127127,128128,130130,132132,求中位数。求中位数。(2 2)若又观察了一个人的血压值为)若又观察了一个人的血压值为118(mmHg)118(mmHg),求中位数。求中位数。(1)M=127(mmHg)(2)M=(125+127)/2=126(mmHg)2.频数表法频数表法(n较大时)较大时)参见百分位数计算公式参见百分位数计算公式(二)百分位数(二)百分位数(percentile)把一组数据从小到大排列,分成把一组数据从小到大排列,分成10
32、0100等份,各等份含等份,各等份含1%1%的观察值,分割界限上的值就是百分位数。它是一的观察值,分割界限上的值就是百分位数。它是一个位置指标。个位置指标。P Px x 中位数是第中位数是第5050百分位数,用百分位数,用P P5050表示。表示。第第2525,第,第7575,第,第9595百分位数记为百分位数记为P P2525,P P7575,P P9595是统计学是统计学上常用的指标。上常用的指标。计算:计算:(1 1)将观察值编制成频数表;)将观察值编制成频数表;(2 2)按所分组段由小到大计算累计频数和累计频率;)按所分组段由小到大计算累计频数和累计频率;(3 3)找出百分位数所在组(
33、如)找出百分位数所在组(如P P9595所在组为累计频率为所在组为累计频率为 95%95%的所在组)的所在组)L L:PxPx 所在所在组段下限组段下限i i:组距组距 n:n:总例数总例数f f:PxPx所在所在组段频数组段频数 f fL L:小于小于L L的各组段累计频数的各组段累计频数例例 某传染性疾病的潜伏期(天)见下表,某传染性疾病的潜伏期(天)见下表,求潜伏期的第求潜伏期的第9595百分位数百分位数P P9595 某传染性疾病的潜伏期(天)的百分位数计算表某传染性疾病的潜伏期(天)的百分位数计算表18.4(天)(天)求平均潜伏期求平均潜伏期M M。10.33(天)(天)对于任何分布
34、的资料都可以用中位数反映平均水平。对于任何分布的资料都可以用中位数反映平均水平。中位数不受个别特大或特小值的影响,只受位置居中的观察值中位数不受个别特大或特小值的影响,只受位置居中的观察值波动的影响。波动的影响。若资料呈对称或正态分布,中位数若资料呈对称或正态分布,中位数=均数均数 百分位数用于描述一组资料在某百分位置上的水平,常常用百分位数用于描述一组资料在某百分位置上的水平,常常用于正常值范围的估计。于正常值范围的估计。第三节第三节 离散趋势指标离散趋势指标 三组同龄男孩体重(三组同龄男孩体重(kgkg)如下:)如下:甲组甲组 26 28 30 32 34 26 28 30 32 34 均
35、数均数=30=30(kgkg)乙组乙组 24 27 30 33 36 24 27 30 33 36 均数均数=30=30(kgkg)丙组丙组 26 29 30 31 34 26 29 30 31 34 均数均数=30=30(kgkg)平均水平指标仅描述一组数据的集中趋势,可作为总体均平均水平指标仅描述一组数据的集中趋势,可作为总体均数的一个估计值。由于变异的客观存在,需要一类指标描数的一个估计值。由于变异的客观存在,需要一类指标描述资料的离散趋势述资料的离散趋势。常用指标:常用指标:全距,四分位数间距,全距,四分位数间距,方差方差,标准差标准差,变异系数,变异系数一、全距(一、全距(range
36、)定义:一组资料中最大值与最小值之差。定义:一组资料中最大值与最小值之差。表示法:表示法:R RR R最大值最小值最大值最小值意义:反映个体变异范围的大小。意义:反映个体变异范围的大小。R R越大,变异度(离散程度)越大。越大,变异度(离散程度)越大。缺点:仅考虑两端数据的差异,未考虑其它数据的变异缺点:仅考虑两端数据的差异,未考虑其它数据的变异 情况,不能全面反映一组资料的离散程度,且不稳情况,不能全面反映一组资料的离散程度,且不稳 定,易受极端值的影响。定,易受极端值的影响。二、四分位数间距(二、四分位数间距(quartile interval)定义:上四分位数定义:上四分位数Q QU U
37、(P P7575)与下四分位数)与下四分位数Q QL L(P P2525)之差,)之差,即包括了全部观察值中间的一半。即包括了全部观察值中间的一半。表示法:表示法:Q意义:意义:Q Q值越大,说明变异程度越大。常用于描述偏态值越大,说明变异程度越大。常用于描述偏态 分布资料的离散程度。分布资料的离散程度。缺点:该指标比全距稍稳定,但仍未考虑每个观察值。缺点:该指标比全距稍稳定,但仍未考虑每个观察值。某传染性疾病的潜伏期(天)某传染性疾病的潜伏期(天)Q QL L(P P2525)所在组在潜伏期为所在组在潜伏期为8 8组,组,L L=8,=8,f fx x=48,=48,i i=4,=4,f f
38、L L=26;=26;Q QU U(P P7575)所在组为所在组为1212组,组,L L=12=12,f fx x=25=25,i i=4=4,f fL L=74=74,分别代入公式得分别代入公式得三、三、方差(方差(variance)和)和 标准差(标准差(standard deviation)克服极差和四分位数间距不能反映每个观察值之间的克服极差和四分位数间距不能反映每个观察值之间的离散情况这一缺点离散情况这一缺点 离均差总和离均差总和=总体中每个观察值总体中每个观察值x xi i与总体均数与总体均数 之差的之差的 总和总和 =(x xi i-)=0=0 离均差平方和离均差平方和=(x
39、xi i-)2 2 受观察单位数的影响受观察单位数的影响 取离均差平方和的均数:方差取离均差平方和的均数:方差 方差方差(variancevariance):离均差平方和的均数):离均差平方和的均数样本方差用样本方差用S S2 2表示,公式表示,公式总体方差用总体方差用 2 2表示,公式表示,公式 标准差标准差(standard deviationstandard deviation):):方差开平方,取平方方差开平方,取平方 根的正值。(恢复原度量单位)根的正值。(恢复原度量单位)总体标准差、样本标准差的公式分别为:总体标准差、样本标准差的公式分别为:(n-1)和(和(fi-1)为为自由度自
40、由度(degree of freedom)适用条件:对称分布,特别是正态或近似正态分布资料适用条件:对称分布,特别是正态或近似正态分布资料说明资料的变异程度,其值越大,说明变异程度越大说明资料的变异程度,其值越大,说明变异程度越大S甲甲=3.16(kg););S乙乙=4.74(kg););S丙丙=2.92(kg)标准差的应用:标准差的应用:1.1.表示观察值的变异程度。表示观察值的变异程度。标准差愈小,说明观察值的离散程度愈小,从而也反映了标准差愈小,说明观察值的离散程度愈小,从而也反映了用平均数反映平均水平,其代表性愈好。用平均数反映平均水平,其代表性愈好。2.估计医学参考值范围。估计医学参
41、考值范围。标准差在科技论文报告中经常与算术均数一起使用。标准差在科技论文报告中经常与算术均数一起使用。3.3.计算标准误。计算标准误。4.4.计算变异系数。计算变异系数。四、变异系数四、变异系数(coefficient of variation)表示法:表示法:CVCV 适用条件:适用条件:比较度量单位不同或均数相差悬殊的两组比较度量单位不同或均数相差悬殊的两组 (或多组)资料的变异程度。(或多组)资料的变异程度。公式公式:例例 某地调查某地调查110110名名2020岁男大学生,其身高均数为岁男大学生,其身高均数为 172.73cm172.73cm,标准差为,标准差为4.09cm4.09cm
42、;其体重均数为;其体重均数为 55.04kg55.04kg,标准差为标准差为4.10kg4.10kg,试比较两者变异度。,试比较两者变异度。身高身高 CV=(4.09/172.73)100%=2.37%体重体重 CV=(4.10/55.04)100%=7.45%该地该地2020岁男大学生体重的变异度大于身高的变异度岁男大学生体重的变异度大于身高的变异度第四节 正态分布和医学参考值范围 一、正态分布一、正态分布 正态分布(正态分布(normal distributionnormal distribution)高峰位于中央(均数所在处)、两侧逐渐降低且左右高峰位于中央(均数所在处)、两侧逐渐降低且
43、左右对称、不与横轴相交的光滑曲线。正态分布是一种重对称、不与横轴相交的光滑曲线。正态分布是一种重要的连续型分布。要的连续型分布。正态分布和标准正态分布的概率密度函数正态分布和标准正态分布的概率密度函数(probability density function)正态分布的概率密度函数为:正态分布的概率密度函数为:标准正态分布的概率密度函数为:标准正态分布的概率密度函数为:正态分布正态分布u=(X-)/标准正态分布标准正态分布二、正态分布的特征二、正态分布的特征 正态曲线(正态曲线(normal curvenormal curve)在横轴上方均数处最高;在横轴上方均数处最高;正态分布以均数为中心,
44、左右对称;正态分布以均数为中心,左右对称;正态分布有两个参数,即均数正态分布有两个参数,即均数 与标准差与标准差,常用,常用N(N(,2 2)表示,用表示,用N N(0 0,1 1)表示标准正态分布。其位置与均)表示标准正态分布。其位置与均 数有关,形状与标准差有关。标准差大,离散程度大,数有关,形状与标准差有关。标准差大,离散程度大,正态分布曲线则正态分布曲线则“胖胖”,反之,则,反之,则“瘦瘦”;正态分布的面积分布有一定的规律性。正态分布的面积分布有一定的规律性。三、正态曲线下面积的分布规律三、正态曲线下面积的分布规律四、医学参考值范围四、医学参考值范围 (一)(一)参考值(参考值(ref
45、erence rangesreference ranges)的意义)的意义 医学参考值:正常人指标测定值的波动范围。医学参考值:正常人指标测定值的波动范围。l1 1从正常人总体中抽样从正常人总体中抽样l 按随机化原则和方法进行抽样研究按随机化原则和方法进行抽样研究l 抽取样本含量要足够大,最好在抽取样本含量要足够大,最好在100100例以上例以上 2 2决定取单侧还是双侧决定取单侧还是双侧 3.3.选定合适的百分界限选定合适的百分界限 参考值范围是指绝大多数正常人的测定值应该所在的范围。参考值范围是指绝大多数正常人的测定值应该所在的范围。习惯上指习惯上指8080、9090、9595或或9999
46、 4 4选定适当的方法进行参考值范围的估计选定适当的方法进行参考值范围的估计 (三三)参考值范围的估计方法参考值范围的估计方法 利用某农村地区利用某农村地区20012001年年1414岁女孩的身高资料(岁女孩的身高资料(cmcm)求)求95%95%的参的参考值范围。考值范围。从图可以看出该资料基本服从正态分布,因此采用正态分布法从图可以看出该资料基本服从正态分布,因此采用正态分布法公式。公式。本例的,本例的,S S=6.58=6.58,双侧双侧95%95%的参考值范围为:的参考值范围为:=(130.18155.98)(cmcm)总总 结结一、集中趋势指标(一、集中趋势指标(说明一组同质资料的平
47、均水平说明一组同质资料的平均水平)均数,几何均数,中位数均数,几何均数,中位数二、离散趋势指标(二、离散趋势指标(说明一组同质资料的离散度大小说明一组同质资料的离散度大小)全距,四分位数间距,方差,标准差,变异系数全距,四分位数间距,方差,标准差,变异系数三、正态分布三、正态分布和医学参考值范围和医学参考值范围 1.1.正态分布正态分布 图形,特征,面积分布规律图形,特征,面积分布规律 N(,2 2),N(0,1)2.2.参考值范围参考值范围 参考值范围的估计方法参考值范围的估计方法百分范围百分范围 (%)单单 侧侧 双双 侧侧 95 99Sx65.1Sx33.2Sx58.2Sx96.1返回目
48、录返回目录第三章第三章 计量资料的统计推断计量资料的统计推断统计分析统计分析统计描述统计描述统计推断统计推断用统计指标、统计表和统用统计指标、统计表和统计图来描述资料的分析规计图来描述资料的分析规律及其数量特征律及其数量特征总体参数估计总体参数估计 假设检验假设检验统计推断统计推断(statistical inference)通过样本统计量信息推断相应总体参数的方法。通过样本统计量信息推断相应总体参数的方法。包括对总体参数的置信推断及参数间差异的假设检包括对总体参数的置信推断及参数间差异的假设检验。验。第一节第一节 均数的抽样误差和总体均数的估计均数的抽样误差和总体均数的估计一、一、均数的抽样
49、误差和标准误均数的抽样误差和标准误1.1.均数的抽样误差均数的抽样误差(sampling error of mean)(sampling error of mean)由抽样而造成的样本均数与总体均数的差异或各样本均数由抽样而造成的样本均数与总体均数的差异或各样本均数的差异。的差异。2.2.标准误标准误 standard error(SE,SEM)standard error(SE,SEM)样本均数的标准差。反映均数抽样误差大小的指标。样本均数的标准差。反映均数抽样误差大小的指标。:总体标准差总体标准差 n:样本含量样本含量nxnssxS S:样本标准差样本标准差 计算公式计算公式标准误越小,说
50、明样本均数与总体均数越标准误越小,说明样本均数与总体均数越接近,样本均数的代表性越好接近,样本均数的代表性越好意义意义用途用途(1 1)衡量抽样误差大小)衡量抽样误差大小(2 2)估计总体均数的置信区间)估计总体均数的置信区间(3 3)用于假设检验)用于假设检验例:对某地成年男性红细胞数的抽样调查中,随机抽取了例:对某地成年男性红细胞数的抽样调查中,随机抽取了100100名成年男性,调查得到其均数是名成年男性,调查得到其均数是5.385.381012/L1012/L,标准差为,标准差为0.440.441012/L1012/L,求其标准误。,求其标准误。n=100 s=0.44 n=100 s=