1、温医大公卫学院黄陈平温医大公卫学院黄陈平 某中医师对某方剂进行改良,改良后的方剂某中医师对某方剂进行改良,改良后的方剂治疗某病患者治疗某病患者30例,有效率为例,有效率为80%,原方剂,原方剂治疗治疗30例,有效率为例,有效率为60%,问两者有效率有,问两者有效率有无差别?无差别?某医师用、和三种方案治疗婴幼儿贫血患者,某医师用、和三种方案治疗婴幼儿贫血患者,治疗一个月后,血红蛋白的增加克数如下表,问三种治疗一个月后,血红蛋白的增加克数如下表,问三种治疗方案对婴幼儿贫血的疗效是否相同?治疗方案对婴幼儿贫血的疗效是否相同?表表.三种方案治疗后血红蛋白增加量()三种方案治疗后血红蛋白增加量()24
2、 20 20 36 18 11 25 17 6 14 10 3 26 19 0 34 24-1 23 4 5 在小学生的课间餐面包中添加赖氨酸,以研究其对在小学生的课间餐面包中添加赖氨酸,以研究其对儿童体重和身高增长的影响,拟分析赖氨酸添加的儿童体重和身高增长的影响,拟分析赖氨酸添加的最佳浓度和面包烤制的最佳条件。赖氨酸的浓度有最佳浓度和面包烤制的最佳条件。赖氨酸的浓度有五个水平:五个水平:0.0%,0.2%,0.4%,0.6%,0.8%,面,面包烤制条件有两个水平:甲和乙。如何设计和分析?包烤制条件有两个水平:甲和乙。如何设计和分析?22例例期非小细胞肺癌患者在不同日期经随机化分配期非小细胞
3、肺癌患者在不同日期经随机化分配到放疗组和放化疗联合组,从缓解出院日开始随访,随访到放疗组和放化疗联合组,从缓解出院日开始随访,随访时间时间(月月)如下,试比较放疗和放化疗联合两种治疗方案的如下,试比较放疗和放化疗联合两种治疗方案的疗效有无差别?疗效有无差别?放疗组放疗组 1,2,3,5,6,9+,11,13,16,26,37+放化疗联合组放化疗联合组 10,11+,14,18,22,22,26,32,38,40+,42+欲研究胃癌患者术后发生院内感染的影响因素,某医生欲研究胃癌患者术后发生院内感染的影响因素,某医生记录了记录了50名胃癌患者术后院内感染情况,并调查了下列可能名胃癌患者术后院内感
4、染情况,并调查了下列可能的影响因素:的影响因素:年龄(岁)、手术创伤程度(分年龄(岁)、手术创伤程度(分5等级)、等级)、营养状态(分营养状态(分3等级)、术前预防性抗菌(分有无)、等级)、术前预防性抗菌(分有无)、白细胞数(白细胞数(109/L)、)、肿瘤病理分级(肿瘤病理分级(19级)。级)。欲筛选哪些因素是影响胃癌患者术后发生院内欲筛选哪些因素是影响胃癌患者术后发生院内感染的主要因素,感染的主要因素,应选择何种统计分析方法?应选择何种统计分析方法?最低要求:最低要求:知道常见的统计学方法,会模仿着去知道常见的统计学方法,会模仿着去应用。应用。基本要求:基本要求:了解有关统计方法的原理,能
5、较熟练了解有关统计方法的原理,能较熟练地运用统计软件,解决常见的统计学问题。地运用统计软件,解决常见的统计学问题。较高要求:较高要求:对较复杂的统计学问题,能独立提出对较复杂的统计学问题,能独立提出系统的解决方案。系统的解决方案。http:/61.153.27.166/sc8/page/myspace/course/item-content.do?courseId=342&itemId=4452&wrap=0 什么是统计学什么是统计学?Whats statistics?p运用概率论和数理统计原理,研究数运用概率论和数理统计原理,研究数据收集、整理和分析的一门学科。据收集、整理和分析的一门学科。
6、(目的是找出其特征或规律目的是找出其特征或规律)随机试验与随机事件随机试验与随机事件p 生物医学研究对象多属于随机事物,其观生物医学研究对象多属于随机事物,其观察试验称随机试验,观察结果为随机事件。察试验称随机试验,观察结果为随机事件。p 随机事件随机事件:指在一定条件下可能发生、也指在一定条件下可能发生、也可能不发生的事件,但事前不能确定。可能不发生的事件,但事前不能确定。问题问题:大量同质随机事件在统计上有无规律性?大量同质随机事件在统计上有无规律性?四人投掷硬币试验四人投掷硬币试验 试验着试验着 甲甲 乙乙 丙丙 丁丁 试验次数(试验次数(n)出现正面次数(出现正面次数(m)出现正面频率
7、(出现正面频率(f)15001500 739739 0.49270.4927 28002800 14051405 0.50180.5018 48004800 23952395 0.49900.4990 85008500 42524252 0.50020.5002 统计分析时,同质观察对象要达到一定 3 :1DD高茎dd矮茎P配子dDF F1 1Dd高茎DDDd高茎Dd高茎F1配子ddF F2 2Dd高茎DDDddd高茎高茎矮茎1:21 【遗传图解如下】医学统计学的应用医学统计学的应用明确医学现象的性质明确医学现象的性质比较几种医学现象的差异比较几种医学现象的差异探讨医学现象之间的关系探讨医学现
8、象之间的关系分析影响医学现象变化的因素分析影响医学现象变化的因素由局部的数据去推测总体的特性由局部的数据去推测总体的特性.第一节第一节 统计学的几个基本概念统计学的几个基本概念一、一、同质和变异同质和变异二、二、总体与样本总体与样本三、三、随机抽样随机抽样四、四、误差误差五、五、参数与统计量参数与统计量六、六、频率与概率频率与概率医学统计学的基本概念医学统计学的基本概念(一)(一)同质与变异同质与变异同质(同质(homogeneity)指各观察个体(单位)受相同因素影指各观察个体(单位)受相同因素影响的部分。响的部分。变异(变异(variation)在同质的基础上个体间的差异。在同质的基础上个
9、体间的差异。例某地某年用随机抽样方法检查了例某地某年用随机抽样方法检查了140名健康成年男子名健康成年男子的红细胞数(的红细胞数(1012/L),检测结果如下表:),检测结果如下表:4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304
10、.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084.824.93观察指标的观察指标的同质部分同质部分:“某地某年健康成年男子某地某年健康成年男子”观察指标的观察指标的变异部分变异部分:各个体间红细胞数间的差异各个体间红细胞数间的差异(二)总体与样本(二)总体与样本(population&sample)总体:是根据研究目的所确定的观察单位(某种变量值)的。1)有限总体(有时间、空间限制)例研究2012年温州市肝癌死亡率。2)无限总体(没有时间、空间限制)例研究某药对高血压病的疗效。样本:从总体中一部分个
11、体所组成的集合。u绝大多数研究属如何能使样本具有较好的代表性?如何能使样本具有较好的代表性?(三)随机抽样(三)随机抽样 从总体中随机遇而定抽取部分个体的过程。从总体中随机遇而定抽取部分个体的过程。(总体中每一个观察单位均有同等的机会被(总体中每一个观察单位均有同等的机会被抽取到)抽取到)是样本客观反映总体情况的前提。此外,抽取数量(样本含量)也很重要。随机抽样方法:随机抽样方法:1.单纯随机抽样单纯随机抽样2.系统(机械)随机抽样系统(机械)随机抽样3.整群随机抽样整群随机抽样4.分层随机抽样分层随机抽样上述抽样方法得到样本的代表性一样吗?上述抽样方法得到样本的代表性一样吗?(四)误差(四)
12、误差 误差,误差,ErrorError:实测值与真值之差。:实测值与真值之差。1.1.非随机误差:非随机误差:可以而且应该避免可以而且应该避免粗差(过失误差)粗差(过失误差)系统误差(偏倚)系统误差(偏倚)2.2.随机误差:随机误差:不恒定、呈正态分布,不可避免不恒定、呈正态分布,不可避免随机测量误差随机测量误差抽样误差抽样误差抽样误差抽样误差(sampling error)抽样引起的总体指标与样本指标(之间抽样引起的总体指标与样本指标(之间的差别。的差别。有抽样,抽样误差就不可避免。有抽样,抽样误差就不可避免。问题问题:某中医师对某方剂进行改良,改良后的方剂某中医师对某方剂进行改良,改良后的
13、方剂治疗某病患者治疗某病患者30例,有效率为例,有效率为80%,原方剂,原方剂治疗治疗30例,有效率为例,有效率为60%,问两者有效率有,问两者有效率有无差别?无差别?上例从统计学角度,还不能认为两者有效率有上例从统计学角度,还不能认为两者有效率有差别。差别。为什么?为什么?现从袋子中随机抽取现从袋子中随机抽取10个球。个球。第第1次:次:8红红2黑,红球占黑,红球占80%;将取出球再放回袋中。将取出球再放回袋中。第第2次:次:6红红4黑,红球占黑,红球占60%。例:有一袋子装有大小相同的例:有一袋子装有大小相同的100个球,其中红球个球,其中红球70个,个,黑球黑球30个,红球占总数个,红球
14、占总数70%。已知总体相同,现两样本间差别是什么原因所致?已知总体相同,现两样本间差别是什么原因所致?若总体未知,现两样本间有差别是否等同于总体有差别?若总体未知,现两样本间有差别是否等同于总体有差别?通过统计推断方法通过统计推断方法“假设检验假设检验”(五)参数与统计量(五)参数与统计量 (parameter&statistic)参数参数:指指总体的指标总体的指标,如总体均数,如总体均数、总体、总体标准差标准差,用希腊字母表示。,用希腊字母表示。统计量统计量:指:指样本的指标样本的指标,如样本均数、样本,如样本均数、样本标准差标准差s,用拉丁字母表示。,用拉丁字母表示。检验统计量检验统计量:
15、用于统计检验的样本指标。:用于统计检验的样本指标。如如 t、u、x2、F 等等x(六)(六)频率与概率频率与概率(frequency&probability)频率:频率:在相同条件下,独立地重复在相同条件下,独立地重复n次试验,随机事件次试验,随机事件A出现出现f次,则次,则f/n为随机事件为随机事件A出现的频率。出现的频率。概率:概率:用用P表示,表示,0P1。当。当P0时,称为不可能事件;时,称为不可能事件;当当P1时,称为必然事件。概率是频率的稳定的、时,称为必然事件。概率是频率的稳定的、极限的形式。极限的形式。频率频率f(A)为变量,为变量,概率概率P(A)为常数。为常数。若若n足够大
16、,足够大,f(A)P(A)均表示某事件发生可能性大小的量。均表示某事件发生可能性大小的量。小概率事件:小概率事件:P(A)0.05 的事件的事件小概率事件发生的可能性很小,可以认为“。利用该“进行假设检验。即提出一个假设,并在此前提下计算有关概率P,若P 0.05,则可认为此假设不成立。观察单位的特征观察单位的特征变量变量(数值变量、分类变量)数值变量、分类变量)变量的测定值变量的测定值变量值变量值(计量、计数、等级资料计量、计数、等级资料)数值变量数值变量 计量资料计量资料 分类变量分类变量 无序分类无序分类(unordered categories)计数资料计数资料 二项分类二项分类 多项
17、分类多项分类 有序分类有序分类(ordered categories)等级资料等级资料第二节第二节 变量及统计资料的类型变量及统计资料的类型例:测得一群人例:测得一群人Hb值(值(g/dL),此资料),此资料为为 ;按正常和异常分为两组,此时资料按正常和异常分为两组,此时资料为为 ;按量的多少分为按量的多少分为:16(Hb增高增高)。此时资料为。此时资料为 。资料间的相互转化资料间的相互转化(1)设计设计:design(2)收集资料收集资料 collection of data(3)整理资料整理资料 sorting data(4 4)分析资料分析资料 analysis of data第三节第三
18、节 医学医学统计工作的基本步骤统计工作的基本步骤1)专业设计)专业设计2)统计设计统计设计1)统计报表)统计报表2)医疗卫生工作记录)医疗卫生工作记录3)专题调查和实验)专题调查和实验1)对数据检查、核对)对数据检查、核对2)按分析要求分组、汇总)按分析要求分组、汇总1)统计描述统计描述 2)统计推断)统计推断 统计分析统计分析 统计描述统计描述 统计推断统计推断 统计图表统计图表 统计指标统计指标 参数估计参数估计 假设检验假设检验 多重线性回归模型多重线性回归模型 CoxCox回归模型回归模型 LogisticLogistic回归模型回归模型 t 检验、z 检验 方差分析 非参数检验 卡方
19、检验 集中趋势和离散程度 相对数 多因素分析 一、频数分布一、频数分布二、集中趋势的描述二、集中趋势的描述三、离散程度的描述三、离散程度的描述1、频数表的编制频数表的编制2、频数分布的特征频数分布的特征3、频数分布的类型频数分布的类型4、频数表的用途频数表的用途一、计量资料的频数分布一、计量资料的频数分布4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.3
20、34.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084.824.93例某地用随机抽样方法检查了例某地用随机抽样方法检查了140名成年男子的红细胞名成年男子的红细胞数,检测结果如下表:数,检测结果如下表:(1)求全距或极差求全距或极差(R)(2)定组段和组距定组段和组距(i)13.282.395.52.0213.01013.2Ri拟定的组段数1.频数表的编制频数表的编制minmaxX
21、XR(3)列出频数表列出频数表某地某地140名正常男子红细胞数的频数表名正常男子红细胞数的频数表红细胞数(红细胞数(1012/L)频数频数3.80 24.00 64.20114.40254.60324.80275.00175.20135.40 45.60 25.80 12.频数分布的特征频数分布的特征(1)集中趋势集中趋势(2)离散趋势离散趋势(1)对称分布对称分布 其中一种常见的类型为正态分布其中一种常见的类型为正态分布.(2)非对称分布非对称分布 主要为正偏态、负偏态分布主要为正偏态、负偏态分布.3.频数分布的类型频数分布的类型4.频数表的用途频数表的用途(1)了解资料的分布类型了解资料的
22、分布类型.(2)发现异常值发现异常值.(3)在频数表的基础上计算有关指标。在频数表的基础上计算有关指标。1、算术均数算术均数 ,X2、几何均数几何均数 G3、中位数中位数 M二、集中趋势的描述二、集中趋势的描述概念概念:数值的平均数值的平均.计算计算:1)直接法直接法:例例 求某地求某地140名正常成年男子红细胞数均值为名正常成年男子红细胞数均值为L)/10(77.414076.461.526.576.4X121.均数(均数(mean),X 2)加权法加权法:RBCRBC(10101212/L/L)组中值组中值 X X频数频数 f ffXfX3.803.90 27.804.004.10 624
23、.64.204.301147.34.404.5025112.54.604.7032150.44.804.9027132.35.005.101786.75.205.301368.95.405.50 422.05.605.70 211.45.805.90 15.9合计合计140(f)669.8 fx应用应用:对对 称分布,尤其是正态分布称分布,尤其是正态分布.78.4140669.8概念:指一组数据的倍数平均。概念:指一组数据的倍数平均。计算:计算:(1)直接法:直接法:2.几何均数几何均数(geometric mean,G)例:例:5份血清的抗体效价为份血清的抗体效价为1:10,1:100,1:
24、1000,1:10000,1:100000,求其平,求其平均效价。均效价。或者:或者:1:10,1:100,1:1000,1:10000,1:100000的指数部分为:的指数部分为:-1,-2,-3,-4,-5,其平均值为,其平均值为-3,故,故G=10-3=1:1000(2)加权法:)加权法:表表 2.2 50 名麻疹易感儿童平均抗体滴度计算表名麻疹易感儿童平均抗体滴度计算表抗体滴度抗体滴度人数,人数,f滴度倒数,滴度倒数,XLgXflgX1:4140.60210.60211:8280.90311.80621:166161.20417.22461:3210321.505115.05101:6
25、416641.806128.89761:12881282.107216.85761:25652562.408212.04101:51225122.70935.4186合计合计5087.8987何谓对数正态分布?何谓对数正态分布?某资料由变量值某资料由变量值 X1,X2,Xn组成,组成,已知其分布呈偏态。若每个变量值取对数,如已知其分布呈偏态。若每个变量值取对数,如Y1=lgX1,Y2=lgX2,Yn=lgXn,且,且Y1,Y2,Yn呈正态分布。呈正态分布。此时,此时,将对数值还原为原始数值,则:将对数值还原为原始数值,则:应用应用:(1)变量值呈倍数关系变量值呈倍数关系 (2)对数正态分布对数
26、正态分布nxnyylg 概念:是一组由小到大按顺序排列的观察概念:是一组由小到大按顺序排列的观察 值中位次值中位次 居中的数值。居中的数值。计算:计算:(1)直接法直接法:n为奇数时为奇数时,n为偶数时为偶数时,某病患者某病患者9人发病潜伏期为人发病潜伏期为2,3,3,3,4,5,6,9,16天天,求中位数。求中位数。若在第若在第20天又发现天又发现1例患者,则其中位数为:例患者,则其中位数为:3.中位数中位数 (median M)利用百分位数计算公式进行计算利用百分位数计算公式进行计算.百分位数百分位数(PX)是一种位置指标是一种位置指标,。中位数是一。中位数是一个特定的百分位数,即个特定的
27、百分位数,即M=P50。(2)频数表法:频数表法:百分位数计算公式:百分位数计算公式:)%(PxLxxxfxnfiL例根据下表计算中位数例根据下表计算中位数 M 及及 P25、P75、P2.5、P97.5 199 名食物中毒患者潜伏期名食物中毒患者潜伏期 潜伏期(小时)潜伏期(小时)人数人数 f 0 30 12 71 24 49 36 28 48 14 60 6 7284 1 合计合计 199 累计频率累计频率%15.150.875.489.496.599.5100.0累累计计频频数数 30 101 150 178 192 198 199 百分位数计算公式:百分位数计算公式:M)%(PxLxx
28、xfxnfiL例根据下表计算中位数例根据下表计算中位数 M 及及 P25、P75、P2.。5、P97。5 199 名食物中毒患者潜伏期名食物中毒患者潜伏期 潜伏期(小时)潜伏期(小时)人数人数 f 0 30 12 71 24 49 36 28 48 14 60 6 7284 1 合计合计 199 累计频率累计频率%15.150.875.489.496.599.5100.0M累计频率累计频率%15.150.875.489.496.599.5100.0小时)(75.23)30%50199(711212PM50)%(PxLxxxfxnfiL例例 2.7 根据下表计算中位数根据下表计算中位数 M 及及
29、 P25、P75、P2.。5、P97。5 199 名食物中毒患者潜伏期名食物中毒患者潜伏期 潜伏期(小时)潜伏期(小时)人数人数 f 0 30 12 71 24 49 36 28 48 14 60 6 7284 1 合计合计 199 累计频数累计频数30101150178192198199累计频率累计频率%15.150.875.489.496.599.5100.0小时)(75.23)30%50199(711212PM50P25例例 2.7 根据下表计算中位数根据下表计算中位数 M 及及 P25、P75、P2.。5、P97。5 199 名食物中毒患者潜伏期名食物中毒患者潜伏期 潜伏期(小时)潜伏
30、期(小时)人数人数 f 0 30 12 71 24 49 36 28 48 14 60 6 7284 1 合计合计 199 累计频数累计频数30101150178192198199累计频率累计频率%15.150.875.489.496.599.5100.0小时)(34.15)30%25199(711212P25P75例例 2.7 根据下表计算中位数根据下表计算中位数 M 及及 P25、P75、P2.。5、P97。5 199 名食物中毒患者潜伏期名食物中毒患者潜伏期 潜伏期(小时)潜伏期(小时)人数人数 f 0 30 12 71 24 49 36 28 48 14 60 6 7284 1 合计合
31、计 199 累计频数累计频数30101150178192198199累计频率累计频率%15.150.875.489.496.599.5100.0小时)(82.35)101%75199(491224P75应用:应用:(1)偏态分布资料;偏态分布资料;(2)资料分布一端或两端有未确定值。资料分布一端或两端有未确定值。实实 验验 组组 与与 对对 照照 组组 大大 鼠鼠 生生 存存 日日 数数 比比 较较实实 验验 组组对对 照照 组组102123154155166177188209231090111213 某实验室观察局某实验室观察局部温热治疗小鼠移植部温热治疗小鼠移植性肿瘤的疗效性肿瘤的疗效,以
32、生存以生存日数作观察指标日数作观察指标,结果结果如下如下.问两组生存日数问两组生存日数有无差别有无差别?比较下面两组肝炎婴儿的血清总胆红素有无差别比较下面两组肝炎婴儿的血清总胆红素有无差别?总胆红素总胆红素(mol/l)mol/l)一般组一般组 重症组重症组 17 4 017 4 0 17 17-10 0 10 0 80 80-15 2 15 2 160 160-1 9 1 9 240 240-0 2 0 2 320 320-0 4 0 4 400 0 2400 0 2 合合 计计 30 19 30 19 例:例:三组同性别、同年龄儿童的体重(三组同性别、同年龄儿童的体重(Kg)如下,分析其集
33、中趋势与离散趋势。如下,分析其集中趋势与离散趋势。甲组:甲组:26 28 30 32 34 均数:均数:X=30 Kg 乙组:乙组:24 27 30 33 36 均数:均数:X=30 Kg 丙组:丙组:26 29 30 31 34 均数:均数:X=30 Kg三、三、离散趋势的描述离散趋势的描述甲甲乙乙丙丙三组儿童体重的离散程度三组儿童体重的离散程度只用平均数描述资料的弊病只用平均数描述资料的弊病 It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comf
34、ortable。ON AVERAGE!描述离散程度的常用指标描述离散程度的常用指标1、全距(极差)全距(极差)(R)2、四分位数间距四分位数间距(QR)3、方差(方差(2 S2)和和 标准差标准差(、S)4、变异系数变异系数(CV)反映一组同质观察值个体差异的范围。反映一组同质观察值个体差异的范围。R甲甲=8;R乙乙=12;R丙丙=8。缺点(缺点(1)不能反映组内其它观察值的变)不能反映组内其它观察值的变异度。异度。(2)样本含量越大,则全距可能也)样本含量越大,则全距可能也越大。越大。1.全距(极差)全距(极差)即即P75P25 四分位数可看作是一组同质观察值居中的四分位数可看作是一组同质观
35、察值居中的50%变量值的变异范围。变量值的变异范围。2.四分位数间距(四分位数间距(quartile range,QR)不受极值影响,较稳定。不受极值影响,较稳定。与全距比较有何优点?与全距比较有何优点?应用应用:(1)偏态分布;)偏态分布;(2)资料一端或两端有未确定值。)资料一端或两端有未确定值。例例 2.7 根据下表计算中位数根据下表计算中位数 M 及及 P25、P75、P2.。5、P97。5199 名食物中毒患者潜伏期名食物中毒患者潜伏期潜伏期潜伏期(小时)(小时)人数人数 f累计频数累计频数累计频率累计频率%0303015.1127110150.8244915075.43628178
36、89.4481419296.560619899.572841199100.0合计合计199变量值的离散程度可看作是各个变量值距离变量值的离散程度可看作是各个变量值距离中心点(均数)的远近问题。中心点(均数)的远近问题。用算式表示:用算式表示:x x 但:但:x x=0=0 则求:则求:x x2 2 (离均差平方和)(离均差平方和)x x2 2 大小与变异度有关外,还与变量大小与变异度有关外,还与变量值个数(值个数(N N)有关。)有关。故:故:3.方差(方差(2 S2)和和 标准差(标准差(、S)(variance&standard deviation)为了用原单位表示,开方即:为了用原单位表
37、示,开方即:标准差或方差越大,说明个体差标准差或方差越大,说明个体差异越大,则均数的代表性越差。异越大,则均数的代表性越差。实际工作中经常得到的是样本资料,总体实际工作中经常得到的是样本资料,总体均数均数 是不知道的,只能用样本均数来估计,是不知道的,只能用样本均数来估计,这样:这样:用用 x x x x 2 2 代替代替 x x2 2 n n 代替代替 N N 但这样算得结果常比真实但这样算得结果常比真实 低。低。因此,统计学家提出用因此,统计学家提出用 n-1 来校正。来校正。Nxnxx2)(2)(即:样本标准差(即:样本标准差(S)S2 称为称为 样本方差样本方差 式中式中n-1称为自由
38、度,用希腊字母称为自由度,用希腊字母 (niu)表示。表示。自由度的概念:自由度的概念:是指随机变量能自由取值的个数。是指随机变量能自由取值的个数。例:例:X+Y+Z=10 =2 又例:又例:当样本均数一定时,随机变量可以自由取当样本均数一定时,随机变量可以自由取值的变量值个数只能是值的变量值个数只能是n-1 个。个。计算:计算:1)不分组资料:)不分组资料:例:例:三组同性别、同年龄儿童的体重(三组同性别、同年龄儿童的体重(Kg)如下,分析其集中趋势与离散趋势。如下,分析其集中趋势与离散趋势。甲组:甲组:26 28 30 32 34 均数:均数:X=30 Kg 乙组:乙组:24 27 30
39、33 36 均数:均数:X=30 Kg 丙组:丙组:26 29 30 31 34 均数:均数:X=30 Kg计算得:计算得:S甲甲=3.16,S乙乙=4.74,S丙丙=2.92 2)分组资料:)分组资料:计算得:计算得:S=0.38(1012/L)RBCRBC(10101212/L L)组中值组中值 X X频数频数 f ffXfXfXfX2 23.803.90 27.8030.424.004.10 624.64.204.301147.34.404.5025112.54.604.7032150.44.804.9027132.35.005.101786.75.205.301368.95.405.5
40、0 422.05.605.70 211.45.805.90 15.9合计合计140(f)669.8 fx3224.20应用应用:对称分布,尤其是正态分布对称分布,尤其是正态分布应用应用:(1)比较单位不同的几组资料的变异)比较单位不同的几组资料的变异程度程度 (2)比较均数相差悬殊的几组资料的)比较均数相差悬殊的几组资料的变异程度变异程度4.变异系数(变异系数(CV)例例2.9 某地调查某地调查110名名18岁男大学生,其身岁男大学生,其身高均数为高均数为172.73cm,标准差为,标准差为4.09cm;其体重;其体重均数为均数为55.04kg,标准差为,标准差为4.10kg,试比较两者,试比
41、较两者变异度。变异度。1.X S 2.M(P75 P25)综合:综合:某年某地不同型流脑病死率比较某年某地不同型流脑病死率比较 病型病型 病人数病人数 死亡人数死亡人数 病死率(病死率(%)菌血型菌血型 59 4 6.78 脑脑 型型 778 48 6.17混合型混合型 784 39 4.97 合计合计 1621 91 5.61计数资料计数资料下表资料的类型下表资料的类型?等级资料等级资料下表资料的类型下表资料的类型?10名某病患者名某病患者,用某药治疗用某药治疗,测得治疗前及治疗测得治疗前及治疗后一个月的后一个月的 血沉(mm/小时)如下表:病人号 1 2 3 4 5 6 7 8 9 10
42、治疗前 10 13 6 11 10 7 8 8 5 9 治疗后 6 9 3 10 10 4 2 5 3 3 问该药是否有效问该药是否有效?计量资料计量资料下表资料的类型下表资料的类型?某卫生防疫站对某卫生防疫站对3030名麻疹易感儿童经气溶胶免疫一个月后名麻疹易感儿童经气溶胶免疫一个月后,测测得其血凝抑制抗体滴度资料如下得其血凝抑制抗体滴度资料如下,试计算其平均滴度试计算其平均滴度 抗体滴度抗体滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:5121:8 1:16 1:32 1:64 1:128 1:256 1:512 例例 数数 2 6 5 10 4 2 12 6 5
43、 10 4 2 1 某市某市19741974年为了解该地居民发汞的基础水平年为了解该地居民发汞的基础水平,为汞污染为汞污染的环境监测积累资料的环境监测积累资料,调查了留住该市一年以上调查了留住该市一年以上,无明显肝、无明显肝、肾疾病,无汞作业接触史的居民肾疾病,无汞作业接触史的居民238 238 人的发汞含量如下人的发汞含量如下:发汞值 1.5 3.5 5.5 7.5 9.5 11.5 13.5 15.5 17.5 19.5(umol/kg)人 数 20 66 60 48 18 16 6 1 0 3 用何种指标说明本资料的集中位置和变异程度较好?并计算之;某检验师测定了10名正常成年钢铁工人的
44、血红蛋白值(g/dl)和红细胞数(万/mm3)如下,试比较这两个检测项目的结果哪个变异性大?血红蛋白(g/dL)13.0 13.6 14.0 14.5 14.6 14.7 15.2 15.5 15.8 16.0血细胞数(万/mm3)510 515 517 518 520 522 524 525 528 530常用统计软件:SAS真正的巨无霸,被誉为国际上的标准统计软件 SPSS统计软件中的贵族,操作界面极为友好 Stata软件小巧,命令行方式操作 EpiData免费的数据录入和数据管理软件学习统计学最好的方法是熟悉一种统计软件的使用。学习统计学最好的方法是熟悉一种统计软件的使用。EpiData
45、 EpiData SAStatistical nalysis ystem 是当今国际上最著名的数据分析软件之一;由美国北卡罗莱纳州立大学的两位教授于1966年开始研制,1976年正式成立SAS软件研究所;特点:特点:功能强大、编程操作、适宜于高级用功能强大、编程操作、适宜于高级用户使用。户使用。SPSSl 原名:tatistical ackage for ocial cience(社会科学统计软件包)l 2000年:tatistical Product and ervice olutions(统计产品和服务解决方案)l2009年被IBM收购,改名为IBM SPSS,现版本为21.0功能强大功能
46、强大囊括各种统计方法;囊括各种统计方法;提供各种数据准备与整理技术;提供各种数据准备与整理技术;强大的统计图表功能强大的统计图表功能兼容性好(数据、结果)兼容性好(数据、结果)易用性强(菜单对话框方式)易用性强(菜单对话框方式)基本特点基本特点口号:真正统计,确实简单。口号:真正统计,确实简单。SPSS界面 SPSS数据编辑窗口(数据编辑窗口(SPSS Data Editor)(1)数据视图数据视图(Data View)SPSS界面 (2)变量视图变量视图(Variable View)name栏:设置变量名,在8位以内,推荐使用英文变量名。Type栏:常用变量类型为Numeric(数值型)、D
47、ata(日期型)、String(字符型)三种,一般默认数值型即可。Width栏:设置变量运算宽度,如数值型默认为8位,一般不用更改Decimals栏:设置小数位,默认为2位。Label栏:定义变量名标签,在结果输出中出现,方便阅读。Values栏:定义变量值标签。用于将数据中的分类变量或非连续型变量量化。Missing栏:定义变量缺失值。SPSS中默认缺失值用“.”表示,如所用数据集中还有其它表示方法,则用该框来定义。Collumns栏:定义显示列宽。Align栏:定义显示对齐方式。Measure栏:定义变量的测量尺度。例例2-1 某医院用随机抽样方法检查了某医院用随机抽样方法检查了138名成
48、年女子的红细名成年女子的红细胞数,其测量结果如下,试编制频数分布表。胞数,其测量结果如下,试编制频数分布表。Statistics红细胞数1381014.2270.037944.23004.26.44573.1992.393.075.463.32703.96004.23004.54255.2353ValidMissingNMeanStd.Error of MeanMedianModeStd.DeviationVarianceRangeMinimumMaximum2.525507597.5PercentilesTHE END单纯随机抽样单纯随机抽样 即先将调查总体的全部观察单位编号,再随机抽取部分
49、观察单位组成样本。例:欲了解某单位职工例:欲了解某单位职工HBsAg阳性率,该单阳性率,该单位有职工位有职工1000人,试按单纯随机抽样法,抽人,试按单纯随机抽样法,抽取一例数为取一例数为100的样本。的样本。系统随机抽样系统随机抽样又称等距抽样或机械抽样,即先将总体的又称等距抽样或机械抽样,即先将总体的观察单位按某一顺序号等分成观察单位按某一顺序号等分成n个部分,再从第个部分,再从第一部分随机抽第一部分随机抽第k号观察单位,依次用相等间隔,号观察单位,依次用相等间隔,机械地从每一部分各抽一个观察单位组成样本。机械地从每一部分各抽一个观察单位组成样本。例:欲了解某单位职工例:欲了解某单位职工H
50、BsAg阳性率,该单阳性率,该单位有职工位有职工1000人,试按系统抽样法,抽取一人,试按系统抽样法,抽取一例数为例数为100的样本。的样本。整群随机抽样整群随机抽样 先将总体划分为先将总体划分为n n个群,每个群包括若干个群,每个群包括若干观察单位,再随机抽取观察单位,再随机抽取k k个群,并将被抽取的个群,并将被抽取的各个群的全部观察单位组成样本。各个群的全部观察单位组成样本。例:某校有例:某校有80个班级,各班学生个班级,各班学生50人,现人,现用锡克氏试验调查该校学生白喉易感率,用锡克氏试验调查该校学生白喉易感率,随机抽查了随机抽查了8个班的全部学生。个班的全部学生。分层随机抽样分层随