1、医学统计学专项课程医学统计学专项课程温医公卫学院黄陈平温医公卫学院黄陈平2医学统计学专项课程某中医师对某方剂进行改良,改良后的方剂某中医师对某方剂进行改良,改良后的方剂治疗某病患者治疗某病患者30例,有效率为例,有效率为80%,原方剂,原方剂治疗治疗30例,有效率为例,有效率为60%,问两者有效率有,问两者有效率有无差别?无差别?3医学统计学专项课程某医师用、和三种方案治疗婴幼儿贫血患者,某医师用、和三种方案治疗婴幼儿贫血患者,治疗一个月后,血红蛋白的增加克数如下表,问三治疗一个月后,血红蛋白的增加克数如下表,问三种治疗方案对婴幼儿贫血的疗效是否相同?种治疗方案对婴幼儿贫血的疗效是否相同?表表
2、.三种方案治疗后血红蛋白增加量()三种方案治疗后血红蛋白增加量()24 20 20 36 18 11 25 17 6 14 10 3 26 19 0 34 24-1 23 4 5 4医学统计学专项课程在小学生的课间餐面包中添加赖氨酸,以研究其对在小学生的课间餐面包中添加赖氨酸,以研究其对儿童体重和身高增长的影响,拟分析赖氨酸添加的儿童体重和身高增长的影响,拟分析赖氨酸添加的最佳浓度和面包烤制的最佳条件。赖氨酸的浓度有最佳浓度和面包烤制的最佳条件。赖氨酸的浓度有五个水平:五个水平:0.0%,0.2%,0.4%,0.6%,0.8%,面,面包烤制条件有两个水平:甲和乙。如何设计和分析?包烤制条件有两
3、个水平:甲和乙。如何设计和分析?5医学统计学专项课程配对比较两种方法治疗扁平足效果记录如下,问那种方法好?病例号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 甲法 好 好 好 好 差 中 好 好 中 差 好 差 好 中 好 中 乙法 差 好 差 中 中 差 中 差 中 差 好 差 中 差 中 差 6医学统计学专项课程一、测得一组患者血小板数及出血程度的资料如下表,欲分析以下表资料血小板与出血症状的关系,宜选择何种统计分析方法?为什么?病例号 1 2 3 4 5 6 7 8 9 10 11 12 血小板(109/L)120 130 160 310 420 540
4、 740 1060 1260 1230 1140 2000 出血症状+-+-+-7医学统计学专项课程 22例例期非小细胞肺癌患者在不同日期经随机化分配期非小细胞肺癌患者在不同日期经随机化分配到放疗组和放化疗联合组,从缓解出院日开始随访,随访到放疗组和放化疗联合组,从缓解出院日开始随访,随访时间时间(月月)如下,试比较放疗和放化疗联合两种治疗方案的如下,试比较放疗和放化疗联合两种治疗方案的疗效有无差别?疗效有无差别?放疗组放疗组 1,2,3,5,6,9+,11,13,16,26,37+放化疗联合组放化疗联合组 10,11+,14,18,22,22,26,32,38,40+,42+8医学统计学专项
5、课程 欲研究胃癌患者术后发生院内感染的影响因素,某医生欲研究胃癌患者术后发生院内感染的影响因素,某医生记录了记录了50名胃癌患者术后院内感染情况,并调查了下列可能名胃癌患者术后院内感染情况,并调查了下列可能的影响因素:的影响因素:年龄(岁)、手术创伤程度(分年龄(岁)、手术创伤程度(分5等级)、等级)、营养状态(分营养状态(分3等级)、术前预防性抗菌(分有无)、等级)、术前预防性抗菌(分有无)、白细胞数(白细胞数(109/L)、)、肿瘤病理分级(肿瘤病理分级(19级)。级)。1.欲筛选哪些因素是影响胃癌患者术后发生院内感染的主要欲筛选哪些因素是影响胃癌患者术后发生院内感染的主要因素,因素,应选
6、择何种统计分析方法?应选择何种统计分析方法?2.经统计分析得知营养状态(经统计分析得知营养状态(X3)和肿瘤病理分级()和肿瘤病理分级(X6)是)是有意义的影响因素,若一胃癌患者营养状态评分(有意义的影响因素,若一胃癌患者营养状态评分(X3)为)为1,肿瘤病理分级(肿瘤病理分级(X6)为)为4,则预计其术后发生院内感染的概,则预计其术后发生院内感染的概率是多少?率是多少?9医学统计学专项课程例某医生欲了解成年人体重正常者与超重者的血清胆固醇是否相同,例某医生欲了解成年人体重正常者与超重者的血清胆固醇是否相同,而胆固醇含量与年龄有关,资料如下表:而胆固醇含量与年龄有关,资料如下表:正常组正常组
7、超重组超重组 年龄(年龄(X1)胆固醇(胆固醇(Y1)年龄(年龄(X2)胆固醇(胆固醇(Y2)48 3.5 58 7.3 33 4.6 41 4.7 51 5.8 71 8.4 43 5.8 76 8.8 44 4.9 49 5.1 63 8.7 33 4.9 49 3.6 54 6.7 42 5.5 65 6.4 40 4.9 39 6.0 47 5.1 52 7.5 41 4.1 45 6.4 41 4.6 58 6.8 56 5.1 67 9.2 46(X1)5.1(Y1)54(X2)6.8(Y2)10医学统计学专项课程 最低要求:最低要求:知道常见的统计学方法,会模仿知道常见的统计学方
8、法,会模仿着去应用。着去应用。基本要求:基本要求:了解有关统计方法的原理,能较了解有关统计方法的原理,能较熟练地运用统计软件,解决常见的统计学问熟练地运用统计软件,解决常见的统计学问题。题。较高要求:较高要求:对较复杂的统计学问题,能独立对较复杂的统计学问题,能独立提出系统的解决方案。提出系统的解决方案。11医学统计学专项课程12医学统计学专项课程 一、什么是统计学一、什么是统计学?Whats statistics?是一门关于收集、整理和分析(统计)数据的科学。是一门关于收集、整理和分析(统计)数据的科学。医学统计学医学统计学是统计学方法在医学中的运用。是统计学方法在医学中的运用。医学研究中观
9、测结果多为医学研究中观测结果多为随机事件随机事件,通过统计学方法可,通过统计学方法可以以揭示其内在规律。揭示其内在规律。问题问题1:产生随机性的原因?产生随机性的原因?如一组七岁男童的身高。如一组七岁男童的身高。问题问题2:大量性随机现象的统计有无规律性?大量性随机现象的统计有无规律性?13医学统计学专项课程 四人投掷硬币试验四人投掷硬币试验 试验着试验着 甲甲 乙乙 丙丙 丁丁 试验次数(试验次数(n)出现正面次数(出现正面次数(m)出现正面频率(出现正面频率(f)15001500 739739 0.49270.4927 28002800 14051405 0.50180.5018 4800
10、4800 23952395 0.49900.4990 85008500 42524252 0.50020.5002 14医学统计学专项课程(1)设计设计:design(2)收集资料收集资料 collection of data(3)整理资料整理资料 sorting data(4 4)分析资料分析资料 analysis of data二、二、统计工作的基本步骤统计工作的基本步骤1)专业设计)专业设计2)统计设计统计设计1)统计报表)统计报表2)医疗卫生工作记录)医疗卫生工作记录3)专题调查和实验)专题调查和实验1)对数据检查、核对)对数据检查、核对2)按分析要求分组、汇总)按分析要求分组、汇总1
11、)统计描述统计描述 2)统计推断)统计推断 15医学统计学专项课程用定量方法测定得到,有大小之分,有度量衡单位。用定量方法测定得到,有大小之分,有度量衡单位。例例2.17 某医生测得某医生测得18例慢性支气管炎患者及例慢性支气管炎患者及16例健康人的尿例健康人的尿17酮类固醇排出量(酮类固醇排出量(mg/dl)分别为)分别为 X1和和 X2,试问两组的均数有无不,试问两组的均数有无不同。同。X1:3.14 5.83 7.35 4.62 4.05 5.08 4.98 4.22 4.35 2.35 2.89 2.16 5.55 5.94 4.40 5.35 3.80 4.12 X2:4.12 7.
12、89 3.24 6.36 3.48 6.74 4.67 7.38 4.95 4.08 5.34 4.27 6.54 4.62 5.92 5.18 三、三、统计资料类型统计资料类型(一)(一)计量资料计量资料 measurement data16医学统计学专项课程将观察单位按属性或类型分组计数所得的资料。将观察单位按属性或类型分组计数所得的资料。分为:分为:1、二项分类资料;、二项分类资料;2、多项分类资料。、多项分类资料。表表 3.8 三种药物治疗高血压的疗效三种药物治疗高血压的疗效 处理处理 有效有效 无效无效 合计合计 有效率(有效率(%)复方哌唑嗪复方哌唑嗪 35 5 40 87.50
13、复方降压片复方降压片 20 10 30 66.67 安安 慰慰 剂剂 7 25 32 21.88 合合 计计 62 40 102 60.78 (二)(二)计数资料计数资料 enumeration count data17医学统计学专项课程表表 3.9 正常妇女和血栓形成者的血型分布正常妇女和血栓形成者的血型分布分组分组A 型型B 型型AB 型型O 型型合计合计血栓组血栓组32 810 9 59正常组正常组51191270152合合 计计8327227921118医学统计学专项课程(三)(三)等级资料等级资料 ranked ordinal data针刺不同穴位的镇痛效果针刺不同穴位的镇痛效果镇痛
14、效果镇痛效果合谷合谷足三里足三里3853442912282416将观察单位按某属性不同程度分组计数所将观察单位按某属性不同程度分组计数所得的资料。得的资料。19医学统计学专项课程例:测得一群人例:测得一群人Hb值(值(g/dL),此资料),此资料为为 ;按正常和异常分为两组,此时资料按正常和异常分为两组,此时资料为为 ;按量的多少分为按量的多少分为:16(Hb增高增高)。此时资料为。此时资料为 。资料间的相互转化资料间的相互转化20医学统计学专项课程四、统计学的基本概念四、统计学的基本概念(一)(一)同质与变异同质与变异同质(同质(homogeneity)指各观察指标受相同因素影响的部分。指各
15、观察指标受相同因素影响的部分。变异(变异(variation)在同质的基础上个体间的差异。在同质的基础上个体间的差异。21医学统计学专项课程例某地某年用随机抽样方法检查了例某地某年用随机抽样方法检查了140名健康成年男名健康成年男子的红细胞数(子的红细胞数(1012/L),检测结果如下表:),检测结果如下表:4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984
16、.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084.824.93观察指标的观察指标的同质部分同质部分:“某地某年健康成年男子某地某年健康成年男子”观察指标的观察指标的变异部分变异部分:各个体间红细胞数间的差异各个体间红细胞数间的差异22医学统计学专项课程医学统计学的基本概念医学统计学的基本概念(二)总体与样本(二)总体与样本(population&sample)总体总体:是根
17、据研究目的所确定的同质观察单位(某:是根据研究目的所确定的同质观察单位(某种变量值)的全体。种变量值)的全体。1)有限总体有限总体(有时间、空间限制)(有时间、空间限制)例研究例研究2008年温州市肝癌死亡率。年温州市肝癌死亡率。2)无限总体无限总体 例研究某药对高血压病的疗效。例研究某药对高血压病的疗效。样本样本:从总体中:从总体中随机抽取随机抽取一部分个体所组成的集合。一部分个体所组成的集合。23医学统计学专项课程医学统计学的基本概念医学统计学的基本概念(三)随机抽样(三)随机抽样1.单纯随机抽样单纯随机抽样2.系统(机械)随机抽样系统(机械)随机抽样3.整群随机抽样整群随机抽样4.分层随
18、机抽样分层随机抽样 从总体中随机遇而定抽取部分个体的过程。(总体从总体中随机遇而定抽取部分个体的过程。(总体中每一个观察单位均有同等的机会被抽取到)中每一个观察单位均有同等的机会被抽取到)随机抽样是样本客观反映总体情况的前提。随机抽样是样本客观反映总体情况的前提。随机抽样方法:随机抽样方法:24医学统计学专项课程单纯随机抽样单纯随机抽样 即先将调查总体的全部观察单位编号,再随机抽取部分观察单位组成样本。例:欲了解某单位职工例:欲了解某单位职工HBsAg阳性率,该单阳性率,该单位有职工位有职工1000人,试按单纯随机抽样法,抽人,试按单纯随机抽样法,抽取一例数为取一例数为100的样本。的样本。2
19、5医学统计学专项课程系统随机抽样系统随机抽样又称等距抽样或机械抽样,即先将总体的又称等距抽样或机械抽样,即先将总体的观察单位按某一顺序号等分成观察单位按某一顺序号等分成n个部分,再从个部分,再从第一部分随机抽第第一部分随机抽第k号观察单位,依次用相等间号观察单位,依次用相等间隔,机械地从每一部分各抽一个观察单位组成隔,机械地从每一部分各抽一个观察单位组成样本。样本。例:欲了解某单位职工例:欲了解某单位职工HBsAg阳性率,该单阳性率,该单位有职工位有职工1000人,试按系统抽样法,抽取一人,试按系统抽样法,抽取一例数为例数为100的样本。的样本。26医学统计学专项课程整群随机抽样整群随机抽样
20、先将总体划分为先将总体划分为n n个群,每个群包括若干个群,每个群包括若干观察单位,再随机抽取观察单位,再随机抽取k k个群,并将被抽取的个群,并将被抽取的各个群的全部观察单位组成样本。各个群的全部观察单位组成样本。例:某校有例:某校有80个班级,各班学生个班级,各班学生50人,现人,现用锡克氏试验调查该校学生白喉易感率,用锡克氏试验调查该校学生白喉易感率,随机抽查了随机抽查了8个班的全部学生。个班的全部学生。27医学统计学专项课程分层随机抽样分层随机抽样按有关影响因素把观察对象分成若干层次,按有关影响因素把观察对象分成若干层次,然后将同一层次的观察对象进行随机抽取。然后将同一层次的观察对象进
21、行随机抽取。例:欲了解某地人群例:欲了解某地人群HBsAg阳性率情况,阳性率情况,按年龄段、职业、性别等因素分层后进行按年龄段、职业、性别等因素分层后进行抽样。抽样。28医学统计学专项课程医学统计学的基本概念医学统计学的基本概念(四)误差(四)误差 主要有:粗差、系统误差、随机误差(如测主要有:粗差、系统误差、随机误差(如测量误差、量误差、抽样误差抽样误差等)等)问题问题:某中医师对某方剂进行改良,改良后的方剂:某中医师对某方剂进行改良,改良后的方剂治疗某病患者治疗某病患者30例,有效率为例,有效率为80%,原方剂治疗,原方剂治疗30例,例,有效率为有效率为60%,问两者有效率有无差别?,问两
22、者有效率有无差别?抽样误差抽样误差:抽样引起的总体参数与样本统计量之间:抽样引起的总体参数与样本统计量之间sampling error 的差别。的差别。29医学统计学专项课程医学统计学的基本概念医学统计学的基本概念(五)参数与统计量(五)参数与统计量(parameter&statistic)参数参数:统计量统计量:检验统计量检验统计量:总体的特征量,如总体均数、总体的特征量,如总体均数、总体标准差等。总体标准差等。样本的统计指标如样本均数、样本的统计指标如样本均数、标准差等。标准差等。用于统计检验的样本指标。用于统计检验的样本指标。如如 t、u、x2、F 等等30医学统计学专项课程均表示某事件
23、发生可能性大小的量。均表示某事件发生可能性大小的量。(六)频率和概率(六)频率和概率但:但:频率为变量频率为变量,fn(A)=m/n 概率概率P(A)为常数为常数。若若n足够大,足够大,fn(A)P(A)小概率事件小概率事件 P(A)0.05“小概率事件一次是不太可能发生的小概率事件一次是不太可能发生的”医学统计学的基本概念医学统计学的基本概念31医学统计学专项课程32医学统计学专项课程第一节第一节 计量资料的统计描述计量资料的统计描述一、计量资料的频数表一、计量资料的频数表二、集中趋势的描述二、集中趋势的描述三、离散程度的描述三、离散程度的描述33医学统计学专项课程4.765.265.615
24、.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084.824.93例某地用随机抽样方法检查了例某地用随机抽样方法检查
25、了140名成年男子的红细胞名成年男子的红细胞数,检测结果如下表:数,检测结果如下表:34医学统计学专项课程1、频数表的编制、频数表的编制2、频数分布的特征、频数分布的特征3、频数分布的类型、频数分布的类型4、频数表的用途、频数表的用途一、计量资料的频数表一、计量资料的频数表35医学统计学专项课程(1)求全距或极差求全距或极差(R)(2)定组段和组距定组段和组距(i)13.282.395.52.0213.01013.2Ri拟定的组段数1.频数表的编制频数表的编制minmaxX XR36医学统计学专项课程(3)列出频数表列出频数表某地某地140名正常男子红细胞数的频数表名正常男子红细胞数的频数表红
26、细胞数(红细胞数(1012/L)频数频数3.80 24.00 64.20114.40254.60324.80275.00175.20135.40 45.60 25.80 137医学统计学专项课程2.频数分布的特征频数分布的特征(1)集中趋势集中趋势(2)离散趋势离散趋势38医学统计学专项课程(1)对称分布对称分布 其中一种常见的类型为正态分布其中一种常见的类型为正态分布.(2)偏态分布偏态分布 有正偏态、负偏态之分有正偏态、负偏态之分.3.频数分布的类型频数分布的类型39医学统计学专项课程4.频数表的用途频数表的用途(1)了解资料的分布类型了解资料的分布类型.(2)发现异常值发现异常值.(3)
27、在频数表的基础上计算有关指标。在频数表的基础上计算有关指标。40医学统计学专项课程1、算术均数算术均数 ,X2、几何均数几何均数 G3、中位数中位数 M二、集中趋势的描述二、集中趋势的描述41医学统计学专项课程概念概念:数值的平均数值的平均.计算计算:1)直接法直接法:例例2.1 求某地求某地140名正常成年男子红细胞数均值为名正常成年男子红细胞数均值为L)/10(77.414076.461.526.576.4X121.均数(均数(mean),X 42医学统计学专项课程2)加权法加权法:RBCRBC(10101212/L/L)组中值组中值 X X频数频数 f ffXfX3.803.90 27.
28、804.004.10 624.64.204.301147.34.404.5025112.54.604.7032150.44.804.9027132.35.005.101786.75.205.301368.95.405.50 422.05.605.70 211.45.805.90 15.9合计合计140(f)669.8 fx应用应用:对对 称分布,尤其是正态分布称分布,尤其是正态分布.78.4140669.843医学统计学专项课程概念:指一组数据的倍数平均。概念:指一组数据的倍数平均。计算:计算:(1)直接法:直接法:2.几何均数几何均数(geometric mean,G)44医学统计学专项课程
29、 例:例:5份血清的抗体效价为份血清的抗体效价为1:10,1:100,1:1000,1:10000,1:100000,求其平,求其平均效价。均效价。或者:或者:1:10,1:100,1:1000,1:10000,1:100000的指数部分为:的指数部分为:-1,-2,-3,-4,-5,其平均值为,其平均值为-3,故,故G=10-3=1:1000 45医学统计学专项课程(2)加权法:)加权法:表表 2.2 50 名麻疹易感儿童平均抗体滴度计算表名麻疹易感儿童平均抗体滴度计算表抗体滴度抗体滴度人数,人数,f滴度倒数,滴度倒数,XLgXflgX1:4140.60210.60211:8280.9031
30、1.80621:166161.20417.22461:3210321.505115.05101:6416641.806128.89761:12881282.107216.85761:25652562.408212.04101:51225122.70935.4186合计合计5087.898746医学统计学专项课程何谓对数正态分布?何谓对数正态分布?某资料由变量值某资料由变量值 X1,X2,Xn组成,组成,已知其分布呈偏态。若每个变量值取对数,如已知其分布呈偏态。若每个变量值取对数,如Y1=lgX1,Y2=lgX2,Yn=lgXn,且,且Y1,Y2,Yn呈正态分布。呈正态分布。此时,此时,将对数值
31、还原为原始数值,则:将对数值还原为原始数值,则:应用应用:(1)变量值呈倍数关系变量值呈倍数关系 (2)对数正态分布对数正态分布nxnyylg47医学统计学专项课程概念:是一组由小到大按顺序排列的观察概念:是一组由小到大按顺序排列的观察 值中位次值中位次 居中的数值。居中的数值。计算:计算:(1)直接法直接法:n为奇数时为奇数时,n为偶数时为偶数时,某病患者某病患者9人发病潜伏期为人发病潜伏期为2,3,3,3,4,5,6,9,16天天,求中位数。求中位数。若在第若在第20天又发现天又发现1例患者,则其中位数为:例患者,则其中位数为:3.中位数中位数 (median M)48医学统计学专项课程
32、利用百分位数计算公式进行计算利用百分位数计算公式进行计算.百分位数百分位数(PX)是一种位置指标是一种位置指标,。中位数是。中位数是一个特定的百分位数,即一个特定的百分位数,即M=P50。(2)频数表法:频数表法:49医学统计学专项课程百分位数计算公式:百分位数计算公式:)%(PxLxxxfxnfiL例根据下表计算中位数例根据下表计算中位数 M 及及 P25、P75、P2.5、P97.5 199 名食物中毒患者潜伏期名食物中毒患者潜伏期 潜伏期(小时)潜伏期(小时)人数人数 f 0 30 12 71 24 49 36 28 48 14 60 6 7284 1 合计合计 199 累计频率累计频率
33、%15.150.875.489.496.599.5100.0累累计计频频数数 30 101 150 178 192 198 199 50医学统计学专项课程百分位数计算公式:百分位数计算公式:M)%(PxLxxxfxnfiL例根据下表计算中位数例根据下表计算中位数 M 及及 P25、P75、P2.。5、P97。5 199 名食物中毒患者潜伏期名食物中毒患者潜伏期 潜伏期(小时)潜伏期(小时)人数人数 f 0 30 12 71 24 49 36 28 48 14 60 6 7284 1 合计合计 199 累计频率累计频率%15.150.875.489.496.599.5100.051医学统计学专项
34、课程M累计频率累计频率%15.150.875.489.496.599.5100.0小时)(75.23)30%50199(711212PM50)%(PxLxxxfxnfiL52医学统计学专项课程例例 2.7 根据下表计算中位数根据下表计算中位数 M 及及 P25、P75、P2.。5、P97。5 199 名食物中毒患者潜伏期名食物中毒患者潜伏期 潜伏期(小时)潜伏期(小时)人数人数 f 0 30 12 71 24 49 36 28 48 14 60 6 7284 1 合计合计 199 累计频数累计频数30101150178192198199累计频率累计频率%15.150.875.489.496.5
35、99.5100.0小时)(75.23)30%50199(711212PM50P2553医学统计学专项课程例例 2.7 根据下表计算中位数根据下表计算中位数 M 及及 P25、P75、P2.。5、P97。5 199 名食物中毒患者潜伏期名食物中毒患者潜伏期 潜伏期(小时)潜伏期(小时)人数人数 f 0 30 12 71 24 49 36 28 48 14 60 6 7284 1 合计合计 199 累计频数累计频数30101150178192198199累计频率累计频率%15.150.875.489.496.599.5100.0小时)(34.15)30%25199(711212P25P7554医学
36、统计学专项课程例例 2.7 根据下表计算中位数根据下表计算中位数 M 及及 P25、P75、P2.。5、P97。5 199 名食物中毒患者潜伏期名食物中毒患者潜伏期 潜伏期(小时)潜伏期(小时)人数人数 f 0 30 12 71 24 49 36 28 48 14 60 6 7284 1 合计合计 199 累计频数累计频数30101150178192198199累计频率累计频率%15.150.875.489.496.599.5100.0小时)(82.35)101%75199(491224P7555医学统计学专项课程应用:应用:(1)偏态分布资料;偏态分布资料;(2)资料分布一端或两端有未确定值
37、。资料分布一端或两端有未确定值。实验组与对照组大鼠生存日数比较实验组与对照组大鼠生存日数比较实验组实验组对照组对照组10212315415516617718820923109011121356医学统计学专项课程 比较下面两组肝炎婴儿的血清总胆红素有无差别比较下面两组肝炎婴儿的血清总胆红素有无差别?总胆红素总胆红素(mol/l)mol/l)一般组一般组 重症组重症组 17 4 017 4 0 17 17-10 0 10 0 80 80-15 2 15 2 160 160-1 9 1 9 240 240-0 2 0 2 320 320-0 4 0 4 400 0 2400 0 2 合合 计计 30
38、 19 30 19 57医学统计学专项课程例:例:三组同性别、同年龄儿童的体重(三组同性别、同年龄儿童的体重(Kg)如下,分析其集中趋势与离散趋势。如下,分析其集中趋势与离散趋势。甲组:甲组:26 28 30 32 34 均数:均数:X=30 Kg 乙组:乙组:24 27 30 33 36 均数:均数:X=30 Kg 丙组:丙组:26 29 30 31 34 均数:均数:X=30 Kg三、三、离散趋势的描述离散趋势的描述甲甲乙乙丙丙三组儿童体重的离散程度三组儿童体重的离散程度58医学统计学专项课程只用平均数描述资料的弊病只用平均数描述资料的弊病 It has been said that a
39、fellow with one leg frozen in ice and the other leg in boiling water is comfortable。ON AVERAGE!59医学统计学专项课程描述离散程度的常用指标描述离散程度的常用指标1、全距(极差)全距(极差)(R)2、四分位数间距(四分位数间距(QR)3、方差(方差(2 S2)和和 标准差(标准差(、S)4、变异系数变异系数(CV)60医学统计学专项课程 反映一组同质观察值个体差异的范围。反映一组同质观察值个体差异的范围。R甲甲=8;R乙乙=12;R丙丙=8。缺点(缺点(1)不能反映组内其它观察值的变)不能反映组内其它
40、观察值的变异度。异度。(2)样本含量越大,则全距可能也)样本含量越大,则全距可能也越大。越大。1.全距(极差)全距(极差)61医学统计学专项课程即即P75P25 四分位数可看作是一组同质观察值居中的四分位数可看作是一组同质观察值居中的50%变量值的变异范围。变量值的变异范围。2.四分位数间距(四分位数间距(quartile range,QR)62医学统计学专项课程 不受极值影响,较稳定。不受极值影响,较稳定。与全距比较有何优点?与全距比较有何优点?应用应用:(1)偏态分布;)偏态分布;(2)资料一端或两端有未确定值。)资料一端或两端有未确定值。63医学统计学专项课程例例 2.7 根据下表计算中
41、位数根据下表计算中位数 M 及及 P25、P75、P2.。5、P97。5199 名食物中毒患者潜伏期名食物中毒患者潜伏期潜伏期潜伏期(小时)(小时)人数人数 f累计频数累计频数累计频率累计频率%0303015.1127110150.8244915075.4362817889.4481419296.560619899.572841199100.0合计合计19964医学统计学专项课程变量值的离散程度可看作是各个变量值距离变量值的离散程度可看作是各个变量值距离中心点(均数)的远近问题。中心点(均数)的远近问题。用算式表示:用算式表示:x x 但:但:x x=0=0 则求:则求:x x2 2 (离均差
42、平方和)(离均差平方和)x x2 2 大小与变异度有关外,还与变量大小与变异度有关外,还与变量值个数(值个数(N N)有关。)有关。故:故:3.方差(方差(2 S2)和和 标准差(标准差(、S)(variance&standard deviation)65医学统计学专项课程 实际工作中经常得到的是样本资料,总体实际工作中经常得到的是样本资料,总体均数均数 是不知道的,只能用样本均数来估计,是不知道的,只能用样本均数来估计,这样:这样:用用 x x x x 2 2 代替代替 x x2 2 n n 代替代替 N N 但这样算得结果常比真实但这样算得结果常比真实 低。低。因此,统计学家提出用因此,统
43、计学家提出用 n-1 来校正。来校正。Nxnxx2)(2)(67医学统计学专项课程即:样本标准差(即:样本标准差(S)S2 称为称为 样本方差样本方差68医学统计学专项课程 式中式中n-1称为自由度,用希腊字母称为自由度,用希腊字母 (ju:psilen)表示。表示。自由度的概念:自由度的概念:是指随机变量能自由取值的个数。是指随机变量能自由取值的个数。例:例:X+Y+Z=10 =2 又例:又例:当样本均数一定时,随机变量可以自由取当样本均数一定时,随机变量可以自由取值的变量值个数只能是值的变量值个数只能是n-1 个。个。69医学统计学专项课程计算:计算:1)不分组资料:)不分组资料:例:例:
44、三组同性别、同年龄儿童的体重(三组同性别、同年龄儿童的体重(Kg)如下,分析其集中趋势与离散趋势。如下,分析其集中趋势与离散趋势。甲组:甲组:26 28 30 32 34 均数:均数:X=30 Kg 乙组:乙组:24 27 30 33 36 均数:均数:X=30 Kg 丙组:丙组:26 29 30 31 34 均数:均数:X=30 Kg计算得:计算得:S甲甲=3.16,S乙乙=4.74,S丙丙=2.9270医学统计学专项课程 2)分组资料:)分组资料:计算得:计算得:S=0.38(1012/L)RBCRBC(10101212/L L)组中值组中值 X X频数频数 f ffXfXfXfX2 23
45、.803.90 27.8030.424.004.10 624.64.204.301147.34.404.5025112.54.604.7032150.44.804.9027132.35.005.101786.75.205.301368.95.405.50 422.05.605.70 211.45.805.90 15.9合计合计140(f)669.8 fx3224.2071医学统计学专项课程应用应用:对称分布,尤其是正态分布对称分布,尤其是正态分布72医学统计学专项课程应用应用:(1)比较单位不同的几组资料的变异)比较单位不同的几组资料的变异程度程度 (2)比较均数相差悬殊的几组资料的)比较均数
46、相差悬殊的几组资料的变异程度变异程度4.变异系数(变异系数(CV)73医学统计学专项课程 例例2.9 某地调查某地调查110名名18岁男大学生,其岁男大学生,其身高均数为身高均数为172.73cm,标准差为,标准差为4.09cm;其;其体重均数为体重均数为55.04kg,标准差为,标准差为4.10kg,试比,试比较两者变异度。较两者变异度。74医学统计学专项课程 1.X S 2.M(P75 P25)综合:综合:75医学统计学专项课程 某卫生防疫站对某卫生防疫站对3030名麻疹易感儿童经气溶胶免疫一个月后名麻疹易感儿童经气溶胶免疫一个月后,测测得其血凝抑制抗体滴度资料如下得其血凝抑制抗体滴度资料
47、如下,试计算其平均滴度试计算其平均滴度 抗体滴度抗体滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:5121:8 1:16 1:32 1:64 1:128 1:256 1:512 例例 数数 2 6 5 10 4 2 12 6 5 10 4 2 1 76医学统计学专项课程 某市某市19741974年为了解该地居民发汞的基础水平年为了解该地居民发汞的基础水平,为汞污染为汞污染的环境监测积累资料的环境监测积累资料,调查了留住该市一年以上调查了留住该市一年以上,无明显肝、无明显肝、肾疾病,无汞作业接触史的居民肾疾病,无汞作业接触史的居民238 238 人的发汞含量如下人的发汞
48、含量如下:发汞值 1.5 3.5 5.5 7.5 9.5 11.5 13.5 15.5 17.5 19.5(umol/kg)人 数 20 66 60 48 18 16 6 1 0 3 用何种指标说明本资料的集中位置和变异程度较好?并计算之;77医学统计学专项课程 某检验师测定了10名正常成年钢铁工人的血红蛋白值(g/dl)和红细胞数(万/mm3)如下,试比较这两个检测项目的结果哪个变异性大?血红蛋白(g/dL)13.0 13.6 14.0 14.5 14.6 14.7 15.2 15.5 15.8 16.0血细胞数(万/mm3)510 515 517 518 520 522 524 525 528 53078医学统计学专项课程THE END79医学统计学专项课程