1、第十五章第十五章 数值变量的统计分析数值变量的统计分析一、数值变量的频数分布表与频数分布图一、数值变量的频数分布表与频数分布图 在医学研究工作中,所收集到的原始数在医学研究工作中,所收集到的原始数据一般是无规律所循的,特别当观察值较多据一般是无规律所循的,特别当观察值较多时,直接从原始数据很难得出概括的印象。时,直接从原始数据很难得出概括的印象。必须通过资料清理,编制频数表,来显示数必须通过资料清理,编制频数表,来显示数据分布的范围、数据最集中的区间和频数分据分布的范围、数据最集中的区间和频数分布的形态等。布的形态等。第一节第一节 集中趋势和离散趋势的统计描述集中趋势和离散趋势的统计描述 例例
2、 15.1一般可分为一般可分为计量资料计量资料、计数资料计数资料和和等级资料等级资料。对医学资料的对医学资料的统计描述统计描述是统计分析的一个方是统计分析的一个方面,也是科研结果表述的基本内容。描述的面,也是科研结果表述的基本内容。描述的方法包括方法包括计算相关的指标计算相关的指标、用、用统计表统计表和和统计统计图图来表示。来表示。统计分析统计分析统计描述统计描述统计推断统计推断(第十六章第十六章)统计描述统计描述统计推断统计推断统计分析的两大方面统计分析的两大方面统计描述统计描述用适当的统计图(表)和统计指用适当的统计图(表)和统计指标(如均数、标准差、有效率、治愈率等)标(如均数、标准差、
3、有效率、治愈率等)来描述资料的分布规律(图表)和数量特征来描述资料的分布规律(图表)和数量特征(统计指标)。(统计指标)。用直观的、简单的形式来表达用直观的、简单的形式来表达测定了测定了110例正常人血铅含量(例正常人血铅含量(g/L),见下表。),见下表。血铅含量血铅含量0-4-8-12-16-20-24-28-合计合计频频 数数1423 301914613110广西人均卫生事业费在全国位次广西人均卫生事业费在全国位次(1998(1998年年)指指 标标 广广西西(元元)全全国国(元元)广广西西在在全全国国位位次次 人人均均卫卫生生事事业业费费 11.24 18.52 28 人人均均医医院院
4、经经费费 3.70 7.61 30 人人均均卫卫生生院院补补助助 2.67 3.60 28 人人均均防防治治防防疫疫事事业业费费 1.66 2.62 29 人人均均妇妇幼幼保保健健经经费费 0.84 0.76 16 1999年中国农村死亡原因构成年中国农村死亡原因构成(%)计量资料是连续性的资料,我们可把该计量资料是连续性的资料,我们可把该组数据范围大小分成若干段,然后再统计各段组数据范围大小分成若干段,然后再统计各段的频数,并用表格来表示的频数,并用表格来表示,即称为计量资料的即称为计量资料的频数分布表。频数分布表。(一)频数分布表的编制(一)频数分布表的编制 最小值最小值最大值最大值个数个
5、数:2 8 15 25 16 7 4 2计量资料的频数表:计量资料的频数表:即按数量大小分组,然后再清点即按数量大小分组,然后再清点各组(段)的个数各组(段)的个数(一)频数分布表的编制(一)频数分布表的编制(1)求全距)求全距 最大值最小值最大值最小值 104.8-80.124.7 150名名3岁女孩身高值岁女孩身高值(cm)。编制步骤:编制步骤:计量资料的频数表:计量资料的频数表:即按数量大小分组,然后再清点即按数量大小分组,然后再清点各组(段)的个数各组(段)的个数R最小值最小值最大值最大值(2)划分组段)划分组段:i极差极差/组数组数24.7/102.47 2.5 原则:原则:n50,
6、9-15组。实组。实际应用时,应根据研究目的和分析要求,灵活确定际应用时,应根据研究目的和分析要求,灵活确定组数。一般以能反映频数分布的特征为原则。组数。一般以能反映频数分布的特征为原则。原则:第一组段包括最小值,最后组段包括最大值。原则:第一组段包括最小值,最后组段包括最大值。每一组段都有上限和下限每一组段都有上限和下限下限下限:组段的起点(最小值):组段的起点(最小值)上限上限:组段的终点(最大值):组段的终点(最大值)80.1104.8组距组距组距极差极差/组数(拟采用等距分组)组数(拟采用等距分组)24.7确定组数:确定组数:拟分几个组?(一般拟分几个组?(一般10组)组)求全距:求全
7、距:线段的长度线段的长度定组段:定组段:划范围划范围统计各组段的人数:统计各组段的人数:下限下限上限(下组段的下限)上限(下组段的下限)编制步骤:编制步骤:读取数据,然后读取数据,然后“对号入座对号入座”划记划记80.1100.1 频数表的用途频数表的用途:1描述频数分布的类型和特征描述频数分布的类型和特征 Descriptive Statistics频数分布表(频数分布表(frequency table)2便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值3便于进一步做统计分析和处理便于进一步做统计分析和处理(二)频数分布的特征(二)频数分布的特征1、集中趋势集中趋势(centra
8、l tendency):数据向某一:数据向某一数值集中的倾向数值集中的倾向(中等身高(中等身高92-94cm的人数的人数最多)最多)2、离散趋势离散趋势(tendency of dispersion):数据:数据的数值大小不等的倾向的数值大小不等的倾向(由中间向两侧逐渐(由中间向两侧逐渐减少)减少)集中趋势集中趋势离散趋势离散趋势离散趋势离散趋势(三)频数分布的类型(三)频数分布的类型 正态、对称分布正态、对称分布 偏态分布偏态分布 正偏态负偏态频数分布图频数分布图以观察变量(组段)为横轴,频数或频率为纵轴绘制统计图。可直观地反映频数分布的特征。对称分布示意图对称分布示意图正态分布示意图正态分
9、布示意图可以是多峰,可以是多峰,只要左右对称只要左右对称只能是单峰只能是单峰二二 集中趋势的描述集中趋势的描述 描述计量资料分布特征的指标描述计量资料分布特征的指标集中趋势指标集中趋势指标离散趋势指标离散趋势指标平均数平均数(average)R、Q、S、CV常用平均数的种类:常用平均数的种类:1、算术均数算术均数(arithmetic mean)(简称(简称均数均数,mean)2、几何均数几何均数(geometric mean)3、中位数中位数(median)(一)算术均数(均数)(一)算术均数(均数)样本均数用样本均数用X表示,总体均数用表示,总体均数用表示表示.1、适用范围、适用范围 对称
10、分布,尤其是正态分布的资料对称分布,尤其是正态分布的资料 2、计算方法:、计算方法:(1)直接法)直接法 nxx例例 有有10人身高值:人身高值:92.5,82.5,95.1 求平均求平均身高。身高。)(27.93101.95.5.825.92cmnxx(2)加权法)加权法ffxxf为相同观察值的个数为相同观察值的个数(频数频数)例:例:2,3,3,4,4,4,5,5,5,6 求均数。求均数。方法一:方法一:1.41041106555444332nxx方法二:方法二:1.41041101625342312ffxx直接法直接法加权法加权法加权法用于频数表资料加权法用于频数表资料 其中:其中:X组
11、中值(上限下限)组中值(上限下限)/2 f频数频数 ffxx为什么用组中值?为什么用组中值?问题:所有的频数表资料计算均数都需要用组中值计算吗?3、均数的应用、均数的应用 反映一组观察值的平均水平反映一组观察值的平均水平描述正态分布特征的重要参数描述正态分布特征的重要参数原始数据的分布为偏态分布,但经原始数据的分布为偏态分布,但经对数变换后的分布呈正态分布对数变换后的分布呈正态分布(二)几何均数(二)几何均数(geometric mean,简记为简记为G)1、适用资料:、适用资料:对数正态分布资料对数正态分布资料 (血清抗体滴度资料)(血清抗体滴度资料)(微量元素资料)(微量元素资料)xlgx
12、lgx2、计算方法:、计算方法:(1)直接法)直接法 Glg-1 nlgx设:设:xxlgnxnxxlg xG1lg(正态分布)(正态分布)(求均数)(求均数)(还原)(还原)例例15.2 1:10,1:100,1:1000,1:10000,1:100000,求平均血求平均血清抗体效价。清抗体效价。该该5人的平均血清效价为人的平均血清效价为 1:1000。10003lg5100000lg10000lg1000lg100lg10lglg11G注:用抗体倒数注:用抗体倒数直接计算。直接计算。(2 2)加权法)加权法 fflgxGlog-1 抗体滴度资料的计算:抗体滴度资料的计算:不用组中值计算不用
13、组中值计算其中:其中:X组中值(上限下限)组中值(上限下限)/2 f频数频数 为什么?为什么?例例15.33、应用几何均数、应用几何均数注意事项注意事项:(1)观察值不能有)观察值不能有0;(2)观察值不能同时有正负值,若)观察值不能同时有正负值,若全部为负值,可按正值先求全部为负值,可按正值先求,然后加上负然后加上负号;号;(3)同一资料求得的)同一资料求得的G 中位数中位数 众数众数负偏态分布时:均数均数 中位数中位数 众数众数 均数、中位数、众数之间的关系 Descriptive Statistics描述数值变量资料的集中趋势(central tendency)描述数值变量资料的集中趋势
14、(central tendency)指标4、中位数和百分位数的用途:、中位数和百分位数的用途:(1)描述一组偏态资料的集中趋势;描述一组偏态资料的集中趋势;描述一组资料在某百分位置的描述一组资料在某百分位置的水平(见第三节)水平(见第三节)在对称分布资料中,理论上有在对称分布资料中,理论上有M(2)百分位数百分位数可用于确定可用于确定医学参考值范围医学参考值范围。x集中趋势指标的选择判断集中趋势指标的选择判断步骤步骤:资料资料 抗体滴度抗体滴度 G 否否 偏态、开口偏态、开口 M 否否 X是是是是第三节第三节 离散趋势的描述离散趋势的描述 甲组甲组 26,28,30,32,34.30 乙组乙组
15、 24,27,30,33,36.30 丙组丙组 26,29,30,31,34.30 甲x乙x丙x反映离散程度的常用指标:反映离散程度的常用指标:1、极差、极差 2、四分位数间距、四分位数间距 3、方差、方差 4、标准差、标准差 5、变异系数、变异系数变异(变异(variationvariation)指标)指标反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:1.极差(Range)(全距)2.百分位数与四分位数间距 Percentile and Quartile range 3.方差 Variance 4.标准差Standard Deviation 5.变异系数 C
16、oefficient of Variation Descriptive Statistics描述数值变量资料的离散趋势(central tendency)指标一、全距(一、全距(R)1、计算公式计算公式:R最大值最小值最大值最小值 2、意义意义:R愈大,离散度愈大,愈大,离散度愈大,R愈小,离散度愈小。愈小,离散度愈小。3、优点:优点:计算简单,意义明了计算简单,意义明了 4、缺点:缺点:(1)不能反映每一个观察值的变异;)不能反映每一个观察值的变异;(2)样本例数越大,)样本例数越大,R可能越大;可能越大;(3)R抽样误差大,不稳定。抽样误差大,不稳定。二、四分位数间距(简记二、四分位数间距
17、(简记Q)1、计算公式计算公式:四分位数间距四分位数间距QQUQL P25:下四分位数,简记下四分位数,简记QL P75:上四分位数,简记上四分位数,简记QU 2、意义意义:中间一半观察值的极差:中间一半观察值的极差,意义与意义与R相似。相似。3、特点特点:(1)比比R稳定,但仍未考虑每一个观察稳定,但仍未考虑每一个观察 值的变异;值的变异;(2)常用于描述偏态资料的离散度。常用于描述偏态资料的离散度。三、方差(总体方差简记三、方差(总体方差简记 ,样本方,样本方差简记差简记 )22s一组观察值的离均差平方和,取其均数,一组观察值的离均差平方和,取其均数,即方差。即方差。(XX)0 (离均差和
18、)(离均差和)(XX)20 (离均差平方和)(离均差平方和)缺点:与例数多少有关缺点:与例数多少有关1、计算公式:、计算公式:Nx22122nxxs2、意义意义:方差越大,离散度越大;:方差越大,离散度越大;方差越小,离散度越小。方差越小,离散度越小。3、缺点缺点:单位被平方,不便于使用:单位被平方,不便于使用四、标准差(总体标准差简记四、标准差(总体标准差简记,样本标准差简记样本标准差简记S)方差的开方,即标准差。方差的开方,即标准差。1、计算、计算公式公式:Nx212nxxs2、意义意义:与方:与方差的意义相同差的意义相同(注:(注:n-1为自为自由度)由度)3、计算方法计算方法:(1)直
19、接法)直接法:NxNxNx22211222nxnxxsnX(2)加权法:)加权法:NfxNfx22122nfxsffxX为组中值为组中值X为组中值为组中值2()1XXSn 标准差(Standard Deviation)样本方差为什么要除以(n1)与自由度(与自由度(degrees of freedomdegrees of freedom)有关。)有关。自由度是数学名词,在统计学中,自由度是数学名词,在统计学中,n n个数据如不受任何条件的限制,个数据如不受任何条件的限制,则则n n个数据可取任意值,称为有个数据可取任意值,称为有n n个自由度。若受到个自由度。若受到k k个条件的限制,个条件的
20、限制,就只有(就只有(n nk k)个自由度了。计算标准差时,)个自由度了。计算标准差时,n n个变量值本身有个变量值本身有n n个个自由度。但受到样本均数的限制,任何一个自由度。但受到样本均数的限制,任何一个“离均差离均差”均可以用另外均可以用另外的(的(n n1 1)个)个“离均差离均差”表示,所以只有(表示,所以只有(n n1 1)个独立的)个独立的“离均差离均差”。因此只有(。因此只有(n n1 1)个自由度。)个自由度。11)(2222nnXXnXXS样本方差 Descriptive Statistics描述数值变量资料的离散趋势(central tendency)描述数值变量资料的
21、离散趋势(central tendency)指标4、用途用途:(1)用于表示正态或近似正态分)用于表示正态或近似正态分布资料的离散度;布资料的离散度;(2)结合均数描述正态分布的特)结合均数描述正态分布的特征和估计医学参考值范围;征和估计医学参考值范围;(3)计算标准误。)计算标准误。(4 4)计算变异系数)计算变异系数标准差标准差五、变异系数(简记五、变异系数(简记CV)1、计算、计算公式公式:CV%100 xs2、用途用途:(1)比较度量衡单位不同的多组)比较度量衡单位不同的多组资料的变异度(离散度)资料的变异度(离散度)(2)比较均数相差悬殊的多组资)比较均数相差悬殊的多组资料的变异度(
22、离散度)料的变异度(离散度)3、特点特点:CV没有单位,是相对数,没有单位,是相对数,便于资料间的比较。便于资料间的比较。变异系变异系数数集中趋势指标集中趋势指标 资料资料 抗体滴度抗体滴度 G、S 否否 偏态、开口偏态、开口 M、Q 否否 X、S是是是是选择判断的选择判断的步骤步骤:离散趋势指标离散趋势指标单位不同单位不同均数相差悬殊均数相差悬殊CV1 1、测得、测得130130名健康成年男子脉搏数资料如下:名健康成年男子脉搏数资料如下:脉搏组脉搏组段段56-56-59-59-62-62-65-65-68-68-71-71-74-74-77-77-80-80-83-8583-85合合计计频数
23、频数2 25 512121515252526261919151510101 1130130请问:用何指标描述其集中趋势和离散趋势?请问:用何指标描述其集中趋势和离散趋势?2 2、测定了、测定了110110例正常人血铅含量(例正常人血铅含量(g/Lg/L),见下表。试根),见下表。试根据频数分布情况,指出最恰当的指标来描述其集中趋势和据频数分布情况,指出最恰当的指标来描述其集中趋势和离散趋势离散趋势尿铅尿铅含量含量0-4-8-12-16-20-24-28-合合计计频频 数数14233019146131103、测定、测定80名麻疹儿童血清抗体滴度,结果分别为:名麻疹儿童血清抗体滴度,结果分别为:7人为人为1:10,12人为人为1:20;32人为人为1:40;21人为人为1:80;6人为人为1:160;2人为人为1:320。请求平均抗体滴度。请求平均抗体滴度。4、某传染病的潜伏期(天)见下表,请求平均潜、某传染病的潜伏期(天)见下表,请求平均潜伏期。伏期。潜伏期:潜伏期:4-8-12-16-20-24-人人 数:数:36 58 25 6 3 5再再 见见