1、第二讲第二讲 定量资料的统计描述定量资料的统计描述主要内容主要内容n频数与频数分布频数与频数分布n定量变量的特征数定量变量的特征数n常用统计图表常用统计图表1课堂优质一、离散型定量变量的频数分布一、离散型定量变量的频数分布二、连续型定量变量的频数分布二、连续型定量变量的频数分布第一节第一节 频数与频数分布频数与频数分布2课堂优质一、一、频数与频数分布频数与频数分布 频数:频数:对一个随机事件进行重复观察,其中某变量对一个随机事件进行重复观察,其中某变量值出现的次数被称作频数值出现的次数被称作频数(frequency)(frequency)某个测量某个测量值的个(例)数。值的个(例)数。(当汇总
2、大量的原始数据时,把数据按类型分组,其当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,称为该组的频数。中每个组的数据个数,称为该组的频数。)频数表(频数分布):频数表(频数分布):是用于反映各变量值及其相是用于反映各变量值及其相应频数之间的关系。(应频数之间的关系。(表示各组及它们对应的组频表示各组及它们对应的组频数的表格称为频数表或频数分布。)数的表格称为频数表或频数分布。)3课堂优质(一一)离散型定量变量的频数分布离散型定量变量的频数分布例例2-1 1998年某山区年某山区96名孕妇产前检查次数名孕妇产前检查次数资料如下:资料如下:0,3,2,0,1,5,6,3,2,4,1
3、,0,6,5,1,3,3,4,7等共等共96个个数值。数值。4课堂优质离散型定量变量的频数分布表离散型定量变量的频数分布表表2-1 1998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.551212.596100.0合计96100表表2-1:96名妇女产前检查次数分布的频数分布表名妇女产前检查次数分布的频数分布表5课堂优质离散型定量变量的频数分布图离散型定量变量的频数分布图图 2-1 某 地 9
4、6名 妇 女 产 前 检 查 次 率 分 布0510152025300123455产 前 检 查 次 数频率(%)6课堂优质(二二)连续型定量变量的频数分布连续型定量变量的频数分布例例2-2 抽样调查某地抽样调查某地120名名18岁岁35岁健康男性居岁健康男性居民血清铁含量(民血清铁含量(mol/L)。)。将数据适当分组,计数每组的频数,根据这将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表些数据编制成的频数分布表(表2-2)则能显示出)则能显示出这组数据分布的特点。这组数据分布的特点。7课堂优质连续型定量变量的频数分布连续型定量变量的频数分布原始数据原始数据7.428.65
5、23.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626
6、.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.528课堂优质1、频数表的编
7、制、频数表的编制(1)求全距)求全距(R):R=最大值最大值 最小值最小值=29.64-7.42=22.22(mol/L)(2)确定组数、组距:)确定组数、组距:通常通常815组组 计算组距计算组距(i)i=R/组数组数 相邻两组段下限值之差称组距。一般都用等距,相邻两组段下限值之差称组距。一般都用等距,且用全距的十分之一进行估计。且用全距的十分之一进行估计。本例:本例:22.2210=2.222,取整为,取整为2,该样本可分为,该样本可分为12组。组。9课堂优质频数表的编制频数表的编制(3)确定组段:)确定组段:第一组段包括最小值,如本例为第一组段包括最小值,如本例为6.00;最后组段包括最
8、大值,如本例最后组段包括最大值,如本例28.0030.00(要求(要求第一个组段的下限应略小于最小值,最后通一组要同时第一个组段的下限应略小于最小值,最后通一组要同时写出上下限。)写出上下限。);尽量取较整齐的数值作为组段的端尽量取较整齐的数值作为组段的端点点;一般都用等距。一般都用等距。(4)列表划记:)列表划记:做出如表做出如表2-2的表格,将选好的组段顺的表格,将选好的组段顺序地列在序地列在(1)列。将原始数据按照列。将原始数据按照“下限下限x上限上限”的的原则确定每一例数据原则确定每一例数据x应归属的组段。依次完成(应归属的组段。依次完成(2)(5)列的清点频数、计算频率、累计频数与累
9、计频率)列的清点频数、计算频率、累计频数与累计频率等步骤,得如表等步骤,得如表2-1的频数表。的频数表。10课堂优质表表2-2 120名名18岁岁35岁健康男性居民血清铁含量(岁健康男性居民血清铁含量(mol/L)。)。组段(1)频数(2)频率(3)累计频数(4)累计频率(5)6.0010.8310.838.0032.5043.3310.0065.00108.3312.0086.671815.0014.001210.003025.0016.002016.675041.6718.002722.507764.1720.001815.009579.1722.001210.0010789.1724.0
10、086.6711595.8326.0043.3311999.1728.0030.0010.83120100.00合计12010011课堂优质2 2、频数分布图、频数分布图 在表在表2-2的基础上,可以绘制出图的基础上,可以绘制出图2-2,称为,称为直方图(频率直方图)。直方图(频率直方图)。横轴:横轴:血清铁含量血清铁含量纵轴:纵轴:频率密度,即频率频率密度,即频率/组距(直条面积等于组距(直条面积等于相应组段的频率)。相应组段的频率)。在组距相等时,直方图中矩形直条的高度与在组距相等时,直方图中矩形直条的高度与相应组段的频率成正比。相应组段的频率成正比。12课堂优质频数分布图频数分布图051
11、0152025306810 12 14 16 18 20 22 24 26 28血清铁(mol/L)频率密度13课堂优质1 1、正态分布:、正态分布:图形高峰在中央,两边对称图形高峰在中央,两边对称(或基本或基本对称对称)地逐渐减少,统计学上称之为地逐渐减少,统计学上称之为正态分布正态分布或或近近似正态分布。似正态分布。2 2、正偏态分布:、正偏态分布:高峰位于左侧高峰位于左侧,右侧的组段数多于右侧的组段数多于左侧,如图左侧,如图2-32-3。3 3、负偏态分布:、负偏态分布:高峰位于右侧高峰位于右侧,左侧的组段数多于左侧的组段数多于右侧,如图右侧,如图2-12-1。进行描述性统计时,需要根据
12、数值的分布形态进行描述性统计时,需要根据数值的分布形态选择统计指标和相应的计算公式。选择统计指标和相应的计算公式。3 3、频数分布的类型、频数分布的类型14课堂优质频数分布具有两个特征:频数分布具有两个特征:集中趋势集中趋势(central tendency):变量值集中位置。如变量值集中位置。如120名正常男子血清铁含量虽然高低不等,但向中间集名正常男子血清铁含量虽然高低不等,但向中间集中(中(18),中等的人数最多。),中等的人数最多。平均水平指标平均水平指标离散趋势离散趋势(tendency of dispersion):变量值围绕集中位变量值围绕集中位置的分布情况。本例置的分布情况。本
13、例1424,共有,共有89人,占人,占74.2;离离“中心中心”位置越远,频数越小;且围绕位置越远,频数越小;且围绕“中心中心”左左右对称。右对称。变异水平变异水平指标指标4 4、频数分布的特征、频数分布的特征15课堂优质5 5、频数表的主要用途、频数表的主要用途(1)揭示分布类型;)揭示分布类型;(2)便于发现特大值和特小值;)便于发现特大值和特小值;(3)计算集中趋势指标与离散趋势指标;)计算集中趋势指标与离散趋势指标;(4)作为陈述资料的形式,可以代替繁复的原始资料,便)作为陈述资料的形式,可以代替繁复的原始资料,便于进一步分析;于进一步分析;(5)当样本含量比较大时,可用各组段的频率作
14、为概率的)当样本含量比较大时,可用各组段的频率作为概率的估计值。如上述频数表估计值。如上述频数表(2)栏的频数除以总例数即为第栏的频数除以总例数即为第(3)栏栏的频率,由此可推测正常男子的血清铁含量出现在各组段的频率,由此可推测正常男子的血清铁含量出现在各组段的概率分别为的概率分别为0.0083、0.025、0.050、0.0083。16课堂优质一、算术平均数一、算术平均数二、几何均数二、几何均数 三、中位数与百分位数三、中位数与百分位数 四、众数四、众数 五、调合均数五、调合均数 第二节第二节 集中趋势指标集中趋势指标17课堂优质集中趋势指标集中趋势指标 平均指标又称平均数平均指标又称平均数
15、(average)(average),是一类用,是一类用于描述数值变量资料平均水平于描述数值变量资料平均水平(或集中趋势或集中趋势)的的指标。统计上的平均数一般包括指标。统计上的平均数一般包括5 5种,即种,即算术平算术平均数、几何平均数、中位数、众数以及调和均均数、几何平均数、中位数、众数以及调和均数数。在医学研究上对于连续型定量变量,较常。在医学研究上对于连续型定量变量,较常用的为用的为算术平均数、几何平均数和中位数算术平均数、几何平均数和中位数3 3种。种。18课堂优质一、算术均数(均数)一、算术均数(均数)n意义:意义:一组性质相同的观察值在数量上的平均一组性质相同的观察值在数量上的平
16、均水平。水平。(它是一组已知性质相同的数值之和除以它是一组已知性质相同的数值之和除以数值个数所得的商。)数值个数所得的商。)n表示:表示:(总体)、(总体)、(样本)(样本)n计算:计算:直接法、间接法、计算机直接法、间接法、计算机n特征:特征:估计误差之和为估计误差之和为0 0。n应用:应用:正态分布或近似正态分布正态分布或近似正态分布n注意:注意:合理分组,才能求均数,否则没有意义。合理分组,才能求均数,否则没有意义。X0)(XX19课堂优质(1 1)直接法:)直接法:当观察例数不多当观察例数不多(如样本含量如样本含量n n小于小于30)30)时,时,宜选择直接法。公式为:宜选择直接法。公
17、式为:nXnXXXxn2135)54321(nxx例题:有例题:有5 5个自然数分别为个自然数分别为1 1,2 2,3 3,4 4,5 5,求算术均数。,求算术均数。将将5 5个自然数代入公式,得:个自然数代入公式,得:计算:计算:20课堂优质例例2-3 测得测得8只正常大鼠血清总酸性磷酸酶(只正常大鼠血清总酸性磷酸酶(TACP)含量(含量(U/L)为)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。试求其算术均数。算术均数算术均数=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075(U/L)2
18、1课堂优质(2 2)加权法)加权法(weighted method)(weighted method):当观察例数很多可当观察例数很多可以用加权法计算。以用加权法计算。ffxfffxfxfxfxnnn212211例题:利用下表的资料,用加权法计算例题:利用下表的资料,用加权法计算120名成年名成年18岁岁35岁健康男性居民血清铁含量(岁健康男性居民血清铁含量(mol/L)算术均)算术均数,计算表如下:数,计算表如下:首先将数据编制成频数表,得出每组的频数,求出首先将数据编制成频数表,得出每组的频数,求出组中值,代入下列公式,得到均数。组中值,代入下列公式,得到均数。22课堂优质表2-3 加权法
19、计算均数组段组中值(X)ffX(1)(2)(3)(4)=(2)(3)6.007178.00932710.00 1166612.00 13810414.00 151218016.00 172034018.00 192751320.00 211837822.00 231227624.00 25820026.00 27410828.00 30.00 29129合计1202228LmolffXx/57.181202228直接法均数=18.61(mol/L)23课堂优质二、几何均数(geometric mean,G)nnxxxG21)lg(lg1nxG意义:意义:N N个数值的乘积开个数值的乘积开N N
20、次方即为这次方即为这N N 个数的几何均数。个数的几何均数。表示:表示:G G 计算:计算:应用:应用:当一组观察值不呈正态分布、且其差距较大时,用均数表示其当一组观察值不呈正态分布、且其差距较大时,用均数表示其平均水平会受少数特大或特小值影响;平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如抗体的平均滴度、药物的平均效价等。如抗体的平均滴度、药物的平均效价等。(适用于观察值变化范围跨适用于观察值变化范围跨越多个数量级的资料越多个数量级的资料,其频数图一般呈正偏态分布。其频数图一般呈正偏态分布。
21、)计算几何均数的观察值不能小于或等于计算几何均数的观察值不能小于或等于0 0,因为无法求对数。,因为无法求对数。同一组数据的几何均数小于算术均数。同一组数据的几何均数小于算术均数。24课堂优质(1 1)直接法)直接法 当观察例数不多当观察例数不多(如样本含量如样本含量n n小于小于30)30)时采用直接法时采用直接法计算:计算:例题:例题:有有5份血清的抗体滴度分别为份血清的抗体滴度分别为1:10,1:100,1:1000,1:10000,1:100000,求平均抗体滴度。,求平均抗体滴度。将各抗体滴度的倒数代入公式,得:将各抗体滴度的倒数代入公式,得:10003lg)5100000lg10l
22、g(lg)lg(lg111nxG血清的抗体平均效价为血清的抗体平均效价为1 1:10001000。计算:计算:25课堂优质6451212864643232167G)log(log1nXG648062.1lg7512lg128lg64lg64lg32lg32lg16lglg11例例2-5 7名慢性迁延性肝炎患者的名慢性迁延性肝炎患者的HBsAg滴度资料为滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。试。试计算其几何均数。计算其几何均数。26课堂优质(2)加权法)加权法 例例2-6 52例慢性肝炎患者的例慢性肝炎患者的HBsAg滴度滴度数据如表数据如表2-4。
23、试计算滴度的几何均数。试计算滴度的几何均数。)lg(lg)lglglg(lg12122111fXffffXfXfXfGnnn计算公式为:计算公式为:27课堂优质表2-4 52例慢性肝炎患者的HBsAg滴度资料抗体滴度频数(f)滴度倒数(X)lgXf(lgX)1:162161.204122.408241:327321.5051510.536051:6411641.8061819.867981:128131282.1072127.393731:256122562.4082428.898881:51275122.7092718.96489合计52108.0697774705.1195206977.1
24、08lg1G28课堂优质三、中位数、百分位数三、中位数、百分位数n意义:意义:中位数:中位数:将一组观察值从小到大排序后,居于中将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。间位置的那个值或两个中间值的平均值。百分位:百分位:把一组数据从小到大排列,分成把一组数据从小到大排列,分成100等份,等份,各等份含各等份含1的观察值,分割界限上的值就是百分的观察值,分割界限上的值就是百分位数。位数。中位数是百分位的特殊形式。同样的例子中位数是百分位的特殊形式。同样的例子还有四分位数、十分位数等。还有四分位数、十分位数等。n表示:表示:M、Px29课堂优质)2(LmfnfiLM)
25、%(LxxfxnfiLP计算:计算:应用:应用:任何分布的资料都可以用中位数反映平均水平;任何分布的资料都可以用中位数反映平均水平;资料一端或两端无确定数值;资料一端或两端无确定数值;对于资料的分布情况不清楚时。对于资料的分布情况不清楚时。30课堂优质 计算:计算:(1)中位数的直接计算法)中位数的直接计算法:样本含量不大时使用。将观察值按大小顺序排列,样本含量不大时使用。将观察值按大小顺序排列,当样本含量当样本含量n为奇数时,位置居中的那个数值就是为奇数时,位置居中的那个数值就是M;当当n为偶数时,位置居中的两个数值的平均数就是为偶数时,位置居中的两个数值的平均数就是M。为偶数为奇数nxxn
26、xMdnnn22/12/2/)1(特点:仅仅利用了中间的12个数据31课堂优质(2)中位数和百分位数的频数表计算法)中位数和百分位数的频数表计算法 当观察例数较多时采用。先将观察值编制成频数表,当观察例数较多时采用。先将观察值编制成频数表,按所分组段由小到大计算累计频数和累计频率,找出中位按所分组段由小到大计算累计频数和累计频率,找出中位数或百分位数所在的组,将该组段的下限数或百分位数所在的组,将该组段的下限(L)、组距、组距(i)、频数频数(fx)和小于和小于L的各组段累计频数的各组段累计频数(fL)代入下列公式即可代入下列公式即可求出中位数求出中位数M和百分位数和百分位数Px。)2(Lmf
27、nfiLM)%(LxxfxnfiLP32课堂优质例例2-8 试利用表试利用表2-2的频数表求例的频数表求例2-2中血清铁含量中血清铁含量的中位数。的中位数。从表从表2-2可判断出位于可判断出位于“18-”这个组段。将相这个组段。将相应数据代入式(应数据代入式(2-8)该组血清铁资料的中位数为)该组血清铁资料的中位数为18.74(mol/L)如果按(如果按(2-7)式计算,结果为)式计算,结果为18.99(mol/L)。)。33课堂优质表表2-2 120名名18岁岁35岁健康男性居民血清铁含量(岁健康男性居民血清铁含量(mol/L)。)。组段(1)频数(2)频率(3)累计频数(4)累计频率(5)
28、6.0010.8310.838.0032.5043.3310.0065.00108.3312.0086.671815.0014.001210.003025.0016.002016.675041.6718.002722.507764.1720.001815.009579.1722.001210.0010789.1724.0086.6711595.8326.0043.3311999.1728.0030.0010.83120100.00合计120100)/(74.1850100120502721850LmolP)/(44.21)77%75120(18220)/(00.16)18%25120(1221
29、47525LmolpLmolp34课堂优质四、众数四、众数众数(众数(mode):):原指总体中出现机会最高的数值。样原指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值。本众数则是在样本中出现次数最多的数值。表2-1 1998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.551212.596100.0合计96100产前检查次数的众数为4次。35课堂优质五、调合均数五、调合均数n
30、iiXnH11110168.0)6.6316.6313.6318.6011.491(511H5238.590168.01H调和均数(调和均数(harmonic mean,H):):先求原始数据倒数的算先求原始数据倒数的算术均数。该算术均数的倒数便称为原数据的调和均数。术均数。该算术均数的倒数便称为原数据的调和均数。计算公式:计算公式:例例2-10 接受某种处理的接受某种处理的5只小鼠生存时间(分钟)分别为只小鼠生存时间(分钟)分别为49.1、60.8、63.3、63.6和和63.6,试计算其调和均数。,试计算其调和均数。36课堂优质一、一、全距全距 二、四分位数间距二、四分位数间距 五、五、方
31、差方差和标准差和标准差 六、变异系数六、变异系数 三、离均差总和三、离均差总和 四、四、离均差平方和离均差平方和第三节第三节 离散趋势特征数离散趋势特征数37课堂优质 平均水平指标仅描述了一组数据的集中趋势,可平均水平指标仅描述了一组数据的集中趋势,可以作为总体的一个代表值。由于变异的客观存在,需以作为总体的一个代表值。由于变异的客观存在,需要一类指标描述资料的离散程度。要一类指标描述资料的离散程度。观察两组数据:观察两组数据:甲组:甲组:4,5,6,7,8。n5;6 乙组:乙组:2,5,6,7,10。n5;6 两组资料的倒数和均数都相同,但它们的分布情况两组资料的倒数和均数都相同,但它们的分
32、布情况是不一样的,因此要全面描述这两组资料的特征,还是不一样的,因此要全面描述这两组资料的特征,还需要有能表示其离散程度的指标。需要有能表示其离散程度的指标。xx 38课堂优质例例2-11 试观察三组数据的离散状况。试观察三组数据的离散状况。A组:组:26,28,30,32,34;B组:组:24,27,30,33,36;C组:组:26,29,30,31,34。三组数据个数都为三组数据个数都为5,均数都为,均数都为30。将三组数据分别点在直线上,如下图所示。将三组数据分别点在直线上,如下图所示。39课堂优质一、全距一、全距(range)1概念概念 全距用全距用R表示,是一组资料最大值与最小值之差
33、。表示,是一组资料最大值与最小值之差。例例2-11中三组数据的极差中三组数据的极差 A组组 R=34-26=8 B组组 R=36-24=12 C组组 R=34-26=82含义含义 全距越大,离散程度越大;反之,全距越小,离散全距越大,离散程度越大;反之,全距越小,离散程度越小。程度越小。40课堂优质3、优缺点、优缺点优点:优点:简单明了,容易理解,使用方便。简单明了,容易理解,使用方便。缺点:缺点:(1)仅考虑两端数据的差异,未考虑其他数据的变异情况;仅考虑两端数据的差异,未考虑其他数据的变异情况;(2)变量值个数不同时无意义(变量值个数不同时无意义(n大,大,R也会大);也会大);(3)不稳
34、定,易受极端值的影响(抽样误差大)。不稳定,易受极端值的影响(抽样误差大)。41课堂优质1概念概念 四分位数间距用四分位数间距用Q表示,是上四分位数表示,是上四分位数QU(P75)和下四分位和下四分位数数Q L(P25)之差。之差。如例:表如例:表22资料:资料:QQU Q LP75 P2521.44 16.005.44(mol/L)2含义含义 其值越大,说明变异程度越大;反之,值越小,离散程度其值越大,说明变异程度越大;反之,值越小,离散程度越小。常常和中位数一起描述偏态分布资料的的分布特征。越小。常常和中位数一起描述偏态分布资料的的分布特征。3优缺点:优缺点:该指标比全距稍稳定,但仍未考虑
35、每个观察值。该指标比全距稍稳定,但仍未考虑每个观察值。二、四分位数间距二、四分位数间距(quartile range)42课堂优质三、离均差总和三、离均差总和 考虑到了每一个变量值的影响,但对称分布的资考虑到了每一个变量值的影响,但对称分布的资料,由于正负相消,故离均差总和等于料,由于正负相消,故离均差总和等于0 0。如上例:三组数据的离均差总和均等于如上例:三组数据的离均差总和均等于0 0。)(xx离均差总和43课堂优质四、离均差平方和四、离均差平方和(sum of squares)如上例:如上例:A组组=(26-30)2+(28-30)2+(30-30)2+(32-30)2+(34-30)
36、2=40B组组=(24-30)2+(27-30)2+(30-30)2+(33-30)2+(36-30)2=90C组组=(26-30)2+(29-30)2+(30-30)2+(31-30)2+(34-30)2=34 和离均差总和一样,考虑到了每一个变量值的影响,而且克服了正负和离均差总和一样,考虑到了每一个变量值的影响,而且克服了正负相消的缺点,但相消的缺点,但变量值个数不同时无意义。变量值个数不同时无意义。2)(xx离均差平方和44课堂优质 为了能反映每个观察值之间的离散情况,同时又为了能反映每个观察值之间的离散情况,同时又能考虑到观察单位数多少的影响,可取离均差平方和能考虑到观察单位数多少的
37、影响,可取离均差平方和的均数,简称方差的均数,简称方差(variance)。总体方差用。总体方差用2表示,样表示,样本方差用本方差用S2表示,公式分别为:表示,公式分别为:Nux22)(1)(22nxxs五、方差五、方差(variance)45课堂优质六、标准差六、标准差(standard deviation)由于每一离均差都经过平方,使原来观察值的度量单位由于每一离均差都经过平方,使原来观察值的度量单位也都变为平方单位了。为了还原成为原来的度量单位,所以也都变为平方单位了。为了还原成为原来的度量单位,所以又将方差开平方,这就是标准差。又将方差开平方,这就是标准差。NX2)(1)(2nXXS4
38、6课堂优质(1)(1)小样本资料:小样本资料:例题:有数据例题:有数据1,2,3,4,5,求其标准差。,求其标准差。1/)(22nnxxS5554321222222x225)54321()(22x58.115522555S标准差计算标准差计算47课堂优质 例2-14 分别计算例2-11中三组数据的标准差。A组:B组:C组:C组的标准差最小,B组的最大。意味着C组数据的离散趋势最小,B组的最大 16.3155/15045402s74.4155/15045902s91.2155/15045342s48课堂优质(2 2)大样本资料:)大样本资料:对于大样本资料,可用频数表进行对于大样本资料,可用频数
39、表进行计算,公式为:计算,公式为:1)(22fffXfXS例题:根据下列频数表资料,计算例题:根据下列频数表资料,计算140140名成年男子红细名成年男子红细胞数的标准差。计算表如下:胞数的标准差。计算表如下:49课堂优质组 段组中值(X)ffXfX(1)(2)(3)(4)=(2)(3)(5)=(2)(4)6.00717498.00932724310.00 1166672612.00 138104135214.00 1512180270016.00 1720340578018.00 1927513974720.00 2118378793822.00 2312276634824.00 25820
40、0500026.00 274108291628.00 30.00 29129841合计120222863640表表2-2 120名名18岁岁35岁健康男性居民血清铁含量(岁健康男性居民血清铁含量(mol/L)。)。)/(37.41120120/2228636402Lmols50课堂优质 方差和标准差的意义都是说明资料的变异程方差和标准差的意义都是说明资料的变异程度,算出的值越大,说明变异程度越大。标准差度,算出的值越大,说明变异程度越大。标准差愈小,说明观察值的离散程度愈小,从而也反映愈小,说明观察值的离散程度愈小,从而也反映了用平均数反映平均水平,其代表性愈好。反之,了用平均数反映平均水平,
41、其代表性愈好。反之,平均数的代表性愈差。平均数的代表性愈差。(越大说明围绕均数越离越大说明围绕均数越离散,反之说明较集中在均数周围,均数代表性越散,反之说明较集中在均数周围,均数代表性越好好)方差和标准差的含义:方差和标准差的含义:51课堂优质反映一组观察值的离散程度,标准差小,离散反映一组观察值的离散程度,标准差小,离散程度小,均数的代表性好;程度小,均数的代表性好;用于计算变异系数;用于计算变异系数;计算标准误;计算标准误;结合均值与正态分布的规律估计参考值的范围。结合均值与正态分布的规律估计参考值的范围。标准差用途:标准差用途:52课堂优质六、变异系数六、变异系数n无单位(量纲)无单位(
42、量纲)n应用:单位不同的多组数据比较应用:单位不同的多组数据比较 均数相差悬殊的多组资料均数相差悬殊的多组资料%100XSCVn意义:标准差与均数之比用百分数表示。意义:标准差与均数之比用百分数表示。n符号符号:CVn计算计算:53课堂优质1 1、比较均数悬殊的资料变异程度、比较均数悬殊的资料变异程度例题:某地例题:某地7岁男孩身高均数为岁男孩身高均数为121.16cm,标准差为,标准差为4.31cm;胸围均数为;胸围均数为57.71cm,标准差为,标准差为2.82cm,比较身,比较身高和胸围的变异程度。高和胸围的变异程度。%56.3%10016.12131.4CV%89.4%10071.57
43、82.2CV身高:身高:胸围胸围:说明胸围的变异程度大于身高。说明胸围的变异程度大于身高。54课堂优质2 2、比较度量衡单位不同的资料变异程度、比较度量衡单位不同的资料变异程度例题:通过十省调查得知,农村刚满周岁的女童体重均例题:通过十省调查得知,农村刚满周岁的女童体重均数为数为8.42kg,标准差为,标准差为0.98kg;身高均数为;身高均数为72.4cm,标,标准差为准差为3.0cm。试计算周岁女童身高与体重的变异系数。试计算周岁女童身高与体重的变异系数。体重:体重:身高:身高:说明体重的变异程度大于身高。说明体重的变异程度大于身高。%14.4%1004.720.3%100 xsCV%64
44、.11%10042.898.0%100 xsCV55课堂优质第四节第四节 分布形态特征数分布形态特征数 niisxxnnnSKEW13)()2)(1(描述分布形态的统计量:描述分布形态的统计量:偏度系数与峰度系数。偏度系数与峰度系数。偏度系数偏度系数(coefficient of skewness,SKEW):理论:理论上总体偏度系数为上总体偏度系数为0时,分布是对称的;取正值时,分时,分布是对称的;取正值时,分布为负偏峰(态);取负值时分布为正偏峰(态)。布为负偏峰(态);取负值时分布为正偏峰(态)。样本偏度系数计算公式:样本偏度系数计算公式:56课堂优质峰度系数峰度系数(coefficie
45、nt of kurtosis,KURT)3)(2()1(3)()3)(2)(1()1(214nnnsxxnnnnnKURTnii 理论上,正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。样本峰度系数 57课堂优质小小 结结1.1.为了解定量变量的分布规律,可编制频数表并绘制频为了解定量变量的分布规律,可编制频数表并绘制频数分布(或频率分布)图,用于描述资料的分布特征数分布(或频率分布)图,用于描述资料的分布特征(集中趋势与离散趋势),以及分布类型(对称或偏峰)(集中趋势与离散趋势),以及分布类型(对称或偏峰)2.2.描述性统计量可以用来定量地
46、刻画统计分布的特征。描述性统计量可以用来定量地刻画统计分布的特征。常用的描述性统计量有三类:描述集中趋势的算术均数、常用的描述性统计量有三类:描述集中趋势的算术均数、几何均数、中位数;描述离散趋势的极差、四分位数间几何均数、中位数;描述离散趋势的极差、四分位数间距、方差、标准差和变异系数;描述分布类型的偏度系距、方差、标准差和变异系数;描述分布类型的偏度系数与峰度系数。数与峰度系数。3.3.百分位数是一种位置参数,既可用来描述集中趋势百分位数是一种位置参数,既可用来描述集中趋势(P P5050),又可用来描述离散趋势(),又可用来描述离散趋势(P P7575-P-P2525)。可用于各)。可用于各种连续型分布。种连续型分布。58课堂优质