1、第二章 数值变量的描述性统计 统计图表;统计指标。第一节 频数分布一.编制频数表的步骤 求极差 R=84-57cm=27(次/分)划分组段 确定组数:较大样本时,一般取10组左右。确定组距:极差/组数=27/10=2.73(次/分)确定各组段的上下限:上限=下限+组距 统计各组段内的数据频数,编制频数表 表2.1 130名健康成年男子脉搏(次/分)的频数分布表脉搏组段 (1)频数(2)频率(%)(3)累计频数 (4)累计频率(%)(5)5659626568717477808385合计251215252619151011301.543.859.2311.5419.2320.0014.6211.5
2、47.690.7727193459851041191291301.545.3814.6226.1545.3865.3880.0091.5499.23100.00二.频数表的用途 可以揭示资料的分布类型和分布特征,以便于选用相应的统计分析方法。便于进一步计算指标和统计处理。便于发现某些特大或特小的可疑值。第二节 集中趋势的描述 三种平均数 算术均数 几何均数 中位数。(一)算术均数(x)简称均数,适合于表达呈正态分布资料的平均水平。直接法:X=X1+Xnn=Xn例2-2:X=81+70+66+6913=71.69(次/分)加权法 X=fXf例:X=572+605+6312+84 1130=71.
3、12(次/分)(二)几何均数(G)适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。G=n X1X2Xn G=lg-1()lgXn G=lg-1()f lgXf例:40名麻疹易感儿童接种麻疹疫苗后一个月,测其血凝抑制抗体滴度,结果如表所示,求几何均数。抗体滴度人数 f滴度倒数 XlgX1:41:81:161:321:641:1281:2561:512145811641481632641282565120.60210.90311.20411.50511.80612.10722.40822.7093G=lg-1(f lgXn)=lg-1(1 0.6021+4 0.9031+1 2.7093
4、)40=lg-1(4067.1282)=48G=1:48(三)中位数(M)适合于表达偏态资料、或分布不明的资料的平均水平,尤其适合于表达只知数据的个数、但部分较大或较小数据的具体数值未准确知道的资料的平均水平。对于原始数据和频数分布表资料,分别用下列两式计算中位数。M=(X n/2+X(n/2+1)/2 (n为偶数)X(n+1)/2(n为奇数)M=LM+iMfM(n2 fL)其中,LM:中位数所在组下限;iM:中位数所在组的组距;fM:中位数所在组的频数;fL:中位数所在组前一组的累计频数。2例2-4 表2.3 107正常人的尿铅含量(g/L)的中位数计算表含量(g/L)(1)频数f(2)累计
5、频数 f (3)累计频率%(4)0481216202428合计1422291815612107143665839810410510713.0833.6460.7577.5791.5997.2098.13100.00M=8+(107/2-36)=10.41(g/L)429第三节 离散程度的描述 例:设有三组同年龄、同性别儿童体重(kg)数据如下:甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34 描述离散程度的指标:极差、四分位数间距、方差、标准差及变异系数。一.极差(全距,R)为一组同质观察值中最大值与最小值之差。甲组 R=34-26=8
6、 乙组 R=36-24=12 甲组数据分布较乙组集中。优点:计算简单缺点:1.没有充分利用样本信息,只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度。2.样本含量越大,抽到较大或较小观察值的可能性越大,则极差可能越大,因此,样本含量悬殊时不宜用极差比较分布的离散度。所以,一般不用极差来反映离散程度。二.四分位数间距(Q)1.分位数的概念分位数是一种位置指标,一个特定的分位数将任何一个频数曲线下的面积分为两部分。第1四分位数记作Q1,第2、第3四分位数,分别记作Q2、Q3;第1百分位数,记作P1。同理,还有第2、第3、第99百分位数,分别记作P2、P3、P99。显然,Q1=P25、Q2
7、=P50=M、Q3=P752.百分位数的计算公式对连续型变量频数表资料,按下式计算第X百分位数PX:PX=LX+iXfX(nX%fL)其中,LX:第X百分位数所在组下限;iX:第X百分位数所在组的组距;fX:第X百分位数所在组的频数;fL:第X百分位数所在组前一组的累计频数。例 某地200例正常成人血铅含量的频数分布如表所示,请计算出血铅含量的95%正常值范围。200例正常成人血铅含量的频数分布表 血铅含量 频数 累计频数 (mol/L)(1)(2)00.240.480.720.971.211.451.691.932.172.422.662.903.1464843362813144412016
8、5497133161174188192196197199199200解:即求P95。nX%=20095%=190P95=1.69+(190-188)0.24 4=1.81(mol/L)故某地正常人血铅含量95%的单侧正常值范围的上限为 1.81(mol/L)。3.四分位数间距(Q)Q=P75-P25Q=QU-QL优缺点:用四分位数间距作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。例2-10 据书中表2.3资料求四分位数间距Q。P25=4+4 22(107 25%14)=6.32(g/L)P75=12+
9、418(107 75%65)=15.39(g/L)Q=P75-P25=15.39-6.32=9.07(g/L)三.方差2=(X-)2NS2=(X-X)2n-1 n-1称为自由度四.标准差 =(X-)2NS=(X-X)2n-1直接法;s=X2-(X)2/n由于(X-X)2=X2-(X)2/n,所以n-1加权法:s=fX2-(fX)2/ff-1例2-12 求书中表2.2数据的标准差。解 f=130 fX=9246 fX2=662076 S=662076-92462/130130-1=5.89(次/分)五.变异系数(CV)CV=SX100%1.用于比较度量衡单位不同的多组资料的变异度。2.比较均数相
10、差悬殊的多组资料的变异度。六.适用情况第四节 正态分布一.正态分布的概念和特征 正态分布的图形:正态分布的密度函数:f(X)=1 2e-(X-)22 2-X+通常用N(,2)表示均数为、方差为2的正态分布。正态分布的特征 1.正态曲线在横轴上方均数处最高;2.正态分布以均数为中心,左右对称;3.正态分布有两个参数,即均数与标准差。是位置参数,当固定不变时,越大,曲线沿横轴越向右移动;越小,曲线沿横轴越向左移动。是变异度参数,当固定不变时,越大,曲线越平阔;越小,曲线越尖峭。4.正态曲线下的面积分布有一定的规律。常用的两个区间:1.96 及2.58 的区间面积分别占总面积(或总观察例数)的95%
11、及99%,如下图所示:95%2.5%2.5%-1.96+1.96 99%-2.58+2.58 0.5%0.5%二.标准正态分布 令 u=X-(u)=12e-u22-u+用N(0,1)表示标准正态分布三.正态分布的应用 制定医学参考值范围 许多统计方法的理论基础参考值范围的制定正态分布法 百分位数法%909599双侧X1.64SX1.96SX2.58S 单只有下限X-1.28SX-1.64SX-2.33S 侧只有上限X+1.28SX+1.64SX+2.33S双侧P5P95P2.5P97.5P0.5P99.5 单只有下限P10P5P1侧只有下限 P90 P95 P99补充题 以下是101名30-4
12、9岁正常成年男子的血清总胆固醇(mmol/L)测定值的频数表,请据此资料:(1)选择适当的集中趋势指标并计算之;(2)选择适当的离散程度指标并计算之;(3)求该地30-49岁健康男子血清总胆固醇的正常值范围;(4)估计该地30-49岁健康男子血清总胆固醇值小于4.50 mmol/L的概率。血清总胆固醇2.53.03.54.04.55.05.56.06.57.07.5合计频数f1892325179621101fx2.752633.7597.75118.7589.2551.7537.513.57.25478.25fx27.5684.50126.56415.44564.06468.56297.562
13、34.3891.1352.562342.31data samp2_1;input x;cards;75 76 72 69 66 72 57 68 71 72 69 72 7382 80 82 67 69 73 64 74 58 70 64 60 7766 77 64 67 76 75 75 71 65 62 76 72 7160 67 75 75 73 79 66 69 79 78 70 72 7072 78 72 67 72 80 68 70 61 70 73 72 7181 70 66 75 71 63 77 74 76 68 65 77 6977 75 79 64 79 73 76 61
14、 80 64 69 70 7369 68 65 70 69 66 81 63 64 80 74 78 7684 66 70 73 60 76 82 73 64 65 73 73 6380 68 76 70 79 77 64 70 66 69 73 78 76;例2.1proc univariate;output out=aa max=max min=min mean=m std=s median=medq1=p25 q3=p75 qrange=q mode=mode range=r;proc print data=aa;data samp211;set aa;p1=m-1.96*s;p2=m+
15、1.96*s;proc print;var p1 p2;data samp212;set samp2_1;if 56x59 then x=56;if 59=x62 then x=59;if 62=x65 then x=62;if 65=x68 then x=65;if 68=x71 then x=68;if 71=x74 then x=71;if 74=x77 then x=74;if 77=x80 then x=77;if 80=x83 then x=80;if 83=x|T|0.0001 Range 27 Num=0 130 Num 0 130 Q3-Q1 9 M(Sign)65 Pr=|
16、M|0.0001 Mode 70 Sgn Rank 4257.5 Pr=|S|0.0001 Extremes Lowest Obs Highest Obs 57(7)81(98)58(22)82(14)60(109)82(16)60(40)82(111)60(25)84(105)OBS M S MAX P75 MED P25 MIN R Q MODE 1 71.3154 5.80168 84 76 72 67 57 27 9 70 OBS P1 P2 1 59.9441 82.6867 Cumulative Cumulative X Frequency Percent Frequency Pe
17、rcent -56 2 1.5 2 1.5 59 5 3.8 7 5.4 62 12 9.2 19 14.6 65 15 11.5 34 26.2 68 25 19.2 59 45.4 71 26 20.0 85 65.4 74 19 14.6 104 80.0 77 15 11.5 119 91.5 80 10 7.7 129 99.2 83 1 0.8 130 100.0data lx;input x f;cards;2.75 1 3.25 8 3.75 9 4.25 23 4.75 25 5.25 17 5.75 9 6.25 6 6.75 2 7.25 1;proc means;var
18、 x;freq f;output out=aa mean=m std=s;data b;set aa;p1=m-1.96*s;p2=m+1.96*s;proc print;var p1 p2;run;Analysis Variable:X N Mean Std Dev Minimum Maximum -101 4.7351485 0.8816333 2.7500000 7.2500000 -OBS P1 P2 1 3.00715 6.46315data lx2_2;input x f;y=log10(x);cards;1 7 20 11 40 22 80 12 160 8;proc means
19、;var y;freq f;output out=outmean mean=logmean;proc print data=outmean;data b;set outmean;g=10*logmean;proc print data=b;var g;run;Analysis Variable:Y N Mean Std Dev Minimum Maximum -60 1.5004448 0.6152123 0 2.2041200 -OBS _TYPE_ _FREQ_ LOGMEAN 1 0 60 1.50044 OBS G 1 31.6552data lx2_3;input x f;cards;6 26 10 48 14 25 18 6 22 3;proc univariate;var x;freq f;run;49写在最后写在最后成功的基础在于好的学习习惯成功的基础在于好的学习习惯The foundation of success lies in good habits 结束语当你尽了自己的最大努力时,失败也是伟大的,所以不要放弃,坚持就是正确的。When You Do Your Best,Failure Is Great,So DonT Give Up,Stick To The End演讲人:XXXXXX 时 间:XX年XX月XX日