1、第十一章第十一章 资料的描述性分析资料的描述性分析2022-6-92第十一章第十一章 资料的描述性分析资料的描述性分析v第一节第一节 计量资料的统计描述方法计量资料的统计描述方法v第二节第二节 计数资料的统计描述方法计数资料的统计描述方法v统计图表统计图表2022-6-93第一节第一节 计量资料的统计描述方法计量资料的统计描述方法v 常用的描述定量资料分布规律的统计方法常用的描述定量资料分布规律的统计方法有两类:有两类: 统计图表:频数分布表统计图表:频数分布表/图图 选用适当的统计指标:选用适当的统计指标: 集中趋势指标:均数、中位数集中趋势指标:均数、中位数 离散趋势指标:极差、标准差离散
2、趋势指标:极差、标准差2022-6-94v频数分布表频数分布表( frequency distribution table ): 将变量值化分为若干个组段,清点并记录各组段变量值的个数,称为频数表(frequency table ) 。第一节第一节 数值变量资料的频数分布数值变量资料的频数分布2022-6-95最小最小值值最大值第一节第一节 数值变量资料的频数分布数值变量资料的频数分布2022-6-961. 频数表的编制步骤频数表的编制步骤v(1)求数据的极差)求数据的极差: 极差(极差(range)是全部数)是全部数据中的最大值与最小值之差,它描述了数据的变据中的最大值与最小值之差,它描述了
3、数据的变异幅度。异幅度。 公式:公式:RXMaxXMin 例例8.1: XMax =5.59 XMin =3.60 R=5.59-3.60=1.99 第一节第一节 数值变量资料的频数分布数值变量资料的频数分布2022-6-97 (2)划分组段)划分组段v 确定组数确定组数: n100,1015组;组;n100,810组组v 确定组距:确定组距: 组距可以相等也可以不相等,一般采用等距分组,组距可以相等也可以不相等,一般采用等距分组, 组距组距=极差极差/组数组数 例8.1 1.99/102,故组距,故组距=2mmol/L1. 频数表的编制步骤频数表的编制步骤2022-6-98(2)划分组段)划
4、分组段 v 确定各组段的上下限:确定各组段的上下限: 每个组段的起点称为该组的每个组段的起点称为该组的下限(low limit), 终点称为终点称为上限(upper limit), 上限上限=下限下限+组距;组距; 第一组段必须包括最小值,因此其下限取包含最小值、较为第一组段必须包括最小值,因此其下限取包含最小值、较为整齐的数值;整齐的数值;例8.1 第一组段下限为第一组段下限为 3.60,上限为,上限为3.60+0.20=3.80 各组段不能重叠,每一组段均为半开半闭区间,即包括下限,各组段不能重叠,每一组段均为半开半闭区间,即包括下限,不包含上限。不包含上限。例8.1 第一组段为第一组段为
5、3.60 即即3.60,3.80);以此类推。;以此类推。 最后一组段,须包括最大值,且要列出这一组段的下限和最后一组段,须包括最大值,且要列出这一组段的下限和上限,即上限,即5.405.60, 5.40,5.60 1. 频数表的编制步骤频数表的编制步骤2022-6-991. 频数表的编制步骤频数表的编制步骤最后一组段最后一组段第一组段第一组段列出各组段列出各组段2022-6-910(3)列表划记)列表划记v 1. 频数表的编制步骤频数表的编制步骤将原始数据一一对将原始数据一一对应入每个组段,通应入每个组段,通过划过划“正正” 字,来字,来统计每个组段内的统计每个组段内的数据数据2022-6-
6、911(3 3)列表划记)列表划记1. 频数表的编制步骤频数表的编制步骤统计每个组段内的统计每个组段内的频数(例数)频数(例数)频数的合计数等于频数的合计数等于样本含量样本含量2022-6-9121. 频数表的编制步骤频数表的编制步骤(3 3)列表划记)列表划记计算出每个组段的计算出每个组段的频率频率每组的频数每组的频数 样本含量样本含量2022-6-9131. 频数表的编制步骤频数表的编制步骤(3 3)列表划记)列表划记计算出每个组段的计算出每个组段的累计频率累计频率= =本组段的频率本组段的频率+ +上上一组段的累计频率一组段的累计频率2022-6-9141. 频数表的编制步骤频数表的编制
7、步骤2022-6-9152.绘制频数分布直方图绘制频数分布直方图 绘制频数分布直方图绘制频数分布直方图v坐标轴坐标轴 横坐标:变量值即研究指标,无需从横坐标:变量值即研究指标,无需从0开始,以单位尺度开始,以单位尺度划分。划分。 纵坐标:为频数纵坐标:为频数f,必须从,必须从0开始(开始(f为每一组段内的人数)为每一组段内的人数)v直条直条 直条的宽度:组距直条的宽度:组距 直条的高度:每一组段的频数直条的高度:每一组段的频数v累计累计2022-6-9162.绘制频数分布直方图绘制频数分布直方图2022-6-9172.绘制频数分布直方图绘制频数分布直方图2022-6-9183、频数分布的特征、
8、频数分布的特征从频数表可以看到频数分布的两个重要的特征从频数表可以看到频数分布的两个重要的特征 v 集中趋势(集中趋势(central tendency) 血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居多,是为集中趋势。多,是为集中趋势。v 离散趋势(离散趋势(tendency of dispersion) 从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频数分布逐渐减少,是为离散趋势。数分布逐渐减少,是为离散趋势。v 集中趋势和离散趋势是频数分布的两个重要侧面,从这
9、两集中趋势和离散趋势是频数分布的两个重要侧面,从这两方面就可全面的分析所研究的事物。方面就可全面的分析所研究的事物。2022-6-9194.频数分布的类型频数分布的类型 频数分布又可分为对称分布和偏态分布频数分布又可分为对称分布和偏态分布v对称分布:对称分布:集中位置在正中,左右两侧频数分布大体对称v偏态分布:偏态分布:集中位置偏向一侧,频数分布不对称 正偏态分布:集中位置偏向年龄小的一侧正偏态分布:集中位置偏向年龄小的一侧 负偏态分布:集中位置偏向年龄大的一侧负偏态分布:集中位置偏向年龄大的一侧v 不同类型的分布,应采用相应的统计分析方不同类型的分布,应采用相应的统计分析方法。法。2022-
10、6-9204.频数分布的类型频数分布的类型正态分布正态分布( normal distribution )中间高、两边低、左右对称属于对称分布的一种许多医学资料都属于这种分布,例如人体正常的生理生化指标正态分布正态分布2022-6-9214.频数分布的类型频数分布的类型 a.a.尖峭峰尖峭峰 b.b.正态峰正态峰c.c.平阔峰平阔峰2022-6-922正偏态分布正偏态分布正偏态分布:正偏态分布:峰偏左,尾部向右侧延伸峰偏左,尾部向右侧延伸如:以儿童为主的传染病发病人数的分布如:以儿童为主的传染病发病人数的分布右偏态右偏态4.频数分布的类型频数分布的类型负偏态分布负偏态分布负偏态分布:负偏态分布:
11、峰偏右,尾部向左侧延伸峰偏右,尾部向左侧延伸如:以老年人为主的慢性病发病人数的分布如:以老年人为主的慢性病发病人数的分布左偏态左偏态(positive skewed)(negative skewed)2022-6-9235.频数表的用途频数表的用途v频数表可揭示资料的频数表可揭示资料的分布特征分布特征和和分布类型分布类型v便于进一步计算统计指标和统计分析处理(第二节)便于进一步计算统计指标和统计分析处理(第二节)v便于发现某些特大或特小可疑值,便于资料的校对。便于发现某些特大或特小可疑值,便于资料的校对。2022-6-924一、集中趋势指标一、集中趋势指标v算术均数算术均数(arithmeti
12、c mean)v几何均数几何均数(geometric mean)v中位数和百分位数中位数和百分位数(median percentile)以上统称为以上统称为平均数(平均数(average)常用于描述一组常用于描述一组变量值的集中位置,代表其平均水平或是集中变量值的集中位置,代表其平均水平或是集中位置的特征值。位置的特征值。2022-6-9251.算术均数算术均数又简称为又简称为均数(均数(mean)v定义:定义:是反映一组观察值在数量上的平均水平。是反映一组观察值在数量上的平均水平。 总体均数用希腊字母总体均数用希腊字母 表示,样本均数用表示,样本均数用 表示表示v计算方法:计算方法: 直接法
13、:直接法: 频数表法:频数表法:v应用:应用: 正态分布或近似正态分布资料正态分布或近似正态分布资料 x(arithmetic mean)(arithmetic mean)2022-6-9261.算术均数算术均数计算方法计算方法v直接法:即将所有观察值直接法:即将所有观察值x1,x2,x3,xn直接相加直接相加再除以观察值的个数,写成公式再除以观察值的个数,写成公式nxnxxxxxin.321 为样本均数为样本均数 n n为变量值个数,为变量值个数,i i为各变量值,为各变量值, 表示求和表示求和x2022-6-9271.算术均数算术均数 例例1 有有9名健康成人的空腹胆固醇测定值名健康成人的
14、空腹胆固醇测定值(mmol/L)为)为5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93,求算术均数。,求算术均数。 L)4.83(mmol/ /95.93)3.96(5.61 x2022-6-9281.算术均数算术均数 计算方法计算方法v 频数表法(频数表法(weighting method) 当资料中相同观察值的个数较多时,可将相同观察值的个数,当资料中相同观察值的个数较多时,可将相同观察值的个数,即频数即频数f,乘以该观察值,乘以该观察值x,以代替相同观察值逐个相加。,以代替相同观察值逐个相加。 对于频数表资料,用各组段的频数作对于频数表资料,用各组
15、段的频数作f,以相应的组中值,以相应的组中值(class mid-value)作)作x。组中值=(下限+上限)/ 2 公式 f fi i为各组段的频数为各组段的频数x xi i为各组段的组中值为各组段的组中值fxfffffxfxfxfxfxiinnn.3213322112022-6-9291.算术均数算术均数2022-6-9301.算术均数算术均数组中值组中值= =(下限(下限+ +上限)上限)/ 2/ 2如:如:3.603.60组段的组中值组段的组中值= =(3.60+3.803.60+3.80)/2=3.70/2=3.70以此类推以此类推/L)4.653(mmol132614.2fxfxi
16、i2022-6-931vf1, f2,fk分别为各组段的频数,这里的分别为各组段的频数,这里的f起到了起到了“权数权数”的作用,它权衡了各组中值由于频数不的作用,它权衡了各组中值由于频数不同对均数的影响。即频数多,权数大,作用也大;同对均数的影响。即频数多,权数大,作用也大;频数少,权数小,作用也小,故称为加权法。频数少,权数小,作用也小,故称为加权法。1.算术均数算术均数用组中值,加用组中值,加权法计算出的权法计算出的均数是精确值均数是精确值吗?吗?2022-6-932 均数的两个重要特性均数的两个重要特性v各离均差(即各观察值各离均差(即各观察值x与均数与均数 x之差)的总和等之差)的总和
17、等于零。于零。v离均差的平方和小于个观察值离均差的平方和小于个观察值x与任何数与任何数( x )之差的平方和。)之差的平方和。1.算术均数算术均数0)(xx22)(xxx)(2022-6-9331.算术均数算术均数0).()(.)(02121nxnxxnxxxxxxxxxxxxxiinn)()()(论论证证:v各离均差(即各观察值各离均差(即各观察值x x与均数与均数 x x之差)的总和等于零。之差)的总和等于零。偶知道另一个也能偶知道另一个也能证明了!嘿嘿证明了!嘿嘿2022-6-934v1 1、最常用,特别是正态分布资料、最常用,特别是正态分布资料v2 2、均数对极值特别敏感,、均数对极值
18、特别敏感, 极大值或极小值通常将均数拉向自极大值或极小值通常将均数拉向自己己1.算术均数算术均数均数的特征均数的特征2022-6-935CASIO fx-3600PCASIO fx-3600P计算器统计功能计算器统计功能 步骤步骤 键键 盘盘 说说 明明 1. MOOD 3 进入进入SD统计功能统计功能 2. SHIFT AC 清除原有数据清除原有数据 3. 2.35 DATA 输入数据输入数据 4.21 DATA 3.32 DATA 4. SHIFT 1(数字键)(数字键) 显示计算的显示计算的 5. SHIFT 3 (数字键)(数字键) 显示计算的显示计算的S 6. Kout 3 (数字键
19、)(数字键) 显示计算的显示计算的n 7. Kout 1 (数字键)(数字键) 显示计算的显示计算的xX 2022-6-9362.几何均数几何均数v定义:定义:有些医学资料,如抗体滴度、细菌计数等,其频有些医学资料,如抗体滴度、细菌计数等,其频数分布明显偏态,各观察值之间呈倍数变化(等比关系),数分布明显偏态,各观察值之间呈倍数变化(等比关系),此时宜用几何均数反映其平均增减倍数。此时宜用几何均数反映其平均增减倍数。v计算方法:计算方法: 直接法直接法 加权法加权法v应用:等比资料或对数正态分布资料应用:等比资料或对数正态分布资料(geometric mean)2022-6-937 计算方法:
20、计算方法:v直接法:直接法:直接将直接将n个观察值(个观察值( x1,x2,x3,xn )的乘积)的乘积开开n次次 公式公式 写成对数形式为写成对数形式为 2.几何均数几何均数nnxxxxG.,321)lg(lg)lg.lglg(lg1211nxnxxxGin几何均数:几何均数:变量对数值变量对数值的算术均数的算术均数的反对数。的反对数。2022-6-938v例例3 有有7 7份血清的抗体效价分别为份血清的抗体效价分别为1:21:2,1:41:4,1:81:8,1:161:16,1:321:32,1:641:64,1:1281:128,求平均抗体效价。,求平均抗体效价。 本例先求抗体效价的倒数
21、,再求几何均数本例先求抗体效价的倒数,再求几何均数2.几何均数几何均数16)204. 1 (lg7128lg.4lg2lglg11G血清抗体的平均效价为血清抗体的平均效价为1 1:16162022-6-939计算方法:计算方法:v加权法:加权法:当资料中相同观察值得个数当资料中相同观察值得个数f(即频数)(即频数)较多时,如频数表资料较多时,如频数表资料 写成公式写成公式2.几何均数几何均数)lg(lg1fxfG2022-6-940v例例4 有有6060人的血清抗体效价,分别为人的血清抗体效价,分别为7 7人人1 1:5 5,1111人人 1 1:1010,2222人人1 1:2020,121
22、2人人1 1:4040,8 8人人1 1:8080,求,求平均抗体效价。平均抗体效价。 2.几何均数几何均数705.20)3161.1 (lg)8122211780lg8.10lg115lg7(lg11G6060人的血清平均抗体效价为人的血清平均抗体效价为1 1:20.70520.7052022-6-941 注意事项注意事项 等比资料,如:抗体的平均滴度、药物的平均效价、卫生事等比资料,如:抗体的平均滴度、药物的平均效价、卫生事业平均发展速度、人口的几何增长业平均发展速度、人口的几何增长 对数正态分布:是右偏态分布对数正态分布:是右偏态分布 观察值不能有观察值不能有0 0。因为。因为0 0不能
23、去对数,不能与任何其他数呈倍不能去对数,不能与任何其他数呈倍数关系。数关系。 观察值不能同时有正值和负值。若全是负值,计算是可以把观察值不能同时有正值和负值。若全是负值,计算是可以把负号去掉,得出结果后再加上负号。负号去掉,得出结果后再加上负号。 同一组资料求得的几何均数小于算术均数。同一组资料求得的几何均数小于算术均数。2.几何均数几何均数2022-6-942 若一组数值变量资料为偏态分布,变量为若一组数值变量资料为偏态分布,变量为x x,令,令y=lgxy=lgx后,后,变量变量y y服从正态分布,请问变量服从正态分布,请问变量x x为什么样的偏态分布资料?为什么样的偏态分布资料?2.几何
24、均数几何均数正偏态分布正偏态分布正态分布正态分布变量变量y 服从服从则变量则变量x服从服从抗体滴度抗体滴度 人数人数, ,f f 滴度倒数滴度倒数, ,X X lglgX X1:2.51:101:401:1601:640 合计合计141822126722.510.040.0160.0640.00.39791.00001.60212.20412.8062102.1032 2022-6-9433.中位数和百分位数中位数和百分位数v(1)中位数)中位数 定义:定义:是将一组观察值从小到大按顺序排列,位次居是将一组观察值从小到大按顺序排列,位次居中的中的观察值观察值就是中位数。就是中位数。 例:例:(
25、 ((median percentile)) ) X X: 5 5,5 5, 6 6, 7 7, 2020, 位次:位次: 1 2 3 4 51 2 3 4 5中位数中位数(M): 6 66.56.523 23 6 62022-6-944(1)中位数)中位数 计算方法: 直接由原始数据计算中位数先将观察值按大小顺序排列,再按下面公式计算:212221nnnXXMnXMn为偶数时:为奇数时:为为相相应应为为此此上上的的观观察察值值位位次次为为有有序序数数列列中中观观察察值值的的12221)12()2()21(nnnxxxnnn、2022-6-945 例例5 有有7 7名正常人的血压(舒张压)测定
26、值名正常人的血压(舒张压)测定值(mmHgmmHg)为:)为:72,75,76,77,81,82,8672,75,76,77,81,82,86,求中位数。,求中位数。v解:解:n=7 n=7 为奇数为奇数 变量变量x: 72,75,76,77,81,82,86x: 72,75,76,77,81,82,86 位位 次:次: 1 2 3 4 5 6 71 2 3 4 5 6 7(1)中位数)中位数7742172121xxxMXMnnn为奇数时: 请大家思考下:计算中位数和其他平均数有什么不同?请大家思考下:计算中位数和其他平均数有什么不同?特点:仅特点:仅利用了中利用了中间的间的1 12 2个数据
27、个数据2022-6-946 计算方法:计算方法: 用频数表计算中位数,用频数表计算中位数,按所分组段,由小到大计算累计频数和累计频率。按所分组段,由小到大计算累计频数和累计频率。再按下面公式计算为:再按下面公式计算为:(1)中位数)中位数mLffniLMM%50数数所所在在组组段段下下限限值值间间的的频频) )至至该该下下限限值值得得累累计计频频数数5 50 0% %( (n n组组距距所所在在组组段段下下限限值值2022-6-947下限值下限值L L上限值上限值U Ui; fm中位数中位数M M)%50(LfnmLffniLMM%50数数所所在在组组段段下下限限值值间间的的频频) )至至该该
28、下下限限值值得得累累计计频频数数5 50 0% %( (n n组组距距所所在在组组段段下下限限值值(1 1)中位数)中位数2022-6-9480 2.27 4.55 10.61 28.03 46.21 65.15 80.30 89.39 96.97 (1 1)中位数)中位数累计频数累计频数3 6143761861061181281324.6425610.51320.204.60mLffniLM%502022-6-949(1 1)中位数)中位数1. 反映了位次反映了位次居中的观察值的水平居中的观察值的水平 优点:不受两端特大值和特小值影响优点:不受两端特大值和特小值影响 缺点:并非考虑到每个观测
29、值缺点:并非考虑到每个观测值2. 适用于各种分布类型的资料,适用于各种分布类型的资料, 特别适合于:特别适合于:大样本偏态分布资料大样本偏态分布资料 或者一端或者一端/两端无确切数值的资料两端无确切数值的资料 3.中位数和算术均数再对称分布的资料中,理论上数值是相中位数和算术均数再对称分布的资料中,理论上数值是相 同的同的中位数的特征中位数的特征2022-6-950(2 2)百分位数)百分位数v定义:定义:是一种位置指标,用是一种位置指标,用 P PX X 来表示。来表示。将将n n个变量值从小到大依次排列,再把它们的位次转换为百分位。个变量值从小到大依次排列,再把它们的位次转换为百分位。对应
30、于对应于X%X%位次的数值即为第位次的数值即为第X X百分位数。百分位数。 变量值:变量值: 5 5 8 89 758 位位 次:次: 1 2 3 75 150 百分位次:百分位次:0.7% 1.3% 2% 50% 100%2022-6-951百百分分数数示示意意(100-x)%x%位位图图(2 2)百分位数)百分位数 一个一个PX将全部变量值分为两部分,在不包含将全部变量值分为两部分,在不包含 PX的全部变量值中有的全部变量值中有X%的变量值比它小,的变量值比它小, 有有(100-X)%的变量值比它大。的变量值比它大。 PX是一是一个界值。个界值。2022-6-952(2 2)百分位数)百分
31、位数v计算方法计算方法 频数表法频数表法 公式如下公式如下)%(LxxfxnfiLxPLx:第:第X百分位数所在组段的百分位数所在组段的下限下限ix:第:第X百分位数所在组段的百分位数所在组段的组距组距fx:第:第X百分位数所在组段的百分位数所在组段的频数频数 :第:第X百分位数所在组段百分位数所在组段上一组段累计频数上一组段累计频数Lf2022-6-953l例例3 某传染性疾病的潜伏期(天)见表某传染性疾病的潜伏期(天)见表8-38-3,求,求平均潜伏期和潜伏期的第平均潜伏期和潜伏期的第2525、7575与与9595百分位数百分位数P P2525,P P7575,P P9595。(2 2)百
32、分位数)百分位数2022-6-954(2 2)百分位数)百分位数天06.4)26%25110(482425P天68.6)74%75110(252675P天83.9)99%95110(62895P2022-6-9551、四分位数(四分位数(Quartile)(三个四分位数)(三个四分位数)2、十分位数、十分位数(Centile): 9个十分位数个十分位数3、百分位数(、百分位数(Percentile)99个百分位数个百分位数(2 2)百分位数)百分位数80P100P0P90P50P60P70P40P30P20P10PP P5050P P2525P P75752022-6-956v百分位数是用于描
33、述样本或总体观察值序列在某百分百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的是位置的水平,最常用的是P P5050即中位数;多个百分位数即中位数;多个百分位数结合应用时,可更全面地描述总体或样本的分布。结合应用时,可更全面地描述总体或样本的分布。v百分位数常用于确定医学参考值范围(百分位数常用于确定医学参考值范围(reference reference rangesranges),(,(下节后述下节后述) )。v一般,分布中部的百分位数相当稳定,具有较好的代一般,分布中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只在样本例数足够多表性,但靠近两端的百分位数
34、,只在样本例数足够多时才比较稳定。因此,样本例数不够多时,不宜取太时才比较稳定。因此,样本例数不够多时,不宜取太近两端的百分位数。近两端的百分位数。(2 2)百分位数)百分位数2022-6-957常用平均数的意义及其应用场合常用平均数的意义及其应用场合平平均均数数 意意义义 应应用用场场合合 均均数数 平平均均数数量量水水平平 应应用用甚甚广广,适适用用于于对对称称分分布布,特特别别是是正正态态分分布布 几几何何均均数数 平平均均增增(减减)倍倍数数 等等比比资资料料 ;对对数数正正态态分分布布 中中位位数数 位位次次居居中中的的观观察察值值水水平平 偏偏态态资资料料 ;分分布布不不明明 ;分
35、分布布末末端端无无确确定定值值 小小 结结2022-6-958第三节第三节 离散趋势指标离散趋势指标平均水平的指标只是描述了一组数据的集中趋势指标,平均水平的指标只是描述了一组数据的集中趋势指标,可以作为总体的一个代表值,那么这组观察值之间的可以作为总体的一个代表值,那么这组观察值之间的是否存在差异?描述差异的指标有哪些呢?差异究竟是否存在差异?描述差异的指标有哪些呢?差异究竟有多大?如何计算?有多大?如何计算?2022-6-959第三节第三节 离散趋势指标离散趋势指标420440460480500520540560580盘号盘号 甲甲乙乙丙丙1560520510254051050535005
36、0050044604904955440480490合计250025002500均数均数500500500例:例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数数,每人数5 5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm/mm3 3)甲甲乙乙丙丙2022-6-960描述计量资料数据间离散程度的指标描述计量资料数据间离散程度的指标 变异变异指标。指标。常用的指标:常用的指标: 极差极差 四分位间距四分位间距 方差方差 标准差标准差 变异系数。变异系数。第三节第三节 离散趋势指标离散趋势指标2022-6-9611.极差极差v定义:
37、定义:亦称为全距,即一组观察值中最大值与最小亦称为全距,即一组观察值中最大值与最小值之差值之差v计算方法计算方法: RXMaxXMin v意义意义: R R值越大,表示该组数据的变异越大。值越大,表示该组数据的变异越大。v缺点缺点: 数据利用不全,仅利用了两个极端值数据利用不全,仅利用了两个极端值, ,部分信部分信息损失,在例数少时结果不稳定。息损失,在例数少时结果不稳定。(Range)2022-6-9621.极差极差v例例 三组同龄男孩的身高值(三组同龄男孩的身高值(cmcm) R 甲组 90 95 100 105 110 100 20 乙组 96 98 100 102 104 100 8
38、丙组 96 99 100 101 104 100 8x2022-6-9632、四分位数间距、四分位数间距v 四分位数(四分位数( quartile ):):可看作特定的百分位数,第可看作特定的百分位数,第2525百分位数百分位数P P2525, ,表示全部观察值中有表示全部观察值中有2525(四分之一)的(四分之一)的观察值比它小,为下四分位数观察值比它小,为下四分位数, ,记做记做Q QL L ; ;同理第同理第7575百分位数百分位数P P7575为上四分位数,记做记做为上四分位数,记做记做Q Qu u ; ;v四分位数间距四分位数间距,简记为简记为Q,Q,第第7575百分位数与第百分位数
39、与第2525百分位百分位数之差。数之差。(inter-quartile range)P P5050P P2525P P75752022-6-964v计算方法计算方法:Q= Qu QL=P75%-P25%v意义意义: Q值越大,表示该组数据的变异度越大。值越大,表示该组数据的变异度越大。v优点:优点:1. 四分位数间距包括了全部观察值的一半,因此四分位数间距包括了全部观察值的一半,因此也可看成是中间一半观察值的极差。也可看成是中间一半观察值的极差。 2.四分位数间距作为说明个体差异的指标,比极差稳定。四分位数间距作为说明个体差异的指标,比极差稳定。v缺点:缺点:未考虑到每个观察值的变异度未考虑到
40、每个观察值的变异度大。大。v应用:应用:常用于表示常用于表示偏态分布资料偏态分布资料的变异。的变异。2、四分位数间距、四分位数间距2022-6-965v例例7 利用表计算四分位数间距利用表计算四分位数间距Q Q。2、四分位数间距、四分位数间距(天)天天62. 206. 468. 6257568. 6,06. 4PPQQQLU75U25LPQPQ2022-6-966v极差仅采用了观察值中的最大值和最极差仅采用了观察值中的最大值和最小值;而四分位数间距也仅仅采用了小值;而四分位数间距也仅仅采用了上、下四分位数,均没有考虑每个观上、下四分位数,均没有考虑每个观察值,因此这两项指标察值,因此这两项指标
41、不能全面反映不能全面反映资料的离散程度。资料的离散程度。第三节第三节 离散趋势指标离散趋势指标2022-6-9673.方差方差v 若要克服以上缺点,就必须全面考虑到每一个观察值。若要克服以上缺点,就必须全面考虑到每一个观察值。v 可用总体中每一个观察值可用总体中每一个观察值x xi i与总体均数与总体均数 ,之差的总和之差的总和(离均差总和),反映资料的离散程度,但(离均差总和),反映资料的离散程度,但v 若计算离均差平方和若计算离均差平方和 ,结果就不为,结果就不为0 0,但受到,但受到样本例数多少的影响,为了消除这一影响,就取样本例数多少的影响,为了消除这一影响,就取离均差平离均差平方和的
42、均数方和的均数,该指标简称为方差(,该指标简称为方差(variancevariance)。)。v总体方差用总体方差用2 2 表示,样本方差用表示,样本方差用S S2 2表示。表示。 0)(x02)(x(variance)2022-6-9683.方差方差公公 式式奇怪:为什么样本方差是除以奇怪:为什么样本方差是除以n-1呢?呢?后述后述11)()-()-()square of sum(0)-(22222nnxxnxxNxxSSx2 22 2样样本本方方差差S S总总体体方方差差 离离均均差差平平方方和和离离均均差差和和2022-6-969 方差方差 (variance)是全部观察值的离均差平方和
43、是全部观察值的离均差平方和的均值。表示一组数据的平均离散情况。的均值。表示一组数据的平均离散情况。v特点:特点: 方差的分子方差的分子离均差平方和,是将每一个观察离均差平方和,是将每一个观察值与均数作差之后平方:值与均数作差之后平方:反映了全部观察值的离反映了全部观察值的离散程度散程度;但同时也将变量值的度量衡;但同时也将变量值的度量衡单位平方单位平方了,了,变成了(变成了(m m)2 2、(、(kgkg)2 23.方差方差唉!这个指标还是不够尽善尽美,继续探索唉!这个指标还是不够尽善尽美,继续探索2022-6-9704.标准差标准差v方差的单位是原度量衡单位的平方,为了用原单方差的单位是原度
44、量衡单位的平方,为了用原单位,就把总体方差开平方,取其正的平方根,这位,就把总体方差开平方,取其正的平方根,这就是就是总体标准差总体标准差,用,用表示表示:(standard deviationstandard deviation)Nx2)(其单位与原变量其单位与原变量x x的单位相同。的单位相同。2022-6-971v 总体标准差总体标准差在实际的应用当中只是个在实际的应用当中只是个“理论值理论值”。v 因为实际工作中常常得到的是样本资料,因为实际工作中常常得到的是样本资料, 不知道的,只能用不知道的,只能用样本均数样本均数 来估计,这样就用来估计,这样就用 代替代替 ,用样本例数用样本例数
45、n n代替代替N N,但这样计算得结果常比真实的,但这样计算得结果常比真实的低,英低,英国统计学家国统计学家W.S.GossetW.S.Gosset提出用样本例数提出用样本例数n-1n-1代替代替n n来校正。来校正。v 应用更多的是样本标准差应用更多的是样本标准差S S。4.标准差标准差11)(222nnxxnxxS122nnfxfxS频数频数表资表资料料基本基本公式公式x0)(xx0)(x样本方差为什么要除以(样本方差为什么要除以(n n1 1) 与自由度(与自由度(degrees of freedomdegrees of freedom)有关。)有关。 自由度是统计学术语,其意义是自由度
46、是统计学术语,其意义是随机变量能自由取值的随机变量能自由取值的个数个数。如:。如:n n个数据如不受任何条件的限制,则个数据如不受任何条件的限制,则n n个数据可取个数据可取任意值,称为有任意值,称为有n n个自由度。若受到个自由度。若受到k k个条件的限制,就只有个条件的限制,就只有(n nk k)个自由度了。)个自由度了。4.4.标准差标准差如有一个如有一个n=4数据样本,受到数据样本,受到 5的条件限制,在自由确定的条件限制,在自由确定4,2,5三个数据之后,第四个数据只能是三个数据之后,第四个数据只能是9,否则均数不是,否则均数不是5,推而广之,推而广之,任何统计量的任何统计量的v=n
47、-限制条件的个数。限制条件的个数。x 计算标准差时,计算标准差时,n n个变量值本身有个变量值本身有n n个自由度。但受到样个自由度。但受到样本均数的限制,任何一个本均数的限制,任何一个“离均差离均差”均可以用另外的(均可以用另外的(n n1 1)个)个“离均差离均差”表示,所以只有(表示,所以只有(n n1 1)个独立的)个独立的“离均差离均差”。因此只有(。因此只有(n n1 1)个自由度。)个自由度。2022-6-9722022-6-973v例例8 有三组成人的舒张压资料(见表有三组成人的舒张压资料(见表8.48.4),求全距、),求全距、方差和标准差,进行比较。方差和标准差,进行比较。
48、4.标准差标准差编号编号甲组甲组乙组乙组丙组丙组甲甲2乙乙2丙丙216060603600360036002666872435646245184375757556255625562548279776724624159295868686739673967396合计合计3693683702770127486277342.117155/3692770112222nnxxS甲83.102.117甲S2022-6-974编号编号甲组甲组乙组乙组丙组丙组甲甲2乙乙2丙丙2160606036003600360026668724356462451843757575562556255625482797767246
49、24159295868686739673967396合计合计369368370277012748627734全距全距262626方差方差117.2100.388.5标准差标准差 10.8310.019.414.标准差标准差三组舒张压值的三组舒张压值的全距全距R R相同,不能反映出相同,不能反映出各组数据的离散程度的区别;各组数据的离散程度的区别; 方差和标准差考虑了每个数据和均数的相差情况,方差和标准差考虑了每个数据和均数的相差情况,三组的三组的S S2 2和和S S明显不同,明显不同,全面的反映了资料的变异情况全面的反映了资料的变异情况。2022-6-975v例例 利用表利用表8-28-2资
50、料和加权法计算标准差。资料和加权法计算标准差。4.标准差标准差LmmolnnfxfxSxfxffiiiii/40066.01132132/2 .61492.2878192.2878,2 .614,13222222022-6-976v意义:意义:从上例可以看出,方差、标从上例可以看出,方差、标准差越大,其观察值之间的变异就准差越大,其观察值之间的变异就越大,则平均数的代表性就越差。越大,则平均数的代表性就越差。4.标准差标准差2022-6-977 用用 途:途:v反映一组观察值的离散程度,标准差小,反映一组观察值的离散程度,标准差小,数据间的离散程度小,均数的代表性好。数据间的离散程度小,均数的