1、第五章 统计分布特征的描述:平均指标和变异指标安徽财经大学统计与应用数学学院第五章 统计分布特征的描述n第一节 集中趋势的测度:平均指标n第二节 离散趋势的测度:变异指标第一节 集中趋势的测定:平均指标n一、平均指标的概念和作用 n二、算术平均数n三、调和平均数n四、几何平均数n五、众数n六、中位数n七、各种平均数之间的相互关系上一页下一页返回本章首页一、平均指标的概念和作用概念概念:平均指标是指将同质总体内各单位的数量差异抽象化,反映总体一般水平或集中趋势的统计指标所谓集中趋势,指一组数据向某一中心值靠拢的倾向,测度集中趋势,也就是寻找数据的一般水平的代表值或中心值。上一页下一页返回本节首页
2、2、作用、作用n(1)使范围不同的总体具有可比性。n(2)反映总体各单位的一般水平这一综合特征,抽象掉了个体差异。n(3)反映总体分布的集中趋势。即如果以总体单位某一标志的平均数为中心线,则总体各单位的标志值主要分布于中心线及其上下附近,而远离中心线的标志值较少。(三)平均指标的种类三)平均指标的种类 数值平均数:数值平均数:根据统计数列中的各项数据计算出的平均数。主要有:算术平均数算术平均数、调调和平均数和平均数、几何平均数几何平均数。位置平均数位置平均数:将各单位标志值排序后,取得某一位置的标志值作为反映一般水平的代表值。有:众数、中位数众数、中位数。二、算术平均数(Arithmetic
3、Mean)上一页下一页返回本节首页n基本公式基本公式n例如:q平均工资=企业工资总额/工人数,q平均成绩=成绩总分/学生人数n注意区分算术平均数和强度相对数;总体单位总量总体标志总量算术平均数 n算术平均数和强度相对指标的区别:n(1)含义和作用不同:q强度相对指标表明现象程度发展的强度、密度或普遍程度;q而平均指标则表明同类现象在一定时间、地点条件下所达到的一般水平。n(2)计算方法不同。q强度相对指标的分子与分母分别来自不同的总体,一般没有直接的依存关系,且有的强度相对指标分子分母可以对换,即强度相对指标可以计算正指标或逆指标;q而平均指标的分子是总体总量指标,分母则是同一总体内的总体单位
4、总量,两者具有密切的关系,且平均指标的分子分母不能互换。n(3)计量单位表示不同。q强度相对指标一般为复名数,有时为无名数;平均指标则为单名数。n(二)、算术平均数的计算(二)、算术平均数的计算n1.简单算术平均数简单算术平均数n计算公式:n适用条件:未分组的原始资料NXNXXXXNiiN121例1:某企业一生产班组共5人,他们在2000年9月的月工资分别为1700元,1900元,1500元,1850元,2200元。则他们的月平均工资为:)(1830522001850150019001700元nxx例例2:n班级平均年龄:)(65.212020202321211岁NXXNii)(6135.12
5、073.158.158.143.152.11米NXXNiin班级平均身高:n加权算术平均数加权算术平均数n计算公式计算公式:miiimiimiimiiimmmffXffXffffXfXfXX1111212211XiXifimi适用条件适用条件:分组资料分组资料例例1:单项式数列:单项式数列 某班学生年龄情况表某班学生年龄情况表按年龄分组(岁)人数(人)比重()20212223552825251040合计20100分组分组频数频数频率频率n求学生的平均年龄n解:(1)绝对权数n(2)相对权数)(65.21825582322252152011岁niiniiiffXX65.21%4023%1022%
6、2521%252011niniiiiffXX例例2 2:组距式数列(等距数列):组距式数列(等距数列)某班学生身高情况表按身高分组(米)组中值人数(人)比重()1.41.51.51.61.61.71.71.81.81.91.451.551.651.751.85464422030202010合计20100分组分组频数频数频率频率组中值组中值n求学生的平均身高n解:(1)绝对权数n(2)相对权数)(62.124464285.1475.1465.1655.1445.111米niiniiiffXX)(62.1%1085.1%2075.1%2065.1%3055.1%2045.111米niniiiiff
7、XXn例3:某班英语成绩整理如下,求学生英语平均成绩.n解(1)绝对权数n(2)相对权数)(4.7511分niiniiiffXX)(4.7511分niiiniiffXX分析如下:(1)平均什么什么就是标志值,标志值出现的次数即为权数 (2)影响算术平均数大小的因素有二:q变量值x的大小。n变量值越大平均数越大q各组次数或频率,又称权数。n权数越大的标志值对平均数影响越大,实际上权数的大小反映了标志值的重要性,因此权数也称为权重系数。n各组频率也即相对权数更能体现权衡轻重的本质。加权算术平均数有两种变形:q当权数用相对数时 q当f1=f2=f3=fn时,权数的作用消失,加权平均数=简单平均数n(
8、3)组距数列计算加权算术平均数时,假定该组标志值是完全均匀分布的,以各组的组中值为各组变量值,计算的平均数是近似值。ffxfxfxn(四).算术平均数的数学性质:变量值与其算术平均数的离差之变量值与其算术平均数的离差之和衡等于零,即:和衡等于零,即:变量值与其算术平均数的离差平变量值与其算术平均数的离差平方和为最小,即:方和为最小,即:0)(0)(fxxxx或min)(min)(22fxxxx或n算术平均数的缺点:易受极端值的影响张庄有个张千万,张庄有个张千万,九个邻居穷光蛋;九个邻居穷光蛋;平均起来算一算,平均起来算一算,个个都是张百万。个个都是张百万。去掉一个最高分去掉一个最高分去掉一个最
9、低分去掉一个最低分三号选手最后得三号选手最后得分分.三、调和平均数(Harmonic Mean)n调和平均数调和平均数:(二二)简单调和平均数简单调和平均数n计算公式计算公式:XmXXXmXmH111121iiXmHX适用条件:已知各组的代表变量值x和标志总量xf,且各组的标志总量恰好相等.n计算举例计算举例1:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1斤,求平均价格。n例2:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1元,求平均价格。n在例1中,用简单算术平均数0.5 1 0.4 1 0.25
10、11 1 10.50.40.2530.38xfxf 元在例2中,先求早、中、晚购买的斤数。早 1/0.5=2(斤)中 1/0.4=2.5(斤)晚 1/0.25=4(斤)1111 1 130.3511118.50.50.40.25miiimmiiiiiix fmxx fxx 元实际上,例2是用下列公式计算:1hmXX这就是简单调和平均数的公式。上一页下一页返回本节首页n(三三)加权调和平均数加权调和平均数n计算公式计算公式:n适用条件适用条件:分组资料,且已知各组的代表变量值(x)和标志总量(xf).上一页下一页返回本节首页mXmXmXmXmmmmXmmmH1221121imiXiin计算举例计
11、算举例:n例3:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买2元、3元、4元,求平均价格。元33.05.27925.044.035.02432hXn说明n(1)社会经济统计中所应用的调和平均数通常是加权算术平均数的变形,已知各组变量值 xi 和(xi fi)而缺乏 fi 时,加权算术平均数通常可变形为调和平均数形式来计算。q在已知每种价格x、销售量f时,求平均价格用加权算术平均数。q在已知每种价格x、销售额m时,求平均价格用加权调和平均数。n(2)简单调和平均数实际上是加权调和平均数的一种特例,即各组标志总量相等时出现阶的一种特殊情况.fxfxhX
12、XmmxfxxffxfX1上一页下一页返回本节首页n(四)相对指标的平均数(四)相对指标的平均数n算术平均数与调和平均数不仅可以用于计算严格意义上的静态平均指标(单位标志平均数),而且常可用来计算其它相对指标或时间数列的平均数。这时平均数仅仅是种计算形式,计算的结果并不要求它们符合平均指标的基本规定(总体标志总量/总体单位总量)。n相对指标平均数的计算形式应该根据相对指标的相对指标平均数的计算形式应该根据相对指标的对比关系来确定。对比关系来确定。企业数(个)实际产值(万元)5103057007.510207020500152030502250025合计15048700某行业产值和利润情况表产值
13、利润率(%)组中值(%)一季度%47.18487005.9127225002050057002250025.02050015.05700075.0:%100:fxf产值利润率一季度平均则实际产值实际利润产值利润率为产值利润率的其本公式企业数(个)实际利润(万元)510507107.5102080351415203020225025合计1506474某行业产值和利润情况表二季度产值利润率(%)组中值(%)%45.153.41893647425.0225015.03514075.071022503514710:%100:产值利润率二季度平均则实际产值实际利润产值利润率为产值利润率的其本公式四、几何
14、平均数(Geometric Mean)n几何平均数 n个变量值连乘积的n次方根。q简单几何平均数nniinnGxxxxx121.q加权几何平均数niiikkfnififfffkffGxxxxx1212!1).(21.q适用于。例1n某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合格率。n解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:%31.90%9692%90%85885Gx 例例2:银行对某笔投资的年利率按复利计算,:银行对某笔投资的年利率按复
15、利计算,25年利率如下,问该笔投资的年利率如下,问该笔投资的25的平均年利率的平均年利率为多少?为多少?解:=1.086n结论:25年的平均利率为8.6%25210841.15 1.101.081.051.03G五、众数(Mode)和中位数(Median)n(一一)众数众数(Mode)n1.概念概念:众数是总体中出现次数最多的标志值(或属性表现)。有关购买软饮料的频数分布有关购买软饮料的频数分布软饮料购买数量可口可乐百事可乐非常可乐雪碧鲜橙多娃哈哈19(最频繁购买的软饮料)(最频繁购买的软饮料)851373总计55众数的不惟一性众数众数无众数无众数众数众数 1众数众数2n2.众数的特点特点:n
16、是一种位置平均数,不受极端值的影响.n众数具有不惟一性:它可能为一个,也可能为多个,也可能没有众数.n众数可以用于各种计量尺度(定类、定序、定距和定比)的数据。3、众数的确定众数的确定n(1)单项数列众数的确定。n在单项式数列中,确定众数的方法比较简单,可以用观察法直接确定众数,即指出次数最多的标志值即为众数。n例如,某企业工人日产量资料如下表:n例1.已知某企业某日工人的日产量资料如下:0M n先确定众数组,然后推算出众数的近似值。n计算众数的近似值主要有两种方法。当组距式数列次数分布对称时,可以用众数组的组中值作为众数的近似值。当组距式数列次数分布不对称时,可以当组距式数列次数分布不对称时
17、,可以利用相应的计算公式计算众数的近似值。利用相应的计算公式计算众数的近似值。(2)组距数列众数的确定其近似公式推导下限公式:下限公式:上限公式:上限公式:例如,某企业职工月工资资料如下表:例如,某企业职工月工资资料如下表:57.1657)16001700()2135()1635()1635(1600211dLMO57.1657)16001700()2135()1635(21351700212dUMOn(二)中位数(二)中位数(Median)n1.概念概念:将总体各单位按其标志值大小排列,居于中间位置的那个标志值标志值就是中位数。n2.作用作用:对对分布数列的总次数进行二等分,标志值小于中位数
18、和大于中位数的次数各一半。上一页下一页返回本节首页(1)根据原始数据计算中位数q先将数据排序(特别重要!)qn为奇数时等于第(n+1)/2个数。qn为偶数时等于第n/2和n/2+1个数的平均值1,2,5,9,11中位数中位数=51,2,5,9,11,18中位数中位数=(5+9)/2=7121222nennxnMxxn为奇数为偶数(2)单项式分组资料中位数的确定n先计算向上累计次数(或向下累计次数)n当f为奇数时,中位数在第 项,该项所对应的标志值即为中位数。n当f为偶数时,中位数在第 项,该项所对应的标志值即为中位数。21f2f假定某企业职工生产一产品的日产量资料如下表:假定某企业职工生产一产
19、品的日产量资料如下表:11212121fMe=163)组距式分组资料确定中位数eeeeMMMMedfSfLM12eeeeMMMMedfSfUM12第一步:计算向上累计次数(或向下累计次数)第二步:确定中位数所在组,第三步:计算中位数1eMS2feMS月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)200以下以下200400400600600以上以上373283104250合计合计50XfdfSfLMmme12 件75.4934006003210250400eM月产量(件)月产量(件)工人人数(人)工人人数(人)向下累计次数向下累计次数(人)(人)200以
20、下以下200400400600600以上以上373285047408合计合计50XfdfSfUMmme12 件75.493400600328250600eMn中位数的特点:中位数的特点:q是位置平均数,可以避免数列中极端值的影响。q具有惟一性。n中位数的适用场合中位数的适用场合:q要求数据至少是定序数据。q对于明显呈偏态分布的变量数列,也适于用中位数代表其一般水平。小案例:揭秘工资被增长原因:平均工资不能反映个体水平n“其实,平均工资只是宏观经济发展的参考,并不能反映个体工资水平,这也是很多人感觉工资被增长的原因”,昨日,在四川省统计局举行的“中国统计开放日”上,省统计局相关负责人表示。解放军
21、信息工程大学魏振军教授认为,用“中位数”反映工资平均水平更为恰当。n省统计局相关负责人以“统计数据背后的故事”为题,阐述了统计数据产生的来源、流程以及容易被社会公众误解的地方,同时还对“被增长”的平均工资专门做出解释。社会平均工资统计的组成通常分为5大类:国有单位职工工资、城镇集体单位职工工资、三资企业职工工资、私营单位员工工资和有雇佣关系的劳动个体工资,平均工资的计算原理基本上是这5大类的工资总和除以总人数。省统计局相关负责人表示,如此一来,由于是相对的简单平均,导致了这个数据与很多人的真实收入有些差距。n“以往公布的社会平均工资只有前3类,今年国家统计局将私营单位员工工资计入其中。”由于统
22、计口径的改变,也导致了去年的全省社会平均工资比2008年社会平均工资有所降低。n尽管如此,魏振军认为,采用平均值的方式反映工资收入水平仍不合理,“如一个单位有23个人工作,其中10个人每个月100元收入,5个人200元,6个人250元,1个人1000元,领导2400元,平均值就是300元,但绝大部分人没有达到平均水平”。她引入了另两个概念众数和中位数。众数就是“出现最多的月收入,如例子中的100元”,而中位数就是处于中间水平的那个数,“例子中的250元就是中位数”。她说,从中可以看出,众数最能反映大多数工资水平,而中位数反映平均工资水平更为恰当,“因为很多人关心的是众数或者中位数,被扭曲的平均
23、值工资则毫无价值”。小案例:香港工资统计公布n根据政府统计处今日(三月十八日)公布的数字,二零零九年第二季本港的雇员人数(不包括留宿家庭佣工、政府雇员、雇主及自营作业者)为2 776 600人,而这些雇员的每小时工资中位数为$58.5(港元)。在二零零九年第二季,本港雇员每小时工资的第10个百分位数、第25个百分位数、第75个百分位数及第90个百分位数分别为$27.0、$38.9、$96.0及$171.8。把所有雇员的每小时工资按数值从小至大排列,每小时工资中位数是指排列在中间位置的雇员的每小时工资。换言之,每小时工资中位数即是把所有雇员中每小时工资水平最低的50%划分出来的每小时工资数值。每
24、小时工资百分位数对描述雇员的每小时工资分布非常有用。每小时工资的第p个百分位数即指把所有雇员中每小时工资水平最低的p%划分出来的每小时工资数值,而p可以是1至99之间任何一个整数值。举例说,每小时工资的第10个百分位数就是把所有雇员中每小时工资水平最低的10%划分出来的每小时工资数值。每小时工资的第25个、50个及75个百分位数,分别称为每小时工资下四分位数、中位数及上四分位数。*知识拓展:分位数(Quantile)n把顺序排列的一组数据分割为若干相等部分的分割点的数值把顺序排列的一组数据分割为若干相等部分的分割点的数值。n分位数可以反映数据分布的相对位置(而不单单是中心位置)。分位数可以反映
25、数据分布的相对位置(而不单单是中心位置)。q四分位数:四分位数:将按大小顺序排列的观测值划分为将按大小顺序排列的观测值划分为4个等分,位于全部数据个等分,位于全部数据1/4、2/4和和3/4位置上的位置上的3个数值就称为四分位数,分别以个数值就称为四分位数,分别以Q1,Q2,Q3代表第代表第1个,第个,第2个,第个,第3个四分位数个四分位数。q十分位数:十分位数:将按大小顺序排列的观测值划分为将按大小顺序排列的观测值划分为10个等分,位于全部数据个等分,位于全部数据1/10、2/10,9/10位置上的位置上的9个数值就称为十分位数,分别以个数值就称为十分位数,分别以D1,D2,D9代表第代表第
26、1个,第个,第2个,个,第,第9个十分位数个十分位数。q百分位数:百分位数:将按大小顺序排列的观测值划分为将按大小顺序排列的观测值划分为100个等分,位于全部数据个等分,位于全部数据1/100、2/100,99/100位置上的位置上的99个数值就称为十分位数,就称为百个数值就称为十分位数,就称为百分位数,分别以分位数,分别以P1,P2,P99代表第代表第1个,第个,第2个,个,第,第99个百分个百分位数位数。n几个关系:几个关系:qMe=Q2=D5=P50。qQ1=P25qQ3=P75n分位数与其它指标结合,可以更详细地反映数据的分布特征。分位数与其它指标结合,可以更详细地反映数据的分布特征。
27、四分位数(Quartile)n数据按大小顺序排序后把分割成四等分的三个分割点上的数值。n在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。对原始数据:qSPSS中四分位数的位置为(n+1)/4,2(n+1)/4,3(n+1)/4。qExcel中四分位数的位置分别为(n+3)/4,2(n+1)/4,(3 n+1)/4。n如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。四分位数计算(例子)排序后的数据:2,5,6,7,8,9,10,12,15,1625.84)110(35.54)110(275.24110321位置位置位置QQQ不能整除时需加权平均:75.12)
28、1215(25.0125.82/)98(75.5)56(75.05321QQQ位置 2 2.75 3 数值 5 60.75(6-5)=0.75拓展:五数概括法n五数概括法即用下面的五个数来概括数据:q最小值(minimum)q第1四分位数(Q1);q中位数(Q2);q第3四分位数(Q3);q最大值(maximum)n利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。xmin Q1 Me Q3 xmax例:某班学生成绩盒式图5060708090100score9 99 9%9 99 9 1 10 00 0 K Ku ur rt to os si is s 4
29、 4.5 52 28 81 18 84 49 95 5%9 99 9 9 99 9 S Sk ke ew wn ne es ss s -1 1.3 33 32 26 64 41 19 90 0%9 98 8 9 99 9 V Va ar ri ia an nc ce e 9 90 0.5 53 34 42 25 57 75 5%9 96 6 9 99 9 L La ar rg ge es st t S St td d.D De ev v.9 9.5 51 14 49 94 49 95 50 0%9 91 1 M Me ea an n 8 88 8.5 58 80 09 95 52 25 5%8
30、 85 5 6 64 4 S Su um m o of f W Wg gt t.1 10 05 51 10 0%7 75 5 6 63 3 O Ob bs s 1 10 05 5 5 5%6 69 9 6 62 2 1 1%6 62 2 5 54 4 P Pe er rc ce en nt ti il le es s S Sm ma al ll le es st t s sc co or re e众数、中位数和算术平均数的关系_23xMMeo0_MMxe对称分布对称分布 均值均值=中位数中位数=众数众数分配为钟形、轻微不对称的经验公式:分配为钟形、轻微不对称的经验公式:)(2_xMMMeeo左
31、偏分布左偏分布均值均值 中位数中位数 众数众数0_MMxe右偏分布右偏分布众数众数 中位数中位数均值均值_0 xMMe小结:平均数、中位数、众数的特点1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个前提条件:q(1)数据项数众多;q(2)数据具有明显的集中趋势。3.算术平均数只能用于定量(定距和定比)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据。n4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。q为了排除极端值的干扰,可计
32、算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值.q切尾均值是将均值与中位数取长补短的结果。n5.算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。第四节 变异指标一、变异指标的概念和作用二、全距三、平均差四、标准差五、离散系数六、用EXCEL计算描述统计量 上一页下一页返回本章首页一、变异指标的概念和作用1.概念n变异指标又称标志变动度,是度量总体各单位标志值分散程度或离中趋势的指标,是表明总体分布状况的另一重要特征值。n例某车间两个生产小组各人日产量如下:n甲组:20,40,60,70,80,100,120n乙组:67,68,69,70,71,72,73从下
33、图可以看出甲组离散程度大,乙组离散程度小。上一页下一页返回本节首页上一页下一页返回本节首页2.变异指标的作用变异指标的作用n(1)说明数据的分散程度,反映变量的稳定性、均衡性。q数据之间差异越大,变量的稳定性或均衡性越差。n(2)衡量平均数的代表性。q离散程度越大,平均数的代表性就越小。n(3)统计推断的重要依据q判别统计推断前提条件是否成立,q衡量推断效果好坏的重要尺度 上一页下一页返回本节首页3.变异指标的种类:变异指标的种类:常见的变异指标有:全距(极差),四分位差、平均差,标准差,方差等,其中标准差是最为重要的变异指标。二、全距(Range 极差)n1.全距的概念与计算全距的概念与计算
34、n全距是总体各单位标志的最大值和最小值之差。R=Xmax-Xminn若是组距式数列计算极差,这时可用最大组的上限和最小组的下限计算极差的近似值。n即:RUmaxLminn优缺点:计算简便、含义直观、容易理解。它未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。上一页下一页返回本节首页三、四分位差n第3四分位数(Q3)与第1四分位数(Q1)之差,常用Qd表示。计算公式为:n实质上是两端各去掉四分之一的数据以后的极差,表示占全部数据一半的中间数据的离散程度。q四分位差越大,表示数据离散程度越大。n优缺点:是在一定程度上对极差的一种改进,避免了极端值的干扰。但它去头弃尾,丢失大量的原始数据,
35、对数据差异的反映仍然是不充分的。n四分位差是一种顺序统计量,适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时.13QQQd四、平均差(Average Deviation)n平均差各个数据与其均值的离差绝对值的算术平均数,反映各个数据与其均值的平均差距,通常以A.D表示。计算公式为:q未分组数据:nxxDAnii1|.niiiniiffxxDA11|.n平均差含义清晰,能全面地反映数据的离散程度。但取离差绝对值进行平均,数学处理上不够方便,在数学性质上也不是最优的。q已分组数据:n计算举例:n例1.未分组资料:某宿舍6名同学统计成绩分别为:73,75,80,86,88,84,则)(
36、56375168.)(8111分分分分nxxDAnxxniiniin例2.已知分组资料,求成绩的平均差成绩组中值x人数fxf9010095519.698809085139.6124.8708075160.46.46070651110.4114.460以下55520.4102合计50445.6xxiiifxx)(9.8506.445.分iiiffxxDA4.75503770fxfx475110512007152753770五、方差和标准差n1.方差(Variance)的概念和计算q方差是各个数据与其均值的离差平方的算术平均数.q总体方差(2)的计算公式为:n未分组数据:nxxnii122)(n分
37、组数据:niiiniiffxx1122)(q样本方差(通常用 S2 表示)分母应为(n-1)。标准差(standard Deviation)n标准差方差的算术平方根。q总体标准差一般用表示。其计算公式为:q未分组数据:nxxnii12)(q分组数据:n标准差比方差更容易理解。在社会经济现象的统计分析中,标准差比方差的应用更为普遍,经常被用作测度数据与均值差距的标准尺度。niiiniiffxx112)(q样本标准差(S)分母应为(n-1)。n2.标准差的特点:标准差的特点:标准差和方差的计算过程比平均差简便,数学性质也较为理想,是统计分析中最常用的变异指标。n3.计算举例:计算举例:(注:使用计
38、算器计算)na.未分组资料例:未分组资料:某宿舍6名同学统计成绩分别为:73,75,80,86,88,84,则统计成绩的标准差为:5.52nxx81nxxvb.分组资料例:30.115063922ffxx4.75503770fxfx2)(xxi成绩组中值x人数fxf90100955475384.16 1920.80 80908513110592.16 1198.08 7080751612000.16 2.56 60706511715108.16 1189.76 60以下555275416.16 2080.80 合计5037706392iifxx2)(【例】计算平均差和方差、标准差使用寿命使用寿
39、命(小时)(小时)组中值组中值 (x)试验数量(只)试验数量(只)f 频率频率 (f/f)(x15421542)|x|x1542|1542|f(X(X1542)1542)2 2*f f10001000以下以下9009002 20.020 0.020-642-642128412848243288243281000-12001000-1200110011008 80.080 0.080-442-44235363536156291215629121200-14001200-14001300130016160.160 0.160-242-242387238729370249370241400-1600
40、1400-16001500150035350.350 0.350-42-421470147061740617401600-18001600-18001700170023230.230 0.230 158158363436345741725741721800-20001800-20001900190012120.120 0.120 358358429642961537968153796820002000以上以上210021004 40.040 0.040 5585582232223212454561245456合计1001.000 20324674360024.20310020324|.11ki
41、iikiiffxxDA6743610067436001122niiiniiffxx)(684.259674361006743600112niiiniiffxx)(2.方差的主要数学性质(3)分组条件下,总体的方差等于组间方差与各组方差平均数之和。02a222xyb222Bniiniiiff1122kiiniiiffxxB1122)(1)常数的方差等于零。a为常数,则(2)变量的线性函数的方差等于变量系数的平方乘以变量的方差。设a,b为常数,y=a+bx,则有:q组间方差q各组方差平均数n标准差和方差的简易计算 22222222222222222)()()(xxxxfxfffxffxxffxx:
42、xxxxnxnxnxx:分组资料原始资料标准差的一个应用:标准化值(Z-score)n标准化值或标准得分也称为Z值。n对于来自不同均值和标准差的个体的数据,往往不能直接对比。这就需要将它们转化为同一规格、尺度的数据后再比较。n标准化值实际上是将不同均值和标准差的总体都转换为均值为0、标准差为1的总体,将各个体的数据转换为它在其总体中的相对位置。xxZi【例】n解:由于两次考试成绩的均值和标准差不同,每个学生两次考试的成绩不宜直接比较。q利用标准化值进行对比,表明第二次考试的成绩更好一些。20.110809243.177080n假定某班学生先后两个两次进行了难度不同的综合考试,第一次考试成绩的均
43、值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分。张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢?对称钟形分布中的3法则n3 法则关于钟形分布的一个近似的或经验的法则:q变量值落在-3,+3范围以外的情况极为少见。因此通常将落在区间-3,+3之外的数据称为异常数据或称为离群点。x99.73%68.27%95.45%2x3xxx2x3xx六、离散系数(或变异系数,Coefficient of Variation)n前面的各变异指标都是有计量单位的,它们的数值大小不仅取决于数据的离散程度,还要受数据本身水平高低和计量单位的
44、影响。n对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的平均水平和计量单位都相同时,才能利用上述变异指标来分析;否则,须利用离散系数来比较它们的离散程度。q例如,哪个变量的差异较大:体重,还是身高?q例如,体重的差异哪个较大:父亲,还是婴儿?n 父亲:平均体重=70 kg,标准差=5 kgn 婴儿:5 kg,1 kgn变异系数是一类相对数形式的变异指标,排除了平均水平和计量单位对计算结果的影响,便于不同计量单位或不同平均水平的总体间离散程度的对比。n离散系数是极差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。q将极差与算术平均数对比得到极差系数,q将平均
45、差与算术平均数对比得到平均差系数。q最常用的离散系数是就标准差来计算的,称之为最常用的离散系数是就标准差来计算的,称之为标准差系数标准差系数:n离散系数大,说明数据的离散程度大,其平均数的离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦然代表性就差;反之亦然.xVn计算公式:计算公式:%100:%100.:%100:.xRVxDAVxVRDA极极差差系系数数平平均均差差系系数数标标准准差差系系数数n4.举例:n例1.现有内地和沿海两个城市的居民人均收资料如下表,比较两地的收入差距:人均年收入(元)收入标准差(元)标准差系数(%)甲市60001502.5乙市120001801.5x
46、x成绩人数60以下3607057080108090490以上2合计24甲小组成绩人数60以下260706708098090590以上2合计24乙小组成绩f1组中值x160以下355607056570801075809048590以上295合计24 甲小组成绩人数f2组中值x260以下25560706657080975809058590以上295合计24 乙小组.:解1481.092.10)75.731121111甲甲甲甲甲甲(xVffxxffxx222222274.58)10.590.1421,x fxfxxffVxVV乙乙甲乙乙乙乙乙(故乙组平均成绩代表性大甲组的平均成绩为:甲组成绩的标准差
47、为:甲组成绩的标准差系数为:乙组成绩的标准差为:乙组的平均成绩为:乙组成绩的标准系数为:五、异众比率 n异众比率是指非众数值的次数之和在总次数中所占比重,其公式为:iimiimiimfffffVOOO1n主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数代表一组数据一般水平的代表性。q其值越小,数据集中程度越高,众数代表性越大.第五节 变量分布的偏度与峰度n一、矩(动差)n二、偏度(Skewness)n三、峰度(Kurtosis)一、矩(动差)n矩(动差)一系列刻画数据分布特征的指标的统称。q变量值与数值 a 之离差的 K 次方的平均数称为变量 x 关于 a 的K 阶矩,即:nK 阶原
48、点矩(当a=0 时)是数据的K次方的平均数.q一阶原点矩即算术平均数;q二阶原点矩即平方平均数。niiniikiffax11)(nK 阶中心矩矩(当a=均值 时)是以均值为中心计算的离差 K 次方的平均数qk=1时,称为一阶中心矩,它恒等于0,即 m1=0;qk=2时,称为二阶中心矩,也就是方差,即m2=2。二、偏度(Skewness)n偏度指数据分布的不对称程度或偏斜程度。q以 对称分布 为标准来区分q偏态分布又分左偏(负偏)和右偏(正偏).偏态的测度方法okMxS -3 0 +3 极左偏态极左偏态 对称分布对称分布 极右偏态极右偏态一般有:一般有:(二)由三个四分位数之间的关系求偏态系数1
49、3132QQMQQSek值域:值域:-1 Sk 1 极左偏态极左偏态 对称分布对称分布 极右偏态极右偏态-1 0 +1 偏度系数n(三)利用 3 阶中心矩来计算偏度系数。q测定偏度最常用的方法q原理:若分布不对称,则 3 阶中心矩不为0。不对此程度愈严重,3 阶中心矩的绝对值愈大。为消除量纲的影响,可除以3。33mSK 0 对称分布对称分布 左偏分布左偏分布 右偏分布右偏分布niiniikinikikffxxnxxmk111)()(:或如下阶中心矩定义分布的232333)(:mmmSK定义则分布的偏度可作如下分布为负偏分布为对称分布为正偏,0,0,0SK三、峰度(Kurtosis)n峰度是指变
50、量的集中程度和分布曲线的陡峭(或平坦)的程度。q对峰度的度量通常以正态分布曲线为比较标准,分为正态峰度、尖顶峰度和平顶峰度.n尖顶峰度的分布曲线比正态分布曲线更加尖峭、更高更窄;n平顶峰度的分布曲线比正态分配曲线更为平缓、更低更扁平。峰度系数n原理:分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四阶中心矩m4为基础,为了消除量纲的影响,再除以标准差的四次方4所得到的相对数即可衡量峰度。344mKn当K=0时,分布曲线为正态曲线;n当K0时,为尖顶曲线,表示数据比正态分布更集中在均值附近;K的数值越大,则变量分布曲线之顶端越尖峭;n当K0时,为平顶曲线,表示数据比正态分布更分散;K的数