1、 在数理统计中,平均数是用来反映一组变数在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度的集中趋势,即变数分布的中心位置。常用的度量指标有:量指标有:1.1.算术平均数算术平均数 2.2.中位数(中位数(M)4.4.几何平均数(几何平均数(Mg)3.3.众数(众数(Mo)5.5.调和平均数(调和平均数(H)第三章第三章 平均数、标准差平均数、标准差与变异系数与变异系数 作为一个资料的代表,指资料中各变数集中作为一个资料的代表,指资料中各变数集中较多的中心位置,用来与另一资料相比较。较多的中心位置,用来与另一资料相比较。不同的平均数适合于不同的数据资料。不同的平均
2、数适合于不同的数据资料。例如:例如:不同国家、地区、种族之间身高、体重等不同国家、地区、种族之间身高、体重等 的比较;不同品种的家畜、家禽之间生产的比较;不同品种的家畜、家禽之间生产 性能的比较性能的比较集中趋势的度量集中趋势的度量一、定义一、定义 一组资料中,所有观测值的总和除以其个数所一组资料中,所有观测值的总和除以其个数所得到的商,称为算术平均数,简称平均数或均数。得到的商,称为算术平均数,简称平均数或均数。是最常用的一种集中趋势度量指标。是最常用的一种集中趋势度量指标。样本的平均数记为样本的平均数记为 总体平均数记为总体平均数记为 x集中趋势的度量集中趋势的度量xnnnxxixxx 2
3、11 :第:第i i个观察值或变数个观察值或变数 n n:观察值或变数的个数:观察值或变数的个数 :求和符号(:求和符号(sigma)xi计算公式:计算公式:集中趋势的度量集中趋势的度量的性质 1.1.分类资料:每个类别在某个指标上取相同的值。分类资料:每个类别在某个指标上取相同的值。2.2.计数资料和连续性资料:频率分布表计数资料和连续性资料:频率分布表 加权法,即计算时先将各个变数乘上它加权法,即计算时先将各个变数乘上它的权数,再经过总和,然后除以权数的总的权数,再经过总和,然后除以权数的总合,称为加权平均数。合,称为加权平均数。集中趋势的度量集中趋势的度量二、加权法计算二、加权法计算一、
4、直接法计算一、直接法计算fxfiiix xi=变数值变数值 fi =变数值变数值x xi i出现的频数出现的频数“权权”计算公式:计算公式:集中趋势的度量集中趋势的度量二、加权法二、加权法(一)离均差之和为零:(一)离均差之和为零:一个样本观察值与平均数之差简称离均差。一个样本观察值与平均数之差简称离均差。(xi-)=(x1-)+(x2-)+(xn-)=x1+x2+xn-n=xi-n xi/n=0 xxxxx三、算术平均数的性质三、算术平均数的性质集中趋势的度量集中趋势的度量(二)离均差平方和最小:(二)离均差平方和最小:一个样本的各个观察值与平均数之差的平方和一个样本的各个观察值与平均数之差
5、的平方和比各个观察值与任意其他数之差的平方和小。比各个观察值与任意其他数之差的平方和小。Axxxii22所以:平均数是与各个观察值最接近的数值。所以:平均数是与各个观察值最接近的数值。平均数代表这个样本的集中趋势。平均数代表这个样本的集中趋势。集中趋势的度量集中趋势的度量三、算术平均数的性质三、算术平均数的性质样本平均数常作为检验对象的原因1、离均差的平方和(-)2最小。说明样本平均数与样本各个观测值最接近,平均数是资料的代表数。2、样本平均数是总体平均数的无偏估计值,即E()=。3、根据统计学中心极限定理,样本平均数服从或逼近正态分布。xxx定义:将定义:将n n个观察值从小到大依次排队,位
6、于中间个观察值从小到大依次排队,位于中间的那个观察值称为中位数。的那个观察值称为中位数。3.1.2 3.1.2 中位数(中位数(M Md d):观察值个数为偶数时,当为奇数时,当nXXMnXMnnndnd212221集中趋势的度量集中趋势的度量 对于频数分布的资料,公式如下:对于频数分布的资料,公式如下:)2(CnfiLMmmdd Lmd:中位数所在组的组下限;:中位数所在组的组下限;fm:中位数所在组的频数;:中位数所在组的频数;C:从第一组到中位数所在组前一组的累计频数:从第一组到中位数所在组前一组的累计频数 n:样本含量;:样本含量;i:组距;:组距;集中趋势的度量集中趋势的度量3.1.
7、2 3.1.2 中位数(中位数(M Md d)定义:定义:n n个非负数的乘积开个非负数的乘积开n n次方的根称为几何平均次方的根称为几何平均 数,用数,用 G G 表示。表示。ninnXXXXG 21集中趋势的度量集中趋势的度量 为了计算方便,各变数先取对数,再相加为了计算方便,各变数先取对数,再相加除以除以n n,即为,即为logGlogG,再求其反对数,即为,再求其反对数,即为G G值。值。nnXXXGGlglglglg)(lglg21111 集中趋势的度量集中趋势的度量 几何平均数用于以百分率、比例表示的数据资几何平均数用于以百分率、比例表示的数据资料,如:增长率、利率、药物效价、抗体
8、滴度等。料,如:增长率、利率、药物效价、抗体滴度等。能够消弱数据中个别过分偏大值的影响。能够消弱数据中个别过分偏大值的影响。定义:在资料中某一个变数出现次数最多,就称定义:在资料中某一个变数出现次数最多,就称 之为众数。之为众数。1.1.离散性资料:出现频数最多的数。离散性资料:出现频数最多的数。2.2.连续性资料:频数分布表中,频数出现最多的连续性资料:频数分布表中,频数出现最多的 一组的组中值。一组的组中值。!有的资料可出现多个众数,即多个数具有相同有的资料可出现多个众数,即多个数具有相同的最高频数;有的资料没有众数,即所有数出现的频的最高频数;有的资料没有众数,即所有数出现的频数都相同。
9、数都相同。集中趋势的度量集中趋势的度量3.1.4 3.1.4 众数众数定义:各观察值倒数的算术平均数的倒数定义:各观察值倒数的算术平均数的倒数 inXnxxxnH11111121集中趋势的度量集中趋势的度量适用于极端右偏态适用于极端右偏态集中趋势的度量集中趋势的度量例:例:用某药物救治用某药物救治1212只中毒的小鼠,它们的存活天只中毒的小鼠,它们的存活天数记录如下:数记录如下:8 8、8 8、8 8、1010、1010、7 7、1313、1010、9 9、1414,另有两只一直未死亡,求平均存活天数。另有两只一直未死亡,求平均存活天数。14.11)/1/19/18/18/1(/12H由于数据
10、极端右偏态,用调和平均由于数据极端右偏态,用调和平均数较为合理。数较为合理。1182.2.3 百分位数(百分位点)百分位数(百分位点)指将一组指将一组 n 个数据由小到大排列,如果个数据由小到大排列,如果小于小于 某数值的数据个数为全体数据个数的某数值的数据个数为全体数据个数的x%,则称该数为则称该数为第第 x 百分位数或百分位数或 x%分位数。分位数。25%分位数或下四分位数分位数或下四分位数:0.25n个数的后一个数。个数的后一个数。50%分位数或分位数或中位数中位数:0.5n个数的后一个数。个数的后一个数。75%分位数或上四分位数分位数或上四分位数:0.75n个数的后一个数。个数的后一个
11、数。一、各个集中趋势度量指标之间的关系一、各个集中趋势度量指标之间的关系1.1.在完全对称分布情况下,算数平均数、中位数在完全对称分布情况下,算数平均数、中位数 和众数三者相等。和众数三者相等。集中趋势的度量集中趋势的度量 适用于正态分布资料。适用于正态分布资料。家畜的大多数数量性状都是正态分布,因此算家畜的大多数数量性状都是正态分布,因此算术平均数是最常用的,也是最重要的。术平均数是最常用的,也是最重要的。集中趋势的度量集中趋势的度量2 2、算术平均数、算术平均数 但是当分布不对称时,呈偏态时,用算术平均但是当分布不对称时,呈偏态时,用算术平均数则难以表示资料的集中趋势。数则难以表示资料的集
12、中趋势。偏态偏态:是指大部分的数值落在平均是指大部分的数值落在平均数的哪一边,若分配较多的在低数的哪一边,若分配较多的在低值的方面,视为正偏态,也称值的方面,视为正偏态,也称右右偏态偏态 适用于非参数检验,如卡方检验。适用于非参数检验,如卡方检验。4 4、几何平均数和调和平均数、几何平均数和调和平均数 适用于右偏态分布。适用于右偏态分布。集中趋势的度量集中趋势的度量3 3、中位数、中位数平均数的代表程度与样本的变异程度有关平均数的代表程度与样本的变异程度有关 一个样本内有很多的变数,用平均数作为样本一个样本内有很多的变数,用平均数作为样本的代表,其代表程度决定于样本内各个变数的变异的代表,其代
13、表程度决定于样本内各个变数的变异程度。程度。3.23.2标准差标准差离散趋势的度量离散趋势的度量 即使两个样本的平均数相同,但是样本内变即使两个样本的平均数相同,但是样本内变数的变异程度不一定相同。数的变异程度不一定相同。产仔数产仔数总和总和甲甲8 8,4 4,1616,1212,2222,1717,6 6,1414,6 6,5 51101101111乙乙1414,8 8,1111,9 9,1111,1212,1010,1414,1313,8 81101101111离散趋势的度量离散趋势的度量xi3.23.2标准差标准差1.1.如果各个变数相同或者变异程度比较小,则平如果各个变数相同或者变异程
14、度比较小,则平 均数能够代表整个样本。均数能够代表整个样本。2.2.如果各个变数的变异程度比较大,则平均数的代如果各个变数的变异程度比较大,则平均数的代 表性就小。表性就小。离散趋势的度量离散趋势的度量 因此,单靠平均数不能全面、正确地了解样因此,单靠平均数不能全面、正确地了解样本。也不能了解平均数作为样本的变异程度。本。也不能了解平均数作为样本的变异程度。3.23.2标准差标准差 定义:全部变数的最大值与最小值之差定义:全部变数的最大值与最小值之差 R=Max(x)-Min(x)3.2 3.2 范围(全距)范围(全距)范围或全距可以反映变异程度的一部分,但范围或全距可以反映变异程度的一部分,
15、但是不能代表样本内各变数之间的变异程度。是不能代表样本内各变数之间的变异程度。目前,被广泛使用的是以标准差来度量变异目前,被广泛使用的是以标准差来度量变异程度。程度。离散趋势的度量离散趋势的度量 如果一个样本有如果一个样本有n n个观察值个观察值 x x1 1,x x2 2 x xn n,设其设其算术平均数为算术平均数为 ,则该样本的标准差为:,则该样本的标准差为:x12nxxsi标准差考虑了每个变数与平标准差考虑了每个变数与平均数的离差。均数的离差。每个变数与平均数相差愈小,每个变数与平均数相差愈小,样本变异程度愈小,反之,样本变异程度愈小,反之,愈大。愈大。因此,标准差是离散程度的因此,标
16、准差是离散程度的度量度量3.2.1 3.2.1 标准差的定义标准差的定义离散趋势的度量离散趋势的度量1.1.离均差离均差=(x-x-)2.2.离均差之和离均差之和=(x-x-)=0=03.3.离均差平方和离均差平方和 SS=(x-)SS=(x-)2 2xx为了合理地计算平均差异,用平方和的办法来消除离均差的为了合理地计算平均差异,用平方和的办法来消除离均差的正负号,离均差平方相加,得到平方和(正负号,离均差平方相加,得到平方和(SSSS),但是由于不),但是由于不同样本的观察值个数不同,所以离均差平方和也不是理想指同样本的观察值个数不同,所以离均差平方和也不是理想指标标离散趋势的度量离散趋势的
17、度量x虽然离均差可以衡量变虽然离均差可以衡量变异程度,但是离均差之异程度,但是离均差之和为和为0 0,所以不是理想的,所以不是理想的指标指标3.2.2 3.2.2 标准差公式的来源标准差公式的来源3.2.3 3.2.3 样本方差和样本标准差样本方差和样本标准差122nxxs将离均差平方和求平均数,称为样将离均差平方和求平均数,称为样本方差,目的是消除观察值个数的本方差,目的是消除观察值个数的影响影响12nxxs样本方差开方,目的是使变异还原,样本方差开方,目的是使变异还原,即标准差。即标准差。离散趋势的度量离散趋势的度量nx22nx2总体是未知的,用样本标准差估计和推断总体标准差离散趋势的度量
18、离散趋势的度量3.2.4 3.2.4 总体方差和样本标准差总体方差和样本标准差 如果一个样本含有如果一个样本含有n n个变数,从理论上讲,个变数,从理论上讲,n n个个变数都同样用以计算标准差,变数都同样用以计算标准差,n n个变数与平均数相个变数与平均数相减有减有n n个离均差。个离均差。表面上虽有表面上虽有n n个比较,但实质上仅有个比较,但实质上仅有n-1n-1个可以个可以自由变动,最后一个离均差受到离均差之和这个条自由变动,最后一个离均差受到离均差之和这个条件的限制,所以不能自由。件的限制,所以不能自由。3.2.5 3.2.5 自由度:自由度:df,n-1122nxxs例如:有例如:有
19、3 3个变数个变数,平均数等于平均数等于5 5。问着三个变数可能是多少?问着三个变数可能是多少?离散趋势的度量离散趋势的度量3.2.5 3.2.5 自由度:自由度:(4 4、5 5、6 6)()(2 2、4 4、9 9)()(3 3、5 5、7 7)他们的共同特点:前两个数可以自由选择,为了使他们的共同特点:前两个数可以自由选择,为了使平均数等于平均数等于5 5,第三个数不用选就确定了。这时(,第三个数不用选就确定了。这时(3 31 1)2 2就是所谓自由度。就是所谓自由度。自由度:自由度:消除限制性因数后,所剩余的独立变数的消除限制性因数后,所剩余的独立变数的个数,用个数,用dfdf表示表示
20、。三、方差和标准差的计算公式三、方差和标准差的计算公式11222nXnxxsnXii离散趋势的度量离散趋势的度量1/)(1)(222fffxfxfxxfS1.1.直接法直接法2.2.加权法加权法3.2.6 标准差的性质标准差的大小,受资料中每个观测值的标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准影响,如观测值间变异大,求得的标准差也大,反之则小。差也大,反之则小。在计算标准差时,在各观测值加上或减在计算标准差时,在各观测值加上或减去一个常数,其数值不变。去一个常数,其数值不变。当每个观测值乘以或除以一个常数当每个观测值乘以或除以一个常数a,则,则所得的标准差是原来标准差
21、的所得的标准差是原来标准差的a倍或倍或1/a倍。倍。3.2.6 标准差的性质在资料服从正态分布的条件下:在资料服从正态分布的条件下:平均数左右一倍标准差(平均数左右一倍标准差(S)范围:)范围:约有约有68.26%的观测值;的观测值;平均数左右两倍标准差(平均数左右两倍标准差(2S)范围:)范围:约有约有95.43%的观测值在的观测值在平均数左右三倍标准差(平均数左右三倍标准差(3S)范围:)范围:约有约有99.73%的观测值的观测值也就是说全距近似地等于也就是说全距近似地等于6倍标准差,可倍标准差,可用(用()来粗略估计标准差。)来粗略估计标准差。xxxx6/全距3.3 3.3 变异系数(变异系数(C.VC.V)用于比较度量单位不同以及不同时用于比较度量单位不同以及不同时期期 的资料。的资料。:平均数:平均数标准差标准差XSXSVC:%100.离散趋势的度量离散趋势的度量标准差与平均数的比值称为变异系数标准差与平均数的比值称为变异系数Thank you!