1、第四章第四章 数据分布特征的测度数据分布特征的测度学习目标学习目标w掌握众数、中位数的概念、特点及其计算方法;w了解四分位数概念;w掌握算术平均数、调和平均数、几何平均数的概念、特点及计算方法;w了解异众比率、四分位差、全距、方差及标准差的概念、及计算方法;w了解偏度和峰度的意义;w能够区分各种指标的应用场合,根据不同数据类型运用不同测度指标。主要内容主要内容:集中趋势的测度集中趋势的测度1离散程度的测度离散程度的测度 2 偏态与峰度的测度偏态与峰度的测度 3众数四分位数中位数平均数偏度峰度方差和标准差全距异众比率四分位差离散系数数据的特征和测度集中趋势离散程度分布的形状 众数中位数四分位数平
2、均数 概念概念 在次数分布数列中,就是出现次数最多的变量值,用 表示。主要用于测度定类数据的集中趋势,当然也适用于作为定序数据以及定距和定比数据集中趋势的测度值。0M0M0M0M一、众数一、众数 计算众数的方法计算众数的方法(1)单项分配数列的众数计算方法)单项分配数列的众数计算方法 出现次数最多的那一组变量值就是众数出现次数最多的那一组变量值就是众数 w某商场某日连续销售15双皮鞋的尺码组成情况如下:38,37,38,40,40,41,40,42,44,40,41,39,40,40,43w出现次数最多的数是40,40就是某商场某日销售皮鞋尺码的众数。(2)组距分配数列的众数计算方法 第一步:
3、根据分配数列次数最多的组 确定为众数所在组。第二步:根据该组与前后相邻两组 分配次数的关系推算众数。众数与相邻两组的关系示意图众数与相邻两组的关系示意图 ,众数组的组中值即为众数的值。,众数会向其前一组靠,众数小于其组中值 ,众数会向其后一组靠,众数大于其组中值 11 ff11 ff11 ff其中,L,U分别表示众数所在组的下限值和上限值,i表示众数组的组距。w根据上述关系,可以利用相似三角形推导出组距分配数列的众数的计算公式如下:下限公式:iffffffLM)()(1110 上限公式:iffffffUM)()(1110 w某乡3000农户按人均年纯收入分组的资料如下表,试计算其众数。人均年纯
4、收入(元)农户数2000-30003000-40004000-50005000-60006000-70007000-80008000-90009000-10000240480105060027021012030合计3000w从表中可以看出,众数所在的组为4000-5000,出现的最多次数为1050。按下限公式计算众数:)(45591000)6001050()4801050(480105040000元M按上限公式计算众数:)(45591000)6001050()4801050(600105050000元M 众数的优缺点众数的优缺点优点优点 容易理解,容易理解,不受极值影响不受极值影响 缺点缺点
5、灵敏度和计算功能差灵敏度和计算功能差 稳定性差稳定性差 具有不唯一性具有不唯一性二、中位数和四分位数二、中位数和四分位数(一)中位数(一)中位数 概念概念 是指对样本数据由小到大排序后,处于中间是指对样本数据由小到大排序后,处于中间位置上的变量值,用位置上的变量值,用 表示。表示。是一个位置代表值,它主要用于测度定序数是一个位置代表值,它主要用于测度定序数据的集中趋势,当然也适用于定距数据和定据的集中趋势,当然也适用于定距数据和定比数据的集中趋势,但不适用于定类数据。比数据的集中趋势,但不适用于定类数据。eM 计算中位数的方法计算中位数的方法(1)变量值未分组情况下:总体单位数n是奇数,中间位
6、置的变 量值是中位数。总体单位数n是偶数,中间位置的两个变量值的算术平均数为中位数。(2)变量值分组情况下:下限公式:ifSfLMmme12 上限公式:ifSfUMmme12 w某乡人均年纯收入中位数计算表如下某乡人均年纯收入中位数计算表如下:年人均纯收入(元)农户数向上累计向下累计2000-30003000-40004000-50005000-60006000-70007000-80008000-90009000-10000240480105060027021012030240720177023702640285029703000300027602280123063036015030合计30
7、00w按下限公式计算中位数:w按上限公式计算中位数:)(474310001050720230004000元eM)(4743100010501230230005000元eM 优缺点优缺点 优点优点 容易理解,容易理解,不受极值影响不受极值影响 适宜于开口组资料和些不能用适宜于开口组资料和些不能用数字测定的事物数字测定的事物缺点缺点 灵敏度和计算功能差灵敏度和计算功能差 间断数间断数Me(二)四分位数(二)四分位数 中位数是从中间点将全部数据分为两部分。与中位中位数是从中间点将全部数据分为两部分。与中位数类似的还有四分位数、十分位数、百分位数、四数类似的还有四分位数、十分位数、百分位数、四分位数就
8、是对数据集合四等分的三个数值,其中的分位数就是对数据集合四等分的三个数值,其中的第二个四分位数即为中位数。例如某数据集合有第二个四分位数即为中位数。例如某数据集合有101项数据,则第项数据,则第26项、项、51项、项、76项三个数据可以项三个数据可以把数据集合分为数目相等的四个等分,这三个数就把数据集合分为数目相等的四个等分,这三个数就分别是第一、第二、第三四分位数,其中第一个四分别是第一、第二、第三四分位数,其中第一个四分位数称为上四分位数,第三个四分位数称为下四分位数称为上四分位数,第三个四分位数称为下四分位数,第二个四分位数就为中位数。分位数,第二个四分位数就为中位数。三、数值平均数:算
9、术平均数、调和三、数值平均数:算术平均数、调和平均数、几何平均数平均数、几何平均数 算术平均数算术平均数总体单位数量总体标志数量算术平均数 主要适用于定居数据和定比数据,但不适用于定类数据和定序数据 1、简单算术平均数2、加权算术平均数nXnXXXXniin121kiikiiikknffXffffXfXfXX11212211kXXX,21kfff,21原始数据被分为k组,各组的组中值为各组变量值出现的频数分别为 w某中学100名高中一年级男生身高(单位:厘米)的频数分布如下表。求该校高一男生的平均身高。身高155160 160165 165170 170175 175180 180185人数
10、2 8 28 36 18 8)(7.17181836288285.18285.16225.15711厘米kiikiiiffXXkikiiiikiikiiiffXffXX1111当我们掌握的不是各组变量值出现的频数,而当我们掌握的不是各组变量值出现的频数,而是频率时,也可直接根据上式计算均值是频率时,也可直接根据上式计算均值 请注意!调和平均数调和平均数iiiiiMXfXfXH该式与加权算术平均数公式的计算结果完全一致。实际上,上式只是加权算术平均数的另一种表现形式。由此可见,调和平均数实际上是算术平均数的一由此可见,调和平均数实际上是算术平均数的一种变形,二者在本质上是一致的,唯一的区别就种变
11、形,二者在本质上是一致的,唯一的区别就是计算时使用了不同的数据。是计算时使用了不同的数据。只适用于定比数据,不适用于定距数据 几何平均数几何平均数 是是n项变量值连乘积的项变量值连乘积的n次方根。次方根。适合于计算现象的平均比率或平均速度,适合于计算现象的平均比率或平均速度,反应现象增长率的平均水平。反应现象增长率的平均水平。因此,凡是现象的变量值的连乘积等因此,凡是现象的变量值的连乘积等于总比率或总速度,都可以使用几何于总比率或总速度,都可以使用几何平均数来计算平均比率或平均速度。平均数来计算平均比率或平均速度。1、简单几何平均数、简单几何平均数 适用于计算未分组数列的平均比率或平均速度。n
12、nGXXXXX3211994-19981994-1998年我国工业品的产量分别是上年的年我国工业品的产量分别是上年的107.6%107.6%、102.5%102.5%、100.6%100.6%、102.7%102.7%、102.2%102.2%,计算这,计算这5 5年的平均发展速度。年的平均发展速度。%1.103031.1022.1027.1006.1025.1076.15321nnGXXXXX2、加权几何平均数、加权几何平均数 对于分组数列,应该采用加权几何平均数计算其平均比率或平均速度。ffnffGnXXXX2121某投资银行某投资银行2525年的年利率分别是:年的年利率分别是:1 1年年
13、3%3%,4 4年年5%5%,8 8年年8%8%,1010年年10%10%,2 2年年15%15%,求平均年利率。,求平均年利率。%6.108086.115.11.108.105.103.125210842121ffnffGnxxxX第二节第二节 离散程度的测度离散程度的测度离散系数离散系数异众比率异众比率四分位差四分位差全距全距方差和标准差方差和标准差一、异众比率一、异众比率 是非众数的次数与全部个案数目的比率是非众数的次数与全部个案数目的比率,用用 表示。表示。rV异众比率是对众数的补充,异众比率越小,说明众数的代表性越好;反之,异众比率越大,则说明众数的代表性越差。nfnVMr0为众数的
14、频数,为变量值的总频数。0Mfn二、四分位差二、四分位差 概念概念 也称为内距或四分间距,它是上四分位数与也称为内距或四分间距,它是上四分位数与下四分位数之差,是对定序及定序以上测量下四分位数之差,是对定序及定序以上测量尺度的变量离散程度的测量指标。尺度的变量离散程度的测量指标。计算方法计算方法 求出上四分位数和下四分位数的位置 计算这两个四分位数之差 对原始资料对原始资料调查调查1111位同学的年龄如下:位同学的年龄如下:1717岁、岁、1818岁、岁、1818岁、岁、1919岁、岁、1919岁、岁、2020岁、岁、2020岁、岁、2121岁、岁、2121岁、岁、2222岁、岁、2222岁。
15、岁。首先,求出Q1和Q3的位置:Q1的位置=3411141nQ3的位置=94)111(34)1(3n其次,从数序中找出Q1=18,Q3=21则四分位差Q=Q3Q1=2118=3 对单值分组资料对单值分组资料 如下表所示的学生学业成绩:如下表所示的学生学业成绩:等级 学生人数 向下累计 向上累计甲乙丙丁 5 5 80 20 25 75 30 55 55 25 80 25总数 80 -Q1位置=25.204180Q3位置=75.604)180(3从累积次数分布表中,很易看到在这两个位置上的值分别从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以:四分位差是丁级和乙级,所以:四分位
16、差Q=乙乙丁丁=两个等级。两个等级。对组距分组资料对组距分组资料 Q1和和Q3的计算公式为:的计算公式为:w14L1Q111fcfnw3343L3Q33fcfn其中,其中,L1L1为为Q1Q1属组之真实下限;属组之真实下限;L3L3为为Q3Q3属组之真实下限;属组之真实下限;f1f1为为Q1Q1属组之次数;属组之次数;f3f3为为 Q3Q3属组之次数;属组之次数;cf1cf1为低于为低于Q1Q1属组下限之累积次数;属组下限之累积次数;cf3cf3为低于为低于Q3Q3属组下属组下限之累积次数;限之累积次数;w1w1为为Q1Q1属组之组距;属组之组距;w3w3为为Q3Q3属组之组距;属组之组距;n
17、 n为全部个案数。为全部个案数。某企业某企业100100名职工收入的分布如下:名职工收入的分布如下:收入(元)收入(元)职工数(人)职工数(人)累计频数累计频数 组中值组中值 XfXf X f X f 100100199 10 10199 10 10 150 1500 150 1500200200299 10 20 250 2500299 10 20 250 2500300300399 40 60 350 14000399 40 60 350 14000400400499 20 80 450 9000499 20 80 450 9000500500599 20 100 550 11000599
18、 20 100 550 11000 合计合计 100 100 由上表知:Q1位置=25.254110041n,所以Q1在300399组内;Q3位置=75.754)1100(34)1(3n,所以Q3在400499组内。5.31210040204100300Q1475100206041003400Q3所以四分位差所以四分位差Q=Q3-Q1=162.5三、全距三、全距全距又称极差,它是一组数据中最大值与最小值之差。全距是对定序及以上尺度的变量离散程度的测量。极差越小,表明资料越集中,集中趋势统计量的代表性越高。一般公式为:一般公式为:)min()max(iiXXR某校某校3 3个系各选个系各选5 5
19、名同学,参加智力竞赛,他们的成绩分别如下:名同学,参加智力竞赛,他们的成绩分别如下:中文系:中文系:7878、7979、8080、8181、8282数学系:数学系:6565、7272、8080、8888、9595 英语系:英语系:3535、7878、8989、9898、100100则三个代表队的全距分别为:中文系:则三个代表队的全距分别为:中文系:82-78=4(分)数学系:(分)数学系:95-65=30(分)英语系:(分)英语系:100-35=65(分)(分)对于组距分组数据,全距也可以近似表示为:对于组距分组数据,全距也可以近似表示为:最低组下限值最高组上限值R四、方差及标准差四、方差及标
20、准差2方差和标准差是衡量变异程度最常用的指标,方差通常用方差和标准差是衡量变异程度最常用的指标,方差通常用表示。表示。标准差又称均方差,方差的平方根即为标准差,通常用标准差又称均方差,方差的平方根即为标准差,通常用表示,分析定距变量的离散情况,最常用的方法是标准差。表示,分析定距变量的离散情况,最常用的方法是标准差。对于未分组数据,公式为:对于未分组数据,公式为:对于组距分组数据,公式为:对于组距分组数据,公式为:nXXnii122)(nXXnii12)(kkiikkiiiffXX2)(kiiikiiffXX1122)(1998年度品牌飞利浦索尼东芝松下LG长虹创维海尔康佳TCL费用24292
21、054168416111607143014301355126911751999年度品牌飞利浦东芝索尼TCLLG松下创维海尔康佳海信费用3415192918181688144013631234108010751023根据下表中根据下表中19981998年度和年度和19991999年度电视机广告前年度电视机广告前1010名品牌名品牌广告费用统计情况,计算两个年度广告费用的标准差。广告费用统计情况,计算两个年度广告费用的标准差。根据上表可以计算出根据上表可以计算出1998年度和年度和1999年度的平均广告费用额分别为:年度的平均广告费用额分别为:1604.4万元,万元,1606.5万元。万元。199
22、8年度的标准差为:年度的标准差为:nXXnii1298)(10)4.16041175()4.16041269()4.16041355()4.16041430()4.16041430()4.16041607()4.16041611()4.16041684()4.16042054()4.16042429(2222222222=361.7(万元)同理可以计算同理可以计算1999年度的标准差为年度的标准差为674.7万元。万元。五、离散系数五、离散系数离散系数是标准差与平均数的比值,用百分比表示。记离散离散系数是标准差与平均数的比值,用百分比表示。记离散系数为系数为V,则公式为:,则公式为:100%V
23、X离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或者对两个不同总体中的同一离散量数统计量进行比较。一项调查的结果如下,某市人均月收入为一项调查的结果如下,某市人均月收入为9292元,标准差为元,标准差为1717元,人均住房面积元,人均住房面积7 75 5平方米,标准差为平方米,标准差为1 18 8平方米。试比较该市人均收入和人均住房情况哪一个差异程平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。度比较大。由题中数据得:人均收入的离散系数为%5.18%1009217100%CVXS人均住房面积的离散系数为%24%1005.78.11
24、00%CVXS可见人均住房面积的差异情况比人均收入的差异情况要大。可见人均住房面积的差异情况比人均收入的差异情况要大。第三节 偏态与峰度的测度w一一.偏态及其测度偏态及其测度w二二.峰度及其测度峰度及其测度偏态与峰度分布的形状偏态与峰度分布的形状 偏态偏态w1.数据分布偏斜程度的测度,用数据分布偏斜程度的测度,用 表示。表示。w2.偏态系数偏态系数=0为为对称分布对称分布w3.偏态系数偏态系数 0为为右偏分布右偏分布w4.偏态系数偏态系数0 xMo30MoMoMoxxx(对称分布对称分布)正偏态分布(右)正偏态分布(右)负偏态分布负偏态分布(左)左)w偏度值一般在-3 3之间。w3为极度右偏斜
25、w-3为极度左偏斜w绝大多数变量分布偏斜程度在-1 1之间 利润额(万元)企业数f组中值x103030505070709021013520406080231219604683380-78608-274402808878802672672384160168482284880合 计308120-153605358560fxx2fxx3fxx445.16308120)(121niiiniiffxx5123015360)(1313niiiniiffxxv12.045.16512333v计算结果表明该管理局所属企业利润额的分布状况呈轻微负偏分布。峰度峰度w1.数据分布扁平程度的测度,用数据分布扁平程度的
26、测度,用 表示。表示。w2.峰度系数峰度系数=3为为扁平程度适中扁平程度适中w3.峰度系数峰度系数3为为尖峰分布尖峰分布w5.计算公式为计算公式为f(X)33414144niiiniiffxxv 利润额(万元)企业数f组中值x103030505070709021013520406080231219604683380-78608-274402808878802672672384160168482284880合 计308120-153605358560fxx2fxx3fxx456.0344.2345.16305358560334414144niiiniiffxxv根据表中有关数据计算峰度系数如下:计算结果表明,上述企业间利润额的分布呈平顶峰度,各变量值分布较为均匀。