1、第第3章章 统计数据的特征描述统计数据的特征描述 3.1 集中趋势的描述集中趋势的描述描述集中趋势的几个统计量及相互关系3.2 离散程度的描述离散程度的描述描述离散程度的几个统计量3.3 分布形态的描述分布形态的描述描述分布形态的几个统计量数据的特征和测度数据的特征和测度集中趋势集中趋势离散程度离散程度分布的形状分布的形状均值均值众数众数中位数中位数方差和标准差方差和标准差全距全距偏度偏度峰度峰度位置代表值数值平均值3.1 集中趋势的描述集中趋势集中趋势(central tendency)是指一组数据向某一中 心值靠拢或集中的程度 用途:用途:是为了表示社会经济现象总体各单位某一 标志在一定时
2、间、地点和条件下达到的一般 水平,经常被作为评价事物和决策的数量标 准或参考。主要测度值主要测度值:平均数、众数、中位数、分位数3.1.1 平均数平均数平均数常用 来表示。是数据集中趋势的最主要测度值。适用适用:数值型数据(不适用于分类数据和顺序数据)常用形式常用形式:x加权算术平均值简单算术平均值几何平均数调和平均数算术平均数加权调和平均数简单调和平均数加权几何平均数简单几何平均数简单平均数加权平均数1算术平均数(mean)1)简单算术平均数简单算术平均数简单算术平均数就是全部数据的算术平均数。适用:适用:未经分组整理的原始数据资料。计算公式计算公式:直接将各个数据相加,再除以数据个数。其计
3、算公式为 式中,是一组样本数据的观测值,n为样本容量。ixniixnx11【例3.1】某班级20名学生的期末数学成绩是67、78、49、56、98、87、62、100、73、45、70、44、96、80、49、61、60、88、93、60(分),求该班学生的数学成绩的平均数。解:由公式(3.1)该班学生的数学平均成绩是70.8分。x1(6778495698876220 100734570449680 496160889360)70.8=+=分分2)加权算术平均数加权算术平均数加权算术平均数:是通过各组标志值与各组频数相乘的总和除以各组频数之和得到的。适用适用:已经分组整理并编制出频数分布的数据
4、资料。计算公式计算公式为式中,是单项式分组形式下第i组的变量值或组距式分组形式下第i组的组中值;是第i组的频数;n为组数。ixifniiiniiniiniiiffxffxx1111x=0.027+0.298+1.236+0.848+0.610+0.468=3.487 即职工的平均家庭人口数是3.487人已整理的单项式分组数据平均数算例已整理的组距式分组数据平均数算例根据第2章中的表2-7中的数据资料计算某单位某种产品平均销售量的近似值。(见课本P43)算术平均数的若干数学性质算术平均数的若干数学性质(1)平均数与总体单位数的积等于总体标志总量(2)若每个变量值(X)加减一任意常数,则平均数也加
5、减这个任意值。(3)若每个变量值(X)乘以一任意常数,则平均数也乘以这个任意值。(4)若每个变量值(X)除以一任意常数,则平均数也除以这个任意值。(5)各个变量值(X)与算术平均数的离差和为零。(6)各个变量值(X)与算术平均数的离差平方和为最小值。2调和平均数(harmonic mean)1)简单调和平均数简单调和平均数简单调和平均数是各观测值倒数的算术平均数的倒数适用:适用:未经分组整理的原始数据资料计算公式计算公式:niinnxnxxxnnxxxH1212111.111.111L2)加权调和平均数适用适用:已经分组整理并编制出频数分布的数据资料。计算公式计算公式:mi 表示第i个单位或第
6、i组标志值对应的标志总量,当各组标志总量相等,即m1=m2=mn=m时,即例题例题见课本P44niiiniinnnxmmxmxmxmmmmH11221121.niiniiniiiniixnxmnmxmmH1111113几何平均数(geometric mean)适用:适用:计算平均比率和平均速度,即用于时间上有联系或有先后顺序关系的比率求平均。1)简单几何平均数计算公式计算公式:2)加权几何平均数计算公式计算公式:例题例题见P46fifififnffininxxxxG121.21ninnxxxxG121)(.平均值计算结果的说明平均值计算结果的说明(1)根据原始数据和分组资料计算的结果一般不会完
7、全相等,根据分组数据只能得到近似结果。(2)只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。特点:最常用的测度值均值利用了全体数据易受数据中极端值的影响用于数值型数据,而不能用于分类数据和顺序数据数值平均值 总结3.1.2 众数众数众数(mode)是数据中出现次数最多的那个观测值,也就是是频数分布中频数或频率最大的数值,一般用M0表示。适用:适用:分类数据、顺序数据以及数值型数据。1根据品质型和单项式分组数据计算众数2根据组距式分组数据计算众数要确定众数所在组,即众数组。通过下面的下限公式或上限公式来计算众数。品质数列的众数(算例)某城市居民关注广告类
8、型的频数分布广告类型人数比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其它广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100数据-分类数据0商品广告甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比()非常不满意不满意一般满意非常满意24108934530836311510合计300100数据:顺序数据M0不满意12式中:L、U分别为众数组的下限和上限。是众数组与其前一组的频数之差;d 是众数组的组距。是众数组与其后一组的频数之差;例:P49页例3.11dLM2110下限公
9、式2012MUd 上限公式众数(ode)特点:不受极端值的影响可能没有众数或有几个众数(不唯一性)主要用于分类数据,也可用于顺序数据或数值型数据3.1.3 中位数中位数中位数(median)是将一组数据按一定顺序排列后,处于中间位置上的变量值,一般用Me表示。适用适用:顺序数据和数值型数据 1根据未分组数据计算中位数21n 中位数位置=n奇数:对应中位数位置的那个数值 偶数:对应于中位数位置左右相邻的两个数值 的平均值 原始数据:24,22,21,26,20个数据排序:20,21,22,24,26位置:1,2,3,4,5位置(n+1)/2=(5+1)/2=3e22原始数据:10,5,9,12,
10、6,8个数据排序:5,6,8,9,10,12位置:1,2,3,4,5,6位置(n+1)/2=(6+1)/2=3.5e(8+9)/2=8.52根据分组数据计算中位数2f中位数位置=见【例3.13】【例3.14】对于组距式分组数据 下限公式:MeMeMeMedfSnLMe12上限公式:MeMeMeMedfSnUMe12LMe表示中位数所在组的下限;UMe表示中位数所在组的上限;SMe-1表示向上累计至中位数所在组前一组的频数;SMe+1表示向下累计至中位数所在组后一组的频数;fMe表示中位数所在组的频数;dMe表示中位数所在组的组距;n表示各组频数之和 注注:见P53【例3.15】3.1.4 分位
11、数四分位数四分位数(quartile)就是一组数据排序后处于25%和75%位置上的值,也称之为四分位点。分位数分位数是衡量数据位置的测定指标 1根据未分组数据计算四分位数 Qi位置 4)1(nii=1时,即为下四分位数QL(Lower Quartile)i=2时,即为中位数i=3时,即为上四分位数QU(Upper Quartile)例:第一组数据:2300、3500、2900、4500、7000、3000、8100、3200(万元),计算两组数据的四分位数。解:按从小到大顺序的排列结果为2300、2900、3000、3200、3500、4500、7000、81004)1(n4)1(3nQL位置
12、=(8+1)/4=2.25=3(8+1)/4=6.75QU位置=QL2900+0.25(3000-2900)万元=2925万元 QU=4500+0.75(7000-4500)万元=6375万元 2根据分组数据计算四分位数QL组位置 4nQU组位置 43n确定四分位数所在组 根据各组的累积频数确定四分位数的具体值。(1)对单项式分组数据,该组的变量值就是四分位数。(2)对于组距式分组数据,通过下面的公式来计算:dfSnLQQML11114L1和L3表示下四分位数和上四分位数所在组的下限;SM1-1和SM3-1分别表示下和上四分位数所在组以下各 组的向上累计频数;fQ1和fQ3分别表示下四分位数和
13、上四分位数所在组的 频数;d表示下四分位数和上四分位数所在组的组距;n表示各组频数之和 例见P55【例3.17】dfSnLQQMU313343平均数、中位数、众数的特点平均数、中位数、众数的特点算术平均数算术平均数 :(1)易受极端值影响;(2)数学性质优良,主要用于数值型数据;(3)数据对称分布或接近对称分布时应用。中位数中位数:(1)不受极端值影响;(2)数据分布偏斜程度较大时应用;主要用于顺序数据。众数:众数:(1)不受极端值影响;(2)具有不惟一性;(3)数据分布偏斜程度较大时应用;主要用于分类数据。3.1.5 集中趋势各测定指标之间的区别与关系 区别指标样本利用度 稳健性适用数据众数
14、位置特征数好分类,顺序,数值中位数位置特征数好顺序数据数值数据均值100%较差数值数据关系关系分布形态常态图形对称正态分布右偏分布 左偏分布 x=M0=Me MeM0 xxMe0Sk0。且Sk值越大,偏斜 的程度就越大(3)分布左(负)偏时,Sk0,称为尖峰态分布。尖峰分布表明集中趋势显著,离散程度低。(3)当数据分布的形状比标准正态分布更平时,则峰度值Ku0,称为平峰态分布。平峰分布表明集中趋势不显著,离散程度大。Ch3 小结3.1 集中趋势的描述集中趋势的描述 平均数众数中位数分位数 各测定指标之间的关系3.2 离散程度的描述离散程度的描述 极差和四分位差方差和标准差 变异系数和异众比率3.3 分布形态的描述分布形态的描述 偏度峰度
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。