1、第四章 统计数据的描述性分析第一节第一节 总量指标总量指标第二节第二节 相对指标相对指标第三节第三节 平均指标(集中趋势的测度)平均指标(集中趋势的测度)第四节第四节 标志变异指标(离散程度的测度)标志变异指标(离散程度的测度)第第五五节节 偏态与峰态的测度偏态与峰态的测度第第六六节节 利用利用ExcelExcel进行描述性统计分析进行描述性统计分析学习目标1.1.理解五类描述性指标的概念、种类理解五类描述性指标的概念、种类2 2.掌握各具体指标的掌握各具体指标的计算方法计算方法3.3.对一组数据对一组数据能够从多角度进行能够从多角度进行描述性分析描述性分析4.4.掌握用掌握用EXCELEXC
2、EL软件进行描述性分析的方法软件进行描述性分析的方法第一节 总量指标 总量指标总量指标(亦称绝对指标或绝对数)是反映总体在一定时间、地点和条件下总规模或总水平的统计指标。表现形式通常是绝对数。如:2016年4月当期我国铁矿石原矿产量10256.7万吨,工业企业累计382851个,当期国家财政收入15522.9亿元,期末货币和准货币(M2)供应量1445209.59亿元等均属总量指标。总量指标的作用:1.反映了社会经济现象的基本情况,是认识事物的起点。2.是实行宏观调控和企业管理的重要依据。3.是计算相对指标和平均指标的基础。总量指标的种类 1.按反映的内容不同,分为总体单位总量和总体标志总量。
3、总体单位总量总体内所包含的全部个体单位的总数,也称单位总量。总体标志总量总体各单位某一数量标志值的总和,简称标志总量。总体单位总量是惟一的,但总体标志总量可能有许多个。2按反映的时间状况不同,分为时期指标与时点指标。时期指标反映社会经济现象在一定时期内发展变化结果的总量。如产品产量、产值、商品销售量、投资总额、进出口贸易额、工资总额等。时点指标反映社会经济现象在某一时刻(或瞬间)上所达到的总量。如人口数、设备台数、商品库存量、储蓄存款余额、耕地面积等。时期指标与时点指标的区别:(1)时期指标的数值是连续计数,数值表示社会经济现象在这一时期内发生的总量;而时点指标的数值是间断计数,数值表示社会经
4、济现象发展到一定时点上所处的水平。(2)时期指标可以累加,累加的结果具有实际意义;时点指标不能累加,累加的结果没有独立的经济意义。(3)时期指标是流量指标,其数值大小与所属时期长短有直接关系,时期越长,数值越大;时点指标是存量指标,其数值大小与时间长短没有直接关系。3按其采用的计量单位不同,分为实物指标、价值指标和劳动指标。实物指标根据事物的自然属性和特点而采用自然单位、度量衡单位、标准实物单位、复合单位、双重或多重单位计量的统计指标。价值指标以货币单位计量的统计指标。劳动指标以劳动单位为计量单位的总量指标。运用总量指标应注意的问题:1正确确定指标含义、计算范围、指标界限。2同类实物总量指标相
5、加才有经济意义。3使用统一计量单位。第二节 相对指标 相对指标相对指标又称为相对数,是社会经济现象中两个相互联系的指标数值之比,用来反映某些相关事物之间数量联系的程度。用来对比的两个数,既可以是绝对数,也可以是平均数和相对数。如2015年我国国内生产总值同比增长6.9%,人口自然增长率为4.96,居民消费价格指数101.4%,全国城乡居民人均可支配收入21966元,城乡居民家庭恩格尔系数为30.6%,都是相对指标。相对指标的作用 总的来说,在于揭示总体内部的结构、比例、比重等数量关系,确定相关事物之间的数量联系程度,具体表现在:(1)反映现象的相互关系、内部结构、实现的程度、强度和速度等,使人
6、们清楚了解现象的相对水平和普遍程度。(2)把现象的绝对差异抽象化,使原来无法直接对比的指标变为可比。(3)便于记忆、易于保密。相对指标的表现形式有名数有名数:表现事物的强度、密度和普遍程度,采用复合单位计量。如人口密度用“人平方公里”,人均粮食产量用“千克/人”。无无名数名数:抽象化的数值,常以系数、倍数、成数、百分数、千分数或翻番数等表示。相对指标的种类%100%100%100计划数实际完成数计划完成程度相对数值性质不同且有联系的数某一数值强度相对数基期水平报告期水平动态相对数同一数值乙国家(地区、单位)某一数值甲国家(地区、单位)比较相对数另一部分数值部分数值比例相对数全部数值部分数值结构
7、相对数相对指标按三次产业分按三次产业分金额(亿元)金额(亿元)比重(比重(%)第一产业第一产业608639.0第二产业第二产业27427840.5第三产业第三产业34156750.5合计合计676708100.020152015年我国国内生产总值产业构成年我国国内生产总值产业构成增加值增加值比例比例农业农业22718 1.0轻工业轻工业20585 0.9 重工业重工业45840 2.0不同时期不同时期比比 较较动动 态态相对数相对数强强 度度相对数相对数比比 较较相对数相对数部分与部分部分与部分比比 较较部分与总体部分与总体比比 较较实际与计划实际与计划比比 较较比比 例例相对数相对数结结 构
8、构相对数相对数计划完成计划完成相对数相对数不同现象不同现象比较比较不同总体不同总体比较比较同一时期比较同一时期比较同类现象比较同类现象比较同一总体中同一总体中六种相对数指标的比较六种相对数指标的比较运用相对指标应注意的问题 1正确选择对比的基数。2注意分子分母指标的可比性。3相对指标与总量指标结合运用。4多种相对指标结合运用。第三节 集中趋势的测度数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度均均 值值中位数中位数众众 数数离散系数离散系数方差和标准差方差和标准差峰峰 度度四分位差四分位差异众比率异众比率偏偏 态态平均指标 1 1概念:概念:指现象在一定条
9、件下的代表性水平,是说明同质总体内某一标志值在一定时间、地点、条件下所达到的一般水平,是总体内各单位参差不齐标志值的代表值。2 2特点:特点:(1)平均指标只能在同质总体中计算。(2)是一个代表性的指标,代表总体各单位某一标志的一般水平。(3)将数量差异抽象化。3平均指标的作用 (1)利用平均指标可以对同类现象进行企业、部门、地区、国家间的比较,以显示其水平的高低。(2)平均指标可以作为论断事物的一种数量标准或参考。(3)利用平均指标可以分析现象之间的依存关系。(4)利用平均指标可以进行数量上的推算和估计。平均指标的种类位置平均数数值平均数众数中位数算术平均数调和平均数几何平均数众数(Mode
10、)数据中出现次数最多的变量值,常用符号M0 表示。可以用于测度品质数据的集中趋势,也可以用于测度数值型数据的集中趋势。不受极端值的影响。可能有几个众数,也可能没有众数。分类数据的众数解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值 所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo可口可乐单变量数列的众数在以下三组数据中确定众数。65,62,61,68,69,61,75,80,52,61,5828,29,36,27,28,25,29,28,29,258,6,5,7,9,10,4,12,11解:第组众数是61
11、,第组众数是28、29,第组众数不存在。组距数列众数的计算下限公式:上限公式:d)ff()ff(ffLM111od)ff()ff(ffUM111o式中:L:众数所在组的下限;U:众数所在组的上限;d:众数所在组的组距;f、f-1、f+1:分别为众数组、众数组前一组、众数组后一组的频数。按上限和下限公式计算出来的众数结果是一致的。5252以下以下285252555539555558586858586161536161以上以上24合计合计212某高校某专业某高校某专业212212名学生的体重资料名学生的体重资料用下限公式计算用上限公式计算 98.563)5368()3968(396855Mo98.
12、563)5368()3968(536858Mo-中位数(Median)1.集中趋势的测度值之一2.排序后处于中间位置上的值3.不受极端值的影响4.主要用于顺序数据,也可用数值型数据,但不能用于分类数据5.各变量值与中位数的离差绝对值之和最小,即中位数的计算(1)未分组数据资料 先对数据按大小顺序排序,然后确定中位数的位置,最后确定中位数的具体数值。中位数位置=当N为奇数时 当N为偶数时12n 某集团公司下属有9家企业,其生产某产品的平均单位成本(单位:元/件)如下所示,计算9家企业生产该产品平均单位成本的中位数。12 16 15 13 12 13 10 12 16 解:排序:10 12 12
13、12 13 13 15 16 16 中位数位置=(9+1)2=5 所以中位数为第5个数字,即 (元/件)13Me 假定在上例中该集团公司下属有8家企业,每家企业生产该产品的平均单位成本排序后为:10 12 12 12 13 13 15 16 中位数位置=(8+1)2=4.5所以中位数为第4个和第5个数字的平均数,即 件)(元/5.1221312Me月销售量(辆)月销售量(辆)销售人员数销售人员数向上累积频数向上累积频数(辆)(辆)8 8559 971210109211111425合计合计25-2525名销售人员名销售人员20162016年年3 3月的月销售量资料月的月销售量资料下限公式:上限公
14、式:112KiimemfSMLdf112kiimemfSMUdf向上累积向上累积向下累积向下累积5252以下以下282821252525555396718455555858681351455858616153188776161以上以上2421224合计合计212-某高校某专业某高校某专业212212名学生的体重资料名学生的体重资料 先分别计算向上累积频数和向下累积频数如上表第三、四列。下限公式:上限公式:(公斤)72.5636867221255Me(公斤)-72.5636877221258Me四分位数(quartile)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值3.不受极端
15、值的影响4.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%四分位数位置的确定未分组数据 下四分位数下四分位数(Q QL L)位置位置=N+14上四分位数上四分位数(Q QU U)位置位置=3(N+1)4组距分组数据下四分位数下四分位数(Q QL L)位置位置=N4上四分位数上四分位数(Q QL L)位置位置=3N4 某集团公司下属9家企业,其生产某产品的平均单位成本分别为12 16 15 13 12 13 10 12 16元/件,计算9家企业生产该产品平均单位成本的四分位数。解:排序10 12 12 12 13 13 15 16 165.2419Q
16、L的位置件元)(/125.0121212QL5.74193QU)(的位置件元)(/5.155.0151615QU数值型分组数据的四分位数计算计算50 50 名工人日加工零件数的四分位数名工人日加工零件数的四分位数某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50 Q QL L位置位置50/450/412.512.5)(81.117588450115QL个Q QU U位置位置3 350/450/437.537.5)(75.12851030450312
17、5QU个算术平均数(arithmetic mean)1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据(1)简单算术平均数(Simple Mean)设一组数据为 ,则简单算术平均数的计算公式为:X X1 1 ,X X2 2,X XN N(2)加权算术平均数(Weighted Mean)设分组后的各组的变量值为:相应的频数为:则加权的算术平均数为k21x,x,x k21f,f,fkiikiiikkkffxffffxfxfxx1121221150050063000700700181260010001000202000
18、0130013009117001500150034500合计合计5651800 某单位某单位5656名职工某季度奖金资料名职工某季度奖金资料(元)9255651800ffxxk1iik1iii按贷款额分组(元)按贷款额分组(元)20002000以下以下150025375002000200030003000250038950003000300040004000350055192500400040005000500045004419800050005000以上以上55001899000合计合计-180622000180180个家庭的月住房公积金贷款情况个家庭的月住房公积金贷款情况(元)345618
19、0622000ffxxk1iik1iii算术平均数的数学性质1.各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小调和平均数(Harmonic Mean)1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于数值型数据,不能用于分类数据和顺序数据5.计算公式为【例】某蔬菜批发市场三种蔬菜的日成交数据如下表,计算三种蔬菜该日的平均批发价格。某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元)Xi成交额成交额(元元)XiFi成交量成交量(公斤公斤)Fi甲甲乙乙丙丙1.200.500.80180001250064001500
20、0250008000合计合计3690048000【例】某公司员工的月加班费工资资料如下表,计算该公司月平均加班工资。60060022200379009003780042120012001800015合计合计7800094元8.8299478000 xmmHn1iiin1ii几何平均数(Geometric Mean)1.集中趋势的测度值之一2.N 个变量值乘积的 N 次方根3.适用于特殊的数据4.主要用于计算平均比率和平均发展速度(1 1)简单几何平均数)简单几何平均数是根据未分组资料计算的几何平均数,计算公式为:nininnxxxxG121【例】某流水作业的装配线须经过毛坯、粗加工、精加工、装
21、配四道工序才能完成,若某月份每道工序的产品合格率分别为97%、92%、93%、98%,求平均产品合格率。%497.9498939297xGk1iiiffik1i(2 2)加权几何平均数)加权几何平均数 加权几何平均数是根据分组资料计算的几何平均数,计算公式为:kiiikiikffikiffkffxxxxG1121121【例】将一笔钱存入某银行,存期15年,以复利计息。15年的利息率如下表所示,求15年的平均年利息率。年限年限年利率(年利率(%)第第1 1年年21021第第2 2年至第年至第4 4年年51053第第5 5年到第年到第8 8年年81084第第9 9年到第年到第1010年年10110
22、2第第1111年到第年到第1515年年151155合计合计-15%52.109%1151101081051xG5ffik1ik1iii152431%02%众数、中位数和均值的关系 根据英国统计学家皮尔逊的经验,在轻微偏态情况下,算术平均数与中位数的距离约为算术平均数与众数距离的1/3,即有:左偏分布左偏分布均值均值中位数中位数众数众数右偏分布右偏分布众数众数中位数中位数均值均值对称分布对称分布均值均值中位数中位数众数众数 2(Me2(Me )=Mo)=MoMeMex众数、中位数和均值的特点和应用1.众数不受极端值影响具有不唯一性数据分布偏斜程度较大时应用2.中位数不受极端值影响数据分布偏斜程度
23、较大时应用3.均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用第四节 标志变异指标(离散程度的测度)1.数据分布的另一个重要特征2.离中趋势的各测度值是对数据离散程度所作的描述3.反映各变量值远离其中心值的程度,因此也称为离中趋势4.从另一个侧面说明了集中趋势测度值的代表程度5.判断平均数的代表性;反映现象变动的稳定性。异众比率(variation ratio)1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.计算公式为4.用于衡量众数的代表性资料显示使用小米手机的人最多,请问能否用小米手机作为智能手机的代表品牌?结论:不能手机品牌手机品牌使用人数(人)使用人数(人)频
24、率(频率(%)中兴中兴153.0魅族魅族214.2酷派酷派377.4OPPOOPPO387.6联想联想448.8VIVOVIVO459.0三星三星499.8苹果苹果5611.2华为华为6412.8小米小米8216.4其它其它499.8合计合计500100.020152015年年1010月月手机品牌调查数据分类表手机品牌调查数据分类表%6.8320082150082500ff1fffVimimii极差极差 (range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑中间变动数据5.计算公式为未分组数据未分组数据 R=max(Xi)-min(Xi)组距分组数
25、据组距分组数据 R=最高组上限-最低组下限四分位差 (quartile deviation)1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD=QU-QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性平均差(mean deviation)1.离散程度的测度值之一2.各变量值与其均值离差绝对值的平均数3.能全面反映一组数据的离散程度4.数学性质较差,实际中应用较少5.计算公式为未分组数据组距分组数据按体重分组按体重分组(公斤)(公斤)5252以下以下50.5286.1170.85252555553.5393.1120.95555
26、585856.5680.16.85858616159.5532.9153.76161以上以上62.5245.9141.6合计合计-212-593.8某高校某专业某高校某专业212212名学生体重的平均差计算表名学生体重的平均差计算表(公斤)8.22128.593ffxxMk1iik1iiiD方差和标准差方差和标准差(variance and standard deviation)1.离散程度的测度值之一2.最常用的测度值3.标准差:各变量值与均值离差平方的平均数的平方根4.反映了各变量值与均值的平均差异程度 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差总体
27、方差和标准差总体方差和标准差(计算公式)方差的计算公式方差的计算公式未分组数据:未分组数据:未分组数据未分组数据组距分组数据:组距分组数据:组距分组数据:组距分组数据:标准差的计算公式标准差的计算公式按体重分组(公按体重分组(公斤)斤)5252以下以下50.528-6.137.211041.885252555553.539-3.19.61374.795555585856.568-0.10.010.685858616159.5532.98.41445.736161以上以上62.5245.934.81835.44合计合计-212-2698.52XXi2iXX i2iFXX 某高校某专业某高校某专业
28、212212名学生体重的方差和标准差计算表名学生体重的方差和标准差计算表73.1221252.2698FFXXk1iik1ii2i2(公斤)57.373.122样本方差和标准差样本方差和标准差(simple variance and standard deviation)方差的计算公式方差的计算公式未分组数据未分组数据:未未分组数据:分组数据:组距分组数据:组距分组数据:标准差的计算公式标准差的计算公式组距分组数据:组距分组数据:前例中若某高校某专业212名学生的体重数据 为样本资料,则计算的样本方差和标准差为:79.12121252.2698ffxxsk1iik1ii2i2(公斤)58.37
29、9.12s相对位置的相对位置的测度测度:标准分数标准分数(standard score)1.也称标准化值2.给出某一个值在一组数据中的相对位置3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5.计算公式为标准化值(例题分析)9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表 家庭编号人均月收入(元)标准化值 z 123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996 1、均值等于均值等于0 0 2、方差等于方差等于1 1标准分数(性质)z分数只
30、是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。经验法则l经验法则表明:当一组数据对称分布时l约有68%的数据在平均数加减1个标准差的范围之内l约有95%的数据在平均数加减2个标准差的范围之内l约有99%的数据在平均数加减3个标准差的范围之内 1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5.计算公式为:离散系数(coefficient of ariation)离散系数(实例和计算过程)【例】某管理局抽查了所属的8家企业,
31、其产品销售数据如表。试比较产品销售额与销售利润的离散程度 某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)X1销售利润(万元)销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0S2=23.09(万元)V2=32.521523.09=0.710X2=32.5215(万元)X1=536.25(万元)S1=309.19(万元)V1=536.25309.19=0.577结论:结论:计算结果表明,V V1 1 0为右偏分布4.偏态系数 0
32、为左偏分布5.计算公式为 未分组数据:分组数据:33is)2n)(1n(XXnSKk1i3k1ii3iff)xx(SK偏态(实例)已知2007年我国农村居民家庭按纯收入分组的有关数据。试计算偏态系数 2007年年农村居民家庭纯收入数据农村居民家庭纯收入数据按纯收入分组(元)按纯收入分组(元)户数比重(户数比重(%)500以下以下500100010001500150020002000250025003000300035003500400040004500450050005000以上以上2.2812.4520.3519.5214.9310.356.564.132.681.814.94偏态与峰度(从
33、直方图上观察)偏态系数(计算过程)农村居民家庭纯收入数据偏态及峰度计算表农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组按纯收入分组(百元)(百元)组中值组中值Xi户数比重户数比重(%)fi(Xi-X)fi3(Xi-X)fi45以下以下5101015152020252530303535404045455050以上以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9310.356.564.132.681.814.94-154.64-336.46-144.87-11.840.1823.1689.02171.4325
34、0.72320.741481.812927.154686.511293.5346.520.20140.60985.492755.005282.948361.9846041.33合计合计1001689.2572521.25偏态偏态系数系数(计算结果)将计算结果代入公式得结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大。峰态(kurtosis)1.数据分布扁平程度的测度2.峰态系数=3扁平程度适中3.峰态系数3为尖峰分布5.计算公式为 未分组数据:分组数据:422i4is)3n)(2n)(1n()1n
35、()xx(3)xx()1n(nK-峰态系数(实例计算结果)代入公式代入公式得:得:根据上例中的计算结果,计算农村居民家庭纯收入分布的峰态系数。结论:结论:由于由于=3.43=3.43,说明我国农村居民家庭纯收,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大入的分布为尖峰分布,说明低收入家庭占有较大的比重的比重 第六节 利用Excel进行描述性统计分析函数名称函数名称函数功能函数功能函数名称函数名称函数功能函数功能AVERAGEAVERAGE计算指定序列算术平均值VARP计算总体的方差HARMEANHARMEAN计算数据区域的调和平均值VAR计算样本的方差GEOMEANGEO
36、MEAN计算数据区域的几何平均值STDEVP计算总体的标准差MODEMODE计算给定数据集合的众数STDEV计算样本的标准差MEDIANMEDIAN计算给定数据集合的中位数STANDARDIZE计算标准分数QUARTILEQUARTILE计算四分位点SKEW计算偏态系数MINMIN计算最小值KURT计算峰度系数MAXMAX计算最大值常用的描述统计函数常用的描述统计函数具体步骤:“数据”“数据分析”“描述统计”“输入区域”输入原始数据,“输出选项”中选择输出区域、汇总统计等。运用“描述统计”工具输出描述统计量利用Excel中的描述统计工具,分别对北京市和山东省20002014年的城镇登记失业人数进行描述性分析,找出两组数据的特征值。本章小结1.总量指标的种类2.相对指标的种类及计算方法3.平均指标的种类及计算方法4.标志变异指标的种类及计算方法5.利用偏态与峰态的测度值判定分布形态。