1、主讲:主讲:王光玲王光玲欢迎学习欢迎学习统计学统计学课程课程统计学统计学第四章第四章 数据分布特征的测数据分布特征的测度度 济南大学经济学院济南大学经济学院 王光玲王光玲2022-7-243统计设计统计设计推推断断分分析析描描述述分分析析收集数据收集数据整理数据整理数据2022-7-244本章相关内容本章相关内容n学习目标学习目标 n重点、难点重点、难点n教学内容教学内容n参考资料参考资料 2022-7-245学习目标学习目标n1.集中趋势各测度值的计算方法集中趋势各测度值的计算方法n2.集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合n3.离散程度各测度值的计算方法离散程度各
2、测度值的计算方法n4.离散程度各测度值的特点及应用场合离散程度各测度值的特点及应用场合n5.偏态与峰态的测度方法偏态与峰态的测度方法n6.用用Excel计算描述统计量并进行分析计算描述统计量并进行分析2022-7-246重点、难点重点、难点n重点:重点:平均指标和变异指标的概念、种类、平均指标和变异指标的概念、种类、计算方法。尤其是加权算术平均指标和加权计算方法。尤其是加权算术平均指标和加权调和平均指标的计算、标准差和标准差系数调和平均指标的计算、标准差和标准差系数的计算。的计算。n难点难点:各综合指标的计算方法、适应条件各综合指标的计算方法、适应条件及其关系。利用及其关系。利用EXSEL进行
3、统计处理。进行统计处理。2022-7-247教学内容教学内容n利用图表展示数据,可以对数据分布的形状和特征利用图表展示数据,可以对数据分布的形状和特征有一个大致的了解。但要全面把握数据分布的特征,有一个大致的了解。但要全面把握数据分布的特征,还要找到反映数据分布特征的各个代表值。还要找到反映数据分布特征的各个代表值。n数据分布的特征主要从三个方面进行测度和描述:数据分布的特征主要从三个方面进行测度和描述:n一是一是分布的分布的集中趋势集中趋势,反映各数据向其中心值靠拢,反映各数据向其中心值靠拢或聚集的程度;或聚集的程度;n二是二是分布的分布的离散程度离散程度,反映各数据远离其中心值的,反映各数
4、据远离其中心值的趋势;趋势;n三是三是分布的分布的形状形状,反映数据分布偏斜程度和峰度。,反映数据分布偏斜程度和峰度。2022-7-248数据分布的特征数据分布的特征2022-7-249数据分布特征的测度数据分布特征的测度数据特征的测度数据特征的测度众众 数数中位数中位数平均数平均数离散系数离散系数方差和标准差方差和标准差峰峰 态态四分位差四分位差异众比率异众比率偏偏 态态分布的形状分布的形状集中趋势集中趋势离散程度离散程度2022-7-24104.1 4.1 集中趋势的测定集中趋势的测定4.2 4.2 离散程度的测定离散程度的测定4.3 4.3 数据分布的偏态和峰度数据分布的偏态和峰度4.4
5、 4.4 用用ExcelExcel计算描述统计量并进行分析计算描述统计量并进行分析本节将重点讨论数据分布特征各测度值本节将重点讨论数据分布特征各测度值的计算方法、特点及其应用场合。的计算方法、特点及其应用场合。教学内容教学内容2022-7-24114.1 4.1 集中趋势的测定集中趋势的测定4.1.1 4.1.1 集中趋势的涵义集中趋势的涵义 4.1.2 4.1.2 集中趋势的度量集中趋势的度量2022-7-2412集中趋势集中趋势(见见P82)P82)(Central tendency)(Central tendency)集中趋势集中趋势1.1.一组数据向其中心值靠拢的倾向和程度;一组数据向
6、其中心值靠拢的倾向和程度;2.2.测度集中趋势就是寻找数据水平的代表值或中心值;测度集中趋势就是寻找数据水平的代表值或中心值;3.3.不同类型的数据用不同的集中趋势测度值;不同类型的数据用不同的集中趋势测度值;4.4.低层次数据的测度值适用于高层次的测量数据,但高低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据。层次数据的测度值并不适用于低层次的测量数据。2022-7-2414平均数平均数/平均指标平均指标1.1.用一个概括性的数值反映总体各单位数量表现的一般用一个概括性的数值反映总体各单位数量表现的一般水平。计算平均数是统计分析中最常用的一种方法。水平
7、。计算平均数是统计分析中最常用的一种方法。2.2.在统计分析中,除了用平均数表现数据资料的集中趋在统计分析中,除了用平均数表现数据资料的集中趋势外,还常运用平均数进行静态和动态的对比分析,势外,还常运用平均数进行静态和动态的对比分析,运用平均数分析现象之间的依存关系。运用平均数分析现象之间的依存关系。3.3.平均数也是统计推断的一个非常重要的参数。平均数也是统计推断的一个非常重要的参数。4.4.平均数反映了变量分布的集中趋势平均数反映了变量分布的集中趋势,它是变量分布的,它是变量分布的重要特征值重要特征值 。2022-7-2415表明同类社会经济现象在一定表明同类社会经济现象在一定时间、地点条
8、件下达到的一般时间、地点条件下达到的一般水平,是总体内各单位某一数水平,是总体内各单位某一数量标志的不同标志值的代表值。量标志的不同标志值的代表值。平均数平均数或或平均指标平均指标2022-7-2416q可以反映现象总体的客观规定性,可以反映现象总体的客观规定性,如计算平均如计算平均年龄、平均成绩、平均工资、平均亩产量等年龄、平均成绩、平均工资、平均亩产量等 ;q可以对比同类现象在不同的时间、地点和条件可以对比同类现象在不同的时间、地点和条件下的一般水平;下的一般水平;q可以分析现象之间的依存关系。可以分析现象之间的依存关系。测定集中趋势的意义:测定集中趋势的意义:2022-7-2417集中趋
9、势的度量集中趋势的度量(P82)2022-7-2418平均指标的种类及计算方法平均指标的种类及计算方法位置平均数位置平均数根据数据的类型和特点选用不同的测度值来反映数根据数据的类型和特点选用不同的测度值来反映数据的集中趋势据的集中趋势均值均值1.1.数值型数据:数值型数据:算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数2.2.顺序数据:顺序数据:中位数中位数 分位数分位数3.3.分类数据:分类数据:众数众数数值平均数数值平均数2022-7-2419数值型数据:平均数数值型数据:平均数2022-7-2420(一)算术平均数(一)算术平均数(mean)(mean)(见见P82)P
10、82)1.1.也称为均值也称为均值2.2.集中趋势的最常用测度值集中趋势的最常用测度值 基本计算公式:基本计算公式:=总体标志总量算术平均数总体单位总量2022-7-24213.3.一组数据的均衡点所在一组数据的均衡点所在 体现了数据的必然性特征体现了数据的必然性特征4.4.易受极端值的影响易受极端值的影响5.5.有简单算术平均数和加权算术平均数之分有简单算术平均数和加权算术平均数之分6.6.根据总体数据计算的,称为根据总体数据计算的,称为总体平均数总体平均数,记为,记为;根据样本数据计算的,称为根据样本数据计算的,称为样本平均数样本平均数,记为,记为 x(一)算术平均数(一)算术平均数(me
11、an)(mean)(见见P82)P82)1.1.简单算术平均数简单算术平均数(Simple mean)(Simple mean)计算公式计算公式设一组数据为:设一组数据为:x1,x2,xn (总体数据总体数据X XN N)样本平均数样本平均数nxnxxxxniin121121NiNiXXXXNN总体平均数总体平均数2.2.加权算术平均数加权算术平均数 (Weighted mean)(Weighted mean)计算公式计算公式设各组的变量值(组中值)为:设各组的变量值(组中值)为:x1,x2,xk 相应的频数为:相应的频数为:f1,f2,fk1 1221121kiikkikkiix fx fx
12、 fx fxffff样本样本加权平均数加权平均数总体总体加权平均数加权平均数11221121kiikkikkiiX FX FX FX FFFFF2.2.加权算术平均数加权算术平均数(Weighted mean)(Weighted mean)(例题分析例题分析)【例例4-24-2】某汽车配件厂有某汽车配件厂有40名工人,他们每人每名工人,他们每人每日加工的某种零件数,编制成单项数列资料如日加工的某种零件数,编制成单项数列资料如下下表表,计算,计算40名工人平均每人每日加工零件数。名工人平均每人每日加工零件数。(件/人)某汽车配件厂工人每人每日加工某种零件情况某汽车配件厂工人每人每日加工某种零件情
13、况n【例例4-4-】已知某储蓄所为已知某储蓄所为120个企业的贷款情况见个企业的贷款情况见下下表,表,求该储蓄所平均为每个企业提供的贷款额。求该储蓄所平均为每个企业提供的贷款额。2.2.加权算术平均数加权算术平均数(Weighted mean)(Weighted mean)(例题分析例题分析)某储蓄所贷款情况表某储蓄所贷款情况表11562046.83120kiiikiix fxf(万元)(万元)n注意注意:加权算术平均数其数值的大小,不仅受各组:加权算术平均数其数值的大小,不仅受各组变量值变量值(xi)大小的影响,而且受各组变量值出现的大小的影响,而且受各组变量值出现的频数频数(fi)大小的影
14、响。大小的影响。(见见P84)n所谓权数的大小,有时并不是权数本身数值的大小,所谓权数的大小,有时并不是权数本身数值的大小,而是各组频数占总体单位数的比重(频率)。而是各组频数占总体单位数的比重(频率)。n加权均值的公式可变形为:加权均值的公式可变形为:1111kiikiiikkiiiiix ffxxff2.2.加权算术平均数加权算术平均数(Weighted mean)(Weighted mean)(权数对均值的影响权数对均值的影响)n【例例4-4-】某企业某企业60名工人月工资分组情况如下表名工人月工资分组情况如下表,试试计算月平均工资计算月平均工资.某企业某企业60名工人月工资分组表名工人
15、月工资分组表ifix 873.36 100 60 -合合 计计 86.71 6.67 4 1300 1200以上以上 183.37 16.67 10 1100 1000-1200 389.97 43.33 26 900 800-1000 163.31 23.33 14 700 600-800 50 10 6 500 600以下以下 频率频率(%)人数人数 组中值组中值 月工资分组月工资分组(元元)iiff.iiifxf2.2.加权算术平均数加权算术平均数(Weighted mean)(Weighted mean)(以频率为权数计算均值以频率为权数计算均值)n当各组变量值出现的频数或频率相等,即
16、当当各组变量值出现的频数或频率相等,即当.加权算术平均数与简单算术平均加权算术平均数与简单算术平均数的关系数的关系或或时,权数的作用就消失了,这就意味着各组变量值对总时,权数的作用就消失了,这就意味着各组变量值对总平均的结果所起的作用是一样的,此时,加权算术平均平均的结果所起的作用是一样的,此时,加权算术平均数就等于简单算术平均数。数就等于简单算术平均数。2022-7-2429(二)调和平均数(二)调和平均数(Harmonic mean Harmonic mean)(见见P86)P86)2022-7-2430【例例4-74-7】某种蔬菜的价格,甲集市某种蔬菜的价格,甲集市4.5元元/千克,千克
17、,乙集市乙集市4元元/千克,丙集市千克,丙集市5.5元元/千克。若在三千克。若在三个集市各买个集市各买1元,求蔬菜的平均价格。元,求蔬菜的平均价格。)22.05.41(千克甲集市购买蔬菜的数量)25.041(千克乙集市购买蔬菜的数量)18.05.51(千克丙集市购买蔬菜的数量1.1.简单调和平均数简单调和平均数2022-7-24311.1.简单调和平均数简单调和平均数n简单调和平均数简单调和平均数又称又称倒数平均数倒数平均数。计算公式为:。计算公式为:千克)(元蔬菜平均价格/62.45.51415.411111212111111111nnniinnHxxxxxxxn2022-7-24322.2
18、.加权调和平均数加权调和平均数 n在上例中,如果在甲集市花费在上例中,如果在甲集市花费8元,乙集市花元,乙集市花费费10元,丙集市花费元,丙集市花费5元,购买这些蔬菜的平元,购买这些蔬菜的平均价格是多少?均价格是多少?千克)(元蔬菜平均价格/43.45.554105.4851082022-7-24332.2.加权调和平均数加权调和平均数12112112KikiKkiikimmmmHmmmmxxxx原来只是原来只是计算时使计算时使用了不同用了不同的数据!的数据!m xf某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元)xi成交额成交额(元元)mi=xi
19、fi成交量成交量(公斤公斤)fi=mi/xi甲甲乙乙丙丙1.200.500.801800012500640015000250008000合计合计3690048000【例例4-84-8】某蔬菜批发市场三种蔬菜的日成交数据如表,计某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格。算三种蔬菜该日的平均批发价格。36900=0.76948000mHmx成交额成交额(元)成交额成交量批发价格计算栏2.2.加权调和平均数加权调和平均数(例题分析)(例题分析)2022-7-2435在实际应用平均数时,可掌握这样的原则:当平均数的分子资料未知时,采用加权算术平均数方法计算平均数;当分母资
20、料未知时,采用加权调和平均数方法计算平均数。(三三)几何平均数几何平均数(geometric mean)(geometric mean)(见见P87)P87)1.1.n n 个变量值连乘积的个变量值连乘积的 n n 次方根次方根2.2.适用于对比率数据的平均适用于对比率数据的平均,而且各比率的乘积等于而且各比率的乘积等于总的比率总的比率3.3.主要用于计算平均比率或平均速度主要用于计算平均比率或平均速度2022-7-2437(三三)几何平均数几何平均数(geometric mean)(geometric mean)(计算公式计算公式)4.4.计算公式计算公式(1 1)简单几何平均数)简单几何平
21、均数121nnnniiGxxxx2022-7-2438n(2 2)加权几何平均数加权几何平均数12121121ikikkkffffffffikiiGxxxx(三三)几何平均数几何平均数(geometric mean)(geometric mean)(计算公式计算公式)(三三)几何平均数几何平均数(geometric mean)(geometric mean)(例题分析例题分析)【例例4-94-9】一位投资者购持有一种股票,在一位投资者购持有一种股票,在2000、2001、2002和和2003年收益率分别为年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率
22、。计算该投资者在这四年内的平均收益率 4104.5%102.1%125.5%101.9%18.0787%G n【例例4-104-10】某投资银行某笔投资的年利率是按复利某投资银行某笔投资的年利率是按复利计算的,若将过去计算的,若将过去25年的利率资料整理如下表所示年的利率资料整理如下表所示的变量数列,求的变量数列,求25年的平均年利率。年的平均年利率。n投资年利率分组表投资年利率分组表 年利率(年利率(%)本利率(本利率(%)x 年数(频数)年数(频数)f 3 4 8 10 15 103 104 108 110 115 1 4 8 10 2 合合 计计 -25(三三)几何平均数几何平均数(ge
23、ometric mean)(geometric mean)(例题分析例题分析)n用加权几何平均法求用加权几何平均法求25年的平均本利率:年的平均本利率:251810225103%104%108%110%115%7.65041.0848108.48%G 即即25年的平均年利率为年的平均年利率为8.48%(三三)几何平均数几何平均数(geometric mean)(geometric mean)(例题分析例题分析)2022-7-2442n练习题练习题:P110第1、2、5、6题2022-7-2443顺序数据:中位数和分位数顺序数据:中位数和分位数2022-7-2444(四)中位数(四)中位数(me
24、dian)(median)(见(见P90P90)1.1.排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%50%50%2.2.不受极端值的影响不受极端值的影响3.3.主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据4.4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即(四)中位数(四)中位数(位置和数值的确定位置和数值的确定)中位数位置中位数位置:12122nff中位数位置未分组资料单值数列组距数列 中位数中位数:(四)顺序数据的中位数(四)顺序数据的中位数 (例题分析例题分析)解
25、:中位数的位置为解:中位数的位置为 (300+1)/2(300+1)/2150.5150.5 从累计频数看,中从累计频数看,中位数在位数在“一般一般”这一这一组别中组别中 中位数为中位数为 MMe e=一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 2424108108 93 93 45 45 30 30 2424132132225225270270300300合计合计300300【例例4-134-13】(四)数值型数据的中位数(
26、四)数值型数据的中位数 (9(9个数据的算例个数据的算例)【例例4-144-14】9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9中位数中位数=108019 1522n中位数位置(四)数值型数据的中位数(四)数值型数据的中位数 (10(10个数据的算例个数据的算例)【例例4-154-15】:1010个家庭的人均月收入数据个家庭的人均月收入数据排序排序:660660
27、 750 780 850 750 780 850 960 1080960 1080 1250 1500 1630 2000 1250 1500 1630 2000位置位置:1 2 3 4 1 2 3 4 5 65 6 7 8 9 10 7 8 9 10 5.5211021n位置102021080960中位数4-164-16某企业某日工人的日产量资料如下:某企业某日工人的日产量资料如下:日产量(件)日产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)101011 1112121313141470701001003803801501501001007070170170550
28、550700700800800合计合计800800 xf计算该企业该日全部工人日产量的中位数。计算该企业该日全部工人日产量的中位数。5.40021800eM(四)数值型数据的中位数(四)数值型数据的中位数(单值数列单值数列)中位数的位次:中位数的位次:5.400218004-174-17某车间某车间5050名工人月产量的资料如下:名工人月产量的资料如下:月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)200200以下以下200200400400400400600600600600以上以上3 37 732328 83 3101042425050合计合计50
29、50计算该车间工人月产量的中位数。计算该车间工人月产量的中位数。Xf12memFSMLdF(四)数值型数据的中位数(四)数值型数据的中位数(组距数列组距数列)先根据公式 确定中位数的位置,并确定中位数所在的组 1502522NiiF 件75.4934006003210250400eM2022-7-2451同理,中位数上限公式:112NiimemFSMUdF2022-7-2452(五)四分位数(五)四分位数(Quartile)(Quartile)(P91)(P91)一组数据排序后处于一组数据排序后处于25%和和75%位置上的值,称为四分位置上的值,称为四分位数或四分位点。位数或四分位点。四分位数
30、四分位数是通过三个点将全部数据等分为四部是通过三个点将全部数据等分为四部分,其中每部分包含分,其中每部分包含25%的数据。很显然,中的数据。很显然,中间的四分位数就是中位数,因此,通常所说的间的四分位数就是中位数,因此,通常所说的四分位数是指处在四分位数是指处在25%位置上的数值(下四分位置上的数值(下四分位数)和处在位数)和处在75%位置上的数值(上四分位位置上的数值(上四分位数)。数)。根据未分组资料计算四分位数时,首先对数据根据未分组资料计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。进行排序,然后确定四分位数所在的位置。2022-7-2453设下四分位数为设下四分位数为
31、 ,上四分位数为,上四分位数为 ,未分组的原始数据未分组的原始数据,各四分位数的位置为:,各四分位数的位置为:LQUQ13+1)=;44LUnnQQ(位置位置当四分位数的位置不在某一个数值上时,当四分位数的位置不在某一个数值上时,可根据四分位数的位置,按比例分摊四可根据四分位数的位置,按比例分摊四分位数两侧数值的差值。分位数两侧数值的差值。【例例4-184-18】在某城市中随机抽取在某城市中随机抽取9个家庭,调查得到每个家庭的人个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),均月收入数据如下(单位:元),1500 750 780 1080 850 960 2000 1250 1630
32、 ,计算人均月收入的四分位数。计算人均月收入的四分位数。解解:19 12.544LnQ的位置780 8508152L则,Q3(1)3(9 1)=7.544UnQ的位置(1500 1630)15652U则,Q 和和 之间包含了之间包含了50%的数据,因此,我们可以说有的数据,因此,我们可以说有一半的家庭人均月收入在一半的家庭人均月收入在815元元1565元之间。元之间。LQUQ数据排序:数据排序:750 780 850 960 1080 1250 1500 1630 2000(五)顺序数据的四分位数(五)顺序数据的四分位数 (例题分析例题分析)(五)顺序数据的四分位数(五)顺序数据的四分位数 (
33、例题分析例题分析)解:解:QQL L位置位置=(300)/4=75(300)/4=75 Q QU U位置位置 =(3=(3300)/4300)/4 =225 =225从累计频数看,从累计频数看,QQL L在在“不满意不满意”这一组别中这一组别中QQU U在在“一般一般”这一组别中这一组别中四分位数为四分位数为:QQL L =不满意不满意 QQU U =一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24
34、132225270300合计合计300【例例4-194-19】2022-7-2456分类数据:众数分类数据:众数2022-7-2457(六)众数(六)众数(mode)(mode)(见(见P88P88)1.1.一组数据中出现次数最多的变量值,记作一组数据中出现次数最多的变量值,记作2.2.适合于数据量较多时使用适合于数据量较多时使用3.3.不受极端值的影响不受极端值的影响4.4.一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数5.5.主要用于分类数据,也可用于顺序数据和数主要用于分类数据,也可用于顺序数据和数值型数据值型数据0M2022-7-2458(六)众数(六)众数(不惟一性
35、不惟一性)无众数无众数原始数据原始数据:10 5 9 12 6 8:10 5 9 12 6 8一个众数一个众数原始数据原始数据:6 :6 5 5 9 8 9 8 5 55 5多于一个众数多于一个众数原始数据原始数据:25 :25 28 2828 28 36 36 42 4242 42(六)分类数据的众数(六)分类数据的众数 (例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181
36、218合计合计501100解:解:这里的变量为这里的变量为“饮饮料品牌料品牌”,这是个分类,这是个分类变量,不同类型的饮料变量,不同类型的饮料就是变量值就是变量值 所调查的所调查的5050人中,购人中,购买可口可乐的人数最多买可口可乐的人数最多,为,为1515人,占总被调查人,占总被调查人数的人数的30%30%,因此众数,因此众数为为“可口可乐可口可乐”这一品这一品牌,即牌,即 MMo o可口可乐可口可乐【例例4-214-21】(六)顺序数据的众数(六)顺序数据的众数 (例题分析例题分析)解:解:这里的数据为顺这里的数据为顺序数据。变量为序数据。变量为“回回答类别答类别”甲城市中对住房甲城市中
37、对住房表示不满意的户数最表示不满意的户数最多,为多,为108108户,因此户,因此众数为众数为“不满意不满意”这这一类别,即一类别,即 MMo o不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0【例例4-224-22】日产量(件)日产量(件)工人人数(人)工人人数(人)101112131470100380150100合计合计800【例例4-234-23】
38、已知某企业某日工人的日产量资料如下已知某企业某日工人的日产量资料如下:0M(单值数列)(单值数列)计算该企业该日全部工人日产量的众数。计算该企业该日全部工人日产量的众数。(六)数值型数据的众数(六)数值型数据的众数 (例题分析例题分析)(六)数值型分组数据的众数(六)数值型分组数据的众数(组距数列组距数列)1.众数的值与相邻两组频数的分布有关众数的值与相邻两组频数的分布有关 该公式假定众数组的频数在众数组内该公式假定众数组的频数在众数组内均匀分布均匀分布3.相邻两组的频数不相等时,众数相邻两组的频数不相等时,众数采用下列近似公式计算采用下列近似公式计算f-1f+1f-1f+1f下限公式下限公式
39、:111112()()oFFMLdLdFFFF 上限公式:上限公式:121112()()oFFMUdUdFFFF 式中:表示众数所在组的下限;表示众数所在组的上限;表示众数所在组的组距。LUd数值型数据的众数数值型数据的众数 (例题分析例题分析)(组距数列)(组距数列)【例例4-244-24】某车间某车间5050名工人月产量的资料如下:名工人月产量的资料如下:月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)200200以下以下200200400400400400600600600600以上以上3 37 732328 83 3101042425050合计合
40、计5050计算该车间工人月产量的众数。计算该车间工人月产量的众数。Xf件5002ULModLMo211件502200242525400oM概约众数概约众数:众数所在组的:众数所在组的组中值,在本例为组中值,在本例为500件件q当数据分布存在明显的集中趋势,且当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;有显著的极端值时,适合使用众数;q当数据分布的集中趋势不明显或存在当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,前者无众数,后者为双众数或多众数,也等于没有众数也等于没有众数)。)。众数、
41、中位数和平均数的比较众数、中位数和平均数的比较众数、中位数和平均数的关系众数、中位数和平均数的关系0MMXe左偏分布左偏分布均值均值 中位数中位数 众数众数XMMe0对称分布对称分布 均值均值=中位数中位数=众数众数右偏分布右偏分布中位数中位数均值均值XMMe02022-7-2468众数、中位数、平均数的众数、中位数、平均数的特点和应用特点和应用1.众数众数n不受极端值影响不受极端值影响n具有不惟一性具有不惟一性n数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用2.中位数中位数n不受极端值影响不受极端值影响n数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.平
42、均数平均数n易受极端值影响易受极端值影响n数学性质优良数学性质优良n数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用2022-7-24694.2 离中趋势的测定离中趋势的测定2022-7-2470离中趋势离中趋势(见见P93)P93)1.1.数据分布的另一个重要特征数据分布的另一个重要特征2.2.反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度(离散程度离散程度,即即总体中各单位标志值背离分布中心的规模或程度总体中各单位标志值背离分布中心的规模或程度)3.3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度(变异指标值越大,平均指
43、标的代表性越小;反变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大。之,平均指标的代表性越大。)4.4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值2022-7-2472离散程度的度量离散程度的度量离散程度测度值的类型离散程度测度值的类型分类数据分类数据异众比率异众比率顺序数据顺序数据四分位差四分位差数值型数据数值型数据方差和标准差方差和标准差相对位置的测量相对位置的测量标准分数,经验法则,标准分数,经验法则,切比雪夫不等式切比雪夫不等式相对离散程度相对离散程度离散系数离散系数数据类型数据类型测测量量指指标标2022-7-2474 分类数据:异众比率
44、分类数据:异众比率(见见P93)P93)异众比率异众比率(variation ratio)(variation ratio)作用作用:它是衡量众数对一组数据的代表性程度的指标。:它是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。众数的代表性就越好。计算公式:计算公式:1immriiimfffVffff 式中,为变量值的总频数;为众数组的频数概念概念:非众数组的频数占总频数的比率,用非众数组的频数占
45、总频数的比率,用 表示。表示。rV不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100解:解:在所调查的在所调查的5050人当中,购买人当中,购买其他品牌饮料的人数占其他品牌饮料的人数占70%70%,异众比率比较大。因此,异众比率比较大。因此,用用“可口可乐可口可乐”代表消费者代表消费者购买饮料品牌的状况,其代购买饮料品牌的状况,其代表性不是很好表性不是很好115150
46、0.770%imrimiffvfff 【例例4-264-26】2022-7-2477【例例4-274-27】为研究广告市场的状况,一家广告公司在某城市随机抽取为研究广告市场的状况,一家广告公司在某城市随机抽取200200人就城市居民比较关心的哪一类广告进行了邮寄问卷调人就城市居民比较关心的哪一类广告进行了邮寄问卷调查。调查数据经分类整理后形成频数分布表查。调查数据经分类整理后形成频数分布表如下,如下,试计算异试计算异众比率。众比率。2001121121144%200200immiiifffVff 2022-7-2478顺序数据:四分位差顺序数据:四分位差(见见P94)P94)四分位差四分位差(
47、quartile deviation quartile deviation 概念:概念:上四分位数与下四分位数之差,称为四分位差,亦上四分位数与下四分位数之差,称为四分位差,亦称为称为内距或四分间距内距或四分间距(inter-quartile range),用用 表示表示dQ作用:作用:1、四分位差反映了中间、四分位差反映了中间50%数据的离散程度,其数数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。数据越分散。2、由于中位数处于数据的中间位置,因此,四分位差的大、由于中位数处于数据的中间位置,因此,四分位差的
48、大小在一定程度上也说明了中位数对一组数据的代表程度。小在一定程度上也说明了中位数对一组数据的代表程度。公式:公式:dULQQQ【例例4-284-28】根据计算上下四分位数根据计算上下四分位数例例4-18的例子,家庭人的例子,家庭人均月收入的四分位差为均月收入的四分位差为1565815750dULQQQ(元)甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300解:解:QQL
49、 L位置位置=(300)/4=75(300)/4=75 Q QU U位置位置 =(3=(3300)/4300)/4 =225 =225 从累计频数看,从累计频数看,QQL L在在“不满意不满意”这一组别中;这一组别中;QQU U在在“一般一般”这一组别中这一组别中 四分位数为:四分位数为:QQL L =不满意不满意 QQU U =一般一般组距组距分组分组数据数据LU434fQfQ位置位置四分位差【例例4-294-29】解:解:设非常不满意为设非常不满意为1,1,不满意为不满意为2,2,一般为一般为3,3,满意为满意为 4,4,非常满非常满意为意为5 5。已知已知 QQL L =不满意不满意 =
50、2=2 QQU U =一般一般 =3=3四分位差:四分位差:QQd d =QQU U -QQL L =3=3 2 2 =1=1甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300四分位差【例例4-294-29】2022-7-2482数值型数据:数值型数据:方差和标准差方差和标准差 (常用标志变异指标)(常用标志变异指标)测定标志变异度的绝对量指标测定标志变异度的绝对量指标
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。