数据分布特征的描述讲解课件.ppt

上传人(卖家):三亚风情 文档编号:3251664 上传时间:2022-08-13 格式:PPT 页数:86 大小:1.53MB
下载 相关 举报
数据分布特征的描述讲解课件.ppt_第1页
第1页 / 共86页
数据分布特征的描述讲解课件.ppt_第2页
第2页 / 共86页
数据分布特征的描述讲解课件.ppt_第3页
第3页 / 共86页
数据分布特征的描述讲解课件.ppt_第4页
第4页 / 共86页
数据分布特征的描述讲解课件.ppt_第5页
第5页 / 共86页
点击查看更多>>
资源描述

1、第 4章 统计数据特征的描述o4.1 分布集中趋势的测度分布集中趋势的测度o4.2 分布离散程度的测度分布离散程度的测度o4.3 分布偏态与峰度的侧度分布偏态与峰度的侧度o4.4 茎叶图与箱线图茎叶图与箱线图o4.5 统计表与统计图统计表与统计图o 本章小结本章小结第1页,共86页。学习目标o掌握数据集中趋势和离散程度的测度方法掌握数据集中趋势和离散程度的测度方法o掌握茎叶图和箱线图的制作方法掌握茎叶图和箱线图的制作方法o掌握分布偏态与峰度的测度方法掌握分布偏态与峰度的测度方法o掌握统计表和统计图的使用掌握统计表和统计图的使用第2页,共86页。学习重点o侧度数据集中趋势指标的计算方法及应用o侧

2、度数据离散程度指标的计算方法及应用o统计表与统计图第3页,共86页。学习难点o方差、标准差、变异系数的实质第4页,共86页。授课学时o4学时第5页,共86页。4.1分布集中趋势的测度分布集中趋势的测度值是分布集中趋势的测度值是反映数据一般水平反映数据一般水平的代表值或者数据分布的中心值的代表值或者数据分布的中心值。一、众数一、众数二、中位数二、中位数三、四分位数三、四分位数四、均值四、均值五、几何均值五、几何均值六、切尾均值六、切尾均值七、众数、中位数和均值的比较七、众数、中位数和均值的比较第6页,共86页。众数第7页,共86页。众数(mode)o一组数据中出现次数最多的变量值o适合于数据量较

3、多时使用o不受极端值的影响o一组数据可能没有众数或有几个众数o主要用于分类数据,也可用于顺序数据和数值型数据o众数计算公式见书页。第8页,共86页。众数(不惟一性)o无众数无众数第9页,共86页。中位数第10页,共86页。中位数(median)o排序后处于中间位置上的值第11页,共86页。中位数计算(1)为分组资料中位数位置=(n+1)/2 (奇数项与偶数项)(2)分组资料中位数位置=n/2中位数在累计频数刚刚大于中位数位置的组众数计算公式见书页。第12页,共86页。四分位数第13页,共86页。四分位数(quartile)o排序后处于排序后处于25%和和75%位置上的值位置上的值第14页,共8

4、6页。四分位数(位置的确定)第15页,共86页。均 值第16页,共86页。均值(算数平均数)(mean)o集中趋势的最常用测度值集中趋势的最常用测度值o一组数据的均衡点所在一组数据的均衡点所在o体现了数据的必然性特征体现了数据的必然性特征o易受极端值的影响易受极端值的影响o用于数值型数据,不能用于分类数据和顺用于数值型数据,不能用于分类数据和顺序数据序数据o注意均值的平均性注意均值的平均性第17页,共86页。简单算数平均数(simple mean)第18页,共86页。加权算数平均数(weighted mean)第19页,共86页。加权算数平均数(例题分析)o 第20页,共86页。均值(数学性质

5、)o1.各变量值与均值的离差之和等于零第21页,共86页。几何平均数第22页,共86页。几何平均数(geometric mean)o n 个变量值乘积的个变量值乘积的 n 次方根次方根o主要用于计算平均比率或平均速度主要用于计算平均比率或平均速度o计算公式为计算公式为第23页,共86页。几何平均数(例题分析)o 【例】【例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 第24页,共86页。几何平均数(例题分析)【例】【例】胡锦涛在十七大报告中提出,实胡锦涛在十七大报告中提出,实

6、现人均国内生产总值现人均国内生产总值(GDP)(GDP)到到20202020年年比比20002000年翻两番。年翻两番。204107.18%niGx第25页,共86页。切尾均值第26页,共86页。切尾均值(trimmed Mean)o 去掉大小两端的若干数值后计算中间数据的均值o在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用o计算公式为 第27页,共86页。切尾均值(例题分析)【例】【例】谋次比赛共有11名评委,对某位歌手的给分分别是:123456,9.22,9.25,9.20,9.30,9.65,9.30,xxxxxx7891011,9.27,9.20,9.28,9.

7、25,9.24xxxxx(1)(2)(3)(4)(5)(6),9.20,9.20,9.22,9.24,9.25,9.25,xxxxxx(7)(8)(9)(10)(11),9.27,9.28,9.30,9.30,9.65xxxxx 第28页,共86页。众数、中位数和均值的比较第29页,共86页。众数、中位数和均值的关系第30页,共86页。众数、中位数、均值的特点和应用o众数n不受极端值影响n具有不惟一性n数据分布偏斜程度较大时应用o中位数n不受极端值影响n数据分布偏斜程度较大时应用o均值n易受极端值影响n数学性质优良n数据对称分布或接近对称分布时应用第31页,共86页。4.2 分布离散程度的测度

8、分布离散程度的测度值反映数据分布离散和差异分布离散程度的测度值反映数据分布离散和差异程度。主要包括:程度。主要包括:一、极差一、极差二、内距二、内距三、方差和标准差三、方差和标准差四、离散系数四、离散系数第32页,共86页。极差(range)o一组数据的最大值与最小值之差一组数据的最大值与最小值之差o离散程度的最简单测度值离散程度的最简单测度值o易受极端值影响易受极端值影响o未考虑数据的分布未考虑数据的分布第33页,共86页。内距(Inter-Quartile Range,IQR)o也称四分位差o上四分位数与下四分位数之差o 内内 距距=Q3 Q1o反映了中间50%数据的离散程度o不受极端值的

9、影响3.可用于衡量中位数的代表性第34页,共86页。方差和标准差第35页,共86页。方差和标准差(Variance and Standard deviation)1.反映了数据的分布离散程度和差异程度的最反映了数据的分布离散程度和差异程度的最常用的测度值。常用的测度值。2.反映了各变量值与均值的平均差异。反映了各变量值与均值的平均差异。3.根据总体数据计算的,称为总体方差或标准根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或差;根据样本数据计算的,称为样本方差或标准差标准差第36页,共86页。总体方差和标准差(simple variance and standard

10、 deviation)未分组数据:第37页,共86页。样本方差和标准差(simple variance and standard deviation)未分组数据:第38页,共86页。样本方差自由度(degree of freedom)o一组数据中可以自由取值的数据的个数o当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值o例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值第39页,

11、共86页。样本标准差(例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计12055400第40页,共86页。样本标准差(例题分析)第41页,共86页。离散系数第42页,共

12、86页。离散系数(coefficient of variation)1.标准差与其相应的均值之比o对数据相对离散程度的测度o消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为第43页,共86页。在什么情况下使用离散系数呢?在什么情况下使用离散系数呢?o当两个数列的当两个数列的性质相同且均值相等性质相同且均值相等的情况下的情况下用标准差说明平均数代表性的高低。用标准差说明平均数代表性的高低。o当两个数列的当两个数列的性质不同或均值不同性质不同或均值不同的情况下的情况下需要用需要用离散系数离散系数说明平均数代表性的高说明平均数代表性的高低。低。第44页,共86页。

13、离散系数(例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度第45页,共86页。离散系数(例题分析)结论:结论:计算结果表明,v1 0为右偏分布o偏态系数 0为左偏分布5.计算公式:第50页,共86页。偏态系数(例题分析)某电脑公司销售量偏态及峰度计算表某电脑公

14、司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 62500010240000 7290000 2560000 270000 0 170000 1600000 6480000102400003125000

15、0合计合计120540000 70100000 第51页,共86页。偏态系数(例题分析):偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数第52页,共86页。峰态及其测度峰态及其测度(kurtosis)o统计学家Pearson于1905年首次提出o数据分布扁平程度的测度o峰态系数=扁平峰度适中o峰态系数为尖峰分布o计算公式第53页,共86页。峰态系数(例题分析)结论:结论:偏态系数小于,但与的差异不大,说明电脑销售量为轻微扁平分布第54页,共86页。4.4 茎叶图与箱线图一、茎叶图一、茎叶图二、箱线图二、箱线图第55页,共8

16、6页。茎叶图(stem-and-leaf display)o用于显示未分组的原始数据的分布。用于显示未分组的原始数据的分布。o由由“茎茎”和和“叶叶”两部分构成,其图形是由数字组成的。两部分构成,其图形是由数字组成的。o以该组数据的高位数值作树茎,低位数字作树叶以该组数据的高位数值作树茎,低位数字作树叶o树叶上只保留一位数字(个位数)。树叶上只保留一位数字(个位数)。o茎叶图类似于横置的直方图,但又有区别茎叶图类似于横置的直方图,但又有区别n直方图可观察一组数据的分布状况,但没有给直方图可观察一组数据的分布状况,但没有给出具体的数值。出具体的数值。1.茎叶图既能给出数据的分布状况,又能给出每茎

17、叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息。一个原始数值,保留了原始数据的信息。第56页,共86页。茎叶图(例题分析P22表2.7)第57页,共86页。茎叶图(扩展的茎叶图04,59)第58页,共86页。箱线图(box plot)o用于显示未分组的原始数据的分布。用于显示未分组的原始数据的分布。o箱线图由一组数据的箱线图由一组数据的5个特征值绘制而成,它由一个箱子和个特征值绘制而成,它由一个箱子和两条线段组成。两条线段组成。o箱线图的绘制方法箱线图的绘制方法n首先找出一组数据的首先找出一组数据的5个特征值,个特征值,即最大值、最小值、中位数即最大值、最小值、中位数

18、Me和两个四分位数和两个四分位数(下四分位数下四分位数QL和上四分位数和上四分位数QU)。)。1.连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接。第59页,共86页。箱线图(箱线图的构成)第60页,共86页。箱线图(例题分析)第61页,共86页。分布的形状与箱线图第62页,共86页。未分组数据多批数据箱线图(例题分析)11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计

19、学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177第63页,共86页。未分组数据多批数据箱线图(例题分析)第64页,共86页。min-max25%-75%median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9

20、学生10学生11未分组数据多批数据箱线图(例题分析)第65页,共86页。4.5 统计表与统计图第66页,共86页。统计表o是显示统计数据的工具。是显示统计数据的工具。o统计表由表头、行标题、列标题、和数字资料四部分组统计表由表头、行标题、列标题、和数字资料四部分组成。成。o表头放在表的正上方,说明统计表的主要内容。表头放在表的正上方,说明统计表的主要内容。o行标题放在表的第一列,说明研究问题的类别。行标题放在表的第一列,说明研究问题的类别。o列标题放在表的第一行,说明研究问题的指标名称。列标题放在表的第一行,说明研究问题的指标名称。o表的其余部分为统计数字。表的其余部分为统计数字。o表外附加放

21、在表的下方,指明资料来源,必要说明,指标表外附加放在表的下方,指明资料来源,必要说明,指标注释等。注释等。第67页,共86页。19992000年城镇居民家庭抽样调查资料年城镇居民家庭抽样调查资料项目项目单位单位1999年年 2000年年 调查户数调查户数 平均每户家庭人口平均每户家庭人口 平均每户就业人口平均每户就业人口 平均每户就业面平均每户就业面 平均一名就业者负担人数平均一名就业者负担人数 平均每人全部年收入平均每人全部年收入 可支配收入可支配收入 平均每人消费性支出平均每人消费性支出户户人人人人%元元元元元元元元 400443.141.7756.431.775888.775854.02

22、4615.91 4222.0 3.13 1.68 53.67 1.86 6316.81 6279.98 4998.00资料来源:中国统计年鉴2001,中国统计出版社,2001,第305页。注:本表为城市和县城的城镇居民家庭抽样调查材料。行行标标题题列列标标题题数数字字资资料料表头表头附附加加第68页,共86页。统计表的设计统计表的设计o统计表设计原则:科学、实用、简练、美观统计表设计原则:科学、实用、简练、美观o首先,合理安排统计表的结构。首先,合理安排统计表的结构。o其次,表头一般应包含标号、总标题和表中数据的单位等内容。(表头其次,表头一般应包含标号、总标题和表中数据的单位等内容。(表头包

23、含时间、地点、何种数据)。包含时间、地点、何种数据)。o第三,通常情况下,统计表的左右两边不封口,上下两条线要粗,中间其他线要第三,通常情况下,统计表的左右两边不封口,上下两条线要粗,中间其他线要细。列标题用竖线隔开,行标题之间一般不用横线隔开。以小数点同一位数右对细。列标题用竖线隔开,行标题之间一般不用横线隔开。以小数点同一位数右对齐。齐。o第四,第四,“”表示没有数据,表示没有数据,“”表示缺少。表示缺少。o第五,统计表的栏数较多,可以在表或各栏应用(第五,统计表的栏数较多,可以在表或各栏应用(1)o、(2)、()、(3)等数字编号;)等数字编号;o第六,统计表要注明计量单位和资料来源。数

24、据计量单位相同时,可放在表第六,统计表要注明计量单位和资料来源。数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。的右上角标明,不同时应放在每个指标后或单列出一列标明。第69页,共86页。统计表统计表某地区工业企业主要经济指标某地区工业企业主要经济指标经济类型企业数(个)年平均职工人数(人)工业增加值(万元)年末固定资产净值(万元)国有经济集体经济外商经济其他经济合计第70页,共86页。统计表统计表某企业职工计划完成程度统计表某企业职工计划完成程度统计表计划完成程度(%)职工人数比重(%)809013.3390100310.001001101756.671101

25、20620.00120130310.00合计30100.00第71页,共86页。统计表统计表某企业商品销售统计表某企业商品销售统计表商品名称商品名称计量单位计量单位价格价格(元)(元)销售量销售量 销售额(元)销售额(元)(甲)(甲)(乙)(乙)(1)(2)(3)皮鞋皮鞋双双帽子帽子顶顶手套手套副副合计合计第72页,共86页。统 计 图o直方图直方图o折线图折线图o圆饼图圆饼图o曲线图曲线图第73页,共86页。统计图直方图直方图第74页,共86页。统计图折线图折线图第75页,共86页。统计图圆饼图圆饼图第76页,共86页。统计图曲线图曲线图第77页,共86页。条形图、三维条形图条形图、三维条形图第78页,共86页。饼图、三维饼图饼图、三维饼图第79页,共86页。三维圆柱图三维圆柱图第80页,共86页。三维圆锥图三维圆锥图第81页,共86页。面积图面积图第82页,共86页。三维面积图三维面积图第83页,共86页。三维曲面图三维曲面图第84页,共86页。折折 线线 图图第85页,共86页。本章小结分布集中趋势的测度分布集中趋势的测度分布离散程度的测度分布离散程度的测度分布偏态与峰度的侧度分布偏态与峰度的侧度茎叶图与箱线图茎叶图与箱线图统计表与统计图统计表与统计图第86页,共86页。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据分布特征的描述讲解课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|