第4章数据分布特征的测度课件.pptx

上传人(卖家):晟晟文业 文档编号:5177451 上传时间:2023-02-16 格式:PPTX 页数:64 大小:1.12MB
下载 相关 举报
第4章数据分布特征的测度课件.pptx_第1页
第1页 / 共64页
第4章数据分布特征的测度课件.pptx_第2页
第2页 / 共64页
第4章数据分布特征的测度课件.pptx_第3页
第3页 / 共64页
第4章数据分布特征的测度课件.pptx_第4页
第4页 / 共64页
第4章数据分布特征的测度课件.pptx_第5页
第5页 / 共64页
点击查看更多>>
资源描述

1、第4章 数据分布特征的测度 数据分布特征的描述 Std.Dev=1.09 Mean=-.04N=100.00数据的数据的“中间位置中间位置”离散程度的度量这两个数据“胖瘦”一样吗?数据分布的特征数据分布特征的描述离散程度离散程度分布的形状分布的形状集中趋势集中趋势数据的分布特征和测度数据的分布特征和测度数据分布特征的测度4.1 4.1 集中趋势的测度集中趋势的测度 4.2 4.2 离中趋势的测度离中趋势的测度4.3 4.3 偏度和峰度的测度偏度和峰度的测度学习目标u 了解集中趋势指标的概念、特点和作用,掌握各种平均数的计算方法、应用条件以及几种平均数之间的关系。u 了解离中趋势指标的概念、种类

2、和作用及与平均指标的区别。其中重点是标准差与离散系数的计算。u 了解数据的分布形态测定方法。u 了解各项指标的应用原则,能结合实际调查资料计算有关指标和进行初步的分析。数据集中位置数据集中位置变量变量x 集中趋势指标(也叫平均指标)反映同类现集中趋势指标(也叫平均指标)反映同类现象的象的,是总体内各单位参差,是总体内各单位参差不齐的标志值的不齐的标志值的,也是对变量,也是对变量的测定。的测定。集中趋势指标x 按计算方按计算方法不同法不同算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数 众数众数 中位数中位数 数数 值值 平均数平均数 (位置平均数)(位置平均数)数值型数据数值型

3、数据定序数据定序数据定类数据定类数据低层次数据的集中趋势测度值适用于高层次低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据势测度值并不适用于低层次的测量数据4.1.1 众数(mode)众数无众数无众数原始数据:10 5 9 12 6 8定类数据的众数定类数据的众数(例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.22

4、0.180.120.183022181218合计合计501100定序数据的众数定序数据的众数(例题分析例题分析)表表4-1 某城市家庭对住房状况评价的频数分布某城市家庭对住房状况评价的频数分布回答类别回答类别户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.04.1.2 4.1.2 中位数中位数(median)(median)数值型数据的中位数(奇数个数据)原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630:1500

5、 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 :750 780 850 960 10801080 1250 1500 1630 2000 1250 1500 1630 2000位位 置置:1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9521921n位置数值型数据的中位数数值型数据的中位数(偶数个数据偶数个数据)排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 5.5211021n位置10202108

6、0960中位数箱式图中位数中位数(位置和数值的确定位置和数值的确定)21n中位数位置 为偶数为奇数nxxnxMnnne1222121未分组数据箱线图(box plot)1.1.用于显示未分组的原始数据的分布;用于显示未分组的原始数据的分布;2.2.由一组数据的由一组数据的绘制而成,它由一个箱子绘制而成,它由一个箱子和两条线段组成;和两条线段组成;3.3.绘制方法:绘制方法:q首先找出一组数据的首先找出一组数据的5 5个特征值,即个特征值,即、和两个和两个(下四分位数下四分位数Q QL L和上四分位数和上四分位数Q QU U);q连接两个四分位数画出箱子,再将两个极值点与箱子相连接两个四分位数画

7、出箱子,再将两个极值点与箱子相连接;连接;q该箱线图也称为该箱线图也称为Median/QuartMedian/Quart./Range/Range箱线图箱线图 。箱线图的构成箱线图的构成:单批数据箱线图单批数据箱线图分布的形状与箱线图分布的形状与箱线图未分组数据箱线图(box plot)箱式图包含的信息比直方图和茎叶图都少,所以箱式图包含的信息比直方图和茎叶图都少,所以它的最佳用途是用来同时它的最佳用途是用来同时。例如例如,为了解不同教育程度的人的收入差别,根为了解不同教育程度的人的收入差别,根据某年据某年7151271512个人的收入的抽样调查结果,得到的不个人的收入的抽样调查结果,得到的不

8、同受教育程度的人的收入分布如下图:同受教育程度的人的收入分布如下图:4.1.3 4.1.3 算术平均数算术平均数N NX XN NX XX XX XX XN N1 1i ii iN N2 21 1K K1 1i ii iK K1 1i ii ii iN N2 21 1N NN N2 22 21 11 1f ff fX Xf ff ff ff fX Xf fX Xf fX XX X.例例4-34-3:某厂某厂工人各级别工资额和相应工人数资料如下工人各级别工资额和相应工人数资料如下表表4-54-5:工资额工资额(元)(元)工人数工人数(人)(人)460460 520 520 600 600 700

9、 700 850 8505 5 151518 18 1010 2 2 合合 计计5050工资总额工资总额(元)(元)xf?试计算?试计算工人平均工人平均工资。工资。2960029600 x f 78007800 70007000 17001700 1080010800 23002300=各组标志值各组标志值各组单位数各组单位数各组标志总量各组标志总量表表4-34-3数数单位单位单位单位标志总量标志总量算术平均数算术平均数工工人人总总数数工工资资总总额额5 59 92 25 50 02 29 96 60 00 0各各组组工工人人数数f f各各组组工工资资总总额额x xf f 注意:注意:由由组组

10、距数列计算加距数列计算加权算术平均数,权算术平均数,可用可用组中值组中值代代表表各组变量值各组变量值。.185120222001ikiiiffMx表表4-4 某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022

11、200天数天数电脑销售总量电脑销售总量单位数单位数标志总量标志总量每天电脑销售量每天电脑销售量平均平均.调和平均数调和平均数 调和平均数的概念:调和平均数的概念:也叫倒数平均数也叫倒数平均数,一般认为是一般认为是。xmmxmxmxmmmmxnnnH.221121.几何平均数几何平均数几何平均数(几何平均数(G G)的概念:)的概念:它是分布数列中它是分布数列中n n个个单位标志值连乘积的单位标志值连乘积的n n次方根。次方根。u适用于适用于的平均数的平均数;u主要用于计算平均发展速度;主要用于计算平均发展速度;u计算公式为:计算公式为:n nn nx xx xx xx xx xG G n n3

12、 32 21 1.几何平均数(例题分析)几何平均数(例题分析)例例4-44-4:某产品需经三个车间加工,已知第一个:某产品需经三个车间加工,已知第一个车间加工合格率为车间加工合格率为95%95%,第二个车间加工合格率为,第二个车间加工合格率为90%90%,第三个车间加工合格率为,第三个车间加工合格率为98%98%,求三个车间平,求三个车间平均加工合格率。均加工合格率。9 94 4.2 27 75 5%9 98 8%9 90 0%9 95 5%.x x.x x.x xx xG G3 3n nn n3 32 21 1.几何平均数(例题分析)几何平均数(例题分析)例例4-54-5:一位投资者持有一支

13、股票,在:一位投资者持有一支股票,在20002000、20012001、20022002、20032003年的收益率分别为年的收益率分别为4.5%4.5%、2.1%2.1%、25.5%25.5%和和1.9%1.9%。计算该股票在这四年中的平均收益率。计算该股票在这四年中的平均收益率。8 8.0 07 78 87 7%9 9%1 10 02 2.1 1%1 10 04 4.5 5%.x x.x x.x xx xG G4 4n nn n3 32 21 11.101%5.1254.1.4 众数、中位数和均值的比较q众数、中位数和均值的关系众数、中位数和均值的关系u众数、中位数、平均数的特点和应用场合

14、众数、中位数、平均数的特点和应用场合众数、中位数和平均数的关系众数、中位数和平均数的关系众数、中位数、平均数的众数、中位数、平均数的特点和应用特点和应用1()0niiXX21()minniiXX表4-5 数据类型和所适用的集中趋势测度值数据数据类型类型定类数据定类数据 定序数据定序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数算术平均数算术平均数算术平均数算术平均数众数众数众数众数调和平均数调和平均数中位数中位数几何平均数几何平均数 中位数中位数众数众数数据类型和所适用的集中趋势测度值离中趋势离中趋势 甲组:80 80 80 80 80 平均数为80 乙组:7

15、0 75 80 85 90 平均数为80 丙组:2 18 25 96 259 平均数为80异众比率(variation ratio)imimirfffffv1异众比率异众比率 (例题分析例题分析)%707.050151501550rv不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100极差极差(range)(range)平均差平均差n nx xx xM Mn n1 1i

16、 ii id di ik k1 1i ii ii id df ff fx xM MM M0 x.根据根据表表4-64-6:试问试问A、B 两组那一组学生的平均考分更有代表性?两组那一组学生的平均考分更有代表性?学生学生序号序号 考分(分)考分(分)xAxB甲甲乙乙丙丙丁丁戊戊 656570 70 757580 80 858568687070767680808181合计合计 375375375375 AAxx 离差离差-10-10-5-5 0 0 5 5 10 10解:解:离差绝对值离差绝对值 离差离差离差绝对值离差绝对值nxxMDAAA(分分/人人)6 65 53 30 0nxxMDBBB(分

17、分/人人)4 4.8 85 52 24 4 MDAMDB故,故,B 组学生平均考分比组学生平均考分比A 组学生平均考分更有代表性。组学生平均考分更有代表性。AAxx 10 10 5 5 0 0 5 5 10 103030BBxx -7-7-5-5 1 1 5 5 6 6BBxx 7 7 5 5 1 1 5 5 6 62424BxxA分分75方差和标准差方差和标准差(variance and standard deviation)(variance and standard deviation).总体标准差总体标准差 总体标总体标准差的准差的计算方计算方法法1.1.简单标简单标准差准差2.2.加

18、权标加权标准差准差nxx2)(ffxx2)((未分组(未分组数列)数列)(分组(分组 数列)数列)样本方差和标准差样本方差和标准差1)(122nxxsnii1)(122nfxMskiii1)(12nxxsnii1)(12nfxMskiii.根据根据表表4-74-7:学生学生序号序号 考分(分)考分(分)xAxB甲甲乙乙丙丙丁丁戊戊 656570 70 757580 80 858568687070767680808181合计合计 375375375375 离差离差离差平方离差平方离差离差离差平方离差平方BBxx-10-10-5-5 0 0 5 5 10 10 100 100 25 25 0 0

19、25 25 100 100-7-7-5-5 1 1 5 5 6 6 49 49 25 25 1 1 25 25 36 36136136250250试问试问A、B 两组那一组学生的平均考分更有代表性?两组那一组学生的平均考分更有代表性?解:解:nxx2A)((分分/人人)7 7.0 07 75 50 05 52 25 50 0nxx2B)((分分/人人)5 5.2 25 51 13 36 6故,故,B组学生平均考分比组学生平均考分比A组学生平均考分更有代表性。组学生平均考分更有代表性。2)AAxx(2)BBxx(A BAAxxBxxA分分75样本标准差样本标准差 (例题分析例题分析)表表4-8

20、某电脑公司销售量数据标准差计算表某电脑公司销售量数据标准差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5402302202102 021022023024025026400810064002700 0170040007200640012500合计合计120554002)(xMiiifxM2)(样本标准差样本标准差 (例题分析例题分析)(5

21、8.211120554001)(12台nfxMskiii离散系数x xv vs s.根据根据表表4-94-9:学生学生序号序号 考分(分)考分(分)xAxC甲甲乙乙丙丙丁丁戊戊 656570 70 757580 80 85857979858590909595100100合计合计 375375449449 离差离差AAxx-10-10-5-5 0 0 5 5 10 10 解:解:7 75 5Ax离差平方离差平方2)AAxx(离差离差离差平方离差平方CCxx2)CCxx(-11-11-5-5 0 0 5 5 10 10 100 100 25 25 0 0 25 25 100 100 250 250

22、 121 121 25 25 0 0 25 25 100 1002712719 90 0Cxnxx2A)(7 7.0 07 75 52 25 50 0nxx2C)(7 7.3 36 65 52 27 71 10 0.0 09 94 43 37 75 57 7.0 07 7xVA0 0.0 08 81 18 89 90 07 7.3 36 6xVC VAVC故,故,C 组平均考分更有代表性。组平均考分更有代表性。试问试问A、C 两组那一组学生的平均考分更有代表性?两组那一组学生的平均考分更有代表性?几种离散测度的比较概概 念念 计计 算算 特特 点点数列中最大值数列中最大值与最小值之差与最小值之

23、差1极差极差 (R)R=最大值最大值-最小值最小值优点:容易理解,优点:容易理解,计算方便计算方便缺点:不能反映全缺点:不能反映全部数据分布状况部数据分布状况2平均差平均差 (A.D)各标志值与各标志值与均值离差绝均值离差绝对值的算术对值的算术平均平均iiX XFiADF iXXA Dn 简单:简单:加权:加权:优点:反映全部数据优点:反映全部数据分布状况分布状况 缺点:取绝对值缺点:取绝对值 ,不合乎代数方法的演不合乎代数方法的演算,进一步应用少。算,进一步应用少。概概 念念 计计 算算 特特 点点各标志值与均各标志值与均值离差平方的值离差平方的平均。平均。方差的平方根方差的平方根(取正根)

24、(取正根)3 方 差 方 差(2)和和 标准差标准差()优点:反映全部数据分优点:反映全部数据分布状况,应用广泛。布状况,应用广泛。缺点:受计量单位和平缺点:受计量单位和平均水平影响,不便于比均水平影响,不便于比较;分布基本对称时使较;分布基本对称时使用。用。4标准标准差系数差系数 (V)标准差与均值标准差与均值之商,是无量之商,是无量纲的系数纲的系数简单:简单:加权:加权:优点:适宜不同优点:适宜不同数据集的比较数据集的比较22X X FF22iXXnVX25 5、是非标志的平均数与标准差、是非标志的平均数与标准差5 5、是非标志的平均数与标准差、是非标志的平均数与标准差是非标志是非标志 x

25、 x单位数单位数 f f比重比重 1 1 0 0 合合 计计 N N 1 10N1N ffP PN NN N1 1Q QN NN N0 0P PN NN N0 0N N1 1f fxfxfx x0 01 1p pPQPPNNPNPp)1()1(0212P等于0.5时方差最大。分布的形态分布的形态偏态偏态(skewness)(skewness)偏态系数偏态系数(coefficient of(coefficient of skskewness)ewness)33)2)(1(snnxxnSKi313)(nsfxMSKkiii偏态系数偏态系数 (例题分析例题分析)表表4-10 某电脑公司销售量偏态及峰

26、度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 625000 7290000 2560000 270000 0 170000 1600000 6480000合计合计120540000 7

27、0100000 iifxM3)(iifxM4)(偏态系数偏态系数 (例题分析例题分析)448.0)58.21(120540000)58.21(120)185()(331013313iiikiiifMnsfxMSK峰态峰态(k kurtosis)urtosis)3)(414nfxxKkiii数据分布特征和描述统计量数据分布特征和描述统计量 结束语当你尽了自己的最大努力时,失败也是伟大的,所以不要放弃,坚持就是正确的。When You Do Your Best,Failure Is Great,So DonT Give Up,Stick To The End谢谢大家荣幸这一路,与你同行ItS An Honor To Walk With You All The Way演讲人:XXXXXX 时 间:XX年XX月XX日

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第4章数据分布特征的测度课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|