统计学贾俊平第4章-数据的概括性度量课件.ppt

上传人(卖家):三亚风情 文档编号:2872567 上传时间:2022-06-06 格式:PPT 页数:97 大小:2.34MB
下载 相关 举报
统计学贾俊平第4章-数据的概括性度量课件.ppt_第1页
第1页 / 共97页
统计学贾俊平第4章-数据的概括性度量课件.ppt_第2页
第2页 / 共97页
统计学贾俊平第4章-数据的概括性度量课件.ppt_第3页
第3页 / 共97页
统计学贾俊平第4章-数据的概括性度量课件.ppt_第4页
第4页 / 共97页
统计学贾俊平第4章-数据的概括性度量课件.ppt_第5页
第5页 / 共97页
点击查看更多>>
资源描述

1、All rights reserved11第第4 4章章 数据的概括性度量数据的概括性度量 4.1 集中趋势的度量 4.2 离散程度的度量 4.3 偏态与峰态的度量All rights reserved2男性男性: 110 109 90 140 105 150 120 110 110 90 115 95 145 140 110 105 85 95 100 115 124 95 100 125 140 85 120 115 105 125 102 85 120 110 120 115 94 125 80 85 140 120 92 130 125 110 90 110 110 95 95 110

2、 105 80 100 110 130 105 105 120 90 100 105 100 120 100 100 80 100 120 105 60 125 120 100 115 95 110 101 80 112 120 110 115 125 55 90女性女性: 80 75 83 80 100 100 90 75 95 85 90 85 90 90 120 85 100 120 75 85 80 70 85 110 85 75 105 95 75 70 90 70 82 85 100 90 75 90 110 80 80 110 110 95 75 130 95 110 110 8

3、0 90 105 90 110 75 100 90 110 85 90 80 80 85 50 80 100 80 80 80 95 100 90 100 95 80 80 50 88 90 90 85 70 90 30 85 85 87 85 90 85 75 90 102 80 100 95 110 80 95 90 80 90统计图统计表?引例引例All rights reserved3三个角度平均值平均值 形状形状 集中趋势集中趋势 偏斜问题偏斜问题概括性度量概括性度量 分散趋势分散趋势变差变差All rights reserved44.1 集中趋势的度量集中趋势的度量All righ

4、ts reserved5集中趋势集中趋势集中趋势(Central tendency)n一组数据向其中心值靠拢的倾向和程度n测度集中趋势就是寻找数据水平的代表值或中心值n不同类型的数据用不同的集中趋势测度值n低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据All rights reserved6集中趋势集中趋势集中趋势集中趋势均值均值中位数中位数众数众数几何平均数几何平均数11niiNiiXXnXNnniinnxxxxG1121All rights reserved7众数众数众数(Mode)n出现次数最多的变量值n不受极端值的影响n一组数据可能没有众数或有

5、几个众数n主要用于定性数据,也可用于定量数据All rights reserved8众数(续)众数(续)未分组数据n无众数无众数原始数据: 1 2 3 4 5 6 7 n一个众数一个众数原始数据: 1 2 3 3 3 4 5 n多于一个众数多于一个众数原始数据: 1 2 3 3 4 4 5 All rights reserved9分类数据的分类数据的众数众数 饮料品牌饮料品牌频数频数比例比例百分比百分比(%) 果汁果汁 矿泉水矿泉水 绿茶绿茶 其他其他 碳酸饮料碳酸饮料61011 8 150.120.200.220.160.301220221630合计合计501100解:解:这里的变量为“饮料

6、品牌”,这是个分类变量,不同类型的饮料就是变量值 所调查的50人中,购买碳酸饮料的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo碳酸饮料碳酸饮料All rights reserved10顺序数据的顺序数据的众数众数解:解:这里的数据为顺序数据。变量为“回答类别” 甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意不满意回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计3

7、00100.0All rights reserved11数值型数据的众数数值型数据的众数分组数据n先在次数表中找出次数最多的那一组,称为众数组n一般以Mo来表示n若取众数组的组中点为众数,则称为粗众数nCzuber插补法All rights reserved12数值型数据的众数数值型数据的众数nCzuber插补法CBMo2111211ffff为组距为后一组的次数为前一组的次数为众数组的次数C11fffAll rights reserved13数值型数据的众数数值型数据的众数CBMo21111ff12fff1f1fAll rights reserved14示例示例n例解:请问你每星期大约学习几小

8、时?请问你每星期大约学习几小时?fF累积次数累积次数0.5-10.5小时小时272710.5-20.5小时小时356220.5-30.5小时小时5711930.5-40.5小时小时17229140.5-50.5小时小时1001129250.5-60.5小时小时251154360.5-70.5小时小时87163070.5-80.5小时小时71170180.5-90.5小时小时50175190.5-100.5小时小时3517861786All rights reserved15中位数中位数中位数(median)n将一组数字由大排至小,位居中间的数值为该组数字的中位数。n一般以Me来表示n如果一组数

9、列有奇数个观察值,则中位数为排序后数列的中间值n如果一组数列有偶数个观察值,则中位数为排序后数列的中间两个观察值的算数平均数All rights reserved16中位数中位数未分组数据n将n个数值由小至大排序n若n为奇数,决定中位数所在的位置n/2+1/2n若n为偶数,则取第n/2与第n/2+1个之数值的平均数为代表n各观察值与中位数差异的绝对值总和为最小。令为任意数,则:niiniixMx11dAll rights reserved17顺序数据的中位数顺序数据的中位数解:解:中位数的位置为 (300+1)/2150.5 从累计频数看,中位数在“一般”这一组别中 中位数为 Me=一般一般回

10、答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300All rights reserved18数值型数据的中位数数值型数据的中位数n例解l66 70 71 76 80 84 92 n=7, 则中位数所在的位置为第7/2+1/2()个数值(76)l66 70 71 76 80 84 92 96 n=8, 中位数所在的位置为第 8/2+1/2=4.5 个,取第n/2(第个)值与第n/2+1(第五个)值的平均数=(76+80)/2 = 78 Al

11、l rights reserved19数值型数据的中位数数值型数据的中位数分组数据n计算累加次数n根据中位数所在的位次n/2 或n/2+1/2,找出中位数所在的组别n以下列公式求出中位数:All rights reserved20数值型数据的中位数数值型数据的中位数fCFnBmedianiL)2(1iiiFni2FF1组的累积次数,若第设为中位数所在组的次数为中位数所在组的组距为该组下界fCBLAll rights reserved21数值型数据的中位数数值型数据的中位数n已知第n/2的数值落于该组中,我们想要找出最接近第n/2的位置的一个推估数值fCFnBii)2(11从第n/2个观察值到本

12、组的下界之间共有几个观察值组距为C,组次数为f,C/f可以看成每个观察值之间的单位距离n/2Fi-1All rights reserved22示例示例n例解:请问你每星期大约学习几小时?fF累积次数0.5-10.5小时272710.5-20.5小时356220.5-30.5小时5711930.5-40.5小时17229140.5-50.5小时1001129250.5-60.5小时251154360.5-70.5小时87163070.5-80.5小时71170180.5-90.5小时50175190.5-100.5小时3517861786All rights reserved23均值均值均值(m

13、ean)n集中趋势的最常用测度值n一组数据的均衡点所在,如同翘翘板的支点n用于定量数据,不能用于定性数据资料n易受到极端值或离群值得影响All rights reserved24均值均值未分组数据n总体均值NxNxxxuiN21大N通常代表总体数值的个数总体均值是特定的一个常数值All rights reserved25均值均值n样本均值nxnxxxxiN21小n通常代表样本观察值的个数读作x-bar样本平均值也一个常数吗?All rights reserved26均值均值分组数据n加权算术平均数为观察值其中iiixnxfx ,xifixi fi334102413525241206321921

14、03466iixfnnxfxiiAll rights reserved27均值(续)均值(续)n加权(weighted)问题All rights reserved28均值(续)均值(续)n例解1035 .517nfxxiiAll rights reserved29均值(续)均值(续)均值的性质n均值是要找到一平衡点)(观察值与该点的距离均值MinAll rights reserved30均值(续)均值(续)n事实上,各个观察值与平均数差的总和为0niixx10)(xnxnxxxnxxxiiniii1证明All rights reserved31均值(续)均值(续)n各个观察值与平均数差的平方和

15、为最小为任意数其中 )()(1212niiniixxx )()()(122niiixxxx)( )(2 )()(22xxxxxxii等于0大于等于0常数All rights reserved32均值(续)均值(续)n均值容易受到极端值的影响,若数据中有过大或过小的观察值时,不要以平均值来代表集中趋势。NameIncomeA3B4C5D3E60Average15All rights reserved33均值(续)均值(续)n可以进行代数运算l员工每人加薪5000元 NameIncomeRaiseNew incomeA30.53.5B40.54.5C50.55.5D30.53.5E40.54.5A

16、verage3.84.3All rights reserved34均值(续)均值(续)NameIncomeRaiseNew incomeA31.053.15B41.054.2C51.055.25D31.053.15E41.054.2Average3.83.99l员工每人加薪5% All rights reserved35几何平均数几何平均数几何平均数(geometric mean)nn 个变量值乘积的 n 次方根n数据必须为正值才能计算几何平均数n主要用于计算平均百分比(percentages)、比率(ratios)、指数(indexes)、成长率(growth rates)的计算n计算公式为

17、:All rights reserved36几何平均数几何平均数NNiiNNxxxxG1121l总体l样本nininnxxxxg1121)(All rights reserved37几何平均数几何平均数n可看作是均值的一种变形All rights reserved38几何平均数几何平均数n例解 假设你去年薪资加薪百分之五,今年加薪百分之15,薪资的年平均成长率为?09866. 1)15. 1)(05. 1 (GM平均增长率All rights reserved39分位数分位数分位数n中位数又称为二分位数,即将数字数据由小至大排序后,切成二部分。大于及小于中位数者刚好各占所有数字数据的一半n除了

18、将数据作半切割外,我们也可以将数据切成四等分、十等分、或一百等分n四分位数(Quartiles): Q1, Q2, Q3n十分位数(Deciles): D1, D2, D3, n百分位数(Percentiles): P1, P2, P3, All rights reserved40分位数分位数百分位数n小于10,不求十分位数,n 0为右偏分布n偏态系数 0为左偏分布All rights reserved76偏度偏度右偏Right-Skewed左偏Left-Skewed对称SymmetricMean = Median = ModeMean Median ModeMode Median MeanA

19、ll rights reserved77偏度偏度n根据原始数据计算n根据分组数据计算All rights reserved78偏度偏度n例解 某电脑公司销售量偏态及峰度计算表 按销售量份组(台) 组中值(Mi)频数 fi1401501401501501601501601601701601701701801701801801901801901902001902002002102002102102202102202202302202302302402302401451451551551651651751751851851951952052052152152252252352354 49 91616

20、27272020171710108 84 45 5-256000-256000-243000-243000-128000-128000-27000-270000 017000170008000080000216000216000256000256000625000625000102400001024000072900007290000256000025600002700002700000 0170000170000160000016000006480000648000010240000102400003125000031250000合计合计120120540000 540000 7010000

21、0 70100000 All rights reserved79偏度偏度结论:结论:1. 为右偏分布 2. 峰度适中某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图频频数数(天天)All rights reserved80偏度偏度结论:结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数All rights reserved81峰度峰度峰度(kurtosis) nPearson于1905年首次提出n数据分布扁平程度的测度n峰态系数=0扁平峰度适中(Mesokurtic - not too flat and not

22、too peaked)n峰态系数0为尖峰分布(Leptokurtic - peaked distribution)All rights reserved82峰度峰度All rights reserved83峰度峰度n根据原始数据计算n根据分组数据计算All rights reserved84峰度峰度结论:结论:偏态系数为负值,但与0的差异不大,说明电脑销售量为轻微扁平分布All rights reserved85示例示例n上证指数收益率All rights reserved86示例示例n尖峰胖尾股票收益率All rights reserved87示例(续)示例(续)0.00002.00004.

23、00006Density050000100000150000200000Per capita GNIkernel = epanechnikov, bandwidth = 3557.79Kernel density estimate統計數值Per capita GNI觀測值的數量239最小值160.042最大值186174.903全距186014.861第一四分位數1322.230中位數4894.709第三四分位數16681.520平均值13857.933變異 (n-1)504726535.877標準差 (n-1)22466.120變異係數1.618偏態(Pearson)3.624峰態(Pear

24、son)19.012平均絕對離差14683.147n2009各地区人均国民收入All rights reserved88补充:为什么是补充:为什么是“标准标准”差?差?均值与标准差n切比雪夫定理(Chebyshvs Theorem):无论数据为何种分配,令 c为任意大于1的常数,若一总体(或样本)的均值及标准差分别为及,则介于(c, c)内之观察值至少为(1 1 /c2)。All rights reserved89补充:为什么是补充:为什么是“标准标准”差?差?-c+c介于两红线之间的观察值至少有(1-1/c2)当c=2时,至少75% (1-1/4)的观察值落在平均数左右两个标准差的范围内。当

25、c=3时,至少89% (1-1/9)的观察值落在平均数左右三个标准差的范围内。当c=4时,至少93% (1-1/16)的观察值落在平均数左右四个标准差的范围内。All rights reserved90补充:为什么是补充:为什么是“标准标准”差?差?n经验法则:切比雪夫定理是一个较保守的估计,如果我们知道确切的分布,则能更精准的估算出落于某范围的概率l对于近似正态分布(单峰对称)数据其m-s, m+s的区间内大约包含68%的数据;l而m-2s, m+2s的区间内大约包含95%的数据;l而m-3s, m+3s的区间内大约包含99.7%的数据All rights reserved91补充:为什么是

26、补充:为什么是“标准标准”差?差?68%95%99%+-+2+2-2-2-3-3+3+3All rights reserved92补充:为什么是补充:为什么是“标准标准”差?差?n例解: Consider a bell-shaped distribution approximately _ percentage of the values lies between -2and +.68%+-2-2-+2+295%68% 2= 34%95% 2= 47.5%All rights reserved93补充:为什么是补充:为什么是“标准标准”差?差?标准分n某位同学在班上的成绩为85分,这个分数本身

27、所传递的讯息很有限,我们通常想要进一步知道85分究竟是高还是低?也就是说,我们想知道这个分数离一般平均数多远?n标准分: (standardized score)可以告诉我们观察值在所有数据中的位置,又称之为Z score,表示该观察值与平均数之间,间隔多少个标准差All rights reserved94小结(续)小结(续)uxzsxxzX与均值之间的实际距离以标准差来表达All rights reserved95小结(续)小结(续)n例解:如果全班同学的统计学平均分数为85分,标准差为5分,请将将下列三位同学的分数改成标准化分数:80, 70, 901585801z3585702z1585903zAll rights reserved96小结(续)小结(续)n如果根据经验法则来看,l分数低于80分的同学占全班的_%?l有多少_的同学分数低于70?l高于90分的同学占_%?8585909080807070All rights reserved97 讨论:1、男生比女生开车速度快;女性优势?2、哪个国家更富有?3、如何理解“小日本”?4、如何看待工资“被增长”?

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(统计学贾俊平第4章-数据的概括性度量课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|