数据的描述性分析讲述课件.ppt

上传人(卖家):三亚风情 文档编号:2979686 上传时间:2022-06-18 格式:PPT 页数:68 大小:1.42MB
下载 相关 举报
数据的描述性分析讲述课件.ppt_第1页
第1页 / 共68页
数据的描述性分析讲述课件.ppt_第2页
第2页 / 共68页
数据的描述性分析讲述课件.ppt_第3页
第3页 / 共68页
数据的描述性分析讲述课件.ppt_第4页
第4页 / 共68页
数据的描述性分析讲述课件.ppt_第5页
第5页 / 共68页
点击查看更多>>
资源描述

1、本章内容第一节 集中趋势的描述第二节 离散程度的描述第三节 分布的偏态与峰度集中趋势 集中趋势反映的是一组数据向某一中心值靠拢的倾向,在中心附近的数据数目较多,而远离中心的较少。对集中趋势进行描述就是寻找数据一般水平的中心值或代表值。众数位置平均数中位数平均数算术平均数数值平均数调和平均数几何平均数数值平均数:是以统计数列的所有数据来计算的平均数.其特点是统计数列中任何一项数据的变动,都会在一定程度上影响数值平均数的计算结果.2.位置平均数:它不是对统计数列中所有数据进行计算所得的结果,而是根据数列中处于特殊位置上的个别单位或部分单位的标志值来确定的.数值平均数包括算术平均数、调和平均数和几何

2、平均数.算术平均数(均值, Arithmetic Mean) 总体均值常用 或 表示,样本均值常用 表示,样本均值 的计算公式:Xx简单算术平均数:nxnxxxxniin121加权算术平均数:11niiiniixfxf1. 数值平均数数值平均数权数的意义和作用权数的意义和作用 权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用. 当各组的次数都相同时,即当 时: 加权算术平均数就等于简单算术平均数. 123=nffff1111nnniiiiiiiniixffxxxnfnf例:计算某车间工人加工零件平均数(组距式数列)解:26406640iiiiix fXf个 关于计算结

3、果的说明关于计算结果的说明根据原始数据和分组资料计算的结果一般不会完全相等, 根据分组数据只能得到近似结果.只有各组数据在组内呈对称或均匀分布时,根据分组资料 的计算结果才会与原始数据的计算结果一致.(1).各变量值与均值的离差之和等于零.=1= 0niixx(2).各变量值与均值的离差平方和最小.2=1= minniixx .调和平均数(倒数平均数, Harmonic Mean)调和平均数分为简单调和平均数和加权调和平均数.(1)简单调和平均数标志值的倒数的算术平均数的倒数标志值的倒数的算术平均数的倒数.1212111111111nnniinnHxxxxxxxn niiiniinnnxmmx

4、mxmxmxmmmmmH11332211321(2) 加权调和平均数 式中,m表示各单位或各组的标志值对应的标志总量. 例例.某蔬菜批发市场三种蔬菜日成交数据如下表,计算三种蔬菜该日的平均批发价格.几何平均数(Geometric Mean)是另一种形式的平均数,是n个标志值乘积的 n 次方根.主要用于计算平均比率和平均速度.(1)简单几何平均数112nnniGxxxx 式中G表示几何平均数, 表示各项标志值.ix可以看作均值的一种变形nxxxxnGniin121lg)lglg(lg1lg(2)加权几何平均数121112nniiniiiffffffniGxxxx例3.1.1 一位投资者持有一种股

5、票,1997,1998,1999,2000年收益率分别为 计算该投资者在这四年内的平均收益率.4.5%,2.0%,3.5%,5.4%.例3.1.2 某企业四个车间流水作业生产某产品, 一车间产品合格率99%,二车间为95%,三车间为92%,四车间为90%,计算该企业的平均产品合格率.499%95%92%90% =93.94%.注注:(1)(2) 数值平均数主要适用于定量数据,而不适用于定性数据.(3) 简单数值平均数适用于未分组的资料,加权数值平均数适用于分组的资料.众数(Mode) 一组数据中出现次数最多的变量值. 主要特点: 不受极端值的影响. 有的数据无众数或有多个众数.说明说明: :如

6、果所有数据出现的次数都一样如果所有数据出现的次数都一样, ,那么这组数据没那么这组数据没 有众数有众数. .2 位置平均数 众数主要用于分类数据,也可用于顺序数据和数值型数据,对于未分组数据和单项式分组数据,众数位置确定之后便找到了众数.适用范围例:分类数据的众数例:顺序数据的众数.中位数(Median)中位数是一组数据按一定顺序排列后,处于中间位置上的变量负偏正偏注: (1)中位数总是介于众数和平均数之间.(2) 皮尔逊经验法则分布在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式为:3()oexMxM众数、中位数、平均数的特点和应用1. 众数 不受极端值影响 具有不惟一性 数据

7、分布偏斜程度较大且有明显峰值时应用2. 中位数 不受极端值影响 数据分布偏斜程度较大时应用3. 平均数 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用数值平均数与位置平均数的适用场合?60分以下260-70870-802280-901090分以上4案例案例1:甲班:甲班统计学统计学考试情况如下表:考试情况如下表:案例案例2:乙班:乙班统计学统计学考试情况如下表:考试情况如下表:60分以下260-703070-80880-90490分以上1案例案例3:丙班:丙班统计学统计学考试情况如下表:考试情况如下表:60分以下260-70570-801280-902590分以上7问题问题1、

8、计算甲、乙、丙三个班的平均成绩;该平均值是真、计算甲、乙、丙三个班的平均成绩;该平均值是真实值还是近似值?如是近似值,什么情况下会是真实值?实值还是近似值?如是近似值,什么情况下会是真实值?2、计算甲、乙、丙三个班的中位数、众数;、计算甲、乙、丙三个班的中位数、众数;3、如要选择从算术平均数、中位数和众数三个平均数、如要选择从算术平均数、中位数和众数三个平均数中选择一个数来分别代表甲、乙、丙三个班的整体水平,中选择一个数来分别代表甲、乙、丙三个班的整体水平,请问你会选择哪个平均数?为什么?请问你会选择哪个平均数?为什么?4、如要分别反映甲、乙、丙三个班的考试情况,你会、如要分别反映甲、乙、丙三

9、个班的考试情况,你会选择用哪些指标来衡量?选择用哪些指标来衡量?5、如要比较甲、乙、丙三个班的考试情况的优劣,你、如要比较甲、乙、丙三个班的考试情况的优劣,你又会选择什么样的指标来衡量?又会选择什么样的指标来衡量?6、甲乙丙、甲乙丙三个班的考试成绩分别服从对称分布、左三个班的考试成绩分别服从对称分布、左偏分布、右偏分布中的哪种分布?为什么?偏分布、右偏分布中的哪种分布?为什么? 先计算各组的累计次数,再按公式 确定中位数的位置,并对照累计次数确定中位数。21niif由组距数列确定中位数下限公式:ifsfLMmmniie112为中位数组的下限;为中位数组的下限;为总次数;为总次数;为中位数组前一

10、组的向上累计次数;为中位数组前一组的向上累计次数;为中位数组的次数;为中位数组的次数;为中位数组的组距。为中位数组的组距。Lf 1mSmfi组距式变量数列计算众数的公式:组距式变量数列计算众数的公式:1012012MLiMLi : :众众数数, :众众数数组组的的下下限限值值;:众众数数组组次次数数与与下下一一组组次次数数之之差差;:众众数数组组次次数数与与上上一一组组次次数数之之差差;:众众数数组组的的组组距距。离散程度的描述反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度.1 离散程度的常用指标=1imimriiiifffVff异众比率式中, 为变量值

11、的总频数; 为众数组的频数.iifmf异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差.全距(极差) 极差(Range)也叫全距,是一组数据的最大值与最小值之差,即:)min()max(iixxR 组距分组数据可用最高组上限最低组下限最高组上限最低组下限计算.四分位差四分位差(quartile deviation)也称内距或四分间距(inter-quartile range),是指第三四分位数和第一四分位数之差.四分位差的计算公式为:31=rQQQ把所有数据由小到大排列并分成若干等份,处于分割点位置的数值就是分位数.把所有数据由小到大排列并分成四等份,处于三个分割点位置的数

12、值就是四分位数.分位数可以反映数据分布的相对位置(而不单单是中心位置).常用的有四分位数、十分位数、百分位数.四分位数(Quartile): Q1 ,Q2 ,Q3;十分位数(Decile): D1 , D2 ,., D9;百分位数(Percentile): P1, P2 ,.,P99 ;四分位数的计算首先确定四分位数的位置,再找出对应位置的标志值即为四分位数.设样本容量为n,则12321311,.444nnnQQQ的位置的位置的位置如果各位置计算出来的结果恰好是整数,这时各位置上的标志值即为相应的四分位数;如果四分位数的位置不是整数,则四分位数为前后两个数的加权算术平均数.权数的大小取决于两个

13、整数位置与四分位数位置距离的远近,距离越近,权数越大.在实际应用中,计算四分位数的方法并不统一(数据量大时这些方法差别不大),对于一组排序后的数据: SPSS中四分位数的位置分别为 Excel中四分位数的位置分别为21311,.444nnn21331,.444nnn练习: 已知9个家庭的人均月收入数据15007507801080850960200012501630试求这组数据的第一和第三四分位数.四分位差反映了中间50%数据的离散程度,数值越小说明中间数据越集中.平均差(Mean deviation)平均差也称平均绝对偏差,总体所有单位的标志值与其平均数的离差绝对值的算术平均数.通常用 表示.

14、未分组数据计算平均差的公式为:DMnxxMniiD1加权式(分组数据):iiiiniiDffxxM11平均差虽然能较好地区别出不同组数据的分散情况或程度,但它的缺点是绝对值不适合作进一步的数学分析.标准差和方差(Standard deviation and Variance)方差方差是一组数据中各数值与其算术平均数离差平方的平均数.标准差标准差是方差中的平方根. 注:总体方差和样本方差的符号不同,计算公式也不一样.是反映定量数据离散程度的最常用的指标.例. 在某地区抽取的120家企业按利润额进行分组,结果如表3.1所示. 表3.1 某地区120家企业的利润额分组计算120家企业利润额的均值和标

15、准差.515152222151250 19 350 30450 42 550 18 650 11:426.67120250 426.6719350 426.6730650 426.67111191116.48iiiiiiiiiix fKey xfxxfsf万元万元离散系数(Coefficient of variation)(样本)或(总体)xsVXVs离散系数也称变异系数,是各变异指标与其算术平均数的比值.例如,将极差与其平均数对比,得到极差系数;将标准差与其平均数对比,得到标准差系数.最常用的变异系数是标准差系数:标准差系数:标准差与其相应的均值之比,表示为百分数.特点特点:1、反映了相对于

16、均值的相对离散程度;2、可用于比较计量单位不同的数据的离散程度;3、计量单位相同时,如果两组数据的均值相差悬殊,离散系数比标准差更有意义.例子. 某管理局抽查了所属的8家企业,其产品销售数据如表3.2所示,试比较产品销售额和销售利润的离散程度.111309.19536.25=309.19=0.577536.25xsv万元万元销售额销售利润22223.0932.5215=23.09=0.71032.5215xsv万元万元结论:计算结果表明, 说明产品销售额的离散程度小于销售利润的离散程度.12,vv2 数据的标准化定义 标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数分数或标准分

17、数标准分数.设标准化数值为z,则有:sxxzii 对于来自不同均值和标准差的个体的数据,往往不能直接对比.这就需要将它们转化为同一规格、尺度的数据后再比较. 标准分数是对某一个值在一组数据中相对位置的度量对某一个值在一组数据中相对位置的度量.例例3.2.1 假定某班学生先后两次进行了难度不同的大学英语综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分.张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢?解解:由于两次考试成绩的均值和标准差不同,每个学生两次 考试的成绩不宜直接比较. 利用标准分数进

18、行对比,20. 110809243. 177080计算结果表明,第二次考试成绩更好些. 对称分布中的 法则3变量值落在 范围以外的情况极为少见.因此通常将落在区间 之外的数据称为离群点离群点(或异常数据异常数据).3 ,33 ,3分布形状的描述集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜程度以及分布的扁平程度等.偏态和峰度就是对这些分布特征的进一步描述.偏态和峰度是英国统计学家卡尔皮尔逊首先提出的. 3.3.1 偏态(Skewness)及其测定如果次数分布是完全对称的,叫对称分布对称分布;如果次数分布不是完全对称的,就称为偏态分

19、布偏态分布.所谓偏度,就是指次数分布的非对称程度,用偏态系数来表示.计算公式式子中 称为偏态系数偏态系数.313133sffxxsvniiinii 偏态系数有多种计算方法,在Excel软件中通常采用以下 公式:312iixxnSKnns当 时,左右完全对称,为正态分布正态分布;当 时为正偏正偏(或右偏);当 时为负偏负偏(或左偏).000000偏态系数 的数值一般在0与3之间,偏态系数越接近于0,分布的偏斜程度越小;偏态系数越接近于3,分布的偏斜程度越大. 3.3.2 峰度(Kurtosis)及其测定峰度是指变量的集中程度和次数分布曲线的陡峭(或平 坦)的程度.在变量数列的分布特征中,常常以正

20、态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为峰度.计算公式41444133niiiniixxfsf s 式子中 称为峰度系数峰度系数.正态分布的峰度系数等于0,当 时为尖峰分布尖峰分布,表示次数分布比正态分布更集中;当 时为平峰分布平峰分布,表示次数分布比正态分布更分散.00000数据的描述性分析讨论题1、任何平均数都受变量数列中的极端值的影响。 2、中位数把变量数列分成了两半,一半数值比他大,一半数值比他小。3、任何变量数列都存在众数。 4、算术平均数、中位数和众数三者的数量关系说明什么样的变量分布特征?5、什么是众数?有什么特点?试举例说明其应用。6、极差越小说明数据的代

21、表性越好,数据越稳定;7、四分位差、平均差和标准差衡量的是哪个平均指标的代表性?上述三个指标哪些优越?8、如果某同学在英语竞赛中的标准得分为2,并且知道1%为一等奖,5%为二等奖,10%为三等奖,则 则他( )。A.获一等奖 B获二等奖C获三等奖 D无缘奖项9、想知道某班同学统计学考试成绩的稳定性,需要用哪些指标比较好?相比较某班同学统计学考试成绩和大学英语考试成绩的稳定性,用哪些指标比较好? 10、在某地区抽取的120家企业按利润额进行分组,结果如下表所示.计算120家企业利润额的均值和标准差.11、某管理局抽查了所属的8家企业,其产品销售数据如下表所示,试比较产品销售额和销售利润的离散程度.12、假定某班学生先后两次进行了难度不同的大学英语综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分.张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢? 人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据的描述性分析讲述课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|