ImageVerifierCode 换一换
格式:PPTX , 页数:78 ,大小:601.06KB ,
文档编号:4980923      下载积分:28 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-4980923.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(晟晟文业)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文((第四章:数据分布特征的测度)课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

(第四章:数据分布特征的测度)课件.pptx

1、 统计学1/30/20231平均指标的涵义及各种平均指标的计算和确定方法变异指标的涵义标准差和离散系数的计算和应用偏态与峰度的测度1/30/20232 1/30/20233 数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度1/30/20234集中趋势集中趋势1、一组数据向其中心值靠拢的倾向和程度2、测度集中趋势就是寻找数据一般水平的代表值或中心值3、不同类型的数据用不同的集中趋势测度值4、低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据5、选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的

2、类型来确定1/30/202351、集中趋势的测度值之一2、出现次数最多的变量值3、不受极端值的影响4、可能没有众数或有几个众数5、主要用于定类数据,也可用于定序数据和数值型数据1/30/20236无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据:25 28 28 36 42 421/30/20237【例】【例】根据第三章表3-1中的数据,计算众数解:解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因

3、此众数为“商品广告”这一类别,即 M Mo o商商品广告品广告表表3-1 某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 广告类型广告类型人数人数(人人)比例比例频率频率(%)商品广告商品广告 服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招聘广告招生招聘广告 其他广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计合计20011001/30/20238【例】例】根据第三章表3-2中的数据,计算众数解:解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户

4、 数 最 多,为108户,因此众数为“不满意”这一类别,即 Mo不满意不满意回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510合计合计300100.01/30/202391、众数的值与相邻两组频数的分布有关2、相邻两组的频数相等时,众数组的 组中值即为众数3、相邻两组的频数不相等时,众数采用 下列近似公式计算4、该公式假定众数组的频数在众数组内 均匀分布iffffffLM)()(11101/30/202310【例【例4.14.1】根 据 第 三章表3-5中的 数 据,

5、计算50名工 人 日 加工 零 件 数的众数按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计50)(1235)1014()814(8141200个 M1/30/202311中位数中位数(概念要点概念要点)1.集中趋势的测度值之一2.排序后处于中间位置上的值3.不受极端值的影响4.主要用于定序数据,也可用数值型数据,但不能用于定类数据5.各变量值与中位数的离差绝对值之和最小,即min1nieiMX1/30/202312未分组数据:未分组数据:组距分组数

6、据:组距分组数据:21N中位数位置2N中位数位置为偶数时当为奇数时当NXXNXMNNNe12221211/30/202313【例【例4.24.2】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的中位数回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300解:解:中位数的位置为:300/2150从累计频数看,中位数的在“一般”这一组别中。因此 M Me e一般一般1/30/20231424 22 21 26 2020 21 22 24 2

7、61 2 3 4 5321521N位置中位数 221/30/20231510 5 9 12 6 85 6 8 9 10 121 2 3 4 5 61/30/2023161、根据位置公式确定中位数所在的组2、采用下列近似公式计算:该公式假定中位数组的频数在该组内均匀分布ifSNLMmme121/30/202317【例【例4.34.3】根据第三章表3-5中的数据,计算50 名工人日加工零件数的中位数按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计50)(

8、21.12351416250120个 eM1/30/2023181/30/202319未分组数据:未分组数据:组距分组数据:组距分组数据:1/30/202320【例【例4.44.4】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的四分位数回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300解:解:下四分位数(QL)的位置为:QL位置(300)/475 上四分位数(QL)的位置为:QU位置(3300)/4225从累计频数看,QL在“不满

9、意”这一组别中;QU在“一般”这一组别中。因此 Q QL L 不满意不满意 Q QU U 一般一般1/30/20232123 21 30 32 28 25 2621 23 25 26 28 30 321 2 3 4 5 6 71/30/20232223 21 30 28 25 2621 23 25 26 28 301 2 3 4 5 61/30/202323 LLLLLifSNLQ4下四分位数下四分位数:上四分位数上四分位数:UUUUUifSNLQ41/30/202324【例【例4.64.6】根据第三章表3-5中的数据,计算50 名工人日加工零件数的四分位数按零件数分组按零件数分组频数(人)频

10、数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计50)(81.117588450115个LQ350/437.5)(75.128510304503125个UQ1/30/202325概念要点概念要点1、集中趋势的测度值之一2、最常用的测度值3、一组数据的均衡点所在4、易受极端值的影响5、用于数值型数据,不能用于定类数据和定序数据1/30/202326设一组数据为:X1,X2,XN 简单均值的计算公式为设分组后的数据为:X1,X2,XK 相应的频数为:F1,F2,FK加权均值的计算公式为NX

11、NXXXXNiiN121KiiKiiiNNNFFXFFFFXFXFXX112122111/30/202327105913685.868613951066543211XXXXXXNXXNii1/30/202328【例【例4.74.7】根据第三章表3-5中的数据,计算50 名工人日加工零件数的均值按零件数分组按零件数分组组中值(组中值(Xi)频数(频数(Fi)XiFi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.

12、0550.0合计合计506160.0(个)2.12350616011KiiKiiiFFXX1/30/202329甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组甲组 乙组乙组1/30/2023301.各变量值与均值的离差之和等于零niiXX10)(niiXX12min)(1/30/2023311、集中趋势的测度值之一2、均值的另一种表现形式3、易受极端值的影响4、用于定比数据5、不能用于定类数据和定序数据6、计算公式为iiiiiiiiMFFXXFXFXH1/30/202332【例【例4.84.8】某蔬菜批发市场三种蔬菜的日成交数据如表4-2,计算三种蔬菜该日的平均批发价格蔬菜蔬菜名

13、称名称批发价格批发价格(元元)Xi成交额成交额(元元)XiFi成交量成交量(公斤公斤)Fi甲甲乙乙丙丙1.200.500.801800012500640015000250008000合计合计3690048000(元)769.04800036900iiiiiMXFXFXH1/30/2023331、集中趋势的测度值之一2、N 个变量值乘积的 N 次方根3、适用于特殊的数据4、主要用于计算平均发展速度5、计算公式为NNiiNNMXXXXG121NXXXXNGNiiNM121log)loglog(log1log1/30/202334 【例【例4.104.10】一位投资者持有一种股票,1996年、199

14、7年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。%84.103%4.105%5.103%0.102%5.104421NNMXXXG1/30/202335 1/30/202336数据类数据类型型定类数据定类数据 定序数据定序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数均值均值均值均值四分位数四分位数众数众数调和平均数调和平均数众数众数中位数中位数几何平均数几何平均数四分位数四分位数 中位数中位数四分位数四分位数众数众数1/30/202337离中趋势离中趋势1、数据分布的另一个重要特征2、离中趋

15、势的各测度值是对数据离散程度所作的描述3、反映各变量值远离其中心值的程度,因此也称为离中趋势4、从另一个侧面说明了集中趋势测度值的代表程度5、不同类型的数据有不同的离散程度测度值1/30/202338 数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度集中趋势集中趋势1/30/202339概念要点概念要点1、离散程度的测度值之一2、非众数组的频数占总频数的比率3、计算公式为 4、用于衡量众数的代表性imimirFFFFFV11/30/202340【例【例4.114.11】根据第三章表3-1中的数据,计算异众比率 广告类型广告类型人数人数(人人)频率频率(%)商品广告商品广告

16、服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招聘广告招生招聘广告 其他广告其他广告1125191610256.025.54.58.05.01.0合计合计200100在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好 1/30/202341概念要点概念要点1、离散程度的测度值之一2、也称为内距或四分间距3、上四分位数与下四分位数之差 Q QD D =Q QU U-Q QL L4.反映了中间50%数据的离散程度5、不受极端值的影响6、用于衡量中位数的代表性1/30/202342例例4.

17、124.12】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的四分位差解:解:设非常不满意为1,不满意为2,一般为3,满意为 4,非常满意为5 已知 QL=不满意=2,QU =一般=3四分位差:Q QD D=Q QU U =Q QL L =3 2 3 2 =1 1回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计3001/30/202343极差极差(概念要点及计算公式概念要点及计算公式)未分组数据组距分组数据1/30/2023441、离散

18、程度的测度值之一2、各变量值与其均值离差绝对值的平均数3、能全面反映一组数据的离散程度4、数学性质较差,实际中应用较少未分组数据组距分组数据NXXMNiiD1KiiKiiiDFFXXM111/30/202345【例【例4.134.13】根据第三章表3-5中的数据,计算工人日加工零件数的平均差按零件数分组按零件数分组组中值组中值(Xi)频数频数(Fi)|Xi-X|Xi-X|Fi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.34

19、7.153.545.69.843.055.857.2合计合计50312(个)24.65031211KiiKiiiDFFXXM1/30/2023461、离散程度的测度值之一2、最常用的测度值3、反映了数据的分布4、反映了各变量值与均值的平均差异5、根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差1/30/202347方差的计算公式方差的计算公式未分组数据:组距分组数据:标准差的计算公式标准差的计算公式未分组数据:组距分组数据:NXXNii122)(KiiKiiiFFXX1122)(NXXNii12)(KiiKiiiFFXX112)(1/30/202348【例【例

20、4.144.14】根据第三章表3-5中的数据,计算工人日加工零件数的标准差按零件数分组按零件数分组组中值组中值(Xi)频数频数(Fi)(Xi-X)2(Xi-X)2Fi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计合计503100.5(个)87.7505.3100)(112KiiKiiiFFXX1/30/202349

21、方差的计算公式方差的计算公式未分组数据:组距分组数据:标准差的计算公式标准差的计算公式未分组数据:组距分组数据1)(1221nxxSniinkiikiiinffxxS112211)(1)(121nxxSniinkiikiiinffxxS11211)(1/30/2023501、一组数据中可以自由取值的数据的个数2、当样本数据的个数为 n n 时,若样本均值x x 确定后,只有n n-1-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x x1 1=2=2,x x2 2=4=4,x x3 3=9=9,则 x x=5=5。当 x x=5=5 确定后,x x1 1,x x

22、2 2和x x3 3有两个数据可以自由取值,另一个则不能自由取值,比如x x1 1=6=6,x x2 2=7=7,那么x x3 3则必然取2 2,而不能取其他值3、样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2 2时,它是2 2的无偏估计量1/30/20235110 5 9 13 6 83.816)5.88()5.85()5.810(1)(2221221nxxSniin1/30/202352原始数据:10 5 9 13 6 8样本标准差样本标准差88.23.81)(121nxxSniin1/30/202353总体方差总体方差样本方差样

23、本方差 212122)(XNXNXXNiiNii)1(11)(21121221nnxnxnxxSniiniiniin1/30/202354各变量值对均值的方差小于对任意值的方差各变量值对均值的方差小于对任意值的方差 设X0为不等于X 的任意数,D2为对X0的方差,则2021202)(XXNXXDNii1/30/2023551、也称标准分数2、给出某一个值在一组数据中的相对位置3、可用于判断一组数据是否有离群点4、用于对变量的标准化处理1niiiiSxxZXXZ或1/30/202356概念要点和计算公式“1、标准差与其相应的均值之比2、消除了数据水平高低和计量单位的影响3、测度了数据的相对离散程

24、度4、用于对不同组别数据离散程度的比较计算公式为xSVXVs或1/30/202357【例【例4.164.16】某管理局抽查了所属的8家企业,其产品销售数据如表4.7。试比较产品销售额与销售利润的离散程度企业编号企业编号产品销售额(万元)产品销售额(万元)X1销售利润(万元)销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.01/30/202358计算结果表明,V V1 1 0 0为右偏分布4、偏态系数 0 0为左偏分布 计算公式为3133NFXXKiii1/30/202362【例【例4.174.17

25、】已知1997年我国农村居民家庭按纯收入分组的有关数据如表4.9。试计算偏态系数按纯收入分组(元)按纯收入分组(元)户数比重(户数比重(%)500以下以下500100010001500150020002000250025003000300035003500400040004500450050005000以上以上2.2812.4520.3519.5214.9310.356.564.132.681.814.941/30/202363 1/30/202364 按纯收入分组按纯收入分组(百元)(百元)组中值组中值Xi户数比重户数比重(%)Fi(Xi-X)Fi3(Xi-X)Fi45以下以下5101015

26、152020252530303535404045455050以上以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9310.356.564.132.681.814.94-154.64-336.46-144.87-11.840.1823.1689.02171.43250.72320.741481.812927.154686.511293.5346.520.20140.60985.492755.005282.948361.9846041.33合计合计1001689.2572521.251/30/202365根据上表数

27、据计算得根据上表数据计算得将计算结果代入公式得将计算结果代入公式得结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大(百元)429.2111KiiiKiiFFXX(百元)089.1211KiiiKiiFFX956.07339.176625.1689089.121429.21311133133iiiKiiiFXNFXX1/30/202366概念要点概念要点1、数据分布扁平程度的测度2、峰度系数=3=3扁平程度适中3、偏态系数333为尖峰分布 计算公式为计算公式为4144NFXXKiii1/30/202

28、367【例【例4.184.18】根据表4-10中的计算结果,计算农村居民家庭纯收入分布的峰度系数 代入公式得结论:结论:由于=3.43,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重 4.3089.12125.7252124144NFXXKiii1/30/202368 平均平均122.98122.98标准误差标准误差1.141.14中值中值(中位数中位数)123123模式模式(众数众数)122122标准偏差标准偏差8.038.03样本方差样本方差64.4364.43峰值峰值-0.41-0.41偏斜度偏斜度0.000.00区域区域(极差极差)3232最小值最小值1071

29、07最大值最大值139139求和求和61496149计数计数5050最大(1)最大(1)139139最小(1)最小(1)107107置信度(9 5.0%)置信度(9 5.0%)2.282.28nSx4224)3)(2)(1()1()(3)()1(Snnnnxxxxnnii33)2)(1()(Snnxxni1/30/202369 集中趋势各测度值的含义、计算方法、特点和应用场合 离散程度各测度值的含义、计算方法、特点和应用场合 偏态及峰度的测度方法 用Excel计算描述统计量1/30/2023701、中国人民大学工商管理学院99级本科生“统计学”考试成绩见book4.01。试用Excel的“描述

30、统计”工具计算各项描述统计量,并对结果进行分析。2、某地区3000农户年纯收入分组数据book4.02。要求:计算农户年纯收入的中位数、均值和标准差。3、从幼儿和成年人中各抽出10人,测得其身高数据见book4.03。要求:比较他们的身高差异程度。1/30/2023714、在某一城市所做的一项抽样调查中发现,在所抽取的1000个家庭中,人均月收入在200300元的家庭占24%,月人均收入在300 400元的家庭占26%,在400 500元的家庭占29%,在500 600元的家庭占10%,在600 700元的家庭占7%,在700元以上的占4%。你认为要分析该城市家庭的人均收入状况,用均值、众数和

31、中位数哪一个测度值更好?试说明理由。1/30/2023725、为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名7 17岁的少年儿童作为样本,另一位调查人员则抽取了1000名717岁的少年儿童作为样本。请回答下面的问题,并解释其原因。(1)哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者这两组样本的平均身高相同?(2)哪一位调查研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大?或者这两组样本的标准差相同?(3)哪一位调查研究人员有可能得到这1100名少年儿童的最高者或最低者?或者对两位调查研究人员来说,这种机会是相同的?1/30/202373

32、6、一家公司在招收职员时,首先要通过两项能力测试。在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该位应试者哪一项测试更为理想?7、一条成品生产线平均每天的产量为3700件,标准差为50件。如果某一天的产量低于或高于平均产量,并落入正负两个标准差的范围之外,就认为该生产线“失去控制”。该生产线一周各天的产量数据见book4.07,该生产线哪几天失去了控制?1/30/2023748、一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15

33、个工人,让他们分别用三种方法组装。15个工人分别用三种方法在相同的时间内组装的产品数量数据见book4.08(单位:个):(1)你准备采用什么方法来评价组装方法的优劣?(2)如果让你选择一种方法,你会作出怎样的选择?试说明理由。1/30/2023759、在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低,预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。(1)你认为该用什么样的统计测度值来反映投资的风险?(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?(3)如果你进行股票投资,你会选择商业类股票还是高科技类股票?1/30/202376提问与解答环节Questions And Answers谢谢聆听 学习就是为了达到一定目的而努力去干,是为一个目标去战胜各种困难的过程,这个过程会充满压力、痛苦和挫折Learning Is To Achieve A Certain Goal And Work Hard,Is A Process To Overcome Various Difficulties For A Goal

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|