数据分布特征的测度课件.ppt

上传人(卖家):晟晟文业 文档编号:4917299 上传时间:2023-01-25 格式:PPT 页数:59 大小:899KB
下载 相关 举报
数据分布特征的测度课件.ppt_第1页
第1页 / 共59页
数据分布特征的测度课件.ppt_第2页
第2页 / 共59页
数据分布特征的测度课件.ppt_第3页
第3页 / 共59页
数据分布特征的测度课件.ppt_第4页
第4页 / 共59页
数据分布特征的测度课件.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、数据分布特征的测度 集中趋势集中趋势(Central tendency)是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一一般水平般水平的代表值或中心值。l分类数据:众数l顺序数据:中位数和分位数l数值型数据:均值集中趋势(Central tendency)集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据l例:有5名工人生产的零件数分别为:15、16、17、18、19,平均零件数为多少?l解:(件)l NXXi1751918171615Xl基本公式l影响加权算术平均数的因素:变量值和权数l选择权数的原则:变

2、量值与其乘积是具有实际经济意义的标志总量。l加权算术平均数与简单算术平均数的关系:l当 时,iiiiiiffXffXXAfffn21nxnAxAAxAfxfxl解:(元)工资(x)工人数(f)工资总额(xf)50021000530421207408592086054300102011020合计20143607182014360fxfX66402640fxfX按零件数分组(个)组中值(x)人数(f)xf506055844060706520130070807512900合计402640l 解:(件)l 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下l 甲组:甲组:考试成绩(考试成绩(x):

3、0 20 100l 人数分布(人数分布(f):):1 1 8l 乙组:乙组:考试成绩(考试成绩(x):0 20 100l 人数分布(人数分布(f):):8 1 1)(82108100120101分甲nxxnii)(12101100120801分乙nxxnii1.各变量值与均值的离差之和等于零niixx12min)(niixx10)(l例:某市场某蔬菜销售价格早晨为1.00元,中午为0.5元,晚上为0.2元。在下列两种情况下分别计算平均价格(1)早午晚各买1斤(2)早午晚各买1元。l简单调和平均数l加权调和平均数XMMHXH11某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称

4、批发价格批发价格(元元)x成交额成交额(元元)M成交量成交量(公斤公斤)f甲甲乙乙丙丙1.200.500.801800012500640015000250008000合计合计3690048000(元)批发价格成交额成交额769.04800036900mH按平均单位成本分组(元/件)企业数(个)各组产量在总产量中所占的比重(%)101212141418276224038合计15100l试指出那个厂的总平均成本高,其原因何在?品种单位成本(元)总成本一厂二厂甲乙丙152030210030001500322515001500计划完成%企业数(个)计划产值(万元)90以下714090100223101

5、0011057165011012026710120以上340合计1152850l设l则 (已知m、f)(已知x、f)(已知x、m)fmx xmmxfxfxfmxffNNNXXXXXG21l例1:一位投资者持有一种股票,1997,1998,1999,2000收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。l例2:某企业四个车间流水作业生产某产品。一车间产品合格率为99%,二车间为95%,三车间为92%,四车间为90%,计算该企业的平均产品合格率。l算术平均数、调和平均数、几何平均数之间的关系l算术平均数几何平均数调和平均数%84.103%4.105%5.1

6、03%0.102%5.1044%94.93%90%92%95%994%8.6%6.108%)151(%)101(%)81(%)41(%)31(2521084平均年利率为ffXG 投资银行某笔投资是的年利率是按复利计算的,25年利率分配时(按时间数序):有一年是3%,有4年为4%,有8年为8%,有10年为10%,有2年为15%。求平均年利率。0 众数是一组数据中出现次数最多的变量值 无众数或复众数 主要用于分类数据,也可用于顺序数据和数值型数据l对于未分组数据和单项式分组数据,众数位置确定之后便找到了众数。l对于组距数列,若众数组相邻两组次数相等,则众数组的组中值就是众数;若众数组上一组的次数较

7、多,则众数在众数组内靠近上限;若众数组下一组的次数较多,则众数在众数组内靠近下限。计算公式:iLMo211不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893

8、4530836311510合计合计300100.0l中位数是一组数据按一定顺序排列后,处于中间位置上的变量值。l对于未分组数据,中位数位置=(n+1)/2l对于单项式分组数据,中位数位置=l对于组距数列,确定中位数组之后,可按以下公式计算中位数:immefSfLM122/f 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300年收入(元)农户数农户数累计向上累计向下累计500600

9、6007007008008009009001000100011001100120012001300240480105060027021012030240720177023702640285029703000300027602280123063036015030合计3000l解:因第3组次数最多,故其为众数组。=755.9(元)l中位数位置=1500,所以第三组为中位数组。=774.3(元)iLMo211100430570570700immefSfLM122f10010507201500700l在同一变量数据集合中如果变量值分布呈对称型,则算术平均数、中位数和众数三者相等;l若不对称,则中位数必

10、居中,算术平均数和众数分列两侧。右偏 左偏级别12345678人数223861967020135完成生产定额(%)工人数(人)9010051001101311012016120130261301402014015015合计95l标志变异指标的作用 衡量平均数代表性的大小 反映社会经活动过程的均衡性和节奏性例:1、有两个小组工人工资资料如下:甲:50 60 70 80 90 乙:60 65 70 75 80 哪一组工人工资平均数的代表性大?2、某企业计划完成情况如表,哪个车间生产过程均衡?计划数实际完成上旬中旬下旬全月数量 比重%数量比重%数量比重%数量比重%甲车间乙车间120120382031

11、.716.7404033.333.342603550120120100100l 极差(R)=最大标志值-最小标志值如前例中,l 对于组距数列极差也可以近似表示为:R=最高组上限值-最低组下限值如农户收入例中,R=1300-500=800(元)(元)(元)乙甲206086405090RRNXXMd12570907080707070607050甲dM6570807075707070657060乙dM简单平均式简单平均式如两组工人工资平均差iiidffXXM月工资额X工人数f工资总额Xf离差离差绝对值5060708090305070302015003000490024001800-18-821222

12、18821222540400140360440合计200136001880XX XX fXX 例:4.92001880(6820013600ffXXMfXfXd元)例例:对成年和幼儿身高进行调查资料如下:成年组(厘米):161 163 165 167 169幼儿组(厘米):73 74 75 76 77哪一组平均身高的代表性更大?%6.1%100752.1%45.1%1001654.2幼成dd厘米)(厘米)(厘米)(厘米)幼成成(2.1754.2165ddMXMX%100XMdd平均差系数l简单平均式简单平均式(标准差)方差)NXXNXX222)()(14.1457090708070707060

13、705022222)()()()()(甲07.757080707570707065706022222)()()()()(乙例:iiiffXX2)(2ffXX2)(l方差 =l标准差fXXi2)(2)(XX 按零件数分组(个)组中值(X)人数(f)105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计503100.53.12

14、8506415fXfX(个)(87.7505.3100)2ffXXl未分组数据:1)(122nxxsnii1)(122nfxMskiii1)(12nxxsnii1)(12nfxMskiii%100X甲商店乙商店组中值x人数fxf组中值x人数fxf253545556531296754204053307684321441176253545556528647036033026051228896784合计3012302520合计2010201680试问两个商店营业员平均销售额的代表性哪个大?为什么?fXX2)(fXX2)(165.9201680)(165.9302520)-(5120102041301

15、23022ffXXffXXfXfXfXfX乙商店标准差甲商店的标准差乙商店的销售额甲商店的销售额%18%10051165.9%100%3.22%10041165.9%100XX用“是”、“否”或“有”、“无”来表示的标志是是非标志非标志。总体单位数用N来表示。表示具有所研究标志值的单位数,表示不具有所研究标志的单位数。1N0NQPQPNNQNNP1101或)1(PPPQPX是非标志的标准差是非标志的平均数NNN01l标准化数值是一个数据在数据集中相对位置的测度。l计算公式为 l标准化数值就是数据值偏离平均数标准差的个数。正的z值表示观察值位于平均数右侧,负的z值表示观察值位于平均数左侧。l根据

16、经验法则,对于钟形分布,几乎所有的数据都在偏离平均数3个标准差范围之内。因此,标准化数值低于-3或高于3的数据值就是异常值异常值,也称为离群点离群点。sxxz1、假设下面数据是A公司和B公司的供货天数:A:11 10 9 10 11 11 10 11 10 10B:8 10 13 7 10 11 10 7 15 12 利用全距和标准差来证明A公司供货时间上更具有一致性和可一致性和可靠性。靠性。2、下面数据是某大学田径队的队员跑400米和1500米的时间(分钟)400米:0.92 0.98 1.04 0.90 0.991500米:4.52 4.35 4.60 4.70 4.50一名教练看了以上样

17、本后断言,400米耗时更具有一致性。一致性。对不对?为什么?l1.对分类数据离散程度的测度l2.非众数组的频数占总频数的比率l3.计算公式为imimirfffffv1%707.050151501550rv不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差l QD=QU QL反映了中间50%数据的离散程度不

18、受极端值的影响用于衡量中位数的代表性甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300数据类型和所适用的离散程度测度数据类型和所适用的离散程度测度值值数据类型数据类型分类数据分类数据 顺序数据顺序数据数值型数据数值型数据适适用用的的测测度度值值异众比率异众比率四分位差四分位差 方差或标准差方差或标准差 异众比率异众比率 离散系数(比较时用)离散系数(比较时用)平均差平均差 极差极

19、差 四分位差四分位差 异众比率异众比率集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态偏态和峰度峰度就是对这些分布特征的近一步描述。ffXXffXX33333)()(如果次数分布是完全对称的,叫对称分布对称分布;如果次数分布不是完全对称的,就称为偏态分布偏态分布。所谓偏度,就是指次数分布的非对称程度,以偏态系数偏态系数来表示。333,0说明是对称分布。高。越大,说明偏态程度越30,说明是右偏ffXXffXX44444)()(l峰度是分布集中趋势高峰的形状。它通常是与正态分 布相比而言的。l若分布形状比

20、正态分布更瘦更高,叫尖峰分布尖峰分布。l若分布形状比正态分布更矮更胖,叫平顶分布。平顶分布。l测定峰度的指标是峰度系数峰度系数444=3为正态分布3为尖峰分布21.333.244.17)(2444ffXX分布曲线为尖峰分布。说明该地区农民收入的21.34均数的偏斜程度。表示所有数据对算术平,值为分布为正偏,其具体数为正值说明农户收入的60.666.033.235.2)(33333ffXX数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度集中趋势集中趋势1.数据水平的概括性度量数据水平的概括性度量2.数据离散程度的概括性度量数据离散程度的概括性度量3.数据分布形状的测度数据分布形状的测度4.用用Excel计算描述统计量计算描述统计量 结结 语语2020/11/559谢谢观赏!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据分布特征的测度课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|