1、 数数 据据 整整 理理 与与 分分 析析主要内容主要内容u数据分组数据分组u数据显示数据显示u数据集中趁势数据集中趁势u数据离中趋势数据离中趋势数据分组数据分组1、将原始资料顺序排序2、确定组数与组距3、确定组限4、将各个数据按其数值大小归入相应的组内 如果数据分布比较均匀、对称,即中间数值次数多,如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数大小极端值次数少,考虑用以下公式来确定组数:组数组数1+3.322 log n组距组距(观察值中的最大数值观察值中的最小数值)(观察值中的最大数值观察值中的最小数值)/组数组数数据分组例数据分组例【例例1】设某
2、企业30个非熟练工人的周工资额 (元)如下:106 99 85 121 84 94 106 110 119 101 9591 87 105 106 109 118 96 128 91 105 111111 107 103 101 107 106数据分组例数据分组例排序:84,85,87,91,91,94,95,96,97,99,101,101,103,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128分组计算分组计算u组数组数1+3.322 log n 1+3.322 log n =5.9 =5.9(n
3、=30)n=30)分分6 6组组u组距:每组区间的宽度组距:每组区间的宽度 (观察值中的最大数值(观察值中的最大数值 观察值中的最小数值)观察值中的最小数值)/组数组数 =(128-84)/6=7.3分分6组,组距组,组距8 每周工资(元)人 数(个)各组人数占总人数百分比(%)849251792100517100108124010811641311612431012413213 合计30100结合实际数据结合实际数据一、比较计算组距值(7.3),组距为10比较好计算且方便,二、分组的组数相应从6减少为5。最小值为84,下限从80开 始,分分5组,组距组,组距10 每周工资(元)人数(个)各组
4、人数占总人数百分比(%)809031090100723100110134311012051712013027 合计30100分两组分两组 工资收入次数分配表 工资收入分组次数8010513105-13017合计30反映不出观察值分布特征分组太细会出现什么问题?分组太细会出现什么问题?数据图示数据图示直方图:频数分配直方图、频率分配直方图次数多边形图累积次数分配图:小于上组限的累积次数分配图、大于下组限的累积次数分配图。特例 洛伦茨曲线茎叶图 直方图直方图 以变量值为横坐标、次数为纵坐标,以矩形高度表示各组次数(频数)分配多少。如下图:频数直方图直方图直方图 频率分布直方图次数多边形图次数多边形
5、图 次数多边形图次数多边形图 还可将几种不同数据绘在同一多边形图上用于比较.如图:累计次数分配图累计次数分配图 小于上组限的累积次数分配每周工资(元)上组限组次数小于上组限的累计次数(人)小于上组限的累积百分比(%)8090903310901001007103310011011013237711012012052893120130130230100 累计次数分配图累计次数分配图 以变量值为横坐标、以累积计次数为纵坐标描点连接而成的图,如下图:累计次数分配图累计次数分配图 大于下组限的累积次数分配每周工资(元)上组限组次数小于上组限的累计次数(人)小于上组限的累积百分比(%)8090803301
6、009010090727901001101001320661101201105723120130120227累计次数分配图累计次数分配图 洛伦茨曲线洛伦茨曲线 以人口百分比为横坐标、以累积收入百分比为纵坐标描点连接而成的图形,如图:基尼系数基尼系数反映一国收入的平等程度。如右图 基尼系数 r=A/(A+B)r=0 绝对平等 r=1 绝对不平等 r越大越不平等,反之则越平等。茎叶图茎叶图 数据源:21,29,60,1,27,35,66,23,8,38,31,45,57,66,68,62,62,93,68,19,68,72,76,91,46,62,3,10,49,56,52,95 按大小排序后如下
7、:1,3,8,10,19,21,23,27,29,31,35,38,45,46,49,52,56,57,60,62,62,62,66,66,68,68,68,72,76,91,93,95 茎叶图茎叶图茎 叶 次 数 0 1 3 8 3 1 0 9 2 2 1 3 7 9 4 3 1 5 8 3 4 5 6 9 3 5 2 6 7 3 6 0 2 2 2 6 6 8 8 8 9 7 2 6 2 8 0 9 1 3 5 5 4数据集中趋势数据集中趋势 算术平均数算术平均数 几何平均数几何平均数 调和平均数调和平均数 中位数及四分位数中位数及四分位数 众数众数算术平均数算术平均数(概念要点概念要点)
8、集中趋势的测度值之一集中趋势的测度值之一最常用的测度值最常用的测度值一组数据的均衡点所在一组数据的均衡点所在易受极端值的影响易受极端值的影响算术平均数算术平均数(计算公式计算公式)简单算术平均值简单算术平均值加权算术平均值加权算术平均值简单算术平均数简单算术平均数(算例算例)原始数据原始数据:10591368加权算术平均数加权算术平均数(算例)(算例)【例例2】设某企业经理付给他的雇员的每小设某企业经理付给他的雇员的每小时工资分为三个等级:时工资分为三个等级:6.5元、元、7.5元、元、8.5元。元。拿这三种工资的人数分别为:拿这三种工资的人数分别为:14人、人、10人、人、2人人,则该公司雇
9、员的平均工资为:,则该公司雇员的平均工资为:加权算术平均数加权算术平均数(分组数据算例)(分组数据算例)表表4-1 某车间某车间50名工人日加工零件均值计算表名工人日加工零件均值计算表按零件数分组按零件数分组组中值(组中值(Xi)频数(频数(fi)Xifi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计合计506160.0【例例3】根据表根据表4-1中的数据,计算中的数据,计算50 名工人日加工
10、名工人日加工零件数的均值零件数的均值算术平均数的数学性质算术平均数的数学性质1.各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零几何平均数几何平均数(概念要点概念要点)1.集中趋势的测度值之一集中趋势的测度值之一2.主要用于计算平均比率及平均发展速度主要用于计算平均比率及平均发展速度3.计算公式为计算公式为简单几何平均数简单几何平均数加权几何平均数加权几何平均数4.数据都为正数时才可计算几何平均数数据都为正数时才可计算几何平均数5.可看作是均值的一种变形可看作是均值的一种变形几何平均数几何平均数(算例算例)【例例4】设某建筑公司承建的四项工程的利设某建筑公司承建的四项工程的利润分别
11、为润分别为3%、2%、4%、6%。问这四。问这四项工程的平均利润率是多少?项工程的平均利润率是多少?几何平均数几何平均数(算例算例)【例例5】一位投资者持有一种股票,一位投资者持有一种股票,1996年、年、1997年、年、1998年和年和1999年收益率分别为年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。计算该投资者在这四年内的平均收益率。几何平均数几何平均数(算例算例)【例例6】设某银行有一笔设某银行有一笔20年的长期投资,其利率是年的长期投资,其利率是按复利计算的,有按复利计算的,有1年为年为2.5%,有,有3年为年为 3%,有,有5年年为为6%
12、,有,有8年为年为9%,有,有2年为年为12%,有有1年为年为5%,求平,求平均年利率。均年利率。调和平均数调和平均数(概念要点概念要点)集中趋势的测度值之一集中趋势的测度值之一均值的另一种表现形式均值的另一种表现形式易受极端值的影响易受极端值的影响计算公式为计算公式为简单调和平均数简单调和平均数加权调和平均数加权调和平均数调和平均数调和平均数(说明)说明)加权调和平均加权调和平均调和平均数调和平均数(算例算例)【例例7】某人开车,前某人开车,前10公里以时速公里以时速50公里公里驾驶,后驾驶,后10公里以时速公里以时速30公里驾驶。则此公里驾驶。则此人跑这人跑这20公里的平均时速为:公里的平
13、均时速为:【例例8】某种蔬菜价格:早上0.4元/斤(x1),中午0.25(x2),晚上0.20(x3),若某人早、中、晚分别购买的金额是1元(m1)、2元(m2)、3元(m3),求平均价格。解:平均价格=总金额/总数量 调和平均数调和平均数(算例算例)【例例9】某种蔬菜价格:早上0.4元/斤(x1),中午0.25(x2),晚上0.20(x3),若某人早、中、晚分别买2.5斤(f1)、8斤(f2)、15斤(f3),求平均价格。解:平均价格=总金额/总数量 调和平均数与算术平均数的区别调和平均数与算术平均数的区别中位数中位数(概念要点概念要点)1.集中趋势的测度值之一集中趋势的测度值之一2.排序后
14、处于中间位置上的值排序后处于中间位置上的值中位数中位数(位置的确定位置的确定)未分组数据:未分组数据:中位数位置中位数位置组距分组数据:组距分组数据:2f=中位数位置中位数位置未分组数据的中位数未分组数据的中位数(计算公式计算公式)数值型未分组数据的中位数数值型未分组数据的中位数(5个数据的算例个数据的算例)原始数据原始数据:24 22 21 26 20排排 序序:20 21 22 24 26位位 置置:1 2 3 4 5数值型未分组数据的中位数数值型未分组数据的中位数(6个数据的算例个数据的算例)原始数据原始数据:10 5 9 12 6 8排排 序序:5 6 8 9 10 12位位 置置:1
15、 2 3 4 5 6 位置位置=1.根据位置公式确定中位数所在的组,设落根据位置公式确定中位数所在的组,设落入第入第 组组2.采用下列近似公式计算采用下列近似公式计算数值型分组数据的中位数数值型分组数据的中位数(要点及计算公式要点及计算公式)数值型分组数据的中位数数值型分组数据的中位数(算例算例)表表4-2 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计50【例例10】众众 数数(概念
16、要点概念要点)1.集中趋势的测度值之一集中趋势的测度值之一2.出现次数最多的变量值:出现次数最多的变量值:一组数据分布的最高峰点一组数据分布的最高峰点 3.不受极端值的影响不受极端值的影响4.可能没有众数或有几个众数可能没有众数或有几个众数众众 数数(众数的不唯一性众数的不唯一性)无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数多于一个众数多于一个众数日产量(件)日产量(件)工人数(人)工人数(人)10101111121213131414合计合计7070100100380380150150100100800800单值型数列的众数单值型数列的众数(算例算例)【例例11】已知某企业
17、某日工人的日产量资料如下已知某企业某日工人的日产量资料如下:数值型分组数据的众数数值型分组数据的众数(要点及计算公式要点及计算公式)1.众数的值与相邻两组频数的分布有关众数的值与相邻两组频数的分布有关 该公式假定众数组的频数在众数组内均匀分布该公式假定众数组的频数在众数组内均匀分布相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值即为众数即为众数相邻两组的频数不相等时,众数采用相邻两组的频数不相等时,众数采用下列近似公式计算下列近似公式计算数值型分组数据的众数数值型分组数据的众数(算例算例)【例例12】某市公寓房租金的统计资料如下表,试求房租金的众数表表4-4 4-4 某
18、市公寓房屋租金资料表某市公寓房屋租金资料表每周租金(元)每周租金(元)房屋套数(套)房屋套数(套)累计房屋套数(套)累计房屋套数(套)7.57.512.512.512.512.517.517.517.517.522.522.522.527.527.527.532.532.532.532.537.537.537.537.542.542.542.542.547.547.512122626454560373713135 52 2121238388383143180180193193198198200200众数、中位数和众数、中位数和算术平均数的关系算术平均数的关系=注注:对称图形对称图形,重叠重叠左
19、右偏时左右偏时,均值变化最快均值变化最快,中位值次之中位值次之,众值不变众值不变数据的离中趋势数据的离中趋势 极差与平均差极差与平均差 方差与标准差方差与标准差 变异系数变异系数 四分位差四分位差 异众比率异众比率极极 差差(概念要点及计算公式概念要点及计算公式)一组数据的最大值与最小值之差一组数据的最大值与最小值之差离散程度的最简单测度值离散程度的最简单测度值易受极端值影响易受极端值影响未考虑数据的分布未考虑数据的分布未分组数据未分组数据组距分组数据组距分组数据极极 差差(算例算例)原始数据原始数据:10 5 9 12 6 8 排排 序序:5 6 8 9 10 12极 差=12-5=7原始数
20、据:原始数据:极 差=140-105=35表表4-5 4-5 某车间某车间5050名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数1051101051101101151101151151201151201201251201251251301251301301351301351351401351403 35 58 8141410106 64 43 38 816163030404046465050平均差平均差(概念要点及计算公式概念要点及计算公式)离散程度的测度值之一离散程度的测度值之一各变量值与其均值离差绝对值的平均数各变量值与其均值离
21、差绝对值的平均数能全面反映一组数据的离散程度能全面反映一组数据的离散程度数学性质较差,实际中应用较少数学性质较差,实际中应用较少未分组数据未分组数据组距分组数据组距分组数据平均差平均差(计算过程及结果)(计算过程及结果)表表4-46 某车间某车间50名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分组按零件数分组组中值组中值(Xi)频数频数(fi)105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.
22、545.69.843.055.857.2合计合计50312_|iXX_|iiXXf方差和标准差方差和标准差(概念要点概念要点)1.离散程度的测度值之一离散程度的测度值之一2.最常用的测度值最常用的测度值3.反映了数据的分布反映了数据的分布4.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方准差;根据样本数据计算的,称为样本方差或标准差差或标准差总体方差和标准差总体方差和标准差(计算公式计算公式)未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组
23、距分组数据:组距分组数据:总体方差和标准差总体方差和标准差(算例算例)原始数据:原始数据:76 90 84 86 81 87 86 82 85 83总体标准差总体标准差(计算过程及结果)(计算过程及结果)3100.5739.47572.45259.926.86184.90518.94817.96246.49114.4932.490.4918.4986.49204.4950合计合计358141064107.5112.5117.5122.5127.5132.5137.5105110110115115120120125125130130135135140频数频数(fi)组中值组中值(Xi)按零件数分
24、组按零件数分组表表4-7 某车间某车间50名工人日加工零件标准差计算表名工人日加工零件标准差计算表_2()iXX_2()iiXXf总体方差和标准差总体方差和标准差(简化计算公式简化计算公式)未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:总体标准差总体标准差(计算过程及结果)(计算过程及结果)762012.534668.7563281.25110450210087.5162562.5105337.57562511556.2512656.2513806.2515006.2516256.2517556.2518906.2550合计合计3581
25、41064107.5112.5117.5122.5127.5132.5137.5105110110115115120120125125130130135135140频数频数(fi)组中值组中值(Xi)按零件数分组按零件数分组表表4-8 某车间某车间50名工人日加工零件标准差计算表名工人日加工零件标准差计算表2iX2iiXf样本方差和标准差样本方差和标准差(计算公式计算公式)未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:样本方差和标准差样本方差和标准差(算例算例)原始数据:原始数据:76 90 84 86 81 87 86 82 85 8
26、3抽样数据:抽样数据:76 84 81 86 85 样本均值:样本方差:标准差:变异系数变异系数1.各种变异指标与其相应的均值之比各种变异指标与其相应的均值之比2.消除了消除了数据水平高低和计量单位数据水平高低和计量单位的影响的影响3.测度了数据的相对离散程度测度了数据的相对离散程度4.用于对不同总体数据离散程度的比较用于对不同总体数据离散程度的比较注注:变异指标变异指标:对数据的差异程度进行度量对数据的差异程度进行度量,包括包括异异众比率、四分位差、极差、平均差、方差和标众比率、四分位差、极差、平均差、方差和标准差(含比率的标准差)等准差(含比率的标准差)等 变异系数分类及计算公式变异系数分
27、类及计算公式极差系数极差系数 平均差系数平均差系数标准差系数标准差系数最常用的是标准差系数标准差系数。变异系数变异系数(算例算例)【例例16】已知以下资料,试比较哪组数据更集中(整齐)。幼儿组 成人组 幼儿组 成人组由此可看出成人组的数据更集中。幼儿幼儿组组身高身高(cm)成人组成人组身高身高(cm)王甜王甜张琴张琴李朋李朋英洁英洁伍平伍平7172737475佐江财佐江财佑海尔佑海尔魏联想魏联想马容声马容声帅新飞帅新飞164166168170172偏态与峰度的测度偏态与峰度的测度一.偏态及其测度二.峰度及其测度偏态与峰度分布的形状偏态与峰度分布的形状偏偏 态态(概念要点概念要点)1.数据分布偏
28、斜程度的测度数据分布偏斜程度的测度2.偏态系数偏态系数=0为为对称分布对称分布3.偏态系数偏态系数 0为为右偏分布右偏分布4.偏态系数偏态系数 0为为左偏分布左偏分布5.计算公式为计算公式为偏偏 态态(实例实例)表表4-10 1997年年农村居民家庭纯收入数据农村居民家庭纯收入数据按纯收入分组(元)按纯收入分组(元)户数比重(户数比重(%)500以下以下500100010001500150020002000250025003000300035003500400040004500450050005000以上以上2.2812.4520.3519.5214.9310.356.564.132.681.814.94偏态与峰度偏态与峰度(从直方图上观察从直方图上观察)偏态系数偏态系数(计算结果计算结果)峰峰 度度(概念要点概念要点)1.数据分布扁平程度的测度数据分布扁平程度的测度2.峰度系数峰度系数=3为为扁平程度适中扁平程度适中3.峰度系数峰度系数3为为尖峰分布尖峰分布5.计算公式为计算公式为峰度系数峰度系数(实例计算结果实例计算结果)态度决定一切态度决定一切细节影响成败细节影响成败谢谢您的关注!谢谢您的关注!