1、第三章第三章 数据整理数据整理 按照研究的目的按照研究的目的,将搜集到的原始数据进将搜集到的原始数据进行行整理整理加工加工,从中提取有用的信息,并搜索其从中提取有用的信息,并搜索其中的数量规律性。中的数量规律性。3.1 数据分组数据分组3.2 次数分配次数分配3.3 统计指标统计指标 3.4 统计表和统计图统计表和统计图3.1 数据分组数据分组 一、统计数据分组的目的及原则一、统计数据分组的目的及原则 分组是将总体所有单位按一定的标准区分为若干部分253342分组的目的:概括数据,清晰条理分组时注意:分组时注意:将具有共性的个体归入同一组将具有共性的个体归入同一组将总体内部个体间的差异通过组别
2、区分开将总体内部个体间的差异通过组别区分开来来 分组的原则:分组的原则:保证总体中的任何一个个体或原保证总体中的任何一个个体或原始数据都能归于某一个组且仅能归于某一个组,即始数据都能归于某一个组且仅能归于某一个组,即保证不重、不漏。保证不重、不漏。统计分组的关键是分组标志的选择统计分组的关键是分组标志的选择1 1、按分组标志的多少不同分:、按分组标志的多少不同分:简单分组:分组仅按一个标志来进行简单分组:分组仅按一个标志来进行 复合分组:分组按两个或两个以上的标志进行,并复合分组:分组按两个或两个以上的标志进行,并且层叠在一起。且层叠在一起。二、统计分组的种类二、统计分组的种类例如:对全国的工
3、业企业进行例如:对全国的工业企业进行简单分组:简单分组:按经济类型分:全民所有制企业、集体所有制企按经济类型分:全民所有制企业、集体所有制企业、城乡个体企业业、城乡个体企业按轻重工业分:重工业、轻工业按轻重工业分:重工业、轻工业按企业规模大小分:大型企业、中型企业、小型按企业规模大小分:大型企业、中型企业、小型企业企业复合分组:复合分组:全民所有制全民所有制集体所有制集体所有制重工业重工业轻工业轻工业重工业重工业轻工业轻工业大型企业大型企业中型企业中型企业小型企业小型企业2 2、按分组标志的性质不同分:、按分组标志的性质不同分:品质分组:按品质标志进行的分组品质分组:按品质标志进行的分组 如人
4、口总体按性别分组、高校教师按职如人口总体按性别分组、高校教师按职称分组。称分组。变量分组:按数量标志进行的分组变量分组:按数量标志进行的分组 如企业按职工人数分如企业按职工人数分-1000-1000人以下、人以下、1000-50001000-5000人、人、50005000人以上人以上三、分组标志与分组体系的选择三、分组标志与分组体系的选择1 1、根据统计研究的目的,在对现象进行分析的基础、根据统计研究的目的,在对现象进行分析的基础上,抓住具有本质性的区别及反映现象内在联系的上,抓住具有本质性的区别及反映现象内在联系的标志来作为分组标志。标志来作为分组标志。2 2、在统计整理中,为了全面认识被
5、研究现象总体,、在统计整理中,为了全面认识被研究现象总体,常常需要运用多个分组标志对总体进行分组,形成常常需要运用多个分组标志对总体进行分组,形成一系列相互联系一系列相互联系、相互补充的分组体系。相互补充的分组体系。四、统计分组方法四、统计分组方法1 1、品质分组的方法、品质分组的方法 分组标志一经确定,组名称和组数也就确定,不分组标志一经确定,组名称和组数也就确定,不存在组与组之间界限区分的困难。存在组与组之间界限区分的困难。复杂的情况下,各组界限不易划分,从这一组到复杂的情况下,各组界限不易划分,从这一组到另一组存在各种过度状态,边缘不清。另一组存在各种过度状态,边缘不清。2 2、变量分组
6、的方法:、变量分组的方法:变量分组的目的并不是单纯确定各组在数量变量分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上变化来区分各组的上的差别,而是要通过数量上变化来区分各组的不同类型和性质。不同类型和性质。单项式分组:单项式分组:是依次将每一个变量值作为一组。是依次将每一个变量值作为一组。(适用于离散型变量且变量取值不多的情况)(适用于离散型变量且变量取值不多的情况)例如,居民家庭人口数,其取值不可能很多,且每一个例如,居民家庭人口数,其取值不可能很多,且每一个取值都可视为一种类型。取值都可视为一种类型。按按家庭人口数分组家庭人口数分组 1 1人人 2 2人人 3 3人人 4 4人
7、人 5 5人人 6 6人人 组距式分组:组距式分组:把整个变量值依次划分为几个区间,把整个变量值依次划分为几个区间,各个变量值按其大小确定所归并的区间,区间的距离各个变量值按其大小确定所归并的区间,区间的距离称组距。称组距。包括等距分组和包括等距分组和不等距分组不等距分组 适用于连续型变量或虽为离散型变量但取值很多,适用于连续型变量或虽为离散型变量但取值很多,不便一一列举的情况。不便一一列举的情况。1 1)连续型变量的组距式分组)连续型变量的组距式分组 如对商店按销售额进行分组如对商店按销售额进行分组 :按按销售额分组销售额分组(万元万元)5050以下;以下;5020050200;200400
8、200400;400600400600600800600800;800800以上以上2 2)离散型变量的组距式分组)离散型变量的组距式分组如对某企业的生产小组按人数分组:如对某企业的生产小组按人数分组:生产小组按人数分组(人)生产小组按人数分组(人)组数组数51011161722组距式分组中的有关问题:组距式分组中的有关问题:(1 1)组距和组中值)组距和组中值 组距两端的数值称为组限,其中:每组的起点组距两端的数值称为组限,其中:每组的起点数值称下限、每组的终点数值称上限。数值称下限、每组的终点数值称上限。离散型变量分组:离散型变量分组:各组的上下限都可以用确定的数各组的上下限都可以用确定的
9、数值(整数)表示。值(整数)表示。连续连续型型变量分组:变量分组:相邻组的上限和下限无法用两相邻组的上限和下限无法用两个确定的数值分别表示,因此上一组的上限同时也个确定的数值分别表示,因此上一组的上限同时也是下一组的下限。是下一组的下限。例如:企业按工人工资对工人进行分组如下:例如:企业按工人工资对工人进行分组如下:500600500600元元 600-700600-700元元 700-800700-800元元如果某工人工资为如果某工人工资为700700元,应将他归并到哪一组?元,应将他归并到哪一组?“上组限不计入上组限不计入”原则:遇到某单位的标志值刚好等于原则:遇到某单位的标志值刚好等于相
10、邻两组上下限时,一般把相邻两组上下限时,一般把此此值归并到作为下限的那值归并到作为下限的那一组。一组。注意注意EXCEL!(2 2)全距:)全距:变量值中最大值与最小值的差数变量值中最大值与最小值的差数 组数组数=全距全距/组距组距 组距组距=上限上限下限下限(3 3)组中值)组中值=(上限(上限+下限)下限)/2/2缺下限的开口组:组距数列的首组出现缺下限的开口组:组距数列的首组出现“*以下以下”邻邻 组组 组组 距距组组 中中 值值=上上 限限-2 2缺缺上限的开口组:组距数列的末组出上限的开口组:组距数列的末组出现现“*以上以上”邻邻组组组组距距组组中中值值=下下限限+2 2合理确定组中
11、值合理确定组中值例如:例如:第一组:第一组:5050人以下人以下 第二组:第二组:5020050200人人按公式按公式(不合理)组中值2525020050252/500)(组中值应定应定下限为下限为0 03.2 次数分配次数分配 数据观察值在各组中的个数称为数据观察值在各组中的个数称为次数次数,各组间的次数,各组间的次数称为称为次数分配次数分配。次数分配次数分配描述了总体的结构和特征。描述了总体的结构和特征。一、品质次数分配的编制一、品质次数分配的编制 按品质标志进行分组,由总体各组的名称及各组的单按品质标志进行分组,由总体各组的名称及各组的单位数(次数)组成。位数(次数)组成。某高校学生的性
12、别分布某高校学生的性别分布 按性别分组按性别分组人数人数比例(比例(%)女生女生544841.2男生男生780458.8合计合计13262100.0Excel演示演示二、变量次数分配的编制二、变量次数分配的编制1、将原始资料按顺序排序、将原始资料按顺序排序2、确定组数与组距、确定组数与组距(1)当)当n较大时,较大时,k取取1020;当;当n50时,时,k取取56;(2)如果数据分布比较均匀、对称,即中间数值次数)如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数多,大小极端值次数少,考虑用以下公式来确定组数:组数组数1+3.322 log n n 式中,
13、式中,n n 表示总次数,表示总次数,log 表示以表示以10为底的对数。为底的对数。组距组距(观察值中的最大数值观察值中的最小数值)(观察值中的最大数值观察值中的最小数值)/组数组数3、确定组限、确定组限每组区间的界限称为组限。每组区间的界限称为组限。离散型变量,分组时相邻组的组限必须间断。离散型变量,分组时相邻组的组限必须间断。如某省企业按职工人数分组,可分为:如某省企业按职工人数分组,可分为:0-99,100-199,200-299,300-399,900-1000900-1000等;等;连续型变量,相邻组的上、下限采用重叠的方法分连续型变量,相邻组的上、下限采用重叠的方法分组界定。组界
14、定。如按职工工资分组,如按职工工资分组,0-500,500-1000,1000-1500,1500-2000,等;,等;4、将各个数据按其数值大小归入相应的组内。、将各个数据按其数值大小归入相应的组内。某企业非熟练工人的周工资额(元)某企业非熟练工人的周工资额(元)单位单位:元元人员编号人员编号周收入周收入人员编号人员编号周收入周收入人员编号人员编号 周收入周收入1 110610611119999212185852 284841212949422221061063 3111111131311911923231011014 491911414878724241051055 51091091515
15、118118252596966 691911616979726261051057 7111111171710310327271071078 8107107181810310328281281289 9121121191995952929111111101010510520201061063030101101返回分组计算分组计算 组数组数1+3.322 log n 1+3.322 log n(n=30)n=30)=5.9 =5.9 分分6 6组组 组距:每组区间的宽度组距:每组区间的宽度 (观察值中的最大数值(观察值中的最大数值 观察值中的最小数值)观察值中的最小数值)/组数组数 =(128-8
16、4)/6=7.3 84-91,91-98,98-105,105-112,112-119,119-126;未包含最大未包含最大值值 83-91,91-99,99-107,107-115,115-123,123-131;按按5组,组,10元作为组距,计算次数。元作为组距,计算次数。求次数分配表和直方图 结合实际数据,组距为结合实际数据,组距为10比较好计算比较好计算且方便,分组的组数相应从且方便,分组的组数相应从6减少为减少为5。最小值为最小值为83,下限从,下限从80开开 始,始,次数分配表工资收入次数分配表工资收入次数分配表 工资收入分组工资收入分组次数次数80-9080-903 390-10
17、090-1007 710010011011013131101101201205 51201201301302 2合计合计3030累计次数分布周工资上组限组次数小于上组限的累计次数小于上组限的累计百分比%80-9090-100100-110110-120120-1309010011012013037135231023283010337793100作图如果分两组工资收入次数分配表工资收入次数分配表 工资收入分组工资收入分组次数次数80801051051313105-130105-1301717合计合计3030反映不出观察值反映不出观察值分布特征分布特征Excel作直方图作直方图分组太细会出现什么问
18、题?分组太细会出现什么问题?反映不出观察值的分布特征反映不出观察值的分布特征前面分组都是等距分组前面分组都是等距分组 也有不等距分组也有不等距分组 在不等距分组情况下,要比较各组次数或分析总在不等距分组情况下,要比较各组次数或分析总体结构,要消除由组距不等造成的影响。为此需体结构,要消除由组距不等造成的影响。为此需计算单位组距的次数,即频数密度。计算单位组距的次数,即频数密度。每组单位组距次数某组次数每组单位组距次数某组次数/该组组距该组组距次数曲线次数曲线 用直线线段连接直方图各组条形顶端中值,用直线线段连接直方图各组条形顶端中值,形成一条平滑的曲线,即形成一条平滑的曲线,即次数曲线次数曲线
19、。常见的四种次数曲线:常见的四种次数曲线:正态分布曲线,偏态正态分布曲线,偏态曲线,曲线,J形曲线和形曲线和U形曲线形曲线。正态分布曲线正态分布曲线偏态曲线偏态曲线钟型分布钟型分布在客观实际中,许多社会现象的总体分布都趋向于正态分在客观实际中,许多社会现象的总体分布都趋向于正态分布,如农作物单位面积产量的分布、零件公差的分布等。布,如农作物单位面积产量的分布、零件公差的分布等。U 形曲线形曲线J形曲线形曲线如人口按年龄死亡率的分布,在如人口按年龄死亡率的分布,在人口总体中,幼儿和老年人死亡人口总体中,幼儿和老年人死亡率高,而中青年死亡率低。率高,而中青年死亡率低。自然界某一物种在理自然界某一物
20、种在理想条件下种群数量增想条件下种群数量增长的形式,如果以时长的形式,如果以时间做横坐标,种群数间做横坐标,种群数量做纵坐标画出来的量做纵坐标画出来的曲线表示,曲线大致曲线表示,曲线大致成成J型曲线。型曲线。洛伦茨(洛伦茨(Lorens)曲线)曲线 洛伦茨曲线洛伦茨曲线是美国经济学家洛伦茨在二十世纪初提是美国经济学家洛伦茨在二十世纪初提出的,应用累积次数分配曲线描述一个国家或一个出的,应用累积次数分配曲线描述一个国家或一个地区收入分配平均程度的一种图示方法地区收入分配平均程度的一种图示方法.收入分配不平均的程度可以通过收入分配不平均的程度可以通过基尼系数基尼系数来测算。来测算。基尼系数基尼系数
21、=A/(A+B)G的值在的值在01之间。之间。联合国有关组织规定:联合国有关组织规定:G小于小于0.2可认为收入绝对平等;可认为收入绝对平等;G在在0.20.3之间表示比较平等;之间表示比较平等;G在在0.30.4之间表示相对合理;之间表示相对合理;G在在0.40.5之间表示收入差距较大;之间表示收入差距较大;G大于大于0.6表示收入差距悬殊。表示收入差距悬殊。基尼系数基尼系数0.4为国际警戒线,超过为国际警戒线,超过0.4则应采取措施则应采取措施缩小收入差距缩小收入差距3.3 统计指标统计指标 统计指标是说明社会经济现象统计指标是说明社会经济现象总体数量总体数量特征的特征的名称和数名称和数值
22、值,是统计活动对客观存在的种种社会经济现象,按其,是统计活动对客观存在的种种社会经济现象,按其具体名称,在一定空间、时间条件下,进行科学计量的具体名称,在一定空间、时间条件下,进行科学计量的数字结果。数字结果。两个特征两个特征:可计量性可计量性(具体性具体性)和总体性和总体性(综合性综合性)形成指标的现象形成指标的现象特征必须是可以特征必须是可以用数量来表现的用数量来表现的统计指标是由个体数统计指标是由个体数量特征汇总或整理加量特征汇总或整理加工后得到的数值工后得到的数值一、统计指标的种类一、统计指标的种类 1.总量指标:反映总体现象的规模水平,以绝对数形总量指标:反映总体现象的规模水平,以绝
23、对数形式表现,故也称为绝对指标。如总人口、国民生产总式表现,故也称为绝对指标。如总人口、国民生产总值等;值等;总量指标按其所说明的总体内容的不同,分为总量指标按其所说明的总体内容的不同,分为总体单总体单位总量位总量和和总体标志总量总体标志总量 总体单位总量总体单位总量反映总体单位的总量指标,如企业反映总体单位的总量指标,如企业数目、职工人数等;数目、职工人数等;总体标志总量总体标志总量反映总体各单位某一数量标志值总和反映总体各单位某一数量标志值总和的总量指标,如商品销售额、总工资总额等;的总量指标,如商品销售额、总工资总额等;总量指标按其所反映的不同时间状况,分为总量指标按其所反映的不同时间状
24、况,分为时点总量时点总量和和时期总量。时期总量。2.平均指标:将总体标志总量指标除以总体单位总量,平均指标:将总体标志总量指标除以总体单位总量,得到平均指标;得到平均指标;平均指标总体标志总量平均指标总体标志总量/总体单位总量总体单位总量 3.相对指标:两个有联系的指标对比所得到的指标都相对指标:两个有联系的指标对比所得到的指标都可以叫做相对指标。可以叫做相对指标。(1)结构相对指标)结构相对指标 将总体的部分标志总量与总体的标志总量相比较,将总体的部分标志总量与总体的标志总量相比较,或将总体的部分单位总量与总体全部单位数相比较。或将总体的部分单位总量与总体全部单位数相比较。(2)比例相对指标
25、)比例相对指标 将总体内部的部分与部分对比所得到的指标将总体内部的部分与部分对比所得到的指标 (3)动态相对指标)动态相对指标 将同一内容的指标在不同时间上的数值进行对比。将同一内容的指标在不同时间上的数值进行对比。说明现象在时间上的变化。说明现象在时间上的变化。(4)强度相对指标)强度相对指标 将同一时期内容不同、但有一定联系的两个总量指将同一时期内容不同、但有一定联系的两个总量指标对比。标对比。强度相对指标常被用来说明现象的密度、普遍程度。强度相对指标常被用来说明现象的密度、普遍程度。二、统计指标体系二、统计指标体系 由相互联系的若干统计指标组成的一个指标系统称为由相互联系的若干统计指标组
26、成的一个指标系统称为指标体系。指标体系。按指标体系所反映的内容分为基本统计指标体系和专按指标体系所反映的内容分为基本统计指标体系和专题统计指标体系;题统计指标体系;基本统计指标体系反映社会经济发展的基本情况,基本统计指标体系反映社会经济发展的基本情况,如人口统计指标体系、科技统计指标体系。如人口统计指标体系、科技统计指标体系。专题统计指标体系是就某一专门问题而设立的。专题统计指标体系是就某一专门问题而设立的。如企业经济效益评价指标体系。如企业经济效益评价指标体系。按统计指标体系所实施的范围分为国家统计指标体系、按统计指标体系所实施的范围分为国家统计指标体系、地方统计指标体系、部门统计指标体系和
27、基层统计指地方统计指标体系、部门统计指标体系和基层统计指标体系;标体系;三、三、统计指标的应用统计指标的应用注意注意:1.统计指标的内涵和可比性统计指标的内涵和可比性2.多种指标结合应用多种指标结合应用3.4 统计表和统计图统计表和统计图 一个完整的统计表要求有:表号、表名、分一个完整的统计表要求有:表号、表名、分组标志或说明、指标名称及数值;组标志或说明、指标名称及数值;p55 统计图有条形图、线形图、圆形图、立体图、统计图有条形图、线形图、圆形图、立体图、枝叶图等;枝叶图等;树茎树茎树叶树叶 次数次数8 8 4 4 8 8 5 53 39 9 1 1 1 1 9 9 4 4 7 7 5 5 6 67 71010 6 6 9 9 7 7 5 5 3 3 6 6 6 6 6 6 1 1 5 5 5 5 7 7 1 113131111 0 0 1 1 9 9 8 8 1 15 51212 1 1 8 82 2某研究所研究人员月工资收入的茎叶图某研究所研究人员月工资收入的茎叶图