1、2-1第二章第二章 统计数据的搜集整理和显示统计数据的搜集整理和显示n第一节第一节 统计数据的搜集统计数据的搜集n第二节第二节 数据整理数据整理n第三节第三节 频数分布频数分布n第四节第四节 数据显示数据显示2-2第一节第一节 统计数据的搜集统计数据的搜集n一、统计数据搜集的基本理论与方法一、统计数据搜集的基本理论与方法n概念与统计数据的收集方案设计等概念与统计数据的收集方案设计等n二、统计调查的组织形式二、统计调查的组织形式n分类与几种重要的调查形式分类与几种重要的调查形式n三、统计调查体系三、统计调查体系n四、统计调查方案设计四、统计调查方案设计n五、统计调查误差五、统计调查误差2-3一、
2、统计数据搜集基本理论与方法一、统计数据搜集基本理论与方法n(一)统计数据搜集的概念(一)统计数据搜集的概念n1、定义:统计数据搜集是根据统计研究预定的目的、定义:统计数据搜集是根据统计研究预定的目的和任务,运用科学的调查方法与手段,有计划、有和任务,运用科学的调查方法与手段,有计划、有组织地向客观实际采集数据的过程。组织地向客观实际采集数据的过程。n2、统计数据搜集的方式有两种:、统计数据搜集的方式有两种:n(1)根据研究的目的,搜集已经加工、整理过的、说明)根据研究的目的,搜集已经加工、整理过的、说明总体现象的资料(一般称为二手资料)。在引用二手数据总体现象的资料(一般称为二手资料)。在引用
3、二手数据时,应注明来源,以尊重他人的劳动成果。时,应注明来源,以尊重他人的劳动成果。n(2)直接向调查对象搜集反映调查单位的统计资料(一)直接向调查对象搜集反映调查单位的统计资料(一般称为原始资料,又称为初始资料)。这种方式也称统计般称为原始资料,又称为初始资料)。这种方式也称统计调查。通常是对社会现象而言。调查。通常是对社会现象而言。(二)调查数据与实验数据(二)调查数据与实验数据n调查数据:通过统计调查获得的数据,本节侧重于调查数据:通过统计调查获得的数据,本节侧重于探讨调查数据的收集与整理。探讨调查数据的收集与整理。n实验数据:在实验中控制实验对象而搜集到的数据。实验数据:在实验中控制实
4、验对象而搜集到的数据。一般来讲,自然科学领域中常运用实验方法来获得一般来讲,自然科学领域中常运用实验方法来获得数据。数据。2-42-5(三)统计数据的搜集方法(三)统计数据的搜集方法n1.直接观察法直接观察法n2.报告法(通讯法)报告法(通讯法)n3.采访法采访法 n口头询问、自填式口头询问、自填式n4.登记法登记法 n5.实验设计实验设计 n其它方法:如卫星遥感法、其它方法:如卫星遥感法、计算机辅助电话调查(如计算机辅助电话调查(如CATI系统)等系统)等n对于一些自然现象,往往通对于一些自然现象,往往通过实验设计获得。比如,化过实验设计获得。比如,化学家们通过实验了解不同元学家们通过实验了
5、解不同元素结合后产生的变化,医学素结合后产生的变化,医学家们通过实验验证新药的疗家们通过实验验证新药的疗效。效。(实验设计也被运用于实验设计也被运用于社会科学中。社会科学中。)2-6二、统计调查的组织形式二、统计调查的组织形式统计报表统计报表普普 杳杳抽样调查抽样调查重点调查重点调查典型调查典型调查周期性调查周期性调查一次性调查一次性调查普普 查查抽样调查抽样调查重点调查重点调查典型调查典型调查全面调查全面调查非全面调查非全面调查连续连续(经常性经常性)调查调查不连续调查不连续调查定期报表定期报表专门调查专门调查调查调查范围范围调查调查时间时间组织组织形式形式统统计计调调查查形形式式要领会这些
6、概念2-7(一)普查(一)普查n是一种专门组织的、一次性的全面调查。它主要是是一种专门组织的、一次性的全面调查。它主要是用以搜集某些不能或不宜用定期报表搜集的统计资用以搜集某些不能或不宜用定期报表搜集的统计资料。对国情国力的调查一般采用普查。料。对国情国力的调查一般采用普查。n例如,我国人口普查、工业普查、第三产业普查例如,我国人口普查、工业普查、第三产业普查n普查的特点普查的特点n(1)是非经常性调查。)是非经常性调查。n(2)是全面调查)是全面调查n普查的组织方式普查的组织方式n(1)专门组织的普查机构派出调查人员,直接登记。)专门组织的普查机构派出调查人员,直接登记。n(2)利用调查单位
7、的原始记录和资料,发一定的调查表)利用调查单位的原始记录和资料,发一定的调查表格,由调查单位填报。格,由调查单位填报。2-8(二)统计报表制度(二)统计报表制度n统计报表制度是依照国家有关法规,自上而下地统统计报表制度是依照国家有关法规,自上而下地统一布置,以一定的原始记录为依据,按照统一的表一布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目,统一的报送时间和报送程序,式,统一的指标项目,统一的报送时间和报送程序,自下而上地逐级地定期提供统计资料的一种调查方自下而上地逐级地定期提供统计资料的一种调查方式。特点:见式。特点:见P18n局限性:局限性:n(1)花费的人力物力较大)花费的
8、人力物力较大n(2)层层上报过程中,容易受到人的主观因素)层层上报过程中,容易受到人的主观因素的影响,若统计法制不健全,又没有其他核算手的影响,若统计法制不健全,又没有其他核算手段相配合,难保准确性。段相配合,难保准确性。n(3)社会经济现象日新月异的状况,无法体现。)社会经济现象日新月异的状况,无法体现。2-9(三)抽样调查(三)抽样调查n抽样调查分为概率抽样与非概率抽样,是一种非全抽样调查分为概率抽样与非概率抽样,是一种非全面调查。概率抽样是按随机原则从总体中抽取一部面调查。概率抽样是按随机原则从总体中抽取一部分单位作为样本进行观察,然后根据样本指标值去分单位作为样本进行观察,然后根据样本
9、指标值去推算调查对象的总体指标的一种调查。推算调查对象的总体指标的一种调查。n概率抽样一定要遵循随机原则。但在实际工作中,概率抽样一定要遵循随机原则。但在实际工作中,有时抽取样本时并不遵循随机原则,此时的抽样即有时抽取样本时并不遵循随机原则,此时的抽样即为非概率抽样。在非概率抽样时,不能使用样本的为非概率抽样。在非概率抽样时,不能使用样本的调查结果对总体的相应参数进行估计。调查结果对总体的相应参数进行估计。2-10概率抽样有如下几个特点概率抽样有如下几个特点n(1)按随机原则从全部总体中抽选样本单位。)按随机原则从全部总体中抽选样本单位。n随机原则:(随机原则:(1)每个单位有相同的中选可能性
10、。()每个单位有相同的中选可能性。(2)每个单位的中选不中选不是主观所决定的。每个单位的中选不中选不是主观所决定的。n(2)根据部分实际资料对全部总体的数量特征作出)根据部分实际资料对全部总体的数量特征作出估计。估计。n(3)抽样推断的误差可以事先计算,并加以控制。)抽样推断的误差可以事先计算,并加以控制。n 例如:通过抽样推断得出,厦大嘉庚学生的平均例如:通过抽样推断得出,厦大嘉庚学生的平均月支出在(月支出在(1200,1470)元上的可靠性(置信度)元上的可靠性(置信度)为为90%。2-11抽样调查遵遁的原则抽样调查遵遁的原则n随机原则随机原则n最大抽样效果原则最大抽样效果原则n提高抽样估
11、计精确度与节省调查费用是一对矛盾提高抽样估计精确度与节省调查费用是一对矛盾2-12抽样调查的适用范围抽样调查的适用范围n(1)不可能或不必要进行全面调查的社会现象。)不可能或不必要进行全面调查的社会现象。n无限总体的调查。无限总体的调查。n破坏性的产品质量检验。破坏性的产品质量检验。n总体单位数过大。总体单位数过大。n没必要全面调查,如城乡居民家计调查、民意测验等。没必要全面调查,如城乡居民家计调查、民意测验等。n特殊情况,如战备物资调查、矿产调查等特殊情况,如战备物资调查、矿产调查等n(2)对普查资料进行必要的修正。)对普查资料进行必要的修正。2-13(四)重点调查(四)重点调查n重点调查是
12、指在调查对象中,只选择一部分重点单重点调查是指在调查对象中,只选择一部分重点单位进行的非全面调查。位进行的非全面调查。n所谓重点单位,这些单位在全部单位中只是一部分,但它所谓重点单位,这些单位在全部单位中只是一部分,但它们在所研究现象的标志总量中却占有绝大的比重,在总体们在所研究现象的标志总量中却占有绝大的比重,在总体中具有中具有举足轻重举足轻重的作用。的作用。n对这些重点单位进行调查,能够从数量上反映整个对这些重点单位进行调查,能够从数量上反映整个总体在该标志总量方面的基本情况。总体在该标志总量方面的基本情况。n 例如,为了掌握全国钢铁生产的基本情况,可以选出鞍例如,为了掌握全国钢铁生产的基
13、本情况,可以选出鞍钢、宝钢、首钢、马钢、武钢等几个大型钢铁企业调查。钢、宝钢、首钢、马钢、武钢等几个大型钢铁企业调查。n(五)典型调查(五)典型调查n有意对若干有代表性的单位进行调查研究。属于专门组织有意对若干有代表性的单位进行调查研究。属于专门组织的非全面调查,带有一定的主观性。的非全面调查,带有一定的主观性。2-14三、统计调查体系三、统计调查体系n我国建立以必要的周期性的我国建立以必要的周期性的普查为基础普查为基础,经常性的,经常性的抽样调查抽样调查为主体为主体,同时辅之以重点调查、科学推算和部分全面报表综,同时辅之以重点调查、科学推算和部分全面报表综合运用的统计调查方法体系。合运用的统
14、计调查方法体系。(1994年,国务院批转了国家统计局年,国务院批转了国家统计局关于建立国家普查制度改革统计调查体系的请示关于建立国家普查制度改革统计调查体系的请示)n一些改革一些改革*:n2003年年底,国家决定对普查制度进行重大改革,把原有的基本单年年底,国家决定对普查制度进行重大改革,把原有的基本单位普查、工业普查和第三产业普查加以合并,并增加建筑业普查,形位普查、工业普查和第三产业普查加以合并,并增加建筑业普查,形成经济普查,每隔五年进行一次。并已经成功地进行了第一次全国经成经济普查,每隔五年进行一次。并已经成功地进行了第一次全国经济普查。济普查。n2005年年3月,国务院办公厅印发通知
15、,决定合并原有的农调队、城月,国务院办公厅印发通知,决定合并原有的农调队、城调队和企调队组建由国家统计局垂直管理的各级调查总队,提升其级调队和企调队组建由国家统计局垂直管理的各级调查总队,提升其级别并作为国家统计局的派出机构。目前除西藏以外,国家统计局在全别并作为国家统计局的派出机构。目前除西藏以外,国家统计局在全国国30个省份已组建完成其直属的调查总队。今后,还将组建建市级个省份已组建完成其直属的调查总队。今后,还将组建建市级调查队和县级调查队。调查队和县级调查队。2-15*抽样调查远未真正成为调查体系主体!抽样调查远未真正成为调查体系主体!n目前的抽样调查远未真正成为整个调查体系的主体。造
16、成该目前的抽样调查远未真正成为整个调查体系的主体。造成该现象的原因主要有以下几点:现象的原因主要有以下几点:n首先,在以统计数字作为政绩考核和资源配置主要依据的体制下,各首先,在以统计数字作为政绩考核和资源配置主要依据的体制下,各级政府必须全面了解和掌握自己所分管的层次或单位的统计数据,而级政府必须全面了解和掌握自己所分管的层次或单位的统计数据,而以抽查部分样本来推算总体为特征的现行抽样调查方法难以满足这一以抽查部分样本来推算总体为特征的现行抽样调查方法难以满足这一需要。需要。n在现行统计体制下,尽管从全社会看,抽样调查肯定比全面报表调查在现行统计体制下,尽管从全社会看,抽样调查肯定比全面报表
17、调查节省人力、物力和财力,但对于统计部门来说,布置定期报表并不需节省人力、物力和财力,但对于统计部门来说,布置定期报表并不需要支付费用,而采用抽样调查则反而要增加自身的支出。这不能不影要支付费用,而采用抽样调查则反而要增加自身的支出。这不能不影响到统计部门推广抽样调查的积极性。响到统计部门推广抽样调查的积极性。n原来的抽样调查主要由三支调查队负责,三支调查队又按照其工作范原来的抽样调查主要由三支调查队负责,三支调查队又按照其工作范围分别组建,缺乏有力的协调,大家都只考虑自己范围内的事,对于围分别组建,缺乏有力的协调,大家都只考虑自己范围内的事,对于进一步推广抽样调查,扩大抽样调查应用的范围也是
18、不利的。进一步推广抽样调查,扩大抽样调查应用的范围也是不利的。n一些有关抽样调查的技术问题包括抽样方案设计、抽样框的建设、样一些有关抽样调查的技术问题包括抽样方案设计、抽样框的建设、样本的轮换等还有待进一步研究与改进。本的轮换等还有待进一步研究与改进。2-16四、统计调查方案的设计四、统计调查方案的设计n1、确定调查的任务与目的、确定调查的任务与目的n解决为什么(解决为什么(why)调查?调查?n2、确定调查对象、调查单位和填报单位(报告单位)、确定调查对象、调查单位和填报单位(报告单位)n解决向谁解决向谁(who)调查?由谁来具体提供资料?调查?由谁来具体提供资料?n例例1:调查福建省乡镇企
19、业经营状况。:调查福建省乡镇企业经营状况。调查对象:全省所有的乡镇企业,调查对象:全省所有的乡镇企业,调查单位:每个乡镇企业,调查单位:每个乡镇企业,填报单位:每个乡镇企业。填报单位:每个乡镇企业。n例例2:调查目的是为了掌握全国炼钢设备情况。:调查目的是为了掌握全国炼钢设备情况。调查对象:全国所有炼钢设备,调查对象:全国所有炼钢设备,调查单位:每台炼钢设备,调查单位:每台炼钢设备,填报单位:具有炼钢设备的每个冶金企业。填报单位:具有炼钢设备的每个冶金企业。n注意:调查单位与报告单位,有时是一致的,有时不一致。注意:调查单位与报告单位,有时是一致的,有时不一致。类比:类比:调查对象调查对象总体
20、总体调查单位调查单位总体单位总体单位2-17n3、确定调查项目、确定调查项目n解决向调查单位调查什么解决向调查单位调查什么(what)?n调查项目就是调查中所要登记的调查单位的特征,即调查调查项目就是调查中所要登记的调查单位的特征,即调查单位所承担的基本标志,它由一系列品质标志和数量标志单位所承担的基本标志,它由一系列品质标志和数量标志所构成。所构成。n4、调查表格和问卷的设计、调查表格和问卷的设计 n调查表格有两种调查表格有两种n1.单一表:项目较多时,一个调查单位一张表。单一表:项目较多时,一个调查单位一张表。n2.一览表:多个调查单位填写在一张表上。一览表:多个调查单位填写在一张表上。n
21、问卷:问卷:2-18n5、确定调查时间(、确定调查时间(when)n两种涵义:调查时间和调查期限两种涵义:调查时间和调查期限n调查时间:是指调查资料所属的时间调查时间:是指调查资料所属的时间 n时点现象时点现象规定标准时刻,规定标准时刻,n时期现象时期现象规定现象的起止时间。规定现象的起止时间。n调查期限:是进行调查工作的时限,包括调查期限:是进行调查工作的时限,包括搜集搜集资料和资料和报送报送资料的工作所需的时间,应尽可能缩短。资料的工作所需的时间,应尽可能缩短。n6、确定调查的组织实施计划、确定调查的组织实施计划n7、调查报告的撰写、调查报告的撰写五、统计调查误差五、统计调查误差n衡量统计
22、调查数据的准确性,以进一步评价统计调衡量统计调查数据的准确性,以进一步评价统计调查的质量查的质量n分为抽样误差和非抽样误差分为抽样误差和非抽样误差n抽样误差:产生于概率抽样中,由于随机性的原因导致样抽样误差:产生于概率抽样中,由于随机性的原因导致样本无法充分代表总体,由此而产生的误差。抽样误差可以本无法充分代表总体,由此而产生的误差。抽样误差可以估算并加以控制。估算并加以控制。n非抽样误差:各种形式的调查均可能产生这种误差。如无非抽样误差:各种形式的调查均可能产生这种误差。如无回答误差、计量误差等。回答误差、计量误差等。2-192-20习题习题n1某市组织一次物价大检查,要求某市组织一次物价大
23、检查,要求12月月1日至日至12月月15日全部调查完毕。日全部调查完毕。这一时间规定是(这一时间规定是()n2抽样调查和重点调查的主要区别是(抽样调查和重点调查的主要区别是()A原始资料来源不同原始资料来源不同 B取得资料的方法不同取得资料的方法不同 C调查的单位数多少不同调查的单位数多少不同 D抽取调查单位的方式方法不同抽取调查单位的方式方法不同n3、某灯泡厂为了掌握该厂的产品质量,拟进行一次全厂的质量大检查,、某灯泡厂为了掌握该厂的产品质量,拟进行一次全厂的质量大检查,这种检查应当选择(这种检查应当选择()A、统计报表、统计报表B、重点调查、重点调查C,典型调查,典型调查D、抽样调查、抽样
24、调查n4、某企业为测试某种缆绳的拉力,采用(、某企业为测试某种缆绳的拉力,采用()搜集相关数据资料)搜集相关数据资料A、报告法、报告法B、采访法、采访法C、实验设计法、实验设计法 D、直接观察法、直接观察法n5、划分全面调查与非全面调查的标志是(、划分全面调查与非全面调查的标志是()nA、资料是否全面、资料是否全面B、调查单位是否为全部、调查单位是否为全部C、调查时间是否连续、调查时间是否连续D、调查项目是否齐全、调查项目是否齐全2-21 第二节第二节 数据整理数据整理主要内容主要内容n数据整理的概念、内容和程序数据整理的概念、内容和程序n统计分组统计分组n分组的概念、原则、种类分组的概念、原
25、则、种类n分组的方法分组的方法n组限、组数、组距和组中值等概念组限、组数、组距和组中值等概念2-22一、数据整理的概念、内容和程序一、数据整理的概念、内容和程序*n概念概念n两种整理两种整理n汇总性整理汇总性整理:对统计调查所搜集到的各种数据进行分类和汇总。:对统计调查所搜集到的各种数据进行分类和汇总。n综合性整理:对现成资料的整理。综合性整理:对现成资料的整理。n数据整理是统计分析的前提,在统计研究中起承前启后的作用。数据整理是统计分析的前提,在统计研究中起承前启后的作用。n本节介绍的统计的数据整理,指的是第一种整理。本节介绍的统计的数据整理,指的是第一种整理。n数据整理的内容数据整理的内容
26、 n (1)根据研究目的根据研究目的设计整理汇总方案;设计整理汇总方案;n(2)根据汇总方案,利用统计学软件进行数据处理,计算有关指标;)根据汇总方案,利用统计学软件进行数据处理,计算有关指标;n(3)通过统计表或统计图的形式,对整理的结果进行描述统计。)通过统计表或统计图的形式,对整理的结果进行描述统计。数据整理的程序:数据整理的程序:n1.资料的审核资料的审核n2.分组和汇总分组和汇总n3.形成各项统计指标、编制统计图表形成各项统计指标、编制统计图表n4.资料的积累、保管和公布资料的积累、保管和公布2-24 二、统计分组二、统计分组n(一)统计分组的概念和种类(一)统计分组的概念和种类n1
27、、定义:根据统计研究的目的和客观现象的内在特、定义:根据统计研究的目的和客观现象的内在特点,按照某个标志或几个标志把研究的总体划分为点,按照某个标志或几个标志把研究的总体划分为若干性质不同的部分若干性质不同的部分(或组或组)的一种统计方法。的一种统计方法。n2.从分组的性质来看,分组兼有从分组的性质来看,分组兼有“分分”和和“合合”的的双重含义:双重含义:n对于现象总体,是对于现象总体,是“分分”;对于单位,是;对于单位,是“合合”。n对于分组标志,是对于分组标志,是“分分”,对于其他标志,是,对于其他标志,是“合合”。选择分组标志后,突出了一种选择分组标志后,突出了一种差异,同时掩盖了其他差
28、异。差异,同时掩盖了其他差异。可见,选择一种分组方法,突出了一种差异,显示了一可见,选择一种分组方法,突出了一种差异,显示了一种矛盾,必然同时掩盖了其他差异,忽略了其他矛盾。种矛盾,必然同时掩盖了其他差异,忽略了其他矛盾。2-25n3.分组原则分组原则n穷尽(不漏):每一个单位必须能归属于某一组。穷尽(不漏):每一个单位必须能归属于某一组。n例如,对嘉庚学院学生按民族分为:汉族和回族两组,例如,对嘉庚学院学生按民族分为:汉族和回族两组,则可能会漏了一些其他民族的学生。正确应该分为:则可能会漏了一些其他民族的学生。正确应该分为:汉族、回族、其他三组。汉族、回族、其他三组。n互斥(不重):每一个单
29、位只能归入一个组,不能同时归互斥(不重):每一个单位只能归入一个组,不能同时归属于几个组。属于几个组。n例如,某商场把服装分为男装、女装和童装三类,就例如,某商场把服装分为男装、女装和童装三类,就不符合互斥原则。若先把服装分为成年与儿童两类,不符合互斥原则。若先把服装分为成年与儿童两类,然后再分为男女两组,就符合互斥原则。然后再分为男女两组,就符合互斥原则。2-26n4.统计分组的种类统计分组的种类n(1)按分组标志的性质不同,分为品质分组和数量分组。)按分组标志的性质不同,分为品质分组和数量分组。n(2*)按分组的作用不同,分为类型分组、结构分组和)按分组的作用不同,分为类型分组、结构分组和
30、分析分组。分析分组。n(3)按分组标志的多少,分为简单分组和复合分组。)按分组标志的多少,分为简单分组和复合分组。n简单分组就是对总体按一个标志进行分组,它只能从简单分组就是对总体按一个标志进行分组,它只能从某一方面说明和反映事物的分布状况和内部结构。某一方面说明和反映事物的分布状况和内部结构。n对同一总体选择两个或两个以上的标志进行简单分组,排列对同一总体选择两个或两个以上的标志进行简单分组,排列起来,即成为平行分组体系。起来,即成为平行分组体系。n复合分组:对同一个总体选择两个或两个以上的标志复合分组:对同一个总体选择两个或两个以上的标志层叠进行分组,就形成复合分组体系。层叠进行分组,就形
31、成复合分组体系。2-27例:简单分组例:简单分组n按性别分组按性别分组n按工龄分组按工龄分组女女男男10年以上年以上05年年510年年2-28例:平行分组例:平行分组n对工业经济总体的研究,可以进行以下平行分组。对工业经济总体的研究,可以进行以下平行分组。n工业经济总体工业经济总体n(1)按轻、重工业分:)按轻、重工业分:n轻工业轻工业n重工业重工业n(2)按经济类型分:)按经济类型分:n国有国有n集体集体n私营私营n n(3)按地区分:)按地区分:n华北地区华北地区n东北地区东北地区n 2-29例:复合分组例:复合分组 第一产业(大农业)第一产业(大农业)第二产业第二产业 工业工业 国有工业
32、国有工业 非国有工业非国有工业 建筑业建筑业 国有建筑业国有建筑业 非国有建筑业非国有建筑业 第三产业第三产业n 流通部门流通部门n 服务部门服务部门2-30*例:类型、结构、分析分组例:类型、结构、分析分组n类型分组:某年类型分组:某年17月全国工业总产值月全国工业总产值 单位:亿元单位:亿元n 结构分组:我国国民生产总值产业构成变化情况(以结构分组:我国国民生产总值产业构成变化情况(以GDP为为100)n 分析分组:某地区商业利润率与流通费用率依存关系表分析分组:某地区商业利润率与流通费用率依存关系表78808590959798第一产业第二产业第三产业28.448.623.030.449.
33、020.628.443.128.527.141.631.320.548.830.719.150.030.918.448.727.9利润率水平(%)商店个数(个)平均流通费用率水平(%)1.01.51.52.02.02.52.53.08121464.654.103.452.80 xybxay2-31(二)统计分组的方法(二)统计分组的方法n统计分组的关键问题是统计分组的关键问题是“正确地选择分组标志正确地选择分组标志”与与“划分各划分各组界限组界限”。n这里主要介绍品质分组与数量分组。这里主要介绍品质分组与数量分组。n*分组标志的选择原则分组标志的选择原则n(1)应根据研究的目的与任务选择分组标
34、志。)应根据研究的目的与任务选择分组标志。n例如,同一个工人总体,有多种不同分组方法。例如,同一个工人总体,有多种不同分组方法。n如果研究学历对收入的影响时,应选择如果研究学历对收入的影响时,应选择“文化程度文化程度”作为分组标志。作为分组标志。n如果研究资历对收入的影响时,则应选择如果研究资历对收入的影响时,则应选择“工龄工龄”作为分组标志。作为分组标志。n(2)要选择能够反映事物本质或主要特征的标志。)要选择能够反映事物本质或主要特征的标志。n例如,研究职工生活水平的高低情况时,可以用例如,研究职工生活水平的高低情况时,可以用“职工的工资水职工的工资水平平”作为分组标志,也可以用作为分组标
35、志,也可以用“职工家庭成员平均收入水平职工家庭成员平均收入水平”作作为分组标志。应该选择后者作为分组标志。为分组标志。应该选择后者作为分组标志。n(3)要根据现象的历史条件变化来选择分组标志。)要根据现象的历史条件变化来选择分组标志。n例如,前面讲到研究职工生活水平问题,如果要列出例如,前面讲到研究职工生活水平问题,如果要列出“职工生活职工生活贫困户贫困户”一组,则一组,则“贫困户贫困户”的标准就随历史条件变化而变化,的标准就随历史条件变化而变化,而且不同地区标准也不相同。而且不同地区标准也不相同。中国贫困线标准2-321、按品质标志分组、按品质标志分组n按品质标志分组就是用反映事物的属性、性
36、质的标按品质标志分组就是用反映事物的属性、性质的标志分组,它可以将总体单位划分为若干性质不同的志分组,它可以将总体单位划分为若干性质不同的类型。类型。n例如,职工可以按性别、民族、文化程度、技术等级、籍例如,职工可以按性别、民族、文化程度、技术等级、籍贯等标志分组。贯等标志分组。n又如企业可以按所有制形式、隶属关系、地区,大中小型又如企业可以按所有制形式、隶属关系、地区,大中小型等标志分组。等标志分组。n品质标志分组一般比较容易,但有些情况比较复杂,品质标志分组一般比较容易,但有些情况比较复杂,为此,国家统计局及有关部门,统一制定各种分类为此,国家统计局及有关部门,统一制定各种分类目录与规定标
37、准。例如:目录与规定标准。例如:工业部门分类目录工业部门分类目录、工业产品目录工业产品目录大中小型工业划分标准大中小型工业划分标准等。等。2-332、按数量标志分组、按数量标志分组n按数量分组,应注意如下两个问题:按数量分组,应注意如下两个问题:n(1)分组时各组数量界限的确定必须能反映事物质的差)分组时各组数量界限的确定必须能反映事物质的差别。别。n(2)应根据被研究的现象总体的数量特征,采取适当的)应根据被研究的现象总体的数量特征,采取适当的分组形式,确定适当的组距、组限。分组形式,确定适当的组距、组限。n分类:分类:n单项式分组单项式分组 就是用一个变量值作为一组。就是用一个变量值作为一
38、组。n组距式分组(又有以下两种分类方式)组距式分组(又有以下两种分类方式)n分类一:间断组距式分组和连续组距式分组分类一:间断组距式分组和连续组距式分组n分类二:等距分组与异距分组分类二:等距分组与异距分组2-34(1)单项式分组与组距式分组)单项式分组与组距式分组n若离散型变量变动幅度小,则可依次将每若离散型变量变动幅度小,则可依次将每一个变量值作为一组,即单项式分组。一个变量值作为一组,即单项式分组。n当离散型变量数值很多,且变动幅度很大当离散型变量数值很多,且变动幅度很大时,应用组距式分组时,应用组距式分组,即将全部的变量值划即将全部的变量值划分为若干区间,各个变量值则按其大小确分为若干
39、区间,各个变量值则按其大小确定所归属的区间。定所归属的区间。n连续型变量由于不能一一列举它的变量值,连续型变量由于不能一一列举它的变量值,不能作单项式组,只能是组距分组。不能作单项式组,只能是组距分组。n例:例:n1.农村家庭按拥有小孩数分组(表农村家庭按拥有小孩数分组(表1):):n2.企业按工人人数分组(表企业按工人人数分组(表2 )n3.工人按工资分组(表工人按工资分组(表3)拥有小孩数01233 个以上表1按工人人数(人)20049950099910019992000 以上表2按工资(元)500100010001500150020002000 以上表32-35(2)间断组距式分组和连续
40、组距式分组)间断组距式分组和连续组距式分组n组限:组距式分组中,每一组限:组距式分组中,每一组的两端值。起始值为下限,组的两端值。起始值为下限,结束值为上限。结束值为上限。n若相连的两组的组限不相连若相连的两组的组限不相连的,称为间断组距式分组。的,称为间断组距式分组。若相连的两组的组限重叠的,若相连的两组的组限重叠的,称为连续组距式分组。称为连续组距式分组。n连续型变量只能采用连续组连续型变量只能采用连续组距式分组距式分组;离散型变量既能;离散型变量既能采用间断组距式分组,也能采用间断组距式分组,也能采用连续组距式分组。采用连续组距式分组。统计上规定,如果总体某一个单位的变统计上规定,如果总
41、体某一个单位的变量值是相邻两组的界限值,则这一个单量值是相邻两组的界限值,则这一个单位归入作为下限值的那一组内,即所谓位归入作为下限值的那一组内,即所谓的的“上限不在内上限不在内”原则。原则。例如,例如,70分不归入分不归入6070分组,而归分组,而归入入7080分组。分组。2-36(3)等距分组与异距分组)等距分组与异距分组n组距:区间的长度。组距:区间的长度。n等距分组:标志值在各组保持相等等距分组:标志值在各组保持相等的组距,即各组的标志值变动都限的组距,即各组的标志值变动都限于相同的范围。一般用于标志值变于相同的范围。一般用于标志值变动比较均匀的场合。动比较均匀的场合。n优点:便于各组
42、单位数和标志值的优点:便于各组单位数和标志值的直接比较;便于计算各项综合指标;直接比较;便于计算各项综合指标;便于绘制统计图。便于绘制统计图。n异距分组:各组的组距不相等。异距分组:各组的组距不相等。n应用场合:应用场合:n标志值分布很不均匀的场合。标志值分布很不均匀的场合。n标志值相等的量具有不同意义的场合。标志值相等的量具有不同意义的场合。n标志值按一定比例发展变化的场合。标志值按一定比例发展变化的场合。2-37例:异距分组应用场合例:异距分组应用场合n第一,标志值分布很不均匀的场合。第一,标志值分布很不均匀的场合。n例如,学生成绩如果密集于例如,学生成绩如果密集于6080分之间,而其它分
43、数段人数稀少,则为了分之间,而其它分数段人数稀少,则为了减少信息损失,可以减少信息损失,可以6080分之间组距取分之间组距取5分,其它取组距分,其它取组距10。比如,。比如,50以下、以下、5060、6065、6570、7075、7580、8090、90以上。以上。n第二,标志值相等的量具有不同意义的场合。第二,标志值相等的量具有不同意义的场合。n例如,生命的每一个月对于新生婴儿和对于成年人是大不一样的,所以在按例如,生命的每一个月对于新生婴儿和对于成年人是大不一样的,所以在按年龄分组进行人口疾病研究时,采用不等距分组。即年龄分组进行人口疾病研究时,采用不等距分组。即1岁以下按月分,岁以下按月
44、分,110岁按年分,岁按年分,1120岁按岁按5年分,年分,21岁以上按岁以上按10或或20年分等等。年分等等。n第三,标志值按一定比例发展变化的场合。第三,标志值按一定比例发展变化的场合。n例如,大城市里商店的销售额差别很大,年销售额从例如,大城市里商店的销售额差别很大,年销售额从5万到万到5000万,可采用万,可采用公比为公比为10的不等距分组:的不等距分组:5万以下,万以下,550万,万,50500万,万,5005000万万元。元。2-38(4)几个概念:组限、组数、组距和组中值)几个概念:组限、组数、组距和组中值n组限组限n第一组的下限略小于实际变量值的第一组的下限略小于实际变量值的最
45、小值,最后一组的上限略大于实最小值,最后一组的上限略大于实际变量值的最大值。际变量值的最大值。n组距:区间的长度。组距:区间的长度。n连续组距式分组组距:连续组距式分组组距:n组距组距=上限下限上限下限n间断组距式分组组距:间断组距式分组组距:n 组距组距=本组上限前组上限本组上限前组上限n(或或)=本组下限前组下限本组下限前组下限n(或或)=本组上限本组上限 本组下限本组下限+1 n“开口组开口组”(只有上限或只有下限(只有上限或只有下限的组)的组距:的组)的组距:n参照相邻组确定。参照相邻组确定。按工资(元)500100010001500150020002000 以上按工人人数(人)200
46、499500999100019992000 以上按人数(人)15610111516202-39几个概念(续)几个概念(续)n组数:组距大,组数就少;组距组数:组距大,组数就少;组距小,组数就多小,组数就多n经验公式:经验公式:n=1+logN/log2 (n:组数;组数;N:总体单位数:总体单位数)n组中值:在计算平均指标或进行组中值:在计算平均指标或进行其他统计分析时,常以组中值来其他统计分析时,常以组中值来代表各组的平均水平。代表各组的平均水平。n组中值组中值=(上限(上限+下限)下限)/2n开口组组中值的计算参照相开口组组中值的计算参照相邻的组。邻的组。n“XX以上以上”组的组中值组的组
47、中值=下限邻组组距下限邻组组距/2 n“XX以下以下”组的组中值组的组中值上限邻组组距上限邻组组距/2按工资(元)组中值500100010001500150020002000 以上按工资(元)组中值500 以下500100010001500150025002500 以上250750125020003000750125017502250第三节第三节 频数分布频数分布n主要内容:主要内容:n基本概念基本概念n变量数列的编制变量数列的编制n累计频率与累计频数累计频率与累计频数n频数分布图的类型频数分布图的类型2-402-41(一)频数分布的基本概念(一)频数分布的基本概念n1.频数分布:在统计分组的
48、基础上,将总体的所有频数分布:在统计分组的基础上,将总体的所有的单位按组归类整理,并计算各组的单位数,形成的单位按组归类整理,并计算各组的单位数,形成一系列反映总体各组之间单位数分布状况的数字,一系列反映总体各组之间单位数分布状况的数字,称为频数分布称为频数分布(次数分布次数分布),也叫分布数列。,也叫分布数列。n 根据分组标志特征的不同,可以分为根据分组标志特征的不同,可以分为n品质数列品质数列n变量数列变量数列n2.分布数列的两个要素分布数列的两个要素n总体按某标志所分的组总体按某标志所分的组n各组所出现的单位数(频数)各组所出现的单位数(频数)2-42(二二)变量数列的编制变量数列的编制
49、n编制变量数列时,一般采用组距式分组。一般步骤编制变量数列时,一般采用组距式分组。一般步骤如下:如下:n1、进行分组、进行分组n等距还是异距?标志值的变动范围有多大,分为多等距还是异距?标志值的变动范围有多大,分为多少组合适?组距是多少?少组合适?组距是多少?n2、确定次数,即每一组出现的总体单位数。、确定次数,即每一组出现的总体单位数。n3、一般来讲,还要计算每一组的频率,对于异距分、一般来讲,还要计算每一组的频率,对于异距分组,还要计算频数或频率密度。组,还要计算频数或频率密度。2-43频数和频率(密度)频数和频率(密度)n频数和频率频数和频率n(1)频数:又称次数。)频数:又称次数。分布
50、在各组的单位个数。分布在各组的单位个数。n(2)频率:各组的频数与频数之和的比值。)频率:各组的频数与频数之和的比值。频率的性质?频率的性质?n频数密度和频率密度频数密度和频率密度(异距分组时使用,异距分组时使用,为的是消除组距对频数的影响为的是消除组距对频数的影响)n(1)频数密度)频数密度=频数频数/组距,即单位组距的频数。组距,即单位组距的频数。n(2)频率密度)频率密度=频率频率/组距,即单位组距的频率。组距,即单位组距的频率。分数组距频数频数密度566060666682829292100461610825141180.50.8330.8751.11合计40517.527.530201