统计学课件第03章.ppt

上传人(卖家):晟晟文业 文档编号:4520757 上传时间:2022-12-16 格式:PPT 页数:25 大小:580KB
下载 相关 举报
统计学课件第03章.ppt_第1页
第1页 / 共25页
统计学课件第03章.ppt_第2页
第2页 / 共25页
统计学课件第03章.ppt_第3页
第3页 / 共25页
统计学课件第03章.ppt_第4页
第4页 / 共25页
统计学课件第03章.ppt_第5页
第5页 / 共25页
点击查看更多>>
资源描述

1、v一、统计整理的含义和意义一、统计整理的含义和意义v(一一)统计整理的含义统计整理的含义v按照统计研究的要求,对调查所搜集到的原始资料进行分组、汇总,使资料达到条理化、系统化的工作过程,就是统计资料整理(statistical data arrangement),简称统计整理。对于已整理过的初级资料进行再整理,也属于统计整理。v(二二)统计整理的意义统计整理的意义v统计整理实现了从个别单位标志值向说明总体数量特征的指标值过渡的目标,是人们对社会经济现象从感性认识上升到理性认识的中间阶段,为统计分析提供坚实的基础。因此,它在统计研究中起到了承前启后的作用。v统计整理在整个统计研究过程中占有重要的

2、地位。资料整理得正确与否,直接关系到整个统计研究任务能否顺利完成。v二、统计整理的步骤二、统计整理的步骤v(一一)制定统计整理方案制定统计整理方案v统计整理方案是根据统计研究的目的和要求,事先对整理工作作出的全面安排,制订出的周密的工作计划。v统计整理方案内容包括:确定需要整理的统计汇总方式,制定统计整理表,并对统计整理的各个环节作出规定,确保统计整理有计划、有步骤地进行。v(二二)对调查资料进行审核与检查对调查资料进行审核与检查v审核检查主要是针对调查资料的准确性、完整性和及时性进行的审查,以便发现问题,予以纠正。v准确性检查采取的方法是逻辑检查和计算检查。逻辑检查包括检查调查资料的内容是否

3、合理,项目之间有无相互矛盾的地方,以及与有关资料进行对照,或者检查数字的平衡关系,以暴露逻辑上的矛盾。计算检查包括检查调查表或报表中各项数字在指标口径、计算方法和结果上有无差错,计算单位是否符合规定等。v完整性和及时性的检查,即检查所有被调查单位的资料是否齐全,是否按规定的份数、项目和时间上报,是否有缺报内容并采取补救措施。因为任何填报单位不报、缺报或迟报,都会影响汇总工作的进行。v(三三)对调查资料进行分类分组对调查资料进行分类分组v对调查资料进行分类分组是统计整理的关键步骤,应该选择最基本的、最能说明事物本质特征的标志对调查资料进行科学的分类分组。v(四四)对调查资料进行汇总和计算对调查资

4、料进行汇总和计算v对调查资料进行汇总和计算是统计整理的中心工作,也是工作量最大的一项工作。它要对资料进行分组汇总,计算出各组单位数和总体单位数,以及标志总量和总体标志总量。v(五五)汇总后的审核汇总后的审核v汇总后的审核是对汇总出来的资料再进行一次审核检查,纠正在汇总过程中所发生的各种计算差错。v(六六)编制统计表编制统计表v编制统计表是将整理好的统计资料通过统计表的形式表示出来,形成有条理、系统化的资料。统计表是统计资料的有效表现形式,它简明扼要的表格形式能有效地表达统计汇总的结果,从而反映社会经济现象在数量方面的具体表现和相互联系。v一、统计分组的概念一、统计分组的概念v统计分组(stat

5、istical data grouping)是根据所研究事物的特点和统计研究的目的,把统计总体按照某一标志划分为若干性质不同而又相互联系的几个部分的一种统计方法。v统计总体具有同质性的特征,但同质性又是相对的。总体各单位的许多变异标志正是人们把总体进一步区分为性质不同的几个部分的客观依据。统计分组是在总体内进行的一种定性分类,它把总体划分为一个个性质不同的范围更小的总体,称为次级总体。这些被称为次级总体的组,同样具有统计总体的一般特征,它们几乎是可以无限地分组下去。v二、统计分组的作用二、统计分组的作用v(一一)划分现象的类型划分现象的类型v(二二)研究总体内部的结构研究总体内部的结构v(三三

6、)分析现象之间的依存关系分析现象之间的依存关系v三、统计分组的类型三、统计分组的类型v(一一)按分组标志的多少分为简单分组和复合分组按分组标志的多少分为简单分组和复合分组v根据所研究现象总体的复杂程度和分析研究的任务,分组仅按一个标志来进行,称为简单分组(simple grouping)。选择两个或两个以上的标志分别进行简单分组,就形成了平行分组体系。v简单分组实际上就是各个组按一个标志形成。v平行分组体系的特点是:每一种分组只能固定一个因素对差异的影响,同时又掩盖了其他因素对差异的影响。因此,在平行分组体系中,所采用分组标志的多少,决定了人们对社会经济现象总体认识的广度。v若分组按两个或两个

7、以上的标志进行,并且层叠在一起,称为复合分组(composite grouping)。所分各组是在分组标志的基础上层叠排列的,从而形成复合分组体系。复合分组实际上是各个组按两个以上的标志形成的,即先按一个标志分成组,在此基础上再按第二个标志分成小组,又再层叠地按第三个标志分成更小的组,以此类推。v复合分组体系的特点是:第一层次分组只固定一个主要因素对差异的影响,第二层次分组则同时固定两个因素对差异的影响,当进入最后一个层次分组时,则所有被选择标志对差异的影响全部被固定了。在复合分组体系中,分组层次的多少决定于所选分组标志的多少,从而决定了人们对社会经济现象总体认识的深度。v复合分组适合运用于调

8、查单位足够多的条件下,由于把分组标志复合在了一起,组数就大大地增加了;当调查单位为数不多时,势必发生各组单位数很少的情况,据以进行分析、作结论就没有充分的根据,尤其是在研究总体内各标志间依存关系时更是如此。v(二二)按分组标志的性质分为品质分组和变量分组按分组标志的性质分为品质分组和变量分组v品质分组(attributive grouping)是按品质标志进行的分组。例如,人口按性别、民族、文化程度、职业等标志分组;工业企业按经济类型、部门、轻重工业、甲乙部类、所属地区等标志分组;等等。这些组在性质上、界限上是稳定明确的。也有的按品质标志进行的分组非常复杂,类别繁多,这种分组统计上称为分类。这

9、种复杂的分组,各组界限不易划分,从这一组到另一组存在各种过渡状态,边缘不清。例如,农业与动植物采集工业与森林采伐等的区分就比较困难。在实际工作中,对于这些比较复杂的分组,国家规定了统一的统计分类标准或分类目录,对不同的现象总体确定分类名称、分类标准、计量单位和编码方法,作为分组的统一依据,供长期稳定使用。完善统计分类目录,做到分类标准化是统计工作现代化的重要要求。根据国家统计局和国家标准局的国民经济行业分类标准,工业部门有40个大类,204个中类及547个小类。v变量分组(variable grouping)是按数量标志进行的分组。例如,人口按年龄分组,工业企业按职工人数、生产能力、资金利润率

10、分组等。变量分组反映总体数量特征的差异情况,通过数量变化来区分各组的不同类型和性质。变量分组在第五个问题“统计分组的方法”中将详细介绍。v四、分组标志的选择四、分组标志的选择v(一一)根据统计研究的目的选择分组标志根据统计研究的目的选择分组标志v(二二)选择最能反映现象本质特征的标志作为分组标志选择最能反映现象本质特征的标志作为分组标志v(三三)根据现象发展的历史条件和经济条件选择分组标志根据现象发展的历史条件和经济条件选择分组标志v五、统计分组的方法五、统计分组的方法v(一一)品质分组的方法品质分组的方法 v按品质标志分组是比较简单的方法,分组标志一经确定,组名称和组数也就确定,不存在组与组

11、之间界限区分的困难。v(二二)变量分组的方法变量分组的方法v按变量分组是指按数量标志分组的方法。按数量标志分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质。因此,应该以什么数量标志作为划分标准,都要依据研究的任务和现象的性质来确定。在实际工作中,变量分组常常用来分析某种指标的变动及其在各组的分配情况,这时,被研究的统计指标就成为分组的标志。v变量分组由于存在很多问题,所以要在以下几方面加以阐述。v1单项式分组和组距式分组单项式分组和组距式分组v前面说过,变量有离散型和连续型之分。离散型变量如果变量值变动幅度比较小,变量值的项数又很少,则可依次将每一个

12、变量值作为一组,这种分组称为单项式分组。但是,离散型变量如果变量值变动很大,项数又很多,采用单项式分组势必分组数太多,各组没占几个单位,因此就失去了分组的意义。某些场合离散型变量不能作单项式分组。大多数的离散型变量采取组距式分组。v组距式分组就是把整个变量值依次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。v连续型变量由于不能一一列举它的变量值,不能作单项式分组,只能进行组距式分组。v按组距式分组会使资料的真实性受到一些损害。v总之,组距的大小、组数的确定应该全面分析资料所反映的社会经济内容、标志值的分散程度等因素,不能强求一致。v2等距分

13、组和异距分组等距分组和异距分组v组距式分组区分等距分组和异距分组(不等距分组)是一个重要的问题。等距分组即标志值在各组保持相等的组距,就是说各标志值的变动都限于相同的范围。在标志值变动比较均匀的情况下,可采用等距分组。等距分组有很多好处,它便于各组单位数和标志值的直接比较,也便于计算各项综合指标,如标志值的平均数。当标志值变动很不均匀,如急剧地增长、下降,变动幅度很大时就应采用异距分组(Unequal class intervals)。v在异距分组中,如果标志值是按一定比例发展变化的,则可以按等比的组距间隔来分组。v总之,异距分组的组距和组数应根据研究现象本身质量关系的分析来确定,通过不相等的

14、组距和组限来区分现象的类型和性质。v3组限与组中值组限与组中值v组距两端的数值称为组限,其中每组的起点数值称为下限(lower limit),每组的终点数值称为上限(upper limit),下限和上限表示各组标志值变动的两端界限。v离散型变量可以一一列举,而且相邻两个数值之间没有中间数值。因此,各组的上下限都可以用确定的数值(整数)表示。v连续型变量在两数之间可能有无限多个中间数值,不可能一一列举,因此相邻组的上限和下限无法用两个确定的数值分别表示。在这种情况下,上一组的上限同时也是下一组的下限。v根据这个规定,离散型变量的分组也普遍使用各组的上限当做下一组的下限,这样不仅比较简明,而且计算

15、组中值时不会造成麻烦。v组中值(Class midpoint)是上限与下限之间的中点数值。我们知道,经过了组距分组,各个单位具体标志值看不见了,不这样做,就难以对现象总体规律有深刻的认识。但是,在许多场合,仅仅大概地了解这些标志值变化的区间是不够的,我们还需要确定一个能代表各组标志值一般水平的数值,这个数值就是组中值,它在统计分析中应用很广泛。v组中值就是上限和下限的简单算术平均,即(上限+下限)2。有时候组距数列上下两端的组运用开放式的组距,即第一组用“多少以下”,最后一组用“多少以上”表示。这两个组的组中值可参照相邻组的组距来决定。v最后,组限的表述应尽量是10、50、100、1000等数

16、字的整倍数。v一、分配数列的概念与种类一、分配数列的概念与种类v将总体中的所有单位按某个标志分组后,所形成的总体单位数在各组之间的分布,称为分配数列(frequency distribution)或次数分布。分配数列由两个要素组成,一个是分组,另一个是次数,又叫频数(frequency)。v根据分组标志的不同,分配数列分为品质分配数列和变量分配数列。按品质标志分组所编制的分配数列叫品质分配数列,简称品质数列。按数量标志分组所编制的分配数列叫变量分配数列,简称变量数列(series of varieties)。v变量数列又有单项式变量数列和组距式变量数列之分。用一个变量值代表一个组形成的数列,叫

17、单项数列。用变量值变动的一定范围(组距)代表一个组形成的数列,叫组距数列,v二、变量数列的编制二、变量数列的编制v1整理数据资料,确定全距整理数据资料,确定全距v对于一个杂乱无章的原始资料,把标志值按大小顺序排列后所计算的最大值与最小值之差就是全距。v2确定变量数列的形式确定变量数列的形式v确定变量数列的形式,也就是确定编制单项变量数列还是组距(Class interval)数列。v3组数和组距的确定组数和组距的确定v对于组数和组距,先确定哪一个,不能机械地规定,应视具体情况而定。在编制等距数列的情况下,组数、组距和全距存在下列关系:v组数=全距组距v为计算方便,组距宜取5或10的倍数,在确定

18、组距时,必须考虑原始资料的分布状况和集中程度,注意组内的同质性,尤其是对带有根本性的质界限,更不能混淆,否则就失去了分组的意义。v4确定组限确定组限v当组距组数确定后,只需划分各组数量界限,便可编制组距数列了。一般来讲,组限应是决定事物性质的数量界限,具体划分时应注意以下几点。v第一,组限的确定应当有利于表现各变量值实际分布的规律性。v第二,最小组下限要略低于最小变量值,最大组上限要略高于最大变量值。v第三,如果变量值相对集中,无特大或特小极端值时,则采用闭口式;反之,如果变量值相对比较分散,则采用开口式。v5编制变量数列编制变量数列v确定上述要素以后,就可以把变量值归类排列,最后把各组单位数

19、经综合后填入相应的各组次数栏中。v编制组距式数列时,该用多大组距,组数多少,可能一时难以确定,不妨先按小组距分组,然后逐步合并组距,再从比较中择优。美国学者斯特吉斯(H.A.Sturges)提出这样的分组组数公式:n=1+3.322lgN。N为总体单位数,n为应分组数。这是经验公式,可以参考,但不能生搬硬套。v三、频数与频率三、频数与频率v在整理和分析的时候,不但要注意各组标志值的变动范围,而且也要注意各组标志值的作用大小,即频数的大小。在变量数列中标志值构成的数列表示标志值的变动幅度,而频数构成的数列则表示相应标志值的作用程度。频数越大,则组的标志值对于全体标志水平所起的作用也越大;反之,频

20、数越小,则组的标志值所起的作用也越小。将各组单位数和总体单位数相比求得的频率表明各组标志值对总体的相对作用程度,也可以表明各组标志值出现的频率的大小。按顺序列出各组标志值的范围(或以各组组中值来代表)和相应的频率形成的统计分布,称为频率分布。很显然,任何一个分布都必须满足:各组的频率大于0;各组的频率总和等于1(或 100%)。v在研究频数和频率分布的时候,常常还需要编制累计频数(Cumulative frequency)数列和累计频率(Cumulative absolute frequency)数列。其方法通常是先列出各组的组限,然后依次累计到本组为止的各组频数,求得累计频数。将累计频数除以

21、频数总和即为累计频率。v将各组频数和频率由变量值低的组向变量值高的组累计,故称为向上累计(Cumulated upward);将各组频数和频率由变量值高的组向变量值低的组累计,故称为向下累计(Cumulated downward)。向上累计各累计数表示各组上限以下的累计频数或累计频率。当我们所关心的是标志值比较小的现象的次数分配情况时,通常用次数向上累计,以表明在这些数值以下所有数值所占的比重。v有时为表示在一定标志值以上的累计频数和累计频率,则会采用分组的下限,并从变量值高的最后一组的频率开始按相反的顺序向变量值低的组累计,来求得累计频数和累计频率,即向下累计。各累计数表示各组下限以上的累计

22、频数或累计频率。当我们所关心的是标志值比较大的现象的次数分配情况时,通常用次数向下累计以表明在这些数值以上所有数值所占的比重。v四、次数分布主要类型四、次数分布主要类型v(一一)钟型分布钟型分布 v钟型分布的特征是“两头小、中间大”,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少,其曲线图宛如一口古钟。如图3-2所示。v在社会经济现象中,许多钟型分布表现为对称分布。对称分布的特征是中间变量值分布的次数最多,以标志变量中心为对称轴。两侧变量值分布的次数随着与中间变量值距离的增大而逐渐减少,并且围绕中心变量值两侧呈对称分布。这种分布在统计学中称为正态分布。社会经济现象中许多变量分布都

23、属于正态分布类型。v(二二)U型分布型分布vU型分布的特征与钟型分布恰恰相反,靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头大、中间小”的U型分布。如图3-3所示。图3-2 钟型分布图3-3 U型分布v(三三)J型分布型分布v在社会经济现象中,也有一些统计总体分布曲线呈J型分布,如图3-4、图3-5所示。v图3-4是次数随着变量值的增大而增多,如投资额按利润率大小分布;图3-5是次数随着变量值的增大而减少,使得图形变为倒“J”型,如人口总体按年龄大小的分布。图3-4 J型分布(1)图3-5 J型分布(2)v(四四)洛伦茨分布洛伦茨分布v洛伦茨分布曲线是美国统计学家洛伦茨

24、(M.Lorenz)提出来的,专门用以检验社会收入分配的平等程度。v洛伦茨分布曲线运作的条件为:第一,居民或家庭按收入水平分组,计算各组居民或家庭的比重。第二,计算各组收入的比重。从统计学概念上来说,前者就是频率,即各组单位数占总体单位数的比重;后者就是各组标志总量占总体标志总量的比重。v洛伦茨曲线拓展运用于一般社会经济现象借以反映总体单位标志分布的集中状况集中的存在、集中的程度,因此也称为集中曲线,或称标志曲线。正方形图示域对角线表示各组的频率同各组的标志总量对总体标志总量的比重完全对应,即现象总体标志(变量)呈线性均匀分布,不存在集中过程。集中曲线离开了这条对角线,说明集中的存在。v绘制洛

25、伦茨曲线,必须正确分辨给定的数据中哪一项是总体单位,哪些项是单位标志,并且明确前者放在横轴上,后者放在纵轴上。v一、统计表的概念和结构一、统计表的概念和结构v(一一)统计表的概念统计表的概念v前面讲过,把汇总结果的资料按一定的规则在表格上表现出来,这样的表格就叫统计表(Statistical table)。这是我们把统计表当做整理过程的最后一个步骤来看的。但是,统计表的概念应从广义方面来理解,即任何用以反映统计资料的表格都是统计表。v数字是统计的语言。统计研究社会经济现象的数量关系,主要是通过数字资料来表现的。统计表和统计图都是系统地表述数字资料的基本形式。v统计表能够系统地组织和合理安排大量

26、数字资料,便于对照比较,使得统计资料的表现显得紧凑、有力、突出,因而在描述统计资料中得到广泛运用。v(二二)统计表的结构统计表的结构v从外表形式看,统计表的结构是纵横线交叉的一种表格,在表格上填写着反映社会经济现象的数字资料。因此,统计表是由总标题、纵栏和横行标题、数字资料等部分构成的。标题分为三种:总标题是表的名称,放在表的上端;横行标题或称横标目,写在表的左方;纵栏标题或称纵标目,写在表的右上方。数字资料分别说明横行或纵栏所填列数字资料的内容。v从统计表的内容看,包括主词和宾词两个部分。主词就是统计表所要说明的总体、总体的各个组或各个单位的名称。表的宾词是用来说明主词的各种指标。在通常情况

27、下,主词列在表的左方,即列于横行;宾词列在表的右方,即列于纵栏。但是,当这样排列使统计表的表式过分狭长或过分宽短时,也可以将主词、宾词合并排列或变换位置排列。v二、统计表的种类二、统计表的种类v(一一)简单表简单表v简单表是主词未经任何分组的统计表。例如,主词由研究总体单位排列组成的一览表,主词由地区、国家、城市等目录组成的区域表,主词由时间顺序组成的编年表等。v(二二)分组表分组表v分组表是主词按某一标志进行分组的统计表。利用分组表可以揭示现象不同类型的不同特征,研究总体的内部构成,分析现象之间的依存关系。v(三三)复合表复合表v复合表是主词按两个或两个以上标志进行复合分组的统计表。在一定分

28、析任务要求下,复合表可以把更多的标志结合起来,更深入地分析社会经济现象的特征和规律性。v三、宾词指标的设计三、宾词指标的设计v宾词指标的设计在统计表的设计中占有重要位置。宾词指标的设计与统计表内容的繁简关系很大,大致有两种设计方式:简单设计和复合设计。简单设计就是宾词栏中各指标彼此分开,作平行配置,一一排列;复合设计则是将宾词栏中各指标结合起来,作层叠配置,分层排列。v对宾词指标的复合设计要慎重考虑应用,它虽然能够详细说明研究对象的特征,但所用指标过于繁多,会影响到统计表表现的明确性。v四、统计表的编制原则四、统计表的编制原则v(1)统计表的各种标题,特别是总标题的表达,应该十分简明、确切、概

29、括地反映出表的基本内容。总标题还应该标明资料所属的时间和地点。v(2)表中的主词各行和宾词各栏,一般应按先局部后整体的原则排列,即先列各个项目,后列总计。当没有必要列出所有项目时,可以先列总计,而后列出其中一部分的重要项目。v(3)如果统计表的栏数较多,通常要加编号。在主词和计量单位等栏,用(甲)、(乙)、(丙)等文字标明;宾词指标各栏,用(1)、(2)、(3)等数字编号。v(4)表中数字应该填写整齐,对准位数。当数字为0或因数小可略而不计时,要写上“0”;当缺乏某项资料时,用符号“”表示;不应有数字时用符号“”表示。v(5)统计表中必须注明数字资料的计量单位。当全表只有一种计量单位时,可以把它写在表头的右上方。如果表中需要分别注明不同单位,则横行的计量单位可以专设一栏;纵列的计量单位要与纵标目写在一起;用小字标写。v(6)必要时,统计表应加注说明或注解。例如,某些指标有特殊的计算口径,某些资料只包括一部分地区,某些数字是由估算来插补的等,都要加以说明,而且还要注明统计资料的来源,以备查考。说明或注解一般写在表的下端。v此外,统计表的格式一般是“开口”式的,即表的左右两端不画纵线。统计表要尽量做到完美,不要设计成正方形或者狭长、窄宽的形状。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(统计学课件第03章.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|