1、第第3 3章章本本 章章 内内 容容 第一节第一节 数据整理概述数据整理概述 第二节第二节 数据的预处理数据的预处理 第三节第三节 数据分组数据分组 第四节第四节 数据显示数据显示2022-6-6第一节第一节 数据整理概述数据整理概述 一、统计数据整理的含义与要求一、统计数据整理的含义与要求 二、统计数据整理的步骤二、统计数据整理的步骤 三、统计数据的预处理三、统计数据的预处理2022-6-6 统计整理统计整理就是对搜集得到的初始数据进行就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。成能反映总体
2、特征的综合数据的工作过程。什么是统计整理,它有什么用什么是统计整理,它有什么用?作用:承前启后、积累历史资料作用:承前启后、积累历史资料一、数据整理的含义与要求一、数据整理的含义与要求(一)统计数据整理的含义(一)统计数据整理的含义一、数据整理的含义与要求一、数据整理的含义与要求原始资料综合资料总体单位资料总体资料数据整理统计研究过程统计研究过程数据搜集数据搜集数据整理数据整理数据分析数据分析(二)(二)统计数据整理的意义统计数据整理的意义(三)(三)统计数据整理的要求统计数据整理的要求数据整理原则数据整理原则二、统计数据资料整理的步骤二、统计数据资料整理的步骤 制定制定统计整理方案统计整理方
3、案数据显示(统计图表)数据显示(统计图表)数据处理数据处理(分组和汇总分组和汇总)数据的预处理(审核筛选)数据的预处理(审核筛选)数据的保存与公布数据的保存与公布 统计整理方案统计整理方案是统计整理过程的工作安排。是统计整理过程的工作安排。主要内容:主要内容:一是确定总体资料的处理方法,如何分组,用何一是确定总体资料的处理方法,如何分组,用何种形式整理;种形式整理;二是确定通过整理要得到哪些指标;二是确定通过整理要得到哪些指标;三是确定整理资料的显示形式。三是确定整理资料的显示形式。讨论:要研究某市中学生参加体育活动与身体素质的关讨论:要研究某市中学生参加体育活动与身体素质的关系,从全市抽取系
4、,从全市抽取10001000名中学生进行调查,取得了有关资名中学生进行调查,取得了有关资料。你认为需要用哪些指标,才能达到研究目的?料。你认为需要用哪些指标,才能达到研究目的?第二节第二节 数据的预处理数据的预处理在正式处理之前的前期准备工作,主要包括:在正式处理之前的前期准备工作,主要包括: 数据审核数据审核 数据筛选数据筛选 数据排序数据排序审核内容审核内容原始数据原始数据次级数据次级数据完整性完整性准确性准确性完整性完整性时效性时效性适用性适用性准确性准确性及时性及时性(一)数据审核(一)数据审核原始数据原始数据(raw data)n 审核的内容审核的内容1.完整性审核完整性审核n检查应
5、调查的单位或个体是否有遗漏检查应调查的单位或个体是否有遗漏n所有的调查项目或指标是否填写齐全所有的调查项目或指标是否填写齐全2.准确性审核准确性审核n检查数据是否真实反映客观实际情况,内检查数据是否真实反映客观实际情况,内容是否符合实际容是否符合实际n检查数据是否有错误,计算是否正确等检查数据是否有错误,计算是否正确等(一)(一)数据的审核数据的审核原始数据原始数据(raw data)n审核数据准确性的方法审核数据准确性的方法逻辑检查逻辑检查n从定性角度,审核数据是否符合逻辑,内容是否从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象合理,各项目或数字之间有无相
6、互矛盾的现象n主要用于对分类和顺序数据的审核主要用于对分类和顺序数据的审核计算检查计算检查n检查调查表中的各项数据在计算结果和计算方法检查调查表中的各项数据在计算结果和计算方法上有无错误上有无错误n主要用于对数值型数据的审核主要用于对数值型数据的审核n3.及时性审核及时性审核n填报单位是否按时报送了有关资料n对不报、漏报或迟报的现象要及时查清(一)(一)数据的审核数据的审核原始数据原始数据(raw data)(二)(二)数据的审核数据的审核二手数据二手数据(second hand data)1.1.适用性审核适用性审核n弄清楚数据的来源、数据的口径以及有关的弄清楚数据的来源、数据的口径以及有关
7、的背景材料背景材料n确定数据是否符合自己分析研究的需要确定数据是否符合自己分析研究的需要2.2.时效性审核时效性审核n尽可能使用最新的数据尽可能使用最新的数据确认是否必要做进一步的加工整理确认是否必要做进一步的加工整理 数据排序作用:数据排序作用: 发现数据的变化趋势,找到解决问题的线索;发现数据的变化趋势,找到解决问题的线索;有助于对数据检查纠错,为分类或分组提供依有助于对数据检查纠错,为分类或分组提供依据;有时可直接利用排序结果作分析。据;有时可直接利用排序结果作分析。 数据排序数据排序是按一定顺序将数据排列。是按一定顺序将数据排列。三、数据排序三、数据排序数据排序数字型排序:递增、递减字
8、母型排序:升序、降序汉字型排序:笔画、字母数据排序数据排序 ( (方法方法) )定类数据的排序定类数据的排序字母型数据字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分定距数据和定比数据的排序定距数据和定比数据的排序n递增排序递增排序:设一组数据为x1,x2,xn,递增排序后可表示为:x(1)x(2)x(2)x(n)例如例如: :企业按经济类型分组:企业按经济类型分组:国有企业国有企业 集体企业集体企业 个体企业个体企业 其它企业其它企业考试按考分分组:考试按考分分组:6060分以下分以下 (不及格)
9、(不及格)60607070分分 (及格)(及格)70708080分分 (中等)(中等)80809090分分 (良好)(良好)9090100100分(优秀)分(优秀)第三节第三节 数据分组数据分组一、数据分组的原则和作用一、数据分组的原则和作用(classification) 统计分组统计分组有两个方面的含义,即:有两个方面的含义,即:统计统计分组分组对总体而言对总体而言即将总体区分为性质即将总体区分为性质不同的若干组成部分不同的若干组成部分是是“合合” 即将性质相同的总即将性质相同的总体单位合为一组体单位合为一组是是“分分”对总体单位而言对总体单位而言如何选择分组如何选择分组标标志志?1.符合
10、统计研究的目的和要求 性别、年龄、籍贯、民族、高考入校成绩、身高、体重、爱好 等选哪一个来分组?2.选择最能说明事物本质特征的标志如何划分各组如何划分各组界界限?限?属性分组时:属性分组时:1.1.有时组限是自然形成的或比较明显有时组限是自然形成的或比较明显2.2.如存在属性之间的过渡形态,划分困难如存在属性之间的过渡形态,划分困难如学生与非学生的划分、城乡划分如学生与非学生的划分、城乡划分变量分组时,注意反映组间质的差别变量分组时,注意反映组间质的差别n穷尽原则:使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。n互斥原则:在特定的分组标志下,总体中的任何一个单位的
11、只能归属于某一组,而不能同时或可能归属于几个组。2.2.统计分组的原则统计分组的原则3.3.数据分组的作用数据分组的作用3.3.统计分组的作用统计分组的作用 (1 1)划分社会经济现象的类型,研究其特征和规律性)划分社会经济现象的类型,研究其特征和规律性2533%25422022-6-6划分现象的类型划分现象的类型好人好人坏人坏人男人男人女女人人婴儿婴儿青青年年老人老人 (2 2)研究总体的内部结构和比例关系;)研究总体的内部结构和比例关系;按考分按考分 分分 组组 学生学生 人数人数比重比重% %505060 60 606070 70 707080 80 808090 90 90901001
12、00合合 计计这五个组反映了学生考试成绩的不同类型,统计各组人数后,可以计算出比重,反映出学生成绩的构成情况。揭示现象的内部结构揭示现象的内部结构中国人口规模中国人口规模与结构变化图与结构变化图企业按商品销售额分组企业按商品销售额分组(万元)(万元)企业单位数企业单位数(个)(个)流通费用率流通费用率 ()() 400 400以下以下400 400 500500500 500 600600600 600 800800800 800 10001000 1000 1000以上以上 3 310101515 8 8 7 7 2 213.8413.8413.0913.0912.6612.66 11.94
13、 11.94 11.23 11.23 10.28 10.28某地区45个商业企业销售额和流通费用率分组资料分析:销分析:销售额的规售额的规模和流通模和流通费用率的费用率的关系关系。(3 3)揭示社会经济现象之间的相互依存关系)揭示社会经济现象之间的相互依存关系分析现象间的依存关系分析现象间的依存关系身高与体重有关系吗?身高与体重有关系吗?哇!哇!咦!咦!结论:数据分组结论:数据分组是对总体认识深化的手段,它是一切统计研究是对总体认识深化的手段,它是一切统计研究的基础,应用于统计工作的全过程,是统计研究的基本方法。的基础,应用于统计工作的全过程,是统计研究的基本方法。二、统计分组的种类二、统计分
14、组的种类按分组标志的性质按分组标志的性质不同分不同分 按品质标志分组按品质标志分组按数量标志分组按数量标志分组按分组标志的多少及按分组标志的多少及排列不同分排列不同分 简单分组简单分组复合分组复合分组单项式分组单项式分组组距分组组距分组1.1.简单分组:简单分组: 即对统计总体只按一个标志进分组 例如:例如:企业按经济类型分组企业按经济类型分组国有企业国有企业 集体企业集体企业 个体企业个体企业 其它企业其它企业男生男生女生女生学生按性别分组学生按性别分组2.2.复合分组:复合分组:即对同一总体同时按两个或两个以上标志层叠起来进行的分组。学生按年级、性别分组学生按年级、性别分组一年级一年级二年
15、级二年级男生男生 女生女生男生男生 女生女生例如:例如:统计分组体系:统计分组体系:是根据统计分组的要求,对同一总体进行多是根据统计分组的要求,对同一总体进行多种不同分组而形成的体系,体系中的各种分种不同分组而形成的体系,体系中的各种分组相互联系、相互补充,以加深对总体的认组相互联系、相互补充,以加深对总体的认识识。分组体系有平行分组体系和复合分组体系两种。对教师对教师的分类的分类按性别分类按性别分类男性男性女性女性按职称分类按职称分类按年龄分类按年龄分类高级高级中级中级初级初级青年青年中年中年共计共计7组组 2+3+2 对对同一总体选择两个或两个以上的同一总体选择两个或两个以上的标志分别进行
16、简单分组,就形成平行分组体系。标志分别进行简单分组,就形成平行分组体系。 平行分组体系:平行分组体系: 复合分组体系:复合分组体系: 对对同一总体选择多个复合分组,组同一总体选择多个复合分组,组成的分组体系就是复合分组体系。成的分组体系就是复合分组体系。复合分组与复合分组体系复合分组与复合分组体系 例:例:3.3.按品质标志分组按品质标志分组 品质标志分组品质标志分组就就是用反映事物的属性、性质的标志是用反映事物的属性、性质的标志进行分组。进行分组。国民经济按产业分组:国民经济按产业分组: 第一产业第一产业 第二产业第二产业 第三产业第三产业人口按性别分组:人口按性别分组: 男性男性 女性女性
17、 用文字来用文字来表示各组表示各组性质上的性质上的差别差别品质标志分组一般比较简单品质标志分组一般比较简单,但是有的分组标志的表,但是有的分组标志的表现却较复杂,不易划分各组,如产品按用途分组、商现却较复杂,不易划分各组,如产品按用途分组、商品零售额按城乡分组、工业部门的细分类等,为此有品零售额按城乡分组、工业部门的细分类等,为此有关部门制定了相应的统计分类标准。关部门制定了相应的统计分类标准。 数量标志分组,数量标志分组,即即变量分组变量分组。例如,例如,按考分分组按考分分组(分)(分)用数量来用数量来表示各组表示各组性质上的性质上的差别差别 6060以下以下 60 60 70 70 70
18、70 80 80 80 80 90 90 90 90 1001004.4.按数量标志分组按数量标志分组 即通过数量的变化来区即通过数量的变化来区分各组质的差别,而不是单纯的数量差别。分各组质的差别,而不是单纯的数量差别。 即要以什么样的数量作即要以什么样的数量作为划分标准。是单项式或是组距式?如果是组距为划分标准。是单项式或是组距式?如果是组距式分组还要确定组距、组数、等距或不等距、组式分组还要确定组距、组数、等距或不等距、组限等内容,一般可依据以下原则:限等内容,一般可依据以下原则: 1 1)离散变量)离散变量A A、变量值取值不多、变量值取值不多单项式分组单项式分组B B、变量值取值较多、
19、变量值取值较多组距式分组组距式分组 2 2)连续变量)连续变量组距式分组组距式分组第一,明确分组的目的,第一,明确分组的目的,. . 第二,采用适当的分组形式,第二,采用适当的分组形式,注意:注意: 定义:定义:各组由一个具体的变量值(单项)来表示形成的单项式变量数列。 变量值又称标志值。按数量标志分组,数量标志的表现,就是变量的取值。 适用范围:适用范围:单项式分组一般适用于离散型变量,离散型变量,且变量变量值较少、变量变动范围不大值较少、变量变动范围不大的场合。 缺陷:缺陷:在数据较多的情况下,单项式分组由于组数较多,不便于观察数据分布的特征和规律。(1 1)单项式分组:)单项式分组:己知
20、某车间有己知某车间有2424名工人,他们的日产量(件)名工人,他们的日产量(件)分别是:分别是:2020,2323,2020,2424,2323,2121,2222,2525,2626,2020,2121,2121,2222,2222,2323,2222,2222,2424,2525,2121,2222,2121,2424,23.23.要求根据以上资料编制变量数列。要求根据以上资料编制变量数列。单项分组举例单项分组举例日产量(件)日产量(件)X工人数(人工人数(人) f202122232425263564321合计合计24编制结果如下:编制结果如下:以变量值变动的一定范围(区间)作为一组,表现
21、为“从到”,区间的距离就是组距。这样的分组所形成的变量分配数列叫组距式变量数列组距式变量数列,简称组距数列。各组组距相等各组组距相等(2 2)组距式分组)组距式分组组距式分组中的几个概念组距式分组中的几个概念A.组限组限表示各组界限的变量值(即区间两端的数值)下限:下限:区间最小值上限:上限:区间最大值开口组和闭口组开口组:统计分组中缺上限或缺下限的组闭口组:统计分组中上、下限均齐全的组组限的写法:间断式写法连续式写法:“上限不在上限不在内内”47B.组数组数组数的确定应以能够显示数据的分布特征和规律为目的。斯特杰斯经验公式:式中:N总体单位数数据的个数,对结果用四舍五入的办法取整数即为组数。
22、 NKlg3 . 31?C.C.组距:组距:区间的距离(连续式写法)(连续式写法) 组距=本组上限本组下限(间断式写法)组距=本组上限-前组上限 或=本组下限-前组下限 或=本组上限-本组下限+1(分组标志为离散变量) 斯特杰斯经验公式:其中,d为组距,R表示全距,即最大变量值与最小变量值之差,K为组数NXXKRdlg3 . 31minmaxD.D.等距分组:等距分组:在组距式分组中,每个组的组距均相等。一般在现象性质差异的变动比较均衡条件下使用。优点:易于掌握次数分布的特征;各组次数可以直接比较。 50适用范围:适用范围:(1)变量值分布很不均匀的情况;(2)变量值相等的量具有不同意义的情况
23、;(3)变量值按一定比例发展变化的情况;优点:优点:能够准确地描述偏态分布;能将性质相同的总体单位归为一组。缺点:缺点:由于各组的组距不同,各组次数直接比较是没有意义的。 51E.E.异距分组:异距分组:在组距式分组中,各组组距不尽相等。F.F.组中值组中值 组中值组中值是指组距数列中各组上限和下限之间的中点是指组距数列中各组上限和下限之间的中点数值。数值。2 2下下限限上上限限组组中中值值 注意:注意:组中值用来代表各组标志值的平均水平,组中值用来代表各组标志值的平均水平,假定假定一一组内各个标志值呈组内各个标志值呈均匀分布均匀分布。考生按成绩分组考生按成绩分组 50 50 6060 60
24、60 70 70 70 70 80 80 80 80 90 90 90 90 100 100 5555 7575 656585859595组中值组中值人数人数5 51515181810102 2 首组组中值首组组中值=(=(首组上限首组上限+ +首组假定下限)首组假定下限)/2/2= 首组上限首组上限 相邻组组距相邻组组距/2/2= 末组下限末组下限 + 相邻组组距相邻组组距/2/2末组组中值末组组中值=(=(末组上限末组上限+ +末组假定下限)末组假定下限)/2/250 50 10102 2100 100 + 10 102 2例如:例如:. .首组:首组:末组:末组:按考分分组按考分分组 组
25、中值组中值 50 50 60 55 60 55 60 60 70 65 70 65 70 70 80 75 80 75 80 80 90 85 90 85 90 90 100 95100 955050以下以下100100以上以上4545105105开口组开口组组中值的确定组中值的确定首组假定下限首组假定下限= =首组上限首组上限- -相邻组组距相邻组组距末组假定上限末组假定上限= =末组下限末组下限+ +相邻组组距相邻组组距销售额(万销售额(万元)元)商店数商店数(个)(个)每百元商品销售每百元商品销售额中支付的流通额中支付的流通费(元)费(元)50以下以下501001002002003003
26、00以上以上102030251514.211.410.19.28.5上组限上组限U下组限下组限L如:组距如:组距d=U-L=100-50=50(万元)(万元)如:组中值如:组中值x=(U+L)/2 =(100+200)/2=150(万元)(万元)( (一一) )频数分布概念和种类频数分布概念和种类 将各组组别与频数或频率依次编排而成的数将各组组别与频数或频率依次编排而成的数列列,简称分布数列。反映了总体单位在各组的分布情况。,简称分布数列。反映了总体单位在各组的分布情况。如:如: 频数分布数列频数分布数列: :按性别按性别 分分 组组男男 生生 女女 生生合合 计计按考分按考分 分分 组组 5
27、05060 60 606070 70 707080 80 808090 90 9090100100合合 计计 频数频数 (人)(人) 频率频率 ()()202030306060404050501001005 5人数人数(人)(人) 频率频率()()1010303010101515181850502 236364 42020100100三、分布数列三、分布数列 频数分布数列的构成要素频数分布数列的构成要素构成要素构成要素各组的名称或变量值各组的名称或变量值各组频数各组频数或或频率(次数或比重)频率(次数或比重) 分布在分布在各组的单位数叫各组的单位数叫频频数数 ,记为,记为f f。 各组的单位数
28、与总体单位总数之比叫各组的单位数与总体单位总数之比叫频频率率。10?ff1ff始犯心理状态人数(人) f比率(%) f/f被迫使糊 涂好 奇自 觉7443314.598.348.3468.73合 计48100.0工读学生始犯错误心理状态统计表统统计计分分组组频数频数频率频率频数分布频数分布频数分布的构成频数分布的构成品质数列品质数列分布数分布数列种类列种类单项式变单项式变 量数列量数列 组距式组距式变数列变数列 变量数列变量数列等距数列等距数列不等距数列不等距数列 频数分布数列的种类频数分布数列的种类n为消除异距分组各组频数的多少受到组距不同的影响,需计算频数密度(或次数密度)频数密度(或次数
29、密度),公式如下:n频数密度频数密度= =频数频数/ /组距组距n频率密度频率密度= =频率频率/ /组距组距n并且并且: :总体单位数组距频数密度1组距频率密度(二)累计频数与累计频率分布(二)累计频数与累计频率分布 1.1.向上累计:向上累计: 是指将各组次数或频率由是指将各组次数或频率由变量值低的组变量值低的组向向变变量高的组量高的组累计累计,以表明,以表明各组上限以下各组上限以下的单位数有多少,的单位数有多少,以及这些单位数占总体单位数的比重(频率)有多大。以及这些单位数占总体单位数的比重(频率)有多大。2.2.向下累计:向下累计: 是指将各组次数或频率,由是指将各组次数或频率,由变量
30、值高的组变量值高的组向向变量值低的组变量值低的组逐组逐组累计累计,以表明,以表明各组下限以上各组下限以上的单位数的单位数有多少,以及这些单位数占总体单位数的比重(频率)有多少,以及这些单位数占总体单位数的比重(频率)有多大。有多大。 累计分布有累计分布有向上累计向上累计和和向下累计向下累计两种:两种:例:例: . .按考分按考分分分 组组人数人数(人)(人)频率频率()()505060606060707070708080808090909090100100 5 5151518181010 2 21010303036362020 4 4合合 计计5050100100某班某班“统计学统计学”考分分
31、布数列考分分布数列向上累计向上累计频数频数频率频率()()5 520203838484850501010404076769696100100向下累计向下累计频数频数频率频率()()50504545303012122 21001009090606024244 4 向上累计:向上累计: 如,如,第一组说明第一组说明6060分以下有分以下有5 5人,占学生总数人,占学生总数的的1010;第二组说明;第二组说明7070分以下有分以下有2020人,占学生总数的人,占学生总数的4040。 向下累计:向下累计: 如,如,第五组说明第五组说明9090分以上有分以上有2 2人,占学生总数人,占学生总数的的4 4
32、;第四组说明;第四组说明8080分以上有分以上有1212人,占学生总数的人,占学生总数的2424。2022-6-6n3.3.累计频数分布的特点:累计频数分布的特点:n第一组的累计频数等于第一组本身的频数第一组的累计频数等于第一组本身的频数n最后一组累计频数等于总体单位数最后一组累计频数等于总体单位数n4.4.累计频率的特点:累计频率的特点:n第一组的累计频率等于第一组本身的频率第一组的累计频率等于第一组本身的频率n最后一组累计频率等于最后一组累计频率等于1 1(三)频数分布的类型(三)频数分布的类型 P69n根据频数分布曲线形状的特点,概况起来大致有三种类型:n钟型分布nU型分布nJ型分布(三
33、)频数分布的类(三)频数分布的类型型 钟型分布的特征是钟型分布的特征是“两两头小,中间大头小,中间大”,即靠,即靠近中间的变量值分布的近中间的变量值分布的次数多,靠近两边的变次数多,靠近两边的变量值分布的次数少,其量值分布的次数少,其曲线图宛如一口钟,如曲线图宛如一口钟,如下图所示。下图所示。1.钟钟型分布型分布 (a)(a)正态分布正态分布(b)(b)偏态分布偏态分布正偏正偏( (右偏右偏) )负偏负偏( (左偏左偏) ) U型分布的形状与钟型分布相反,靠近中间的变量值分布次数少,靠近两端的变量值分布次数多,形成“两头大,中间小”的U型分布。如人口死亡率分布,人口总体中,幼儿和老人死亡率高,
34、而中青年死亡率低。如下图(d)。2.U U型分布型分布 J型分布有两种类型,一种是次数随着变量的增大而增多。另一种 呈反J型分布,即次数随着变量增大而减少。如下图(c)第三节第三节频数分布频数分布3.J型分布型分布(c)J(c)J形分布形分布正正J J形形反反J J形形(d)U(d)U形分布形分布第四节第四节 数据的显示数据的显示一、统计表一、统计表二、统计图二、统计图一、统计表一、统计表1.1.统计表的概念统计表的概念狭义:狭义:以纵横交叉的线条所形成的表格来表现统计整理资料的形式。广义:广义:包括统计工作各个阶段中所用的表现统计数据的表格,如调查表、整理表、分析表。统计表一般采用开口式开口
35、式,即表的左右两条线不画第三章第三章 数据分布特征的描述数据分布特征的描述 第三节第三节 统计表与统计图统计表与统计图2.2.统计表的作用统计表的作用(1)能使统计资料条理化;(2)简明、易懂,节省篇幅;(3)便于比较,便于计算;(4)便于检查完整性和正确性。从统计表的表式结构看,分为五部分:从统计表的表式结构看,分为五部分:(1)总标题(也称统计表的名称)总标题(也称统计表的名称),它用概括性的文字简单明了地说明统计资料的时间、基本内容和范围。一般写在表的上部中端。(2)横行标题横行标题反映统计表的主要项目,写在表的左方。(3)纵栏标题纵栏标题是统计指标的名称,说明纵栏所列各项资料的内容,写
36、在表内右上方。3.3.统计表的形式及结构统计表的形式及结构(4)数字资料数字资料也称指标数值,它是统计表的具体内容,列在各横行标题和各纵栏标题的交叉处。任何一个具体数值都由横行标题和纵栏标题所限定。(5)有些统计表还需要在下端增加注解注解,以说明资料的来源、某些指标数值的计算方法、填表单位和其他需要说明问题。统计表的结构统计表的结构19992000年城镇居民家庭抽样调查资料年城镇居民家庭抽样调查资料项目项目单位单位1999年年 2000年年 调查户数调查户数 平均每户家庭人口平均每户家庭人口 平均每户就业人口平均每户就业人口 平均每户就业面平均每户就业面 平均一就业者负担人数平均一就业者负担人
37、数 平均每人全部年收入平均每人全部年收入 可支配收入可支配收入 平均每人消费性支出平均每人消费性支出户户人人人人%元元元元元元元元 400443.141.7756.431.775888.775854.024615.91 4222.0 3.13 1.68 53.67 1.86 6316.81 6279.98 4998.00资料来源:中国统计年鉴2001,中国统计出版社,2001,第305页。注:本表为城市和县城的城镇居民家庭抽样调查材料。 横横 行行 标标 题题总标题总标题纵栏标题纵栏标题指指 标标 数数 值值主词主词宾词宾词从统计表的内容看,分为主词和宾词两部分。从统计表的内容看,分为主词和宾
38、词两部分。按主词是否分组按主词是否分组简单表简单表分组表分组表复合表复合表按用途不同按用途不同整理表整理表调查表调查表分析表分析表统计表的种类统计表的种类4.4.统计表的种类统计表的种类主要年份农村居民家庭人均纯收入 (元)城镇居民家庭人均可支配收入(元) 1978198019851990199520002005133.6191.3397.6686.31577.72253.42936.4343.4477.6739.11510.2 4283.06280.09421.6我国城乡居民家庭人均收入 简单表主词 宾词 分组表(1 1)统计表)统计表表式设计表式设计应注意的事项应注意的事项科学、实用、简练
39、、美观科学、实用、简练、美观5.5.统计表的统计表的设计要求设计要求长方形表格,长与宽之间保持适当比例统计表各纵列、横行须合计时,一般应将合计列在最后如栏数较多,应按顺序编号,主词栏部分可编以甲乙等序号,宾词栏可编(1)(2)等序号表的上下端应以粗线绘制,表内纵横线以细线绘制,表格的左右两端一般不划线,采用“开口式”(2 2)统计表)统计表内容设计内容设计应注意的事项应注意的事项科学、实用、简练、美观科学、实用、简练、美观5.5.统计表的统计表的设计要求设计要求标题设计应简明扼要,简练、准确当全表只有一种计量单位时,可将其写在表头右上方。如表中各栏指标数值计量单位不同,可在横行标题后添一列计量
40、单位数字应填写整齐,对准位数。当数字因小而忽略不计时,填写为“0”;当缺某项资料时,用符号“”表示;没有数字时用符号“-”表示注明注明资料来源资料来源。必要时,在统计表下加注说明。必要时,在统计表下加注说明二、统计图二、统计图统计图的特点特点:直观、醒目、易于理解统计图是用几何图形(点、线、面、形)或其他图形等方法描述、显示统计数据的一种形式。统计图是根据实际资料按比例画出的, 现在大多是利用计算机软件制作的。组成:组成:坐标系、图形、图例条条 形形 图图饼饼 图图环环 形形 图图汇汇 总总 表表品品 质质 数数 据据直直 方方 图图折折 线线 图图分分 组组 数数 据据茎茎 叶叶 图图箱箱
41、线线 图图原原 始始 数数 据据线线 图图时时 序序 数数 据据雷雷 达达 图图多多 元元 数数 据据数数 值值 型型 数数 据据数数 据据 的的 类类 型型统计图的基本类型统计图的基本类型1.1.条形图条形图(bar Chart)(bar Chart)(1)用宽度相同的条形的高度或长短来表示数据变动的图形(2)有单式条形图、复式条形图等形式(3)主要用于反映定序数据和定类数据的频数分布(4)绘制时,各类别可以放在纵轴,称为条形图条形图,也可以放在横轴,称为柱形图柱形图5.6%25.0%33.3%16.7%11.1%8.3%0.0%5.0%10.0%15.0%20.0%25.0%30.0%35
42、.0%比重%123456子女数某地区家庭生育子女比例2.2.饼图饼图(pie Chart)(pie Chart)(1)也称圆形图圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;(2)主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用;(3)绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占360度的相应比例确定的。某地区工业企业所有制构成(%)3%26%64%4%2% 1%全民所有制股份制私营中外合资外商独资其他3.3.直方图直方图(histogram) (histogram) (1)用矩形的宽度和高度来表示频
43、数分布的图形,实际上是用矩形的面积来表示各组的频数分布;(2)在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图;(3)直方图下的总面积等于1。直方图与条形图的区别:直方图与条形图的区别:(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;(2)直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义;(3)直方图的各矩形通常是连续排列,条形图则是分开排列;(4)条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。4.4.折线图折线图(frequen
44、cy polygon) (frequency polygon) (1)折线图也称频数多边形图频数多边形图;(2)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉;(3)折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴;折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图绘制统计图时的注意事项绘制统计图时的注意事项n1通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包
45、含的信息。n时间一般绘在横轴,指标数据绘在纵轴。n长宽比例要适当 ,其长宽比例大致为10:7。n一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。绘制统计图时的注意事项n2.图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。n3.图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。n4.反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。不恰当的统计图形举例:纵横比例不恰当的统计图形举例:纵横比例下图增长速度惊人。下
46、图增长速度惊人。上图增长速度缓慢。上图增长速度缓慢。不恰当的统计图形举例:三维效果不恰当的统计图形举例:三维效果不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。不恰当的统计图形举例:图形类型不恰当的统计图形举例:图形类型1960: $1.001970: $1.601980: $3.101990: $3.80Minimum Wage不好的图形不好的图形好的图形好的图形Minimum Wage0241960197019801990$不恰当的统计图形举例:压缩纵轴不恰当的统计图形举例:压缩纵轴Quarterly Sales不好的图形不好的
47、图形0100200Q1Q2Q3Q4$好的图形好的图形Quarterly Sales02550Q1Q2Q3Q4$不恰当的统计图形举例:纵轴无零点不恰当的统计图形举例:纵轴无零点好的图形好的图形Monthly Sales不好的图形不好的图形36394245JFMAM J$Monthly Sales 0394245JFMAMJ$36第四节第四节 EXCELEXCEL在数据整理中的应用在数据整理中的应用一、用一、用ExcelExcel作数据的频率分布表作数据的频率分布表和直方图和直方图二、用二、用ExcelExcel作常用统计图作常用统计图要求:根据教材内容上机完成要求:根据教材内容上机完成。一、判一
48、、判 断断 对对 错错2 2、组中值是根据各组上限和下限计算的平均值,所以它代表、组中值是根据各组上限和下限计算的平均值,所以它代表了各组的平均分配次数。(了各组的平均分配次数。( ) 3 3、分布数列的实质是把总体单位总量按照总体所分的组进行、分布数列的实质是把总体单位总量按照总体所分的组进行分配。(分配。( )4 4、某企业职工按文化程度分组形成的分布数列是一个单项式、某企业职工按文化程度分组形成的分布数列是一个单项式分布数列。(分布数列。( ) 5 5、对资料进行组距式分组,是假定变量值在各组内部的分布、对资料进行组距式分组,是假定变量值在各组内部的分布是均匀的,所以这种分组会使资料的真
49、实性受到损害。(是均匀的,所以这种分组会使资料的真实性受到损害。( )6 6、任何一个分布都必须满足:各组的频率大于、任何一个分布都必须满足:各组的频率大于0 0,各组的频数,各组的频数总和等于总和等于1 1或或100%100%( )7 7、统计分组后掩盖了各组内部各单位的差异,而突出了各组、统计分组后掩盖了各组内部各单位的差异,而突出了各组之间单位的差异。(之间单位的差异。( )1、异距分布数列可以直接根据组距和分布次数绘制统计、异距分布数列可以直接根据组距和分布次数绘制统计图(图( )二、单二、单 项项 选选 择择 题题1 1、统计整理的关键是(、统计整理的关键是( )A A、对调查资料进
50、行审核、对调查资料进行审核 B B、对调查资料进行统计分组、对调查资料进行统计分组C C、对调查资料进行汇总、对调查资料进行汇总 D D、编制统计表、编制统计表B2 2、下列分组中属于按品质标志分组的是(、下列分组中属于按品质标志分组的是( )A A、学生按考试分数分组、学生按考试分数分组 B B、产品按品种分组、产品按品种分组C C、企业按计划完成程度分组、企业按计划完成程度分组 D D、家庭按年收入分组、家庭按年收入分组B3 3、有一个学生考试成绩为、有一个学生考试成绩为8080分,在统计分组中,这个变量值分,在统计分组中,这个变量值应归到(应归到( )组。)组。A A、60706070分