1、.1第二章第二章 统计数据的收统计数据的收集与整理集与整理第二节第二节 统计数据整理统计数据整理.2数据整理的含义数据整理的含义数据整理又称统计整理数据整理又称统计整理是指根据统计研究的任务与要求,对搜集来的各种原始资料进行科学的分类和汇总,为统计分析提供系统化、条理化的综合资料的工作过程。统计资料整理在统计工作中处于中间阶段,它是统计调查的继续,是统计分析的前提,起着承前启后的作用。.3数据整理的程序(课外)数据整理的程序(课外)(一)对调查资料的审核(一)对调查资料的审核 审核的内容主要有资料的准确性、及准确性、及时性、完整性和适用性时性、完整性和适用性等几个方面。发现问题,及时纠正。这是
2、统计资料处理工作中一个十分重要的问题,必须认真对待。 逻辑审查 计算审查 人机同审.4(二)统计分组与汇总(二)统计分组与汇总(前提和基础)按照资料整理的要求进行分组汇总,计算各组单位数和总体单位数,计算各组指标和综合指标。(三)编制统计表或绘制统计图(三)编制统计表或绘制统计图 统计汇总的结果一般通过统计表或统计图的形式表现出来,以简明扼要、生动形象地表达社会经济现象的数量表现和数量关系。.5一、统计分组的含义一、统计分组的含义统计分组是根据研究任务的需要和事物内在的特点,将统计总体按照一定的标志划分为若干组成部分的一种统计方法。总体中的各单位在某一(些)方面是相同的(即同质性同质性),而在
3、其他许多方面则是不同的(即差异性差异性),统计分组的目的是把不同性质的单位分开,把性质相同的单位合在一起。因此,统计分组同时具有两方面的含义具有两方面的含义:两层含义对个体是“合”对总体是“分”.6分组标志的选择分组标志的选择统计分组的关键在于正确选择分组标志,这是统计分组的核心问题。1.完备性各组之和等于总体之和2.互斥性一个单位只能归到某一个组 3.分组标志的一致性.7统计分组的种类(课外)统计分组的种类(课外)(一)品质标志分组和数量标志分组(一)品质标志分组和数量标志分组按照分组标志的性质不同可分为品质标志分组和数量标志分组 1、品质标志分组就是按事物的质量属性分组。 2、数量标志分组
4、就是按照事物的数量特征分组.8(二)简单分组与复合分组(二)简单分组与复合分组统计分组按分组标志的多少可以分为简单分组与符合分组1、简单分组,就是对研究现象按一个标志进行分组。2、复合分组,就是按两个或两个以上的标志对总体单位进行重叠分组。.9某校教师按性别、职称复合分组表某校教师按性别、职称复合分组表 组别人数(人)比重()男性教授副教授讲师助教女性教授副教授讲师助教 92 4 18 40 30126 3 22 56 4542.2 1.8 8.318.313.857.8 1.410.125.720.6合计218 100.0.10二、分布数列二、分布数列在统计分组基础上,将总体中所有单位按组归
5、类整理,形成总体中各个单位数在各组间的分布,叫做次数分布,又称分布数列。 分配数列 将组别与次数按一定的顺序排列所形成的数列。次数 分布在各组的单位数叫次数,又称频数。比率 各组次数与总次数之比叫比率,又称频率。 .11某车间工人按日产量分组表某车间工人按日产量分组表 日产量(件)工人数(人) 人数比重(%)2021222324251020305040305.5611.1116.6727.7722.2216.67合计180100.00 组别组别 次数(频数)次数(频数) 比率(频率)比率(频率) iiffif.12(一)分布数列的种类(一)分布数列的种类品质数列 单项式数列变量数列 等距数列
6、组距数列 异距数列分布数列分布数列一个变量值就代表一组。在变量值不多且变化幅度不大的情况下采用。两个变量值确定一组。在变量值较多,变动范围较大的情况下采用。按品质标志分组编制的分布数列按数量标志分组编制的分布数列各组组距相等各组组距不等.13某班学生按性别分组表某班学生按性别分组表 性别 人数 人数比重() 男 女 15 25 37.5 62.5合计40100.0.14某车间工人按日产量分组表某车间工人按日产量分组表日产量(件)工人数(人) 人数比重(%)2021222324251020305040305.5611.1116.6727.7722.2216.67合计180100.00 组别组别
7、次数(频数)次数(频数) 比率(频率)比率(频率) iiffif.15某班某班4040名学生英语测验成绩分组表名学生英语测验成绩分组表成绩(分)学生数(人)比重(%)60以下60707080809090以上27121545.0017.5030.0037.5010.00合计40100.00.16(二)分布数列的编制(二)分布数列的编制组数 即分得的组的数目,K。组限 确定每组距离的数值,分下限和上限。下限 毎组起点数值。上限 毎组终点数值 。组距 即毎组的距离,i,等于上限与下限之差。组中值 即各组中点的数值 。开口组 上、下限只有一个的组。闭口组 上限和下限都齐全的组。.17组中值的计算组中值
8、的计算闭口组组中值=(上限+下限)/2 上限-邻组组距/2(只有上限)开口组组中值= 下限+邻组组距/2(只有下限)组距=上限-下限全距=最大值-最小值.18变量数列的编制例题变量数列的编制例题课本64页6.某班45名学生“统计学”考试成绩从低分到高分排列.191.1.将原始资料按其数值大小重新排列将原始资料按其数值大小重新排列找出最小值最大值计算全距全距 R=99-50=49.202.2.确定变量数列的形式确定变量数列的形式1.编制单项式数列还是组距数列,取决于所研究变量的类型和变量变动的幅度;2.编制等距数列还是异距数列,主要取决于现象的特点和研究目的。3.案例中的数据特点:1)波动范围大
9、,数据多 组距数列; 2)变动均匀 等距数列.213.3.确定组距和组数确定组距和组数对组距和组数,不能机械地规定先确定什么。从原则上讲,都应力求符合实际,能够反映总体分布的特点。斯透奇斯规则”(Sturges rule): K= 1 + 3.322 lgn=1+3.322*lg45=6.49组数与组距(i)的关系是: i=R/K=49/6.497.557或8两者成反比变化本例中采用组距为10,组数为5.224.4.确定组限确定组限1.组限最好用整数表示;2.应使第一组下限不大于资料中的最小变量值,最末组上限不小于资料中的最大变量值;3.对于连续变量,应采用重叠组限,并且习惯上按照“上限不在本
10、组内”原则处理;而离散变量变量两种方法都可以。本 例 中 的 组 限 分 别 为 : 6 0 以 下 , 6 0 7 0 ,7080,8090,90以上.23某班某班4 45 5名学生统计测验成绩分组表名学生统计测验成绩分组表成绩(分)学生数(人)比重(%)60以下60707080809090以上69169513.332035.562011.11合计45100.005.5.计算各组单位数,编制变量数列计算各组单位数,编制变量数列.24例题50株树苗的高度的测量结果(单位:厘米)154 133 116 128 85 100 105 146 118 97 110 131 119 103 93 10
11、8 100111 130 104 135 113 122 115 103 90 108 114 127 87 127 108 112 100117 121 105 136 123 108 89 94 139 82 113 110 109 118 115 126 .25用Excel演示频数(Frequency)汇总.26向上累计与向下累计(补充)向上累计与向下累计(补充)向上累计向上累计:是指从变量值小的组向变量值大的组累计,又称为较小制累计;向下累计向下累计:是指从变量值大的组向变量值小的组累计,又称为较大制累计。.27表 某班40名学生按成绩分组表成绩成绩(分)(分)次数次数向上累计向上累计向下累计向下累计学生数学生数(人)(人)比率(比率(%)学生数学生数(人)(人)比率(比率(%)学生数学生数(人)(人)比率(比率(%)60以下以下60707080809090以上以上2818935204522.57.52102837405257092.51004038301231009575307.5合计合计40100-.28谢谢 谢!谢!