1、1STAT统计学统计学第二章第二章 统计数据的搜集、整理和显示统计数据的搜集、整理和显示第二章第二章 统计数据的搜集、整理和显示统计数据的搜集、整理和显示2.1 2.1 统计数据的搜集统计数据的搜集2.2 2.2 数据整理数据整理2.3 2.3 频数分布频数分布2.4 2.4 数据显示数据显示2.1 2.1 统计数据的搜集统计数据的搜集一、统计数据搜集的基本理论与方法一、统计数据搜集的基本理论与方法二、统计调查的组织形式二、统计调查的组织形式三、统计调查体系三、统计调查体系返回一、统计数据搜集的基本理论与方法一、统计数据搜集的基本理论与方法(一)统计数据搜集的概念(一)统计数据搜集的概念(二)
2、统计调查的方案设计(二)统计调查的方案设计(三)统计数据的搜集方法(三)统计数据的搜集方法返回北大硕士毕业生的年收入是多少?北大硕士毕业生的年收入是多少?去年在连云港市有多少垃圾被回收了?去年在连云港市有多少垃圾被回收了?中小学班级的大小影响学生们的成绩吗?中小学班级的大小影响学生们的成绩吗?为回答这些以及其它的许多问题,必须为回答这些以及其它的许多问题,必须收集相关的信息。在这些例子中,我们收集相关的信息。在这些例子中,我们需要知道很多事情,从年收入水平到垃需要知道很多事情,从年收入水平到垃圾回收的实践。一眼看去,好像得到这圾回收的实践。一眼看去,好像得到这些信息很容易,只需走出去询问一下或
3、些信息很容易,只需走出去询问一下或做一做实验即可。做一做实验即可。但是,现在开始有问题了:谁去问但是,现在开始有问题了:谁去问是你,是你,我,大学生,还是退休职员?应该问谁?我我,大学生,还是退休职员?应该问谁?我们有足够的钱去问涉及到该问题的每一个人们有足够的钱去问涉及到该问题的每一个人吗?吗?一旦这些问题被解决之后,就要考虑该问些一旦这些问题被解决之后,就要考虑该问些什么了。某些问题至少来说是比较什么了。某些问题至少来说是比较“微妙微妙”的。如果我们直接问,我们能得到直接的答的。如果我们直接问,我们能得到直接的答案吗?我们应该期望有答案吗?案吗?我们应该期望有答案吗?统计数据搜集又称为统计
4、调查统计调查,是根据统计研究的目的、要求和任务,运用科学的调查方法,有组织地搜集有关现象的各个单位的资料,取得真实可靠的原始资料原始资料的工作过程。指直接从各调查指直接从各调查单位搜集的用来单位搜集的用来反映反映个体个体特征的特征的数据资料数据资料搜集搜集原始数据资料原始数据资料 的统计活动过程的统计活动过程统计学统计学第二章第二章 统计数据的搜集统计数据的搜集返回统计调查方案统计调查方案(二)(二)统计调查方案设计统计调查方案设计1、确定调查目的2、确定调查对象和调查单位3、确定调查项目4、设计调查表格和问卷5、确定调查时间和调查期限6、确定调查的组织实施计划1、确定调查目的 明确为什么要进
5、行调查,调查要解决什么样的问题。2 2、确定调查对象和调查单位、确定调查对象和调查单位解决向谁调查,由谁来具体提供资料的问题。(1 1)调查对象)调查对象明确规定调查中被研究的总体范围。说明向谁调查问题。(2 2)调查单位)调查单位构成调查对象的每一个单位,即总体单位。(3 3)填报单位(报告单位)填报单位(报告单位)是指负责向上级汇报调查内容、提交统计资料的单位。3 3、确定调查项目、确定调查项目调查项目调查项目要调查的内容,也就是被调查单位的特征,即标志。4 4、设计调查表格和问卷、设计调查表格和问卷调查表是容纳调查项目的表格。5 5、确定调查时间和调查期限、确定调查时间和调查期限(1)调
6、查时间:调查资料所属的时间(时期或时点)。(2)调查期限:进行调查工作的时间,包括搜集资料和报送资料的整个工作所需要的时间。6 6、制定调查的组织实施计划、制定调查的组织实施计划 这是统计过程的总方案。包括明确调查机构、调查地点、选择调查组织形式、调查步骤、日程安排、经费等。返回返回二、统计调查的组织形式二、统计调查的组织形式按调查的范围大小分为按调查的范围大小分为返回(一)全面调查(一)全面调查 全面调查是指对调查对象中的全部单位,都无一例外地进行登记或观察的一种调查方法。包括:普查和全面统计报表。返回统计学统计学第二章第二章 统计数据的搜集统计数据的搜集总体单位总体单位调查单位调查单位总体
7、单位总体单位调查单位调查单位普普 查查对全部单位对全部单位进行调查进行调查返回 指按照国家统一规定的各项指按照国家统一规定的各项要求,要求,地定期向国家和地定期向国家和主管部门报送基本统计资料的一主管部门报送基本统计资料的一种报告制度种报告制度统计学统计学第二章第二章 统计数据的搜集统计数据的搜集总体单位总体单位调查单位调查单位全面统计报表全面统计报表可以全面调查,但可以全面调查,但通常是调查限定规通常是调查限定规模以上的总体单位模以上的总体单位统计学统计学第二章第二章 统计数据的搜集统计数据的搜集返回(二)非全面调查(二)非全面调查 非全面调查是只对调查对象中的一部分单位进行登记或观察的一种
8、调查方法。包括:抽样调查、重点调查和典型调查。返回统计学统计学第二章第二章 统计数据的搜集、整理和显示统计数据的搜集、整理和显示抽样调查的应用范围抽样调查的应用范围(1)在实际工作中不可能进行全面调查而又需要了解其全面资料的事物时。(2)有些资料虽可以进行全面调查,但比较困难或并不必要。(3)对普查或全面调查统计资料的质量进行检查和修正。(4)可以应用于生产过程中产品质量的检查和控制。(5)可以用于对总体的某种假设进行检验。总体单位总体单位调查单位调查单位抽样调查抽样调查按随机原则选择调按随机原则选择调查单位,各单位被查单位,各单位被选中的机会相同。选中的机会相同。返回统计学统计学第二章第二章
9、 统计数据的搜集、整理和显示统计数据的搜集、整理和显示总体单位总体单位调查单位调查单位重点调查重点调查只调查重点单位(单位只调查重点单位(单位数不多但其标志量占标数不多但其标志量占标志总量比重较大的单位)志总量比重较大的单位)统计学统计学第二章第二章 统计数据的搜集、整理和显示统计数据的搜集、整理和显示返回统计学统计学第二章第二章 统计数据的搜集、整理和显示统计数据的搜集、整理和显示总体单位总体单位调查单位调查单位典型调查典型调查对典型单位进行调对典型单位进行调查,典型单位的选查,典型单位的选择并不一定按规模择并不一定按规模返回统计学统计学第二章第二章 统计数据的搜集、整理和显示统计数据的搜集
10、、整理和显示三、统计调查体系三、统计调查体系返回2.2 2.2 数据整理数据整理返回一、数据整理的内容一、数据整理的内容返回统计整理统计整理返回返回二、统计分组二、统计分组返回(一)统计分组的概念与种类(一)统计分组的概念与种类返回1 1、统计分组的概念、统计分组的概念返回2 2、统计分组的原则、统计分组的原则返回3 3、统计分组的种类、统计分组的种类(1)按分组标志的多少分类简单分组:按一个重要标志分组。复合分组:按两个或两个以上的标志分组。(2)按分组标志的性质分类品质分组:按品质标志进行的分组。数量分组:按数量标志进行的分组。返回(二)统计分组的方法(二)统计分组的方法返回统计分组的关键
11、关键:要选择适当的分组标志。(1 1)品质分组)品质分组按性别分组按性别分组人数(人人数(人)f男男女女3010合计合计40表表1 某班学生的性别构成情况某班学生的性别构成情况(2 2)数量分组)数量分组单项式分组:每一个变量值作为一组。单项式分组:每一个变量值作为一组。己知某车间有己知某车间有24名工人,他们的日产量(件)名工人,他们的日产量(件)分别是:分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。要求根据以上资料编制变量数列。变量值变动区间的长度相等变量
12、值变动区间的长度相等组距式分组组距式分组每个组的变量值用一个区间来表现。每个组的变量值用一个区间来表现。工人完成生产定额百分比工人完成生产定额百分比(%)X工人数工人数(人(人)f8090901001001101101201201303040603020合计合计180表表3 某厂工人完成生产定额情况表某厂工人完成生产定额情况表q对于连续变量,相邻组组限对于连续变量,相邻组组限必须重叠必须重叠;q为避免重复,一般规定为避免重复,一般规定“上限不在内上限不在内”;指每组两端表示各组界限的变量值,指每组两端表示各组界限的变量值,各组的起点值为各组的起点值为下限下限,终点值为,终点值为上限上限每组的最
13、大标志值与最小标志值之差每组的最大标志值与最小标志值之差总体中的最大标志值与最小标志值之差。总体中的最大标志值与最小标志值之差。minmaxxxR组距组距d=上限上限U下限下限Lq要能区分各组的性质差异要能区分各组的性质差异q要能反映总体资料的分布特征要能反映总体资料的分布特征q为方便计算,尽可能为为方便计算,尽可能为5 5或或1010的整数倍的整数倍一般为一般为57组;也可根据斯特杰斯经组;也可根据斯特杰斯经验公式确定。验公式确定。R组距组距(d)组数(组数(m)各组上下限之间的中点值各组上下限之间的中点值。22下限上限LUx组中值闭口组组中值的计算闭口组组中值的计算销售额销售额(万元)(万
14、元)商店数商店数(个)(个)每百元商品销每百元商品销售额中支付的售额中支付的流通费(元)流通费(元)50以下以下50100100200200300300以上以上102030251514.211.410.19.28.5上组限上组限U下组限下组限L如:组距如:组距d=U-L=100-50=50(万元)(万元)如:组中值如:组中值x=(U+L)/2 =(100+200)/2=150(万元)(万元)开口组组中值的计算开口组组中值的计算可以参照相邻组组距推算。2/相邻组组距上限缺下限开口组组中值2/相邻组组距下限缺上限开口组组中值例题例题销售额销售额(万元)(万元)商店数商店数(个)(个)每百元商品销每
15、百元商品销售额中支付的售额中支付的流通费(元)流通费(元)50以下以下50100100200200300300以上以上102030251514.211.410.19.28.5 若按相邻组组距推算出现不可若按相邻组组距推算出现不可能值时,则按极限值推算。能值时,则按极限值推算。工人工资(元)工人工资(元)X工人数(人工人数(人)f300以下以下3001000100020002000以上以上20406030合计合计150某厂工人工资分布情况表某厂工人工资分布情况表返回三、统计指标三、统计指标返回3.62011年年我国我国进出口总额进出口总额万亿美元万亿美元时间时间限制限制空间空间限制限制指标名称指
16、标名称具体具体数值数值计量计量单位单位计算方法计算方法主要的构成要素:指标名称指标名称和指标数值指标数值标志和指标的区别和联系(1)区别说明对象不同;表现形式不同;(2)联系许多统计指标是由各单位的数量标志值汇总而来的;指标和标志之间存在转化关系。返回统统计计指指标标数数量量指指标标质质量量指指标标按反映的内容按反映的内容分类分类说明总体规模大小和数量多少。一般用绝对数绝对数表示。说明总体内部数量对比关系和一般水平。一般用相对数或平均数相对数或平均数表示。返回由一系列相互联系的统计指标所由一系列相互联系的统计指标所组成的有机整体。组成的有机整体。全面、综合地对客观事物全面、综合地对客观事物进行
17、描述、分析。进行描述、分析。返回2.3 2.3 频数分布频数分布返回返回 在分组的基础上,把总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位在各组间的分布,称为频数分布。由此形成的数列又称为分布数列。返回返回返回返回1、对数据进行排序,确定全距。2、选择分组组数。3、确定分组的组距和组限。4、对各组数值所出现的频数进行计数。返回1、频数(次数)f 分布在各组的个体单位数叫次数或频数,用绝对数表示。2、频率(比率)各组次数占总次数的比重叫频率,用百分数、系数表示。销售额销售额(百万元)(百万元)商店商店数数频率频率()()5以下以下51010151520202525以上以上410
18、161343820322686合计合计50100fff返回 从变量值从变量值低低的组开始,将各组次数的组开始,将各组次数(频率)逐次向变量值(频率)逐次向变量值高高的组累计,的组累计,说明某一组说明某一组上限以下各组的累计频数上限以下各组的累计频数(频率)(频率)。从变量值从变量值高高的组开始,将各组次数的组开始,将各组次数(频率)逐次向变量值(频率)逐次向变量值低低的组累计,的组累计,说明某一组说明某一组下限以上各组的累计频数下限以上各组的累计频数(频率)(频率)。销售额销售额(百万元)(百万元)商店商店数数频率频率()()累计次数累计次数累计频率累计频率()()5以下以下510101515
19、20202525以上以上410161343820322686合计合计50100fff 销售额销售额(百万元)(百万元)商店商店数数频率频率()()累计次数累计次数累计频率累计频率()()向上向上累计累计向上向上累计累计5以下以下51010151520202525以上以上41016134382032268641430434750828608694100合计合计50100fff 销售额销售额(百万元)(百万元)商店商店数数频率频率()()累计次数累计次数累计频率累计频率()()向上向上累计累计向下向下累计累计向上向上累计累计向下向下累计累计5以下以下51010151520202525以上以上410
20、161343820322686414304347505046362073828608694100100927240146合计合计50100fff返回在经济学中的应用:洛伦茨曲线、基尼系数=A/(A+B)累计频数和累计频率能够充分反映出“少数关键,多数次要少数关键,多数次要”的规律,在质量管理和各项管理工作中都十分有用。(1)累计频率在0-80%间的因素为主要因素;(2)累计频率在80-90%间的因素为次要因素;(3)累计频率在90-100%间的因素为一般因素。例:检查某种产品时所观察到的缺陷数据如下项目件数 累计件数频率(%)累计频率(%)沾污裂纹油漆电镀变形其他311813722314962
21、69717342.524.717.89.62.72.742.567.184.994.597.3100.0合计7100.0例:某种测量仪表的故障调查情况如下故障原因故障次数累计次数频率(%)累计频率(%)早期故障操作失误耗损故障原因不明27181192745566541.227.917.114.841.269.186.2100.0合计65100.0(一)钟型分布(一)钟型分布:“:“两头小中间大两头小中间大”()()()(二)(二)U U型分布型分布:“:“两头大中间小两头大中间小”10 20 30 40 50 60 70 805040302010 0死亡率()年龄(三)(三)J J型分布型分布
22、:“:“一边大一边小一边大一边小”正J型图反J型图返回2.4 2.4 数据显示数据显示返回一、统计表一、统计表以纵横交叉的线条所形成的表格以纵横交叉的线条所形成的表格来表现统计资料的形式来表现统计资料的形式(一)统计表的结构(一)统计表的结构1、从内容上看,统计表由主词栏和宾词栏两部分组成。2、从表式上看,统计表包括以下三个部分:总标题、分标题和数字资料。(二)统计表的种类(二)统计表的种类 统计表按照总体分组情况不同,可分为:简单表、分组表、复合表。获金牌项目获金牌项目金牌数金牌数 占总数比例占总数比例跳水枚跳水枚 0.1786举重枚举重枚 0.1786乒乓球枚乒乓球枚 0.1429羽毛球枚
23、羽毛球枚 0.1429体操枚体操枚 0.1071射击枚射击枚 0.1071柔道枚柔道枚 0.0714田径枚田径枚 0.0357跆拳道枚跆拳道枚 0.0357中国体育代表团在悉尼奥运会上获金牌的项目中国体育代表团在悉尼奥运会上获金牌的项目简单表简单表(三)统计表编制规则(三)统计表编制规则返回以点、线条、面积等方法描述、以点、线条、面积等方法描述、显示统计数据的形式显示统计数据的形式二、统计图二、统计图HistogramVAR00001174.0170.0166.0162.0158.0154.0403020100Std.Dev=4.86 Mean=163.3N=83.00VAR00001174.00171.00169.00167.00165.00163.00161.00159.00157.00155.00152.00Count14121086420V A R 00001174.0173.0172.0171.0170.0169.0168.0167.0166.0165.0164.0163.0162.0161.0160.0159.0158.0157.0156.0155.0154.0153.0152.014121086420Std.Dev=4.86 Mean=163.3N=83.00直方图直方图条形图条形图饼图饼图 Pie返回