1、河北大学统计学系河北大学统计学系学习目标l明确统计资料整理的涵义和作用l了解统计整理的内容和程序l掌握分布数列的编制方法 河北大学统计学系河北大学统计学系本章主要内容第一节统计整理的一般问题第二节统计汇总技术第三节统计汇总的质量控制第四节分布数列的编制河北大学统计学系河北大学统计学系河北大学统计学系第一节统计整理的一般问题河北大学统计学系河北大学统计学系第一节统计整理的一般问题一、统计整理的概念二、统计整理的内容三、统计整理的程序河北大学统计学系河北大学统计学系一、统计整理的概念统计整理统计整理将统计调查得到的原始资料进行科学的分组和汇总,使其系统化、条理化,成为能够反映总体特征及其发展变化情
2、况的综合统计资料的工作过程统计整理是统计调查的继续,统计分析的前提和基础河北大学统计学系河北大学统计学系二、统计整理的内容统计整理统计汇总统计分组就是在统计分组设计的基础上,根据各单位的标志归属,把总体各单位归纳到各组中,计算出各组和总体的单位数和标志值。逐级汇总集中汇总优点:满足各层次的需要;便于审核更正缺点:费时费力;易出错优点:速度快层次少缺点:有错不易查找;不能及时满足中间层次需要河北大学统计学系河北大学统计学系三、统计整理的程序1、设计和编制统计资料的汇总方案2、对原始资料进行审核3、对调查数据进行编码及录入4、分组汇总原始资料5、编制统计表和绘制统计图河北大学统计学系河北大学统计学
3、系河北大学统计学系第二节统计汇总技术河北大学统计学系河北大学统计学系第二节统计汇总技术利用计算机进行统计汇总主要包括:审核、编码、录入、数据净化编码、录入、数据净化、逻辑检查运算以及编制和打印汇总表、统计图等。河北大学统计学系河北大学统计学系一、编 码将调查表或调查问卷中的各个项目转化为数字符号的过程。编码事前编码事后编码适用封闭性问题适用开放性问题河北大学统计学系河北大学统计学系(一)编码的常用方法又称系列编码法。只用一个标准对数据进行分类,并按照一定的顺序用连续数字或字母进行编码的方式。例如:根据某项对家庭月度消费支出的调查,对家庭月度消费支出分为四个档次:小于500元500元1000元1
4、000元1500元1500元以上1、顺序编码法操作简便,但不便于进行分组处理河北大学统计学系河北大学统计学系(一)编码的常用方法又称区间编码法,是根据调查数据的属性特点和处理要求,将具有一定位数的代码单元分成若干个组,每个组的数字均代表一定的意义。例如:在某项关于社会公众保险意识调查中,对被调查者个人的基本情况进行了调查,运用分组编码法对有关信息编码如下:2、分组编码法 性 别 居 住 地 家庭人口数 月收入水平回答编码编码编码编码回答回答回答男女12大城市中小城市县乡镇农村1234单身两人三口之家四人以上1234200以下200-300300-400 1000-110001020310若某个
5、被调查者为女性若某个被调查者为女性,居住于中等城市居住于中等城市,家中有三口人家中有三口人,月收入为月收入为1000-1100则其则其回答信息为回答信息为22310河北大学统计学系河北大学统计学系(一)编码的常用方法把调查数据分成不同的组,给以一定的组码(数字区间)来进行编码的方法.例如:对某地市场上99种商品的价格变动进行调查,在运用信息组码编码法对调查的信息进行编码时,首先对99种商品分组,再给每个组分配一个组码:3、信息组码编码法组别组别百货组百货组食品组食品组家电组家电组服装组服装组其他组其他组名称码名称码01-3031-5051-6566-8081-99河北大学统计学系河北大学统计学
6、系(一)编码的常用方法又称助忆编码法,它用数字符号等表明编码对象的属性,并依此方式对调查数据进行编码的方法.例如:用180BXJ表示容量为180升的进口电冰箱.其中180为冰箱的容量,BX表示冰箱.J表示进口.4、表义式文字编码法河北大学统计学系河北大学统计学系(二)编码手册的编制 也称编码表,是用来进行数据编码的工作手册,包括四个项目:问题顺序号,每个调查项目的预置代码位置,项目名称,内容说明.河北大学统计学系河北大学统计学系1.您的职务?(1)正高级 (2)副高级 (3)中级 (4)其他2.您的年龄_3.您从事的专业_4.您对自己工作情况的评价?(1)已充分发挥积极性(2)基本发挥了积极性
7、(3)积极性有所发挥(4)完全没有发挥积极性5.目前,您是否有离开学校的想法?(1)是 (2)否6.请您按投入精力的多少,将下列三项活动排序?(1)校内工作 (2)校外兼职 (3)生活琐事 第一位_ 第二位_第三位_案例:对某高等学校教师的工作,生活状况的调查,一共有32个问题,我们摘录6个问题,来说明编码手册的编制.河北大学统计学系河北大学统计学系问题序号项目名称编码位置编码意义1职务11.正高2.副高3.中级4.其他2年龄2-3答卷人回答年龄3从事专业4-6专业编码见附表4工作评价71.已充分发挥积极性2.基本发挥了积极性3.积极性有所发挥4.完全没有发挥积极性5是否打算离开学校81.是2
8、.否6按投入精力排列9-111.校内工作2.校外兼职3.生活琐事若某份问卷的若某份问卷的回答信息在答回答信息在答录卡上的前录卡上的前11为数字为为数字为:23300112132则表示则表示为为?河北大学统计学系河北大学统计学系二、录入 数据录入就是将问卷或编码表中的每一个项目对应的代码读到磁盘中,或通过键盘直接敲入计算机中的工作过程。方式:程序录入光电扫描录入河北大学统计学系河北大学统计学系三、数据净化 数据净化指通过计算机处理错误的或不合理的数据以及进行一致性检验。方式:统计软件:SPSS、SAS河北大学统计学系河北大学统计学系河北大学统计学系第三节统计汇总的质量控制河北大学统计学系河北大学
9、统计学系全面性审核一、资料审核汇总前对统计资料进行审核是统计汇总质量控制的关键。准确性审核 审核调查单位的全面性、审核调查项目的全面性逻辑审核、计算技术审核河北大学统计学系河北大学统计学系二、编码和录入的质量控制l编码工作的质量控制l录入工作的质量控制河北大学统计学系河北大学统计学系三、统计预处理l缺省数据的处理l加权处理l原始数据或变量的转换河北大学统计学系河北大学统计学系统计预处理1、缺省数据的处理以样本统计量代替缺省值 一般为平均值一般为平均值以统计模型计算的估计值代替缺省值 回归模型等回归模型等缺省值样本删除缺省值样本保留,仅在相应的分析中作必要删除河北大学统计学系河北大学统计学系 通
10、过对调查数据进行加权,使样本更具代表性,或为了强调某些被访群体的重要性。(例如:P91)统计预处理2、加权处理河北大学统计学系河北大学统计学系l变量类型的转化l数学意义上的变量代换统计预处理3、原始数据或变量的转换河北大学统计学系河北大学统计学系河北大学统计学系第四节分布数列的编制河北大学统计学系河北大学统计学系第四节分布数列的编制一、次数分布与分布数列的概念二、分布数列的种类三、累计分布数列四、次数分布图五、次数分布的类型河北大学统计学系河北大学统计学系一、次数分布与分布数列的概念1、次数分布:在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各单位在各组间的分布
11、,就叫做次数分布。表示各组标志值对总体标志值所起作用的强度1(2)10(1)111mimiiimiii)ff(ff频数(次数):各组单位数。频率:各组单位数占总体单位数的比率。性别人数比例男4040%女6060%合计100100%河北大学统计学系河北大学统计学系l反映统计总体内所有总体单位在各组间的分布。同类总体不同的分布状况差异反映了它们的性质差异。如各班成绩分布。l对某随机现象的重复观察,频率分布可以渐近反映其统计规律。次数分布的作用河北大学统计学系河北大学统计学系2、分布数列 分布数列:将各组组别的名称与相应的频数和频率,依次排列起来形成的数列称为次数分布数列,简称分布数列。也称分配数列
12、或次数分配数列。分布数列的意义:分布数列是统计整理结果的一种表现形式,也是统计分析的一种方法。不仅可以表明总体单位的分布特征和结构状况,而且可用以进一步研究总体单位某一标志的构成、平均水平及其变异程度。作用:反映总体中所有单位在各组的分布状态和分布特征。河北大学统计学系河北大学统计学系 各组名称(常用x 表示)两个构成要素 各组次数 分布数列的构成要素绝对数,称频数,用 f 表示。相对数,称频率,用f/f表示。总体所分各组的分组标志的具体体现各组对应的总体单位数或频率。河北大学统计学系河北大学统计学系某地人口的性别分布按性别分组次数人数(人)比重(%)男女154349271461329751.
13、3748.63合计30048224100.00学生的成绩分布按成绩分组次数学生数(人)比重(%)60以下60-7070-8080-9090以上2820155416403010合计50100f/ff/fff河北大学统计学系河北大学统计学系次数分布品质分布数列变量分布数列单项式分布数列组距式分布数列等距分布数列异距分布数列 由于分组是次数分布的基础,因此有怎样的分组就形成怎样的次数分布。综合上述各种分组类型,次数分布的类型,可归纳为:二、分布数列的种类 按品质标志分组形成的分布数列称为品质分布数列,简称品质数列。按数量标志分组形成的分布数列称为变量分布数列,简称变量数列。二、河北大学统计学系河北大
14、学统计学系某地人口的性别分布按性别分组次数人数(人)比重(%)男女154349271461329751.3748.63合计30048224100.00学生的成绩分布按成绩分组次数学生数(人)比重(%)60以下60-7070-8080-9090以上2820155416403010合计50100变量数列品质数列河北大学统计学系河北大学统计学系每个组值只用一个具体的变量值表现的数列同时具备变量是离散变量变量的不同取值个数较少编制条件:分布数列的种类单项式分布数列河北大学统计学系河北大学统计学系【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26
15、,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。分布数列的种类单项式分布数列案例日产量(件)X工人数(人)f202122232425263564321合计24河北大学统计学系河北大学统计学系每个组的变量值用一个区间来表现的变量数列或者变量是连续变量编制条件:分布数列的种类组距式分布数列总体单位数较多,变量不同取值个数也较多的离散变量河北大学统计学系河北大学统计学系指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限组限组限每组变量值变动区间的长度,为上下限之差组距组距每组变量取值范围的中点数值 组中值组中值2
16、下限上限组中值分布数列的种类组距式分布数列相关概念河北大学统计学系河北大学统计学系某地区100个百货商店月销售额与流通费用情况销售额(万元)商店数(个)每百元商品销售额中支付的流通费(元)50以下50100100200200300300以上102030251514.211.410.19.28.5上组限上组限U下组限下组限L组距组距d=U-L=100-50=50(万元)(万元)组中值组中值x=(U+L)/2 =(100+200)/2=150(万元)(万元)分布数列的种类组距式分布数列河北大学统计学系河北大学统计学系变量值变动区间的长度相等分布数列的种类变量式分布数列河北大学统计学系河北大学统计学
17、系等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度频数/组距)反映频数分布的实际状况,以解决各组频率由于组距不同而不可比的问题。分布数列的种类等距分组与不等距分组的差异河北大学统计学系河北大学统计学系分布数列的种类考分组距次数次数密度=次数/组距50-60420.560-66650.83366-8216140.87582-9210111.192-100881.0河北大学统计学系河北大学统计学系将变量数列各组的频数(或频率)逐组累计相加而形成的数列三
18、、累计分布数列向上累计向下累计从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。什么以下什么以下的有多少的有多少什么以上什么以上的有多少的有多少河北大学统计学系河北大学统计学系 销售额(百万元)商店数频率()累计次数累计频率()5以下51010151520202525以上410161343820322686合计50100分布数列的种类河北大学统计学系河北大学统计学系 销售额(百万元)商店数频率()累计次数累计频率()向上向上累计累计向上向
19、上累计累计5以下51010151520202525以上41016134382032268641430434750828608694100合计50100分布数列的种类河北大学统计学系河北大学统计学系 销售额(百万元)商店数频率()累计次数累计频率()向上向上累计累计向下向下累计累计向上向上累计累计向下向下累计累计5以下51010151520202525以上410161343820322686414304347505046362073828608694100100927240146合计50100分布数列的种类河北大学统计学系河北大学统计学系l117 122 124 129 139 107 117
20、130 122 125l108 131 125 117 122 133 126 122 118 108l110 118 123 126 133 134 127 123 118 112l112 134 127 123 119 113 120 123 127 135l137 114 120 128 124 115 139 128 124 121【例例】某生产车间50名工人日加工零件数如下(单位:个)。四、次数分布图河北大学统计学系河北大学统计学系l用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布l在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数
21、就形成了一个矩形,即直方图l直方图下的总面积等于1 1次数分布图分组数据直方图河北大学统计学系河北大学统计学系直方图下的面积之和等于1我一眼就看出来了,大多数人的日加工零件数在120125之间!次数分布图分组数据直方图河北大学统计学系河北大学统计学系遇到异距数列时,则通常按次数密度绘制直方图以表示分布 直方图一般不用来表示累计次数的分布。次数分布图分组数据直方图河北大学统计学系河北大学统计学系l条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的l直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义l直方图
22、的各矩形通常是连续排列,条形图则是分开排列次数分布图分组数据直方图直方图与条形图的区别河北大学统计学系河北大学统计学系R结果河北大学统计学系河北大学统计学系l折线图也称频数多边形图(Frequency polygon)l是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉l折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的分组数据折线图次数分布图河北大学统计学系河北大学统计学系折线图下的面积折线
23、图下的面积与直方图的面积与直方图的面积相等!相等!分组数据折线图次数分布图河北大学统计学系河北大学统计学系l用于显示未分组的原始数据的分布l由“茎”和“叶”两部分构成,其图形是由数字组成的l以该组数据的高位数值作树茎,低位数字作树叶l茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息未分组数据茎叶图次数分布图河北大学统计学系河北大学统计学系未分组数据茎叶图次数分布图河北大学统计学系河北大学统计学系R绘制茎叶图的结果河北大学统计学系河北大学统计学系l用于显示未分组的原始数据或分组
24、数据的分布l箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成l其绘制方法是:l首先找出一组数据的5个特征值,即最大值最大值、最小值最小值、中位数中位数Me 和两个四分位数四分位数(下四分位数QL和上四分位数QU)l连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 未分组数据箱线图次数分布图河北大学统计学系河北大学统计学系未分组数据箱线图次数分布图作用:可以看出分布类型是左偏、右偏还是对称作用:可以看出分布类型是左偏、右偏还是对称河北大学统计学系河北大学统计学系l时间一般绘在横轴,指标数据绘在纵轴l图形的长宽比例要适当,其长宽比例大致为10:7l一般情况下,纵轴数据下端应
25、从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据线图次数分布图河北大学统计学系河北大学统计学系19911998年城乡居民家庭人均收入年城乡居民家庭人均收入年份年份城镇居民城镇居民农村居民农村居民199119921993199419951996199719981700.62026.62577.43496.24283.04838.95160.35425.1708.6 784.0 921.61221.01577.71926.12091.12162.0时间序列数据线图次数分布图河北大学统计学系河北大学统计学系02000400060001991199219
26、9319941995199619971998城镇居民农村居民收收入入(元)(元)城乡居民家庭人均收入城乡居民家庭人均收入时间序列数据线图次数分布图河北大学统计学系河北大学统计学系l雷达图(Radar Chart)是显示多个变量的常用图示方法l在显示或对比各变量的数值总和时十分有用l假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比l可用于研究多个样本之间的相似程度多变量数据雷达图次数分布图河北大学统计学系河北大学统计学系1997年城乡居民家庭平均每人生活消费支出年城乡居民家庭平均每人生活消费支出项项 目目城镇居民城镇居民农村居民农村居民 食品食品 衣着衣着 家庭设备用品及服务
27、家庭设备用品及服务 医疗保健医疗保健 交通通讯交通通讯 娱乐教育文化服务娱乐教育文化服务 居住居住 杂项商品与服务杂项商品与服务1942.59520.91316.89179.68232.90448.38358.64185.65 890.28 109.41 85.41 62.45 53.92 148.18 233.23 34.27合合 计计4185.641617.15多变量数据雷达图次数分布图河北大学统计学系河北大学统计学系0 0500500100010001500150020002000 食品食品 衣着衣着 家庭设备用家庭设备用 品及服务品及服务 医疗保健医疗保健 交通通讯交通通讯 娱乐教育娱乐教育 文化服务文化服务 居住居住 杂项商品杂项商品 与服务与服务城镇居民农村居民19971997年城镇居民家庭消费支出年城镇居民家庭消费支出 (元)(元)多变量数据雷达图次数分布图河北大学统计学系河北大学统计学系五、次数分布类型例:不同年龄人口的死亡率分布例:不同年龄人口的死亡率分布河北大学统计学系河北大学统计学系思考题l统计整理的概念和重要性。l统计整理的程序包括哪些方面?l什么是次数分布?有什么作用?l次数分布数列的意义有哪些?l次数分布数列有哪两个基本要素?l次数分布数列有哪些种类?l常见的次数分布类型有哪几种?