1、社会调查研究方法目目 录录 第一节定量资料的整理 第二节定性资料的整理 学习目标学习目标熟悉定量资料审核的内容、方式和步骤。掌握定量资料编码的方式、规则,各种题型的编码方法及编码手册的使用方法。了解数据录入和数据清理的主要方式、方法。掌握定量资料整理中统计分组的方法、次数分布的编制,以及统计表和统计图的制作。了解定性资料的审核内容。熟悉定性资料分类的含义和方法。熟悉定性资料汇总的含义、定性资料编码的主要类型和概念图的绘制。2003年7月,中南财经政法大学社会保障研究所在全国范围内展开了一次“劳动与社会保障问题”抽样调查。按照各地经济发展水平,调查者在浙江、江苏、广东、福建、湖北、广西、河北、河
2、南、四川、陕西、安徽11个省、自治区抽取了38个行政村,然后在每个村抽取30户左右进行入户问卷调查,共发放问卷1 112份,收回有效问卷1 106份,有效回收率99.5。该调查试图从两个角度来考察农民的养老保险参与意向:当前农民的社会养老保险制度参加意愿,分析目标为“根据农村社会养老保险制度的内容及您自己的经济条件,您是否愿意参加”。案例导入“劳动与社会保障问题”抽样调查中的数据整理对社会养老保险的水平选择,分析目标为“根据农村社会养老保险制度的内容及您自己的经济条件,您会选择怎样的投保标准”。这两个指标被作为该调查需要分析的因变量(见表10-1)。表10-1 被解释变量的频数分布该调查的自变
3、量选择了个体情况、家庭情况、社区条件、养老意识与观念和养老保险制度的信息掌握及渠道5个类型共17个变量(见表10-2)。表10-2 自变量的选择及相应处理、赋值续表在社会调查研究过程中,资料的整理就是为完成资料的统计分析而对通过问卷调查或访谈收集到的各种资料进行检查、分类,使其系统化、条理化的过程。资料整理是资料收集的继续,也是资料分析的前提,它是社会调查研究过程中不可缺少的一个环节。根据资料性质的不同,资料整理工作又分为定量资料的整理和定性资料的整理。由于对两类资料的整理有所不同,故本章将对其分开进行介绍。定量资料亦称数据资料,主要来自调查问卷获得的数据。定量资料的整理内容主要包括资料审核、
4、资料编码、数据录入、数据清理、统计分组与统计图表的绘制等。其基本程序如图10-1所示。图10-1 社会调查研究定量资料整理的程序 定量资料的审核 一、定量资料的审核是资料整理的第一步工作,它是指研究者对调查所回收的原始资料(主要是问卷)进行初步的审查和核实,校正错填、误填,剔除乱填、空白和严重缺答的废卷,使原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理录入与统计分析工作打下较好的基础。(一)资料审核的内容 1.资料的完整性(1)问卷的某一页或某几页漏填了。资料的完整性主要是通过问卷填答的完整程度反映出来的,如果在回收的问卷中发现了以下情况,就说明资料不完整:(2)问卷中的一个或多
5、个问题没有填答。实际操作中,特别是在有开放式问题的情况下,调查研究者要对问卷填答的完整程度做出一些规定,使检查人员明确问卷填答到什么程度算是完整的。例如,在调查职业时,就要规定不仅要问职业名称,而且还要具体说明该职业所属行业,以及该职业所从事的工作的具体操作方式。此外还应对可接受的数据缺失情况做出规定,具体说明哪些数据的缺失是可以接受的。2.资料的准确性资料的准确性审核主要是审核调查数据的口径、计算方法、计量单位等是否符合要求。剔除不可靠的数据,使数据更加准确。调查数据还要清楚、易懂,即如果所记录的回答字迹模糊,或者除调查者以外谁都不明白,则应返还问卷,让调查者校正或写清楚。(3)计算审核。调
6、查问卷中某些调查项目之间往往存在着某种数量关系,调查研究者可以利用这些指标之间的数量关系来检查所接收的数据资料的准确性。一般在审核过程中,主要看各数字在计算方法和计算结果上是否有错误。常用的计算审核法有加总法、对比法、平衡法等。3.资料的真实性资料的真实性主要表现在以下2个方面:(1)问卷是否为事先确定的调查对象所提供。尤其是在自填式问卷调查中要特别注意这一点。(2)调查对象提供的资料是否真实,是否就是本人情况的反映。(二)资料审核的方式资料审核的主要方式是通过检查调查问卷资料中的问题,及时地对发现的问题向调查对象核实,确定问卷资料的有效性。资料的审核工作有两种:一种是实地审核,另一种是集中审
7、核(中心办公室审核)。1.实地审核实地审核是在收集资料的过程中进行的,也就是边收集边审核。在问卷调查的过程中,一旦发现填答错误,漏填、误填,或者一些有疑问的情况,就要及时向调查对象进行询问核实。因此,当资料收集工作结束时,资料的审核工作也就完成了。实地审核一般分成两个阶段:第一阶段,调查者在访问即将结束时,或者调查者回收调查对象自己填答的问卷时,要对整个问卷进行检查,看是否有无漏记、漏填或存在逻辑错误的情况。如调查对象往往会认为调查者就在自己的面前,理应知道自己的性别,因而在填答问卷时,对“您的性别?”这一问题不作答,调查者在检查问卷时,不管多么简单的问题都要认真审核,以免丢失信息。另外,还要
8、检查一下调查对象提交的问卷有没有明显的资料错误和逻辑错误,具体方法如前所述。遇到这样的问题时,调查者应该再找被调查对象核实。第二阶段,调查组织者对调查者交回的问卷当面进行审核,对有疏漏的记录、有错误的记录及模糊不清的笔迹等向调查者核实,或由调查者再找到调查对象进行核实。实地审核的优点是能够及时、准确地审核资料,但对于调查者和监督员处理各种情况的能力要求较高,要有及时发现和处理问题的能力。2.集中审核集中审核也称为中心办公室审核,是先将资料全部收回,然后集中时间进行的。这种审核主要是由调查的组织者进行的。集中审核的优点是便于统一组织安排和管理资料的收集工作,审核工作则可以统一在调查研究者的指导下
9、进行。集中审核与实地审核相比,审核的标准比较一致,检查的质量较高。但是集中审核也存在一些问题,比如审核工作的周期相对较长,使得一些需要重新询问的核实工作因时间相隔较长或空间相距太远而无法实行。因此,在调查的过程中应尽可能在每天调查工作结束后,对当天收集的资料进行初步的整理,对问卷中出现的问题及时补充或核实。(三)资料审核的步骤编辑检查接收核查问卷采取相应处理措施资料审核的3个阶段 1.接收核查问卷接收核查问卷又称一审。对不同地区、不同调查者交回的问卷,都应该立即登记和编号。尤其对于大规模的调查,更应做好登记和编号工作。一般负责接收问卷的人员要事先设计好登记表格,上面列有调查者姓名和编号、调查地
10、区和编号、调查实施的时间、交付日期、实发问卷数、上交问卷数和问卷编号、未答或拒答问卷数、丢失问卷数、其他问卷数及合格问卷数等。回收的问卷应分别按照不同调查者和不同地区(或单位)放置,问卷表面应写有编号或注明调查者和调查地区等。否则,大量的问卷混在一起就容易丢失,且不易查找。接收问卷时,对所有的问卷都应检查一遍,将无效的或不能接受的问卷剔除。无效的问卷主要指以下几种情况:(1)答案不完全,即有相当多的问题没有填写答案。(2)调查对象没有理解问卷的内容而答错问题,或没有按照指导语的要求回答问题。例如,要求跳答的问题没有按要求去做,单选题选择多个答案等。(3)问卷中的回答没有什么变化,如在7级的李克
11、特态度量表中,不管是正向的看法还是反向的看法,调查对象的回答全是“4”。(4)缺损的问卷,即有一页或多页丢失或无法辨认的问卷。(5)在截止日期之后回收的问卷。(6)由不属于调查对象的人填写的问卷,如在一项药品的市场调查中,调查对象是患有某种疾病并曾经进行过治疗的人,因此没有患有此项疾病或患有此项疾病但没有治疗过的人填答的问卷都属于无效问卷。(7)前后矛盾或有明显错误的问卷,如年龄为12岁,职务为所长。2.编辑检查编辑检查又称二审,是对问卷进行进一步的更为准确的检查。主要检查的仍是回答的完整性、准确性、真实性等。例如,在有关家庭消费模式的调查中,某调查对象的家庭人均收入仅1 500元,却经常在一
12、些高档商场购物;又如,某题的答案圈在1与2之间,让人难以确定是1还是2,或者是1和2之间。3.采取相应的处理措施对于检查出来的无法令人满意的问卷,常用的处理方法为退回实地重新调查、视为缺失数据或放弃不用。但是,如果有回答令人不满意的问卷与回答令人满意的问卷在人口特征、关键变量等方面的分布存在显著差异,或者判断一份问卷是否令人满意是很主观的,那么简单放弃那些回答令人不满意的问卷可能会产生系统偏差。因此,如果调查研究者决定放弃一些问卷,则应当在报告中说明放弃问卷的数量及判别这些问卷的程序。资料的真实性检查一般是在资料搜集结束后,由熟悉调查者情况的分区(组)督导或专门训练的复查员通过随机抽取515已
13、访问过的调查对象进行回访来实现的。对调查对象的回访既可以采用打电话,也可以通过邮寄回访问卷的方式进行。复查的内容主要是确认调查者是否按规定访问了指定的调查对象,以及调查者在访问中是否有违规操作行为。复查应该是标准化的,要有复查问卷和格式统一的复查记录表。复查问卷应包括以下一些内容:(1)复查对象的原问卷编号。(2)复查的次数及时间记录。拓展阅读回 访(3)确认调查者是否来访过。(4)确认调查者是否访问了指定的调查对象。(5)(如果赠送礼品)确认调查者是否已送出礼品。(6)复查对象对调查者访问态度的评价。(7)从原问卷中挑选一些较敏感、较难回答或事实性的题目,回访复查对象,以此检验调查者是否有违
14、规操作行为。根据复查结果,调查研究者就能通过调查者的行为对问卷的真实性做出判断。如果调查者在操作上正确无误,则问卷资料是真实可信的;如果调查者有违规或舞弊行为,就要考虑将他们的问卷作为废卷处理,以免影响数据质量。定量资料的编码 二、编码就是给每个问题及答案一个数字作为它的代码,将问卷中的文字等信息转化成数字的过程。定量调查的数据一般要输入计算机,用计算机进行整理和分析,数字代码为计算机的输入和分析提供了方便。编码也是数据整理汇总阶段重要而基本的环节。编码的目的是用一组变量来表示各项调查问题,用每一个变量的不同取值表示对这一问题的不同回答。例如,调查对象是否为党员,可用“1”表示“党员”,用“2
15、”表示“非党员”。需要注意的是,在定类和定序变量的编码中,数字仅起到一种代表的作用,并没有任何数量上的意义。(一)编码的方式前编码编码的方式主要有3种边缘编码后编码 1.前编码前编码又称预编码,它是指调查研究者在问卷设计时事先为每一个题目的答案设置一个代码,编码时只要逐一记录调查对象回答的选项代码即可,这种编码的方式与问卷设计是同步进行的。封闭式问题通常采用的就是前编码的形式。2.边缘编码边缘编码是指为了提高录入和查错时的工作效率,事先在问卷上预留编码的位置,这些预留的编码位置通常在问卷的最右边,并用竖线与问题部分隔开,因此称为边缘编码。边缘编码是编码的一种表示形式,一般在数据录入之前编码的表
16、示形式都是边缘编码,也就是将编码值写在相应调查指标对应的位置,然后根据编码录入数据。3.后编码调查研究者在访问结束后,对问卷进行的编码称为后编码。开放式问题和封闭式问题中的“其他”选项的编码,通常采用的都是后编码的形式。因为这些问题往往很难预计,只能在调查问卷回收之后,根据具体的答案设定编码的形式这里需要说明的是,究竟是采用前编码还是后编码的形式并没有固定的顺序和要求,研究者可根据自己的研究需要与进度而定。(二)编码的一般规则资料编码原则上是将调查对象对一个问题的回答,分配一个相对应的计算机软件能够识别的代码,这个代码就是代表该项回答内容的编码。绝大多数情况下,编码都采用数字作为代码,但对于有
17、些特殊答案,调查研究人员偶尔也采用字母作为代码。除了确定上述编码方式外,以下几项规则也是编码时需要特别注意的:(1)在编码的过程中,除了要对调查对象每一个回答的选项进行编码外,还需对问卷编号、调查者编号等相关内容依统一标准进行编码,这样做可以为查找问卷的错误提供极大的便利。(三)各种题型的编码 1.单项选择题的编码单项选择题给出的答案至少有两个,回答者要根据自己的情况选择一个答案作为回答。针对这种题型的编码,通常直接使用问卷设计时赋予每一个答案的数值作为其代码值,如在表10-3中。表10-3 单项选择题的编码 2.多项选择题的编码多项选择题指的是一个问题可选择的答案不止一个,而是有多个,又包括
18、不定项选择题和多项限选题。(1)不定项选择题。不定项选择题指的是在调查时不设定回答者对某一问题的选择答案个数的题目。如表10-4中的A5题,调查对象可以选择1个、2个、3个、5个或10个答案。通俗地讲,即是“任选题,有多少个选项就有多少个变量,每个变量用01编码”。如果一个调查对象选择了2、5、6、8、9项,那么A5题的编码就如表10-4的编码栏所示,每一个答案都有一个相应的栏码相对应。表10-4 不定项选择题的编码形式(2)多项限选题。因为选择的个数太多,有时难以进行统计,因此,多项选择题有时候也会对其限制选择的个数。如表10-5中的A6题,如果选择的要求不是“有几个选几个”,而是设定“请选
19、择最重要的三项”,则编码的方法如下:表10-5 多项限选题的编码形式 采用“0”“1”编码。即使是设定了选择的个数,也可以“0”“1”编码的形式进行编码,这时还是有几个答案就设置几个编码的位置,将其视做任选题,只是选择“1”的答案是确定的,不能超过三个,当然有些人没有那么多的选择,可能只有12个答案,也是可以接受的。用答案前的数字作为代码。因为答案选择的个数确定,最多选择三项,所以在编码时也可以在编码手册中编写成3个变量,即设定3位栏码,以答案前的数字作为代码。简言之,即是“限选题,限选几项就有几个变量,每个变量选什么编什么”。上面A6题的编码就变成了表10-5所示的形式。3.排序题的编码除了
20、多选题之外,另一种常用的特殊题型是排序题。例如,调查研究者若要求调查对象从7种就业信息渠道中选出最常用的三种,依重要顺序排列,则成为一种排序题,如表10-6所示。表10-6 排序题的编码形式这时由于要求调查对象从7个答案选项中选择的答案不止一个,所以具有多选题的特性;与此同时,又由于要求被访者对选项排出顺序,故对于每一个被选中的答案选项来说,其排序位置有1、2、3等多种可能,这样在实际编码和统计分析中,排序题与多选题就有许多相似之处,但排序题会显得更复杂。与前述的多选题类似,题A8虽然是一个询问调查对象最常使用的搜集就业信息渠道的题目,但是由于答案选项有7个,调查对象要进行7次判断才能够完成本
21、题,因此,本题也同样要用7个变量来处理。在编码手册中,应将本题编写成7个不同的变量,即设定7位栏码。但排序题与多选题不同的是,其每个答案选项的取值不是“0”“1”两个,而是“0”“1”“2”“3”四种可能,其中“0”代表该选项没有被选中,“1”“2”“3”则分别代表被指定为第一位、第二位和第三位。不难看出,排序题与多选题最大的不同就是变量的取值不一样,如果只要求多选,不要求排序,每一个选项只有被选中或没有被选中两种可能,被选中时编码为“1”,没有被选中时编码为“0”,因此是一个二分变项。但如果不仅要求多选,而且还要求排序,则每一个选项被选中的状况就不止一种,而形成顺序变量。例如,题A8中,每一
22、个选项是一个“13”的顺序变量,没有被选中时应编码为“0”。表10-7是将5个调查对象对题A8的回答的编码输入计算机后形成的数据文件的片断。表10-7 对排序题的编码从表10-7可以看出,每一位调查对象都指出了三个最常用的就业信息渠道,第一位调查对象指出“招工单位/公司/部门”是最常使用的就业信息渠道,因为多选变量QA8_3取值为1,其次常用的是“其他各类组织”,第三位是“其他”,第二位调查对象也是指出“招工单位/公司/部门”最常用,因此QA8_3取值还是1。4.开放式问题的编码对于开放式题目,如果针对的是定距或定比变量,可以直接用填答的数字进行编码。例如“您每月的收入是 元”这种题在编码时直
23、接采用填写的数字。而对于非数值型的题目,则应先制作编码手册,为其中的每一个选项设计一个代码,再进行编码,如“您的专业是 ”调查完成之后,可以根据随机抽取的一些样本的情况设定代码,如设定“1社会学,2经济学,3教育学”然后再进行编码、录入。(四)答案栏编码的确定编码的目的是为了将文字的资料通过设定一定的代码,使其转化到计算机可以识别的数据时更为简便、快捷。在计算机录入数据的过程中,除了考虑答案的数字代码外,还要考虑每一个题目答案的宽度和栏码数,在数据库编写时进行相应的设置,为数据的录入提供方便。每个问题答案代码的位数通常称为编码的宽度。栏码则是在数据转录到登记表上或录入数据库时每个变量所处的位置
24、,它是根据每个指标或问题答案代码的位数,确定该项目或问题所占的宽度,再根据前后顺序来确定其在整个数据排列中所处的位置,从前依次往后排列。答案的栏码数一般在设计问卷时就直接印在问卷中,如问卷表右侧的编码栏,每一个问题对应编码的横线个数表示这一问题编码的宽度,如性别的两个取值“1男;2女”,那么,这一题目对应的栏码数是1;又如,到城市工作的时间是哪一年,若回答为2005年,那么它对应的位数应该是4位,所以在设定编码栏时设定4位栏码。如表10-8中各问题的栏码分配情况见该表右列所示。表10-8 各问题的栏码分配表(五)编码手册在对资料进行编码时,必须事先制订详尽的计划和明确的规则,通常需要编制一份编
25、码手册,用来记载资料数量化的所有格式、内容,以及使用计算机资料的具体步骤。事前编码和事后编码所用的编码手册最后将合并为一个编码手册。编码手册最直接的作用是提供一套标准化的编码作业程序。由于问卷调查的样本规模一般都成百上千,一份问卷又有几十至上百个问项,故编码作业是由许多人共同完成的。在此情况下,唯一避免发生编码错误的办法就是大家都按编码手册规定的流程进行作业。在编码手册中,研究者要将需要编码的项目和问题一一列出,逐一规定它们的代码、宽度、栏码、简要名称、答案赋值方式及其他特殊情况的说明等。整个编码手册要规范统一,指示要明确,并且容易理解,便于操作。表10-9就是一份调查问卷的编码手册的节选。“
26、指标或变量”是问卷中进行调查的各指标或变量。“变量名”是调查问卷中实际测量的每一个变量在录入计算机时对应的名字,通常用与问卷中题目相对应的字母和数字表示,这样可以较为方便地根据问卷查找相关的数据。“变量含义”则简要地说明该变量所反映的主要内容。“答案赋值”即各问题答案所对应代码的说明,这个非常重要,需要详细地标明每一种答案的赋值结果和赋值方法。“宽度”和“栏码”是数据库建立和数据录入的时候需要用到的重要内容。“备注”一般是对其他需要说明的内容进行说明,特别是对缺省值、跳答等内容的说明。表10-9 编码手册(节选)有了编码手册,不同的调查者(专门的编码、输入人员)就可以按照同样的标准和方法对收回
27、的问卷进行编码。同样,资料分析员也可以方便地认识、理解数据资料中所包含的各个变量的信息。定量资料的数据录入 三、定量资料的数据录入方式主要有两种:一种是直接从问卷上将编好码的数据输入计算机;另一种是先将问卷上编好码的数据转录到专门的登录表上,然后再从登录表上将数据输入计算机。直接从问卷输入数据的长处是避免了再次转录中可能出现的差错,但它的不足之处在于录入时要不断地翻动问卷,录入的速度相对要慢一些。将问卷的数据先转录到登录表,再输入计算机的做法,虽然可以使计算机录入人员比较方便,速度也相对较快,但它却要冒着增加差错的风险。因为将问卷上的数据抄录到登录表中等于增加了一次转录过程。每一次转录都存在出
28、错的可能性,两次转录出错的可能性往往大于一次转录。社会调查研究者可根据具体情况进行选择。录入数据的软件有多种选择,如直接利用统计软件SPSS的电子表格录入,也可选用其他数据库软件,如Excel等。数据录入由于过于单调、枯燥,因而是一项非常容易出错的工作。要做好数据录入工作,录入人员要高度重视这项工作。在录入数据时,要认真阅读、认真输入,一丝不苟地做好录入工作。此外,还要反复校对,最好录入一段校对一段,可由录入人员本人校对,也可换他人校对。数据清理 四、在录入数据后、统计分析前,还应借助计算机仔细地进行数据清理,不让错误数据进入运算过程,数据清理有以下几种方法:1.有效范围清理问卷中的任何一个变
29、量都有某种有效编码值的范围,凡超出这个范围的数据,肯定是错误的。比如,“性别”这一变量的有效编码值是“1男;2女;0无回答”。如果在这一变量栏中出现了其他数字,就肯定是错误的。在SPSS软件上,可以通过频数统计表查找输入数据时可能发生的差错。如果发现了错误,在SPSS软件上执行“查找”命令,即可发现错码的问卷编号(个案号码),然后再查找原始问卷,更正错误。如果一份问卷中错误答项过多,则可考虑将这份问卷作为废卷处理。2.逻辑一致性清理逻辑一致性清理比有效范围清理复杂一些,其依据问卷中问题之间的逻辑关系来检查前后答项数据之间的合理性。例如,问卷前面询问:“您有孩子吗?”答项为“1.有;2.没有”;
30、后面再询问:“请问您的孩子今年几岁了?”而如果前一个问题回答“2.没有”,后一个问题的回答出现了“1”“6”等数字,那么这个答项就肯定有问题。纠正时应该根据变量的测量层次采用不同的方法。对于定类、定序或定距变量,可采用交互分类统计(列联表)的方法检查变量之间是否存在逻辑矛盾。如果发现了问题,可在SPSS软件上执行“查找”命令找出错码的问卷编号,然后根据原始问卷相关变量的答项分析到底是哪个变量出错了;如果都没有错的话,就要向被调查对象复查、核实。对于定比变量,可以采用在SPSS软件上建立新变量的compute命令,分析两个变量中间存在的逻辑错误。如表10-10所示,在一张“产品使用频度”和“熟悉
31、程度”的列联表中,有2个“从未听说过”该产品但是却“经常”使用这种产品的调查对象。根据这2个调查对象的问卷编号、变量编码、变量值等就可以进行必要的修改。表10-10 用列联表寻找逻辑上的不一致示例 3.数据质量抽查如果数据录入时输入的错误数据在正常有效编码值范围之内,那么查出这类输入错误的唯一办法只能是拿着原始问卷一份一份、一个答项一个答项地核对。由于这种方法核对的工作量过大,一般只能采用随机抽样的方法,从全部样本中随机抽取一部分问卷进行校对,然后用这一部分问卷校对的结果来评估全部问卷的数据质量。定量资料的统计分组与统计图表的绘制 五、(一)统计分组 1.统计分组的含义统计分组是指按照调查研究
32、目的和任务的要求,根据调查对象的特点,采用一定的标准把总体划分为不同的部分。由于统计学包含专门研究分组的方法且具有普遍的方法论意义,因此社会调查研究中的分组方法应遵循相关统计分组的理论。2.统计分组的原则统计分组必须反映各组之间的性质差异,同时还要保证资料的完整性和真实性。为此,统计分组在方法上必须符合穷举原则和互斥原则。(1)穷举原则。穷举原则也叫不遗漏原则。即统计分组必须保证总体的每一个单位都能归入其中的一个组,各个组的单位数之和等于总体单位总量,总体的指标必须是各个单位相应标志的总和。违背了这一原则,就会损害资料的完整性,从而也就损害了资料的真实性。(2)互斥原则。互斥原则也叫“不重复”
33、原则。即统计分组必须保证总体的每一个单位只能属于其中的一个组,不能出现重复统计的现象,否则就必然会影响到资料的真实性。3.统计分组标志的选择统计分组必须选择对所调查研究对象的本质特征和规律有决定性意义的标志作为分组标志,即选择能够反映和决定事物本质属性的标志作为分组标志。选择分组标志时可以考虑以下3种方法:(3)根据经济发展变化及历史条件选择分组标志。(2)选择反映所调查研究对象本质区别的标志。(1)根据调查研究目的选择分组标志。如研究企业规模可参见图10-2选择分组标志。图10-2 对企业按规模进行分组可使用的分组标志有些分组情况比较简单,它们有着明确的规定,或约定俗成,或大家公认,分组界限
34、容易确定。例如,按考试成绩分组,在百分制情况下,60分以下为不及格,6070分为及格,7180分为中等,8190分为良好,90分以上为优秀。但是,在很多情况下,分组界限难以确定,各组之间的界限也具有相对性。在确定具体的分组界限时,可以把计算的方便和分组方法的规范、统一等因素考虑进去,在区分性质差别的前提下,尽量按整数或整倍数的形式确定分组界限。拓展阅读分组界限的确定 4.统计分组的方法统计分组可分为单项式分组和组距式分组2种方法。(1)单项式分组。单项式分组是指在变量分组时,一个变量值设为一个组。采用这种分组方法时多用于离散型变量,离散型变量只取整数,组与组之间自然断开。如果是连续型变量,则只
35、有在特殊情况下才可以进行单项式分组(如年龄),如表10-11所示。表10-11 单项式分组离散型变量也不是在任何情况下都可以进行单项式分组的。从分组的科学性、合理性来讲,只有当离散型变量取值连续不断且变量取值不多的情况下,才可以做单项式分组,如表10-12所示。表10-12 车间基于工作绩效的工人分组表(2)组距式分组。组距式分组往往是用一段变量值设为一组的分组方式。连续型变量进行分组时,一般只能做组距式分组,而离散型变量可以采用单项式分组,也可以采用组距式分组。表10-13所示为组距式分组。表10-13 组距式分组(二)次数分布 1.次数分布的概念次数分布是指在统计分组基础上所形成的总体各单
36、位在各个组的分配结果。它显示出总体在分组标志上的数量分布状况。分布数列包括2个要素:一是按分组标志划分的各个组;二是各个组的单位个数。当分组确定之后,对定量资料进行汇总的工作就进入到总体单位在各组间的归属或分配的阶段。从最终的整理结果来看,各组的单位个数也可以说是总体单位在各组出现的次数。所以,各个组的单位个数也叫作次数,次数分布也叫作分配数列、分布数列、次数分配等。次数分布是对总体进行结构、比例等统计分析的直接依据,也是对总体进行其他分析的重要基础。因此,了解和掌握次数分布的有关理论,对于今后学习定量资料的统计分析方法具有重要意义。2.次数分布的编制次数是次数分布的两个基本要素之一,也是认识
37、和分析总体分布规律和特征的主要的、直接的依据和基础。各个组的次数有两种表示方式:一是用绝对数形式直接表示各个组的单位个数(频数);二是用相对数形式来表示次数(频率)。频率是各组次数与总体单位总个数相比得到的结果,对比结果一般用百分数的形式表示。其计算公式为(10-1)向上累计是指从最小标志值向最大标志值的方向累计的方法。这样累计的每一个结果都可以直接说明在某一个标志值以下共有多少个单位或次数。因此,向上累计也叫作以下累计。如表10-14所示,月工资在3 000元以下的有670人,占67。表10-14 某厂工人月工资收入累计次数及累计频率表向下累计是指从最大标志值向最小标志值的方向累计的方法。这
38、样累计的每一个结果都可以直接说明在某一个标志值以上共有多少个单位或次数。因此,向下累计也叫作以上累计。如表10-14所示,月工资在2 500元以上的有680人,占68。具体来说,编制次数分布共需以下4个步骤:(1)确定组数。一组数据的分组数量一般与数据本身的特点及数据的多少有关。由于分组的目的之一是为了观察数据分布的特征,因此组数的多少应适中。如果组数太少,数据的分布就会过于集中;组数太多,数据的分布就会过于分散。这都不利于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按斯特奇斯(Sturges)提出的经验公式来确定组数k,即其中k为经验公式确定
39、的组数,n为数据的个数。对结果四舍五入取整数即为组数。(10-2)当然,这只是一个经验公式。在实际应用时,可根据数据的多少和特点及分析的要求参考这一标准灵活确定组数。(2)确定各组的组距。等距式分组情况下计算组距的公式为组距需对计算的结果取整数或整倍数。(10-3)(3)根据分组整理成次数分布表,如表10-15所示。表10-15 某工厂工人月工资收入次数分布(4)用Excel制作成直方图。直方图是常用于等距次数分布的一种统计资料表示方法。每一条直方的宽度即为组距,高度即为次数,如图10-3所示。图10-3 直方图(三)统计表的编制统计表是显示定量数据的基本工具,它能把杂乱的数据有条理地组织在一
40、张简明的表格内,使这些数据变得一目了然、清晰易懂。1.统计表的构成图10-4反映了统计表的不同构成要素,借用此图来对统计表的构成和制作规范进行详解。图10-4 统计表的构成要素说明纵栏标题。横行标题。统计(数字)资料。表外附加。表头。(1)从结构来讲,统计表由以下5个部分构成:(2)从反映的内容来看,统计表由以下2个部分构成:主词。它是统计资料所属的统计总体、总体的各个组或各个单位的名称,表示统计研究的对象,一般位于表的左边。宾词。它是用来说明主词的各个指标名称及指标值的,一般在主词的右边按一定顺序横向排列。统计表通常按上述格式编制,如果与版面不协调,也可以把主词与宾词的位置进行互换。2.统计
41、表的种类按主词的分组程度划分,统计表可分为以下3类:(1)简单表。简单表是指主词不经任何分组,仅列出总体各单位的名称或按时间顺序简单排列,或者同时反映以上内容的统计表。表10-16就是简单表。表10-16 我国农村信用社连续6年存贷情况(2)简单分组表。它是指将主词按一个分组标志进行简单分组的统计表,如表10-17所示。表10-17 某企业100名工人生产情况(3)复合分组表。它是指将主词按两个或两个以上标志分组的统计表,如表10-18所示。表10-18 某医院从业人员统计表 3.统计表编制的一般原则统计表是表现、承载统计资料的最广泛形式。设计统计表的基本要求是科学、合理、清晰、方便。按照这一
42、基本要求,统计表的编制应该注意以下规则:(1)统计表的外形设计要美观。在版面允许的情况下,要尽可能照顾到视觉习惯以保持统计表的美观外形。当然,这要根据总体大小、指标多少而定。(5)统计表中各纵列须合计时,一般应将合计列在最后一行;而各横行若须合计,则可将合计列在最前一栏或最后一栏。(6)统计表中的数字资料应填写整齐、规范,表中的数字资料部分不允许空格。当数字为“0”时,“0”要写出;当缺少某项数字资料或待查时,可用符号“”表示表示;不存在数据的表格划“”表示。(7)统计表必须注明计量单位。当表中数据资料的计量单位完全一样时,计量单位应写在表的右肩上方。如果计量单位不完全一样,则横行的计量单位可
43、以专设一个计量单位栏目;纵栏的计量单位一般与纵栏标题(指标)写在一起。(8)当统计表的栏目较多时,可以加以编号。主词部分一般是总体、各个单位、部分的文字名称,可以用甲、乙、丙等文字排序区分;宾词部分一般是指标名称、对应的数字资料,可以用、等数字排序区分;各指标之间如果有对应的计算关系,还可以用数字序号把计算关系表示出来,如“=”。(9)统计表的内容若遇到特殊情况,如个别指标的统计口径与整个栏目不一致,个别指标的具体计算方法与整个栏目不一致,个别资料不完整,等等,这类问题应在表后分别加以注释、说明。(四)统计图的绘制统计图是资料直观的表现形式,可以将复杂的数据用生动的图形表现出来。它和统计表一样
44、,不需要文字叙述,就能反映出资料的特性及资料之间的关系。同时还具有比统计表更为直观与形象的特点。但缺点是不及统计表精确。统计图主要有条形图、圆形图、环形图、折线图、曲线图等种类。根据变量的层次,市场调查者撰写调查报告时可选择不同的统计图形:定类变量可选择条形图和圆形图;定序变量可选择条形图;定距变量或定比变量可选择直方图、折线图和曲线图。1.条形图条形图是用宽度相同的条形的高度或长短来表示数据大小或变动的图形。条形图可以横置或纵置,纵置时也称为柱形图。条形图有单式条形图和复式条形图。(1)单式条形图。单式条形图是以若干间距相等的单一条形的高低或长短来表示数据大小或变动的一种条形图。根据表10-
45、19使用Excel绘制的单式条形图如图10-5所示。表10-19 中国历届夏季奥运会金牌数目图10-5 中国历届夏季奥运会金牌数目条形图(2)复式条形图。复式条形图是由两个或两个以上的条形为一组来进行相互比较的一种条形图。根据表10-20数据绘制的复式条形图如图10-6所示。表10-20 世界三大零售业公司年销售额图10-6 世界三大零售业公司年销售额复式条形图 2.圆形图圆形图也称饼形图,是用圆形及圆内扇形的面积来表示统计数据的一种图形。圆形图主要用于表示总体各组成部分在总体中所占的比例,以反映现象总体的内部结构及其变化,对于研究结构问题十分有用。在绘制圆形图时,每个圆形的面积代表100,各
46、组成部分在总体中所占的百分比用圆内的各个扇形的面积表示,用各组成部分在总体中所占的百分比分别乘以360来确定这些扇形的中心角度,以分割圆内总面积。根据表10-21的数据使用Excel绘制的圆形图如图10-7所示。表10-21 我国土地地形构成状况图10-7 我国土地地形构成状况圆形图 3.环形图环形图与圆形图有一些类似的地方,但又有区别。如环形图中间有一个“空洞”,总体中每一个组成部分的数据是用环中的一段表示的。另外,圆形图只能表示一个总体各组成部分在总体中所占的比例,而环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。因此环形图可以显示多个总体的各个组成部分在总体中所占的
47、相应比例,从而有利于进行比较研究。根据表10-22的数据绘制的北京、天津、河北三省市6岁及6岁以上人口受教育程度环形图如图10-8所示。图10-8 三省市6岁及6岁以上人口受教育程度环形图 4.折线图折线图是用直线段将各数据点连接起来而组成的图形,其以折线的方式显示数据的变化趋势。图10-9即为折线图。图10-9 全国居民消费价格涨跌幅 5.曲线图曲线图是指利用曲线的升降变化来显示所研究对象发展变化趋势的一种图形,它主要用于研究分析社会经济现象的发展变化及社会经济现象之间的依存关系等。图10-10即为曲线图。图10-10 19522014年我国国内生产总值曲线图定性资料是指调查研究者从实地研究
48、中所得到的各种以文字、符号表示的观察记录、访谈笔记,以及其他类似的记录材料。定性资料的整理是为寻求和识别资料中所隐含的模式提供基础的,它使调查研究者从对事件或社会背景的描述发展到对其含义进行更为一般的说明。定性资料的整理工作要经过审查、分类、汇总和编码、绘制概念图4个步骤。定性资料的审查 一、所谓定性资料的审查,指是通过仔细推究和详尽考察来判断、确定定性资料的真实性和适用性的过程。(一)定性资料的真实性审查定性资料本身的真实性审查定性资料内容的可靠性审查定性资料的真实性审查也称信度审查,其包括两个方面:1.定性资料本身的真实性审查定性资料本身的真实性审查是指通过细究和考察以判明调查所得的文献资
49、料、观察和访问记录等资料本身的真伪。它一般采用以下2种方法:(1)外观审查。外观审查即从文献资料的作者、编者、出版者、版本、印刷技术、纸张等外在情况来判断文献的真伪。(2)内涵审查。内涵审查即从文献资料的内容,使用的词汇、概念,写作技巧和风格等内在情况来判断文献的真伪。观察和访问记录等资料的真实性审查,还可从记录时间、地点、内容、语言、字迹和使用墨水等情况来判断其真伪。例如,那些内容贫乏、时间重叠或不填时间、语言雷同、字迹和墨水相同的记录,就可能是调查者伪造的记录。2.定性资料内容的可靠性审查定性资料内容的可靠性审查是指通过细究和考察以判明定性资料内容是否真实地反映了调查对象的客观情况。它一般
50、采用以下4种方法:(1)根据以往实践经验和常识来判断文献内容的可靠性。如果发现资料中有明显违反实践经验和常识的内容,那么就应该重新调查或核实。(2)根据文献内在逻辑来检验资料的可靠性。如果发现文献内容有逻辑矛盾,或者违背了事物发展的逻辑,那么就应对这些资料重新核实,剔除不符合事实的部分。(3)根据文献来源来判断资料的可靠性。一般地说,当事人反映的情况比局外人反映的情况可靠性大一些,多数人反映的情况比少数人反映的情况可靠性大一些,有文字记录的情况比口耳相传的情况可靠性大一些,引用率高的文献比引用率低的文献可靠性大些。(4)根据多种来源的文献进行对比审核。例如,对访谈资料与观察记录进行对比审核;对