第八章资料处理-史亚蕾-课件.ppt

上传人(卖家):晟晟文业 文档编号:4960245 上传时间:2023-01-28 格式:PPT 页数:57 大小:862KB
下载 相关 举报
第八章资料处理-史亚蕾-课件.ppt_第1页
第1页 / 共57页
第八章资料处理-史亚蕾-课件.ppt_第2页
第2页 / 共57页
第八章资料处理-史亚蕾-课件.ppt_第3页
第3页 / 共57页
第八章资料处理-史亚蕾-课件.ppt_第4页
第4页 / 共57页
第八章资料处理-史亚蕾-课件.ppt_第5页
第5页 / 共57页
点击查看更多>>
资源描述

1、调查资料的整理的主要内容调查资料的整理的主要内容 原始资料的审核和复查原始资料的审核和复查1 数据清理数据清理3 统计表与统计图统计表与统计图4 资料转化与录入资料转化与录入21 1、资料的审核、资料的审核 定义定义:它是指研究者对调查所收集回的原始资料:它是指研究者对调查所收集回的原始资料(主要是问卷)进行初步的审查和核实,校正错(主要是问卷)进行初步的审查和核实,校正错填、误填的答案,剔除乱填、空白和严重缺答的填、误填的答案,剔除乱填、空白和严重缺答的废卷废卷目的目的:使得原始资料具有较好的准确性、完整性和:使得原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理录入与统计分析工真

2、实性,从而为后续资料整理录入与统计分析工作打下较好的基础。作打下较好的基础。检查出文件资料中存在的问题检查出文件资料中存在的问题重新向被调查者核实重新向被调查者核实 资资料料的的审审核核工工作作实地审核:在调查的过程中进行,即边调查实地审核:在调查的过程中进行,即边调查边审核边审核n优点:特别及时,且效果较好;优点:特别及时,且效果较好;n缺点:要求调查工作的组织和安排要特别缺点:要求调查工作的组织和安排要特别仔细,调查员个人处理各种情况的能力要比仔细,调查员个人处理各种情况的能力要比较强较强n集中审核:先将调查资料全部收集回来,然集中审核:先将调查资料全部收集回来,然后再集中时间进行审核后再

3、集中时间进行审核n优点:调查工作便于统一组织安排和管理,优点:调查工作便于统一组织安排和管理,审核工作也可以统一在研究者的指导下进行,审核工作也可以统一在研究者的指导下进行,审核的标准比较一致,检查的质量也相对好一审核的标准比较一致,检查的质量也相对好一些;些;n缺点:整个调查工作的周期则会相对拉长,缺点:整个调查工作的周期则会相对拉长,少数个案的重新询问和核实工作有时因时间相少数个案的重新询问和核实工作有时因时间相隔较长或调查地点较远而无法落实。隔较长或调查地点较远而无法落实。2、资料的复查、资料的复查定义:指的是研究者在调查资料收回后,又由其他定义:指的是研究者在调查资料收回后,又由其他人

4、对所调查的样本中的一部分个案进行第二次调人对所调查的样本中的一部分个案进行第二次调查,以检查和核实第一次调查的质量查,以检查和核实第一次调查的质量基本做法:从原来的调查员所调查过的样本中,随基本做法:从原来的调查员所调查过的样本中,随机抽取机抽取5%-15%5%-15%的个案重新进行调查的个案重新进行调查调查内容:一方面核实原来的调查员是否真的对个调查内容:一方面核实原来的调查员是否真的对个案进行过调查;另一方面可将两次调查的结果进案进行过调查;另一方面可将两次调查的结果进行对比,以检查第一次调查的质量行对比,以检查第一次调查的质量通过审核和复查,研究者可以发现并纠正原通过审核和复查,研究者可

5、以发现并纠正原始资料中所存在的一些错误,可以剔除一些始资料中所存在的一些错误,可以剔除一些无法进行再调查但又有明显错误的问卷,还无法进行再调查但又有明显错误的问卷,还可以普遍了解整个资料收集工作的质量,从可以普遍了解整个资料收集工作的质量,从而对资料的真实性和准确性具有更大的信心。而对资料的真实性和准确性具有更大的信心。1 1、问卷资料转换、问卷资料转换编码手册:为了减少资料转换工作中的误差,编码手册:为了减少资料转换工作中的误差,保证数据的质量,研究者需要编制一份编码手保证数据的质量,研究者需要编制一份编码手册(也称编码簿)发给从事问卷资料转换工作册(也称编码簿)发给从事问卷资料转换工作的人

6、员,以便他们按编码手册的要求,统一进的人员,以便他们按编码手册的要求,统一进行资料转换工作行资料转换工作在编码手册中,研究者要将需要编码的项目在编码手册中,研究者要将需要编码的项目和问题一一列出,逐一规定它们的代码、宽和问题一一列出,逐一规定它们的代码、宽度、栏码、简要名称、答案赋值方式及其他度、栏码、简要名称、答案赋值方式及其他特殊规定等等。整个编码手册的格式要规范特殊规定等等。整个编码手册的格式要规范统一,指示要明确,且容易理解,便于操作。统一,指示要明确,且容易理解,便于操作。“项目名称项目名称”所列的是问卷中的问题或有关项目;所列的是问卷中的问题或有关项目;“变量名变量名”则是调查问卷

7、中所实际测量的一个变量;则是调查问卷中所实际测量的一个变量;“含义含义”是简要地指出该变量的内涵,它往往是变是简要地指出该变量的内涵,它往往是变量的核心内容的反映;量的核心内容的反映;“答案赋值答案赋值”一项十分关键,它可以说是编码手册一项十分关键,它可以说是编码手册的真正内容。在这一栏中,研究者要详细地标明每的真正内容。在这一栏中,研究者要详细地标明每一种答案的赋值安排,以及某些特殊形式的答案赋一种答案的赋值安排,以及某些特殊形式的答案赋值方法值方法 2 2、数据录入、数据录入经过前述的资料转换处理,调查所收回的问经过前述的资料转换处理,调查所收回的问卷中的一个个具体答案都已成功地、系统地卷

8、中的一个个具体答案都已成功地、系统地转换成了由转换成了由0-90-9这这1010个阿拉伯数字构成的数码,个阿拉伯数字构成的数码,接下来的任务就是将这些数码输入计算机内,接下来的任务就是将这些数码输入计算机内,以便进行统计分析了。这就是数据录入的工以便进行统计分析了。这就是数据录入的工作作数据录入的方式主要有两种:数据录入的方式主要有两种:一种是直接从问卷上将编好码的数据输入计一种是直接从问卷上将编好码的数据输入计算机;算机;另一种是先将问卷上编好码的数据转录到专另一种是先将问卷上编好码的数据转录到专门的登录表上,然后再从登录表上将数据输门的登录表上,然后再从登录表上将数据输入计算机。登录表的横

9、栏为问题及变量名,入计算机。登录表的横栏为问题及变量名,且都有给定的栏码,纵栏为不同的个案记录且都有给定的栏码,纵栏为不同的个案记录数据数据目前运用较普遍的统计分析软件主要有目前运用较普遍的统计分析软件主要有SPSS,SASSPSS,SAS等,尤其是等,尤其是SPSSSPSS应用更为广泛。应用更为广泛。从目前情况看,研究者主要采用两种方法来从目前情况看,研究者主要采用两种方法来输入数据。一种方法是直接在输入数据。一种方法是直接在SPSSSPSS软件上输软件上输入数据。另一类是采用比较专门的数据库管入数据。另一类是采用比较专门的数据库管理软件,如理软件,如FOXBASE,ExcelFOXBASE

10、,Excel等,两种方法各有等,两种方法各有特点特点在在SPSSSPSS中输入比较直观,打开中输入比较直观,打开SPSSSPSS后,显示后,显示的是一个数据录入窗口,每一个纵栏表示一的是一个数据录入窗口,每一个纵栏表示一个变量,每一横行代表一个个案。个变量,每一横行代表一个个案。输入前需要定义变量,做法是先用鼠标点击输入前需要定义变量,做法是先用鼠标点击表下面的表下面的Variable viewVariable view,进入到到变量定义,进入到到变量定义窗口(横行上面分别为变量名、变量类型、窗口(横行上面分别为变量名、变量类型、变量宽度、小数点位数、变量标签等、纵栏变量宽度、小数点位数、变量

11、标签等、纵栏的的1 1、2 2、3 3等表示个案)再用鼠标点击表下方等表示个案)再用鼠标点击表下方Data viewData view,返回数据录入窗口。,返回数据录入窗口。这时就可以第一行开始,直接将每一个个案这时就可以第一行开始,直接将每一个个案的数据逐行一个一个地敲到方格中,数据录的数据逐行一个一个地敲到方格中,数据录完后存盘。然后就可以随时调用作分析了。完后存盘。然后就可以随时调用作分析了。但是,直接输入有时候很容易出错,且输入但是,直接输入有时候很容易出错,且输入时也不容易发现;时也不容易发现;而另一类专门性的数据库管理软件则往往更而另一类专门性的数据库管理软件则往往更能保证输入的正

12、确性,更能减少输入数据时能保证输入的正确性,更能减少输入数据时产生的差错产生的差错由于一项问卷调查的数据总量(每份问卷的由于一项问卷调查的数据总量(每份问卷的栏码总数乘以全部问卷,即为输入数码或字栏码总数乘以全部问卷,即为输入数码或字符总数)往往是很大的,故实践中常常是有符总数)往往是很大的,故实践中常常是有多人共同输入来完成的。多人共同输入来完成的。因此,研究者必须对数据的输入工作进行精因此,研究者必须对数据的输入工作进行精心组织和安排。具体说来,他要做好以下几心组织和安排。具体说来,他要做好以下几方面工作:方面工作:挑选和培训输入人员。数据输入人员应该挑选和培训输入人员。数据输入人员应该是

13、熟悉计算机操作,熟悉调查问卷的人,通是熟悉计算机操作,熟悉调查问卷的人,通常可从大学生调查员中挑选。对选出的录入常可从大学生调查员中挑选。对选出的录入人员要进行一定的培训,熟悉输入方式和具人员要进行一定的培训,熟悉输入方式和具体软件,并合理分工和加强管理。体软件,并合理分工和加强管理。统一规定数据输入格式和数据文件名。由统一规定数据输入格式和数据文件名。由于多人输入,每个输入人员应采取统一的输于多人输入,每个输入人员应采取统一的输入格式,并各自规定自己存放数据的文件名,入格式,并各自规定自己存放数据的文件名,以防与他人输入的数据格式不同或发生混淆以防与他人输入的数据格式不同或发生混淆和丢失。尤

14、其是输入格式一旦确定,每个输和丢失。尤其是输入格式一旦确定,每个输入人员都必须严格遵守执行,否则以后很难入人员都必须严格遵守执行,否则以后很难处理,这一点十分关键。处理,这一点十分关键。每个输入人员独立完成各自所输的那一部每个输入人员独立完成各自所输的那一部分问卷,不同输入人员的问卷相互之间,以分问卷,不同输入人员的问卷相互之间,以及同一个输入人员已输和未输的问卷之间,及同一个输入人员已输和未输的问卷之间,千万不要混淆搞乱,以免造成漏输或重复输千万不要混淆搞乱,以免造成漏输或重复输入,影响数据质量。入,影响数据质量。在每个输入人员完成各自所负责的问卷输在每个输入人员完成各自所负责的问卷输入任务

15、后,由研究者把他们的数据合起来形入任务后,由研究者把他们的数据合起来形成一个总的数据文件,以供统计分析时调用。成一个总的数据文件,以供统计分析时调用。1 1、有效范围清理、有效范围清理对于问卷中的任何一个变量来说,它的有效对于问卷中的任何一个变量来说,它的有效的编码值往往都有某种范围,而当数据中的的编码值往往都有某种范围,而当数据中的数字超出了这一范围时,可以肯定这个数字数字超出了这一范围时,可以肯定这个数字一定是错误的一定是错误的当然,这种错误数字的出现可以发生在资料处当然,这种错误数字的出现可以发生在资料处理的每一个阶段。理的每一个阶段。首先,发生在原始问卷中的回答上;首先,发生在原始问卷

16、中的回答上;其次,发生在编码员对问卷的编码结果上;其次,发生在编码员对问卷的编码结果上;第三,发生在计算机录入员输入数据的过程中。第三,发生在计算机录入员输入数据的过程中。要检查出所有不符合要求的超出有效范围的要检查出所有不符合要求的超出有效范围的编码值,我们只需在计算机上用编码值,我们只需在计算机上用SPSSSPSS软件软件(或其他软件)执行一条统计各变量频数分(或其他软件)执行一条统计各变量频数分布的命令,计算机很快就给出下列形式的结布的命令,计算机很快就给出下列形式的结果:果:找有问题的个案的方法同样离不开计算机及找有问题的个案的方法同样离不开计算机及SPSSSPSS软件的运用。在软件的

17、运用。在SPSSSPSS软件中,我们先打软件中,我们先打开数据文件,然后执行开数据文件,然后执行“查找数据查找数据”命令。命令。选择数据中的选择数据中的A5A5栏,让计算机逐个查找在这栏,让计算机逐个查找在这一变量栏中编码值为一变量栏中编码值为6 6的那的那9 9个个案。再根据个个案。再根据这这9 9个个案的编号找出原始问卷,进行核对个个案的编号找出原始问卷,进行核对如果原始问卷上的回答是如果原始问卷上的回答是2 2,而编码为,而编码为6 6,则,则是编码员的错误,将数据中的这个是编码员的错误,将数据中的这个6 6改为改为2 2即即可;可;如果原始问卷上是如果原始问卷上是2 2,编码也是,编码

18、也是2 2,则是录入,则是录入员的错误,也直接将数据改正即可;员的错误,也直接将数据改正即可;如果核对时,发现是原始问卷中的填答错误,如果核对时,发现是原始问卷中的填答错误,则只能将该个案在这一变量上的回答记为则只能将该个案在这一变量上的回答记为0 0(即无回答),作为缺省值处理(即无回答),作为缺省值处理2 2、逻辑一致性清理、逻辑一致性清理其基本思路是依据问卷中的问题相互之间所其基本思路是依据问卷中的问题相互之间所存在的某种内在的逻辑联系,来检查前后数存在的某种内在的逻辑联系,来检查前后数据之间的合理性。据之间的合理性。比如,一项对青年夫妇进行的社会调查中,有这样比如,一项对青年夫妇进行的

19、社会调查中,有这样一对相倚问题。其过滤性问题是:一对相倚问题。其过滤性问题是:“你们有孩子你们有孩子吗?吗?”答案为答案为“有(编码为有(编码为 1 1”和和“没有(编码为没有(编码为2 2 。而后续性问题是:。而后续性问题是:“请问你们的孩子今年多大请问你们的孩子今年多大了?了?”那么,对于那些在前一问题中的回答那么,对于那些在前一问题中的回答“没有没有”的人(即编码为的人(即编码为2 2的人),在后一问题中的回答应该的人),在后一问题中的回答应该是空白(即为缺省值是空白(即为缺省值,用用0 0表示表示 )。如果在这些人中,)。如果在这些人中,有的人的第二个答案上出现了有的人的第二个答案上出

20、现了4 4、6 6等数字,则这些等数字,则这些个案的数据就可能有毛病个案的数据就可能有毛病3 3、数据质量抽查、数据质量抽查采用随机抽样的方法,从样本的全部个案中,采用随机抽样的方法,从样本的全部个案中,抽取一部分个案,进行校对工作。用这一部抽取一部分个案,进行校对工作。用这一部分个案校对的结果,来估计和评价全部数据分个案校对的结果,来估计和评价全部数据的质量。根据样本中个案数目的多少,以及的质量。根据样本中个案数目的多少,以及每份问卷中变量数和总字符数的多少,研究每份问卷中变量数和总字符数的多少,研究者往往抽取者往往抽取2%-5%2%-5%的个案进行校对的个案进行校对一项调查样本规模为一项调

21、查样本规模为10001000个个案,一份问卷个个案,一份问卷的字符数(数据的个数)为的字符数(数据的个数)为200200。研究者从中。研究者从中随机抽取随机抽取3%3%的个案(即的个案(即3030份问卷)进行对照份问卷)进行对照检查,结果发现有检查,结果发现有2 2个字符输入错误,这样可个字符输入错误,这样可知错误率在知错误率在0.03%0.03%左右。也就是说在总共左右。也就是说在总共2020万万个数据中,大约有个数据中,大约有6060个左右的错误。个左右的错误。1 1、统计表的构成与制作、统计表的构成与制作(1 1)统计表的构成)统计表的构成从统计表的结构上看,通常都由表号、总标从统计表的

22、结构上看,通常都由表号、总标题、横行标题、纵栏标题、数字注释和资料题、横行标题、纵栏标题、数字注释和资料来源等要素所构成来源等要素所构成表号:表的序号,位于表顶端左角。其作用表号:表的序号,位于表顶端左角。其作用是便于指示和查找是便于指示和查找总标题:是表的名称,它位于表的顶端,紧总标题:是表的名称,它位于表的顶端,紧接在表号后面。接在表号后面。横行标题:是横行的名称,又称横标目。它横行标题:是横行的名称,又称横标目。它位于表的左侧,对于频数统计表来说,横行位于表的左侧,对于频数统计表来说,横行标题一般用来统计所要说明的主题;而对于标题一般用来统计所要说明的主题;而对于交互分类统计表来说,则表

23、示其中一个变量交互分类统计表来说,则表示其中一个变量类别类别纵栏标题:是纵栏的名称,又称纵标目,位纵栏标题:是纵栏的名称,又称纵标目,位于表的最上一格。对于一般的频数统计表,于表的最上一格。对于一般的频数统计表,它指示调查指标或统计指标的名称;而对于它指示调查指标或统计指标的名称;而对于交互分类表来说,它也是表示其中的一个变交互分类表来说,它也是表示其中的一个变量的类别量的类别数字:是统计表的实质性内容,是对调查资数字:是统计表的实质性内容,是对调查资料进行统计汇总、整理和计算的结果体现。料进行统计汇总、整理和计算的结果体现。它位于由横行标题与纵栏标题所包围的范围它位于由横行标题与纵栏标题所包

24、围的范围中。中。注释或资料来源是对表中资料的一种说明,注释或资料来源是对表中资料的一种说明,位于表的下端。位于表的下端。(2 2)统计表的制作)统计表的制作统计表制作原则是:科学、规范、简明、实统计表制作原则是:科学、规范、简明、实用、美观。具地说,在制作统计表时,应注用、美观。具地说,在制作统计表时,应注意以下几个方面:意以下几个方面:首先,表的标题要简短明了,首先,表的标题要简短明了,其次,表的纵栏标题与横行标题要准确反映其次,表的纵栏标题与横行标题要准确反映变量取值的含义,变量取值的含义,第三,表中的数据资料必须注明计量单位,第三,表中的数据资料必须注明计量单位,第四,对于一般频数分布表

25、,则应列出合计第四,对于一般频数分布表,则应列出合计栏,以便获得整体情况的资料。总计或合计栏,以便获得整体情况的资料。总计或合计栏往往放在表的最下一格;对于交互分类表,栏往往放在表的最下一格;对于交互分类表,则将各种专门的统计量放在表的最下面一格则将各种专门的统计量放在表的最下面一格最后,各种表格均应以横线为主,能够不用最后,各种表格均应以横线为主,能够不用竖线则尽量不用。即便需要用竖线的表格,竖线则尽量不用。即便需要用竖线的表格,也应是开口式的,即表的左右两端不划竖线也应是开口式的,即表的左右两端不划竖线在不致混淆的情况下,也可将其竖线去掉,在不致混淆的情况下,也可将其竖线去掉,成为以下形式

26、成为以下形式而交互分类表则可制成以下表而交互分类表则可制成以下表8-78-7形式形式除表的最上面一条横线与最下面一条横线用除表的最上面一条横线与最下面一条横线用粗线外,其余横线均用细线粗线外,其余横线均用细线2 2、统计图、统计图统计图具有直观、形象、一目了然、通俗易统计图具有直观、形象、一目了然、通俗易懂的特点,它主要用于调查资料初级统计结懂的特点,它主要用于调查资料初级统计结果的描述,特别适合于对调查总体的内部构果的描述,特别适合于对调查总体的内部构成进行描述,对不同现象的分布进行比较以成进行描述,对不同现象的分布进行比较以及对现象变化的趋势进行展示等。及对现象变化的趋势进行展示等。统计图

27、主要有条形图、圆形图和折线图三种统计图主要有条形图、圆形图和折线图三种(1 1)条形图)条形图条形图又称矩形图,它是以宽度相等、长度条形图又称矩形图,它是以宽度相等、长度不等的长条来表示不同的统计数字,如表示不等的长条来表示不同的统计数字,如表示频数或百分比的多少等等频数或百分比的多少等等简单条形图简单条形图复杂条形图:复杂条形图:(2 2)圆形图)圆形图又称扇形图,它是以圆内不同扇形面积的大又称扇形图,它是以圆内不同扇形面积的大小来表示总体中不同部分所占的比重,形象小来表示总体中不同部分所占的比重,形象地反映总体的内部结构。由于一个圆的圆心地反映总体的内部结构。由于一个圆的圆心角度数为角度数为360360,用,用360360乘以每一部分所占的百乘以每一部分所占的百分比,即可得出该部分的圆心角度分比,即可得出该部分的圆心角度 角度数为角度数为数,再在圆中按这些角度画出各个不同的扇数,再在圆中按这些角度画出各个不同的扇形形它是通过上下变化的线段来反映所研究现象它是通过上下变化的线段来反映所研究现象随时间变化的过程和发展趋势的图形,包括随时间变化的过程和发展趋势的图形,包括单式曲线图和复式曲线图。单式曲线图和复式曲线图。谢谢 谢谢 大大 家家 !

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第八章资料处理-史亚蕾-课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|