1、12 数据录入的意义和目的 数据录入的概念 数据录入的原则 数据录入的要求 数据录入的流程 数据录入的职责3 可以通过计算机进行统计分析;数据是进行数据分析的基础;数据质量的好坏直接关系到统计分析的效果;可以缩短整个项目的时间。4 数据录入是指将已通过数字化和必要的加工过程处理过的数字、代码、文字、图像等各种信息内容输入电脑,形成可以进行数据统计分析的过程;5 通过特定的数据录入格式;使用统一的数字、符号;文字或表格录入应使用统一的字体、大小及排列方式;6 准确 速度 熟悉常规办公软件的操作 对行业内部运作和基础知识有一定的认识7录入员培训正式录入录入完毕项目立项项目通知书项目预备会项目预算录
2、入员招集定义数据格式试录入修改试录抽查双输不合格提交数据项目决算录入员评估8 每个项目要有数据录入负责人;定义数据格式由数据录入负责人进行;数据录入员由数据录入负责人负责培训,并确保接受培训的数据录入员是合格的;数据录入负责人负责抽审数据录入情况;确保数据录入准确率达99%以上并提交程序员进行数据查错;9 什么是COLUMN位置?DEFINE命令的使用 PUNCH命令的使用 质量控制 如何进行双输10 Column是为数据程序与问卷答案之间提供一个链接的桥梁;是数据录入期间为问卷答案与数据储存之间提供一个绝对位置;是唯一的,也是相对应的;11当前光标位置问卷编号卡位号Column211时的位置
3、12 定义数据格式是将大量的数据和信息连接在一起,并将其转变成为有效而可作分析用途的过程之一;熟悉问卷是数据格式定义与录入的前提。在定义数据格式之前,首先就是要分清楚问卷中的题型及属性:是封闭题还是开放题?是单选题还是复选题?是否必选题?同时,要着重理解每一道题的题意以及题目之间的逻辑关系。然后,根据每道题来定义格式。由于录入软件是运行在DOS状态下,由于DOS的显示方式为 25行*80列,因此软件亦限制了在每行可供录入的数据不 得超过80列;一份数据通常会以多行(卡位card)来储存;13 定义数据格式时,常规默认的定义一般习惯性地定义 14位数为问卷号,第5位留空(以备问卷份数达万位);6
4、7位数为卡位号,第一个卡号为01);1080位数为问卷答案数据的储存区域;但要注意每一行Column的最大范围是不会超过80个字符的;1 2 3 4 5 6 7 8 9 10 40 80 问卷编号 卡位号 答案录入区域14 卡位总数 当前数据卡位 当前光标column位置问卷编号 卡位号 数据储存区域由此得出:完整的column卡位(1-3位)+列数(2位)15q 执行命令q define 盘符 路径 q 软件界面指令:q S 单选q M 复选q F 必选q V 自定义录入数值范围q O 编辑说明q Esc键 定义固定值q X 删除指定选项q Q 不保存退出(完成编辑后其后缀名为:.msk)J
5、 设置跳转条件C 拷贝.#设置录入column区域U 删除当前ColumnI 插入一个ColumnL 删除当前编辑窗口卡位S h i f t+复 制 前 一 个Column 的数据定义格式S h i f t+复 制 后 一 个Column 的数据定义格式1617进入后需要进行初始化设置:Start end position of the personal identification:不用定义,回车跳过;Start end position of the personal number:1,4定义问卷号所在位置Start end position of card type:6,7定义卡位号所在
6、位置;Ranking and characters of the numeric symbols:1234567890-&定义Column数据格式和顺序Number of the first card:1定义起始卡位号;Number of cards for automatic saving:1定义自动存盘;18 每个column可输入12种代码,分别为:1234567890-&;通常0代表10,-代表X,&代表Y;自动保存设置值通常为一份数据最大的卡位数,若卡位数太大则以1/2或1/3为最佳值;19定义跳转的定义跳转的column位置位置定义当前位置可定义当前位置可录入的代码范围录入的代码范
7、围定义选项定义选项自动递增自动递增每个column必须设置可录入的代码范围,可减少录入人员在输入时发生的手误;通常只有问卷号设置成自动递增;每个卡位的卡位数值必须设定固定置;无论定义还是录入时必须习惯校对当前column位置是否正确;此卡的固定卡位数值此卡的固定卡位数值当前当前column位置位置20单选题若没有逻辑关系,必须定义s和f;若有逻辑关系,则必须定义s,f则不定义;若为不连贯答案,则必须以v定义录入答案范围;2122复选题若没有逻辑关系,且此题占用单column时,必须定义m和f;若没有逻辑关系,且此题占用多column时,则只定义m;若有逻辑关系,则只定义m;若为不连贯答案,则必
8、须以v定义录入答案范围;232425开放题及数值型题目若没有逻辑关系,第一组答案必须定义为必选f,且此题 column段为单选s;若有逻辑关系,则只定义s;可用字段标识符.#划分录入字符段;优势与劣势开放题及数值型题目录入时,若使用标识符.#划分字符段,每输入完一个答案必须按方向键才可进入下个答案区域继续录入,可提高录入准确率,但速度较慢;若采用单选s定义,在录入时可提高录入速度,但准确率会降低;2627 可按实际情况及要求自定义;Define是为录入员提供准确、方便、快捷的录入方式;为统一单份数据的读取方式;减少录入期间错误的机率;28在数据格式定义好之后,问卷录入之前,录入督导必须进行两至
9、三份不同类型或跳问关系的问卷试录入;在column号上加上相应题号的注释,是在录入过程中为录入员提供校对位置的最佳方法;检查各逻辑、跳问关系、必选及单复选设置是否正确;检查各column录入范围是否恰当;一个好的数据格式定义直接影响到数据录入的质量及效率;29 必须熟悉问卷;必须熟悉各类型题型的分布及答案的类型;掌握不同类型题型的录入操作方法;确保准确的前提下提高录入效率;在编写column时与程序员有足够的沟通亦能为录入时提供准确、高效的操作;30 以下情况需要修改数据录入格式(MSK):问卷内容及答案有增加、修改;编码有增加、修改;跳问或相关逻辑有增加、修改;录入过程中发现定义有错误或不合
10、理的;开放题与封闭题分开录入的;修改好MSK必须:检查数据格式是否合乎逻辑;个别特殊码可不用全部暂停录入,但必须于每天录入完毕后更新所有录入员使用机器上的MSK;若修改比较大则需要全部暂停录入,以保持数据格式的统一性;必须与程序员有足够的沟通及反馈;31编码修改、定义错误、不合理录入督导程序员是否需要修改通知录入员停止录入用程序处理修改建议修改MSK录入员测试有问题再修改研究部、访问部问卷修改分派给每位录入员并更新MSK修改及更改情况开始录入由录入督导32数据录入的路径开始数据录入的命令数据录入的过程数据录入的保存双录入数据的命令33 熟悉问卷及每题答案的column位置;每台操作电脑必须先试
11、录一份,检查是否正常以及能正确保存;34q 执行命令q punch 盘符 路径 q 软件界面指令:q F1 帮助文档q F2 选择保存方式并退出q F3 搜索指定问卷号q F4 取消当前卡位所有操作q F5 删除当前卡位q F6 跳过当前卡位q F7 搜索指定卡位q DEL 删除当前column数据35数据录入步骤:打开MSK所在文件夹,并复制该文件夹路径;创建DOS命令提示符快捷方式于桌面;打开DOS命令提示符快捷方式属性,并粘贴文件夹路径于起始位置中,然后确认;打开设置好的DOS命令提示符快捷方式进入DOS;检查DOS状态下的路径是否与MSK所在文件夹一致;3612345路径路径37将路径
12、粘贴到此处将路径粘贴到此处检查路径是否一致检查路径是否一致选取属性选取属性38 运行命令:文件名必须与Define 定义的文件名相同(不含后缀名),保存退出后自动生成后缀名为.dta的数据文件;程序执行命令39 检查转交录入员录入的问卷号是否连贯,由于问卷号已设置自动递增;尽量以连贯问卷号移交录入员进行录入;每份新数据首次进行录入时必须输入首份问卷号;问卷号如不连贯时,应将不连贯的问卷以交叉的方式叠放,并提醒及监督录入员在录入该份问卷时有否更正问卷号;40 录入单选题后,光标会自动跳至下一个Column位,而录入复选题或column段数值后,需要按才能跳至下一个Column;每个卡位输入完毕后
13、,必须按“回车”跳入下一个卡位或下一份问卷进行。请注意:不要使用键跳转,否则会出现重卡现象;录入第一个卡位数据时以及录入完最后一个卡位时都应检查问卷号是否与当前问卷相对应;应时常检查当前输入column位置是否与问卷相对应,否则紧接着当前column位的该份数据将会全部出错;413.9 开放题的数据录入 Q13.为什么你会最常去 (读出上题答案)的面包屋?还有呢?还有呢?(310-329)N=2 0202味道不错无(已)1111离住处比较近42 数值型与开放型题目的答案通常均采用多column的输入方式;数值型题目原则上遵循采集顺序进行录入,而开放题答案则可不按编码或采集顺序录入;问卷上每道开
14、放题column段后均有注明N=n,此数字表示每一个答案所占用的column位置大小;43 例:某开放题目答案N=3,答案编码为006,该题起始column为210,明显该题答案占用三个column位,分别为210212;若答案编码为6或06,则在录入时在前面补0;44 数据录入完毕或中途停止,应先检查录入数量是否与问卷数量一致;每份数据卡位数*份数总卡位数 需存盘退出,先按F2,屏幕上方出现提示后,再按“Q”,然后回车,即可退出,否则按esc放弃保存;45必须在正式提交前经过5-10份的模拟问卷录入;经过不同类型答案的回答方式模拟录入;经过不同跳问方式的模拟录入;检查模拟录入完得出的数据(c
15、olumn、卡位)是否与问卷一致;提交程序员或数据部主管修改或确认;46必须由经过正式录入培训并考核通过的录入员进行录入工作;正式录入前录入督导必须经过5-10份不同类型题目的模拟录入;参与项目的录入员必须经过10份正式问卷的模拟录入;发现问题时应及时主动与程序员或项目组成员取得有效的沟通;新录入员前50份数据必须100审核,准确率达95以上方可继续录入工作,并与录入结束后抽检30-50;有经验的录入员前30份数据必须100审核,准确率达95以上方可继续录入工作,并与录入结束后抽检10-30;文字录入则要求录入员提交前100检查错漏字,录入督导接收后亦必须确保99无错漏字方可提交;准确分配并记
16、录各录入员录入情况,确保无漏输、重输;47 双重输入是为了提高整体录入质量的校验工作;双重输入是建立在第一次录入的数据基础上进行的;双输过程中若出现不匹配的现象必须仔细检查问卷,若属于录入员录入错误,必须加大双输或抽检数量;进行双输时不得打开源数据进行双输;双输时尽量以不同录入员来进行双输工作;48与源数据相同录入路径下:punch p 若出现与源数据不匹配而证实双输数据为正确时可按F10更新源数据;49若出现与源数据不匹配而又不能检查出问题时可按F1查看源数据内容进行记检查;50问卷录入完毕后,必须检查所录的总行数/卡数,所得数是否与问卷数吻合,否则就要查出原因,看是否重卡、漏卡或其他操作不
17、当操作的问题;记录每位录入员所录入的问卷号,以免重录或漏录;检查录入数据是否重名;打开数据文件检查有异常情况;检查完毕后提交程序员进行数据查错;51由于通常数据录入都由多名录入员共同完成,完成后所生成的数据文件有时会多达10多个,而将10多个数据文件提交程序进行运行将会引起混乱、丢失或者错误,可由DOS命令将多份数据整合一起,从而达到方便数据管理和提高查错效率的目的:c:copy data1.dta+data2.dta+data3.dta total.dtac:copy *.dta total.dta录入督导每天必须完成当天数据的合并工作并提交程序员,并分开保留原始数据及合并数据以免操作错误;整合完成后需要在不影响源数据的情况下将数据中的问卷编号排序;