1、第八章第八章 调查资料的整理调查资料的整理本章结构本章结构调查问卷的回收及审查 1.调查资料的编码与录入2.调查数据的清洁和预处理3.第一节第一节 调查问卷的回收及审查调查问卷的回收及审查 v调查资料整理的意义v原始调查数据的类型v调查资料整理的步骤v调查问卷的回收v调查问卷的审查一、调查资料整理的意义一、调查资料整理的意义 v数据整理是提高调查数据质量的必要步骤 v数据的整理是分析的重要基础 v数据的整理便于今后对数据的长期保存和研究 二、原始调查数据的类型二、原始调查数据的类型 v 第一手数据和第二手数据v 定性数据和定量数据v 市场调查问卷、专家访谈记录、政府机关的档案 资料、录音带或其
2、他多媒体资料等三、调查资料整理的步骤三、调查资料整理的步骤 v对原始资料进行审核、修正。v编码。v数据的录入。v数据的清洁。v进行统计预处理。五、调查问卷的审核五、调查问卷的审核 1.审核的内容:v 完整性的审核:单位无回答或项目无回答 v 正确性的审核:口径、计算方法、计量单位 v 一致性的审核:逻辑错误 v 及时性的审核 v 清楚易懂 五、调查问卷的审核五、调查问卷的审核 2.审核的主要方法v 经验判断。如年龄,营业面积v 逻辑检查。如婚姻状况v 计算审核。如收支 五、调查问卷的审核五、调查问卷的审核 3.审核的阶段(何时进行审核)v 实地审核,又称初步审核、现场审核v 中心办公室审核五、
3、调查问卷的审核五、调查问卷的审核 4.审核的基本步骤v 接收核查问卷(一审):将无效的或不能接受的问卷剔除。无效问卷:1)缺损的问卷;2)回答不完全,3)被调查者没有理解问卷的内容而错答问题,或没有按照指导语的要求回答问题;4)回答没有什么变化的问卷;5)在截止日期之后回收的问卷;6)由不属于调查对象的人填写的问卷;7)前后矛盾或有明显错误的问卷。v 编辑检查(二审):退回实地重新调查 视为缺失数据 放弃不用第二节第二节 调查资料的编码与录入调查资料的编码与录入v编码的概念v编码的基本原则v编码设计的内容与分类v前设计编码v后设计编码v编码表的设计原则v实践中的编码技巧v调查资料的录入一、编码
4、的概念一、编码的概念v编码:就是将问卷信息(包括调查问题和答案)转化为统一设计的计算机可识别的代码,以便于对其进行数据整理与分析。v编码的作用 减少数据录入和分析的工作量,节省费用和时间,提高工作效率 将定性数据转化为定量数据,进行定量分析 减少误差二、编码的基本原则二、编码的基本原则v准确性v完整性v有效率v便于数据的整理与分析v标准化原则三、编码设计的内容与分类三、编码设计的内容与分类v编码的设计即确定各问卷、问卷各项目和答案对应代码的名称、形式、范围以及与原数据的对应关系。1编码设计的内容包括:(1)问卷的代码 (2)变量的定义 (3)取值的定义 某项调查的编码表格式某项调查的编码表格式
5、 变量序号变量名变量类型变量所占字节取值范围取值对应含义备注对应题号对应问题138codeV28数值型数值型7104或9105120203表示台数;4表示4台或4 台以上;9表示缺失 问卷编号28家中拥有电视机数某项调查的编码表格式某项调查的编码表格式 譯碼簿範例 八十七年台北市原住民訪問調查-譯碼簿 題號 變項名稱 變 項 說 明 起迄欄 組 別 第一部分 1 A 訪問日期 1-6 XX年XX月XX日 2 B 起迄時間 7-14 時分時分 3 C 訪員編號 15-17 4 D 訪員姓名 18-25-5 E 地區 25-26 6 F 受訪員編號 27-29 7 G 受訪員姓名 30-37 8
6、H 戶籍編號 38-42 樣本編號 9 I 戶籍地址 43-92 10 J 電話 93-100 11 K 遷入本戶籍之年月日 101-106 XX年XX月XX日 12 L 設籍台北市年月日 107-112 XX年XX月XX日 13 M 聯絡處 113-162 14 N 聯絡人姓名 163-170 15 O 與聯絡人關係 171-176 16 P 事實上居住地址 177-226 17 Q 聯絡人電話 227-234 18 R 住屋情況 235 1.自有 2.租用 3.借用 4.配用 5.寄居 6.臨時搭建場所 三、编码设计的内容与分类三、编码设计的内容与分类2编码设计的分类v 结构式问卷编码设计
7、和非结构式问卷编码设计v 封闭题、半封闭题和开放题编码设计v 前设计编码和后设计编码四、前设计编码四、前设计编码 v 前设计编码要求事先已知问题的答案类别,主要应用于结构式问卷中的封闭题和数字型开放题。問卷編號:12 先生(小姐)您好:我是 公司的訪員,目前正進行一項有關信用卡服務的意見調查,耽誤您幾分鐘時間,請教您幾個問題。謝謝!1.請問您是否有使用信用卡?(1)有請繼續回答下題 .3(2)沒有請跳答第 8 題 2.請問您使用的是哪一家銀行的信用卡?(可複選)(1)中國信託商業銀行4(2)花旗銀行5(3)慶豐銀行(4)美國銀行(5)匯豐銀行:(10)其他_(請註明)2封闭题的编码设计封闭题的
8、编码设计 1.对单选题只需规定一个变量,取值为选项号。例如:Q18 请问您最近一年内买过VCD光盘吗?【】1 买过 2 没买过 设计编码时:变量名为V18,属于数字型变量,变量所占字节数为1,变量取值范围为1,2或9,其中1表示买过,2表示没买过,9表示该题无回答。封闭题的编码设计封闭题的编码设计 2.对多选题的变量 (1)将各个可能回答的答案选项都设为一个01指示 变量,如被调查者选择了该答案,此变量的值为1,否则为0。优点:便于分析,编码的结果不用经过转换,可直接分析;缺点是不便于录入,变量随选项增多而增多.例如例如Q17 请问您观看的DVD光盘的主要来源是?【】【】【】1 自己购买 2
9、租借 3 向朋友/同事/亲戚借 4 别人送的 5 单位的 6 其他变量序号变量名变量类型变量所占字节取值范围取值对应含义备注对应题号对应问题方法一改进法484950515253V171V172V173V174V175V176数值型数值型数值型数值型数值型数值型1111110或10或10或10或10或10或10或10或20或30或40或50或6取值为1表明该选项为主要来源,为0则不是。全为0表示该题无回答17观看的VCD盘的主要来源封闭题的编码设计封闭题的编码设计 (2)将变量定义为所选题号,变量值为选项号,变量排列顺 序即为选择答案的顺序 优点:便于录入和检查,但分析前要用程序把它们转化为各选
10、择答案的0-1变量例如:例如:Q17 请问您观看的DVD光盘的主要来源是?(至多只选择3项)【】【】【】1 自己购买 2 租借 3 向朋友/同事/亲戚借 4 别人送的 5 单位的 6 其他变量序号变量名变量类型变量所占字节取值范围取值对应含义(i=1,2,3,4,5,6)备注对应题号对应问题484950 V171V172V173 数值型数值型数值型 111 060606 取值为i表明第 i选项为主要来源,为0则说明其余选项都不是主要来源全为0表示该题无回答17观看的VCD盘的主要来源封闭题的编码设计封闭题的编码设计 3.排序题的编码设计Q12 请您根据信任程度由大到小对下列广告排序(信任程度最
11、高的广告前填1,其次信任的广告前填2,依次类推,最不信任的广告前填5):【】1 电视广告 【】2 报纸广告 【】3 广播广告 【】4 杂志广告 【】5 路牌广告Q12问题的编码(方法一)问题的编码(方法一)变量序号变量名变量类型变量所占字节取值范围取值对应含义(i=1,2,3,4,5)备注对应题号对应问题3031323334V121V122V123V124V125数值型数值型数值型数值型数值型111110505050505取值为i表明该广告的信任程度排名为i,为0则表明对该广告的排名缺失全为0表示该题无回答12对各类广告的排序变量个数即选项个数,按照选项排列顺序,变量个数即选项个数,按照选项排
12、列顺序,分别定义各变量为对应选项所排次序号,分别定义各变量为对应选项所排次序号,取值即为次序号。取值即为次序号。Q12问题的编码(方法二)问题的编码(方法二)v变量个数即要求排序项数,依照次序号排列顺序,分别定义各变量为各次序号对应的选项项数,取值即为选项号。Q12 请问下列广告中,您最信任哪个广告?【】其次呢?【】再次呢?【】1 电视广告 2 报纸广告 3 广播广告 4 杂志广告 5 路牌广告 Q12问题的编码(方法二)问题的编码(方法二)变量序号变量名变量类型变量所占字节取值范围取值对应含义(i=1,2,3,4,5)备注对应题号对应问题303132V121V122V123数值型数值型数值型
13、111050505i为对应信任度的广告对应的选项号。0则表明对应信任度的广告缺失全为0表示该题无回答12对各类广告的排序各变量为各次序号对应的选项项数,取值即为选项号。数字型开放题的编码设计数字型开放题的编码设计v对直接回答数字的问题,变量取值即为该数字。v变量所占字节数可以根据事先预计的数字最大值的位数确定。v例如,直接询问被调查者的年龄,设计编码时取变量名为NL,所占字节为2(因为调查对象要求在2060岁之间),小数点位为0,变量取值即为年龄,单位为“岁”,取值范围为2060或99(99表示该题缺失)。牌子表的编码设计牌子表的编码设计v牌子表是记录产品品牌的统计表。v它是一种编码表,在涉及
14、产品品牌的问题时有助于被调查者回答,访问员提问和记录。v牌子表中给出所有可能答案选项的代码,使访问员可直接编码。v建立牌子表时应注意及时了解市场情况,加入新品牌,删除消失的品牌。另外,注意“其他”选项的设立,避免出现品牌错误、重码、漏码等错误。五、后设计编码五、后设计编码v数据收集完成后再进行编码设计v实践中主要的应用对象是无结构问卷和结构式问卷中的文字开放题 五、后设计编码五、后设计编码v开放题编码:将问题转化为一个或几个变量,将所有可能的答案类别赋予相应代码。根据问题的回答确定各答案类别。选取问卷有两种方式:v 阅读所有问卷对该问题的回答,这种方法适用于样本量较小的情况;v 抽取部分问卷,
15、抽取方法可以随机选取,也可以分层系统选取,还可以主观选取,此方法适用于样本量较大的情况。开放题编码开放题编码v 选定问卷后,仔细阅读每个被调查者对该特定问题的回答,每遇到一个新的答案类别就记录下来,同时记录各答案类别出现的频数,依次类推。这里要注意的是答案除表面含义以外,可能还有引申、隐含的含义,应注意区分。v 最后结合调查分析目的对分类的要求,对各答案类别进行整理归纳,突出分析重点,尽量包含所有信息且互不交叉,将不能编码或个数较少、可不予考虑的答案归入“其他”项。v 此外,注意留出位置准备修改,如果后期发现较多或较重要、有新意的类别,可以增加或细化类别。开放题编码开放题编码v 您为什么不考虑
16、未来两年不买该产品?太大,厨房进不去买不起外观丑陋不喜欢其颜色,太贵听说不可靠我们家只有两个人,不需要我预期会降价,到时候再买使用起来太复杂不知道产品设计成本因素不可靠不需要不知道五、后设计编码五、后设计编码v无结构问卷:首先看有无必要编码v无结构问卷编码步骤:(1)确定变量,定义问卷变量(2)针对各变量,分别确定答案类别,定义代码 六、编码表的设计原则六、编码表的设计原则v准确性v便利性v完整性v唯一性v有效率v标准化v维护性七、实践中的编码技巧七、实践中的编码技巧v 设计问卷时,答题说明尽量详细一些便利性v 针对模棱两可的问题时,制定统一标准v 尽量保证编码表的质量,避免由编码表引起的编码
17、误差v 在编码表中编入“其他”项,如果该答案比较重要或出现频率较多,可以通过增加、细分答案类别,修改编码表,v 做好编码人员的选择、培训、监督、审核工作。八、调查资料的录入八、调查资料的录入 KEY-INv键盘录入,扫描、光标阅读器 v数据录入软件:v文本软件:文件小,操作简单v试算表软件:分栏,审核,简单分析v数据库软件:专业储存,录入界面v统计软件:统计分析。八、调查资料的录入八、调查资料的录入 KEY-IN 第三节调查数据的清洁和预处理第三节调查数据的清洁和预处理 一、调查数据的清洁1.一致性检查和逻辑检查:v 变量的取值是否超出合理范围v 有无逻辑错误v 有无极端值。一、调查数据的清洁
18、一、调查数据的清洁2.缺失数据的处理v 将有缺失值的个案整个删除:数在样本量很大、有缺失数据的个案比例较小,而且有缺失数据的个案与无缺失据的个案在分布上无显著差异时使用。v 将有缺失值的个案保留,仅在计算时删除相应变量的缺失值:当样本量较大、缺失数据较少且变量间不是高度相关的情况下使用。v 插补法:均值替代、回归估计、随机抽取、最近距离确定等方法 用一个样本统计量的值去代替缺失值 用一个统计模型计算出来的值去代替缺失值v 加权组调整法:就是通过对调查中的回答数据使用加权因子,从而对数据进行调整,减少缺失值的影响二、加权处理二、加权处理 v加权就是给每个被调查者(个案)赋予一个权重,该权重可以反
19、映该被调查者(个案)相对于其它被调查者(个案)的重要性。权重越大,相应的被调查者(个案)越重要。权重为1相当于没有加权。v使用加权预处理时,一定要慎重对待,并在报告中提供加权处理的方法以及处理的结果。二、加权处理二、加权处理 v设计权数:样本单元入样概率的倒数v 简单随机抽样v 分层抽样v 多阶段抽样v权数的结构调整v 主要指调查现场出现与抽样设计不同情况,为了保证抽样设计方案的落实而进行的某些权数调整v权数的无回答调整v 调整的思路是把无回答单元的设计权数在回答单元之间进行重新分配v最终权数 最终权数 =设计权数结构调整系数无回答调整系数iw二、加权处理二、加权处理 v例如,某项拦截访问面访
20、了300位大学生,目的是了解北京市大学生使用手机的情况。由于样本中女生占了60%,因而样本是有偏的。这并不是一个严格的随机样本,因此不适合作统计推断。但是研究人员仍然希望从资料中获取尽可能多的有关大学生使用手机的信息。为此,根据北京市大学生的性别分布,对样本进行了加权处理,其中的加权系数或权重等于对应的总体比例除于样本比例(如下表所示)。二、加权处理二、加权处理 男男40.060.01.5女女60.040.00.67性别性别样本()样本()总体()总体()权重权重合计合计100.0100.0 通过加权处理使样本更具代表性 二、加权处理二、加权处理 通過加權處理使樣本更具代表性 年齡 樣本()母
21、體()權重 1519 14.0 8.6 0.61 2029 58.0 24.9 0.43 3039 23.0 25.5 1.11 4049 2.8 13.9 4.96 50 或以上 2.2 27.1 12.3 合計 100.0 100.0 三、变量的转换三、变量的转换 1.变量重新定义,如改变数据的测量水平,把定距、定比变量转为定序、定类变量。v60岁以上4 40-593 20-392 20岁以下1变量重新定义变量重新定义v把资料合并为更少的几个大类年齡 年齡 年齡 1519 2029 1529 青年 3039 4049 3049 中年 50 或以上 50 或以上 老年 三、变量的转换三、变量
22、的转换 2.变量转换 例如,进行聚类分析、因子分析时,必须消除量纲的影响,要在分析前先把变量标准化。又如,进行回归分析,为了改进模型的拟合程度,要对变量进行对数变换、平方根变换等等。流行音乐参与度每月上KTV次数每月购买CD数 2XY XY 三、变量的转换三、变量的转换 3.定类变量转换为0-1变量 含K个类别的变量可以用K-1个0-1量来表示。产品的使用程度原变量编码0-1变量编码X1X2X3从不使用1100偶尔使用2010一般使用3001经常使用4000两种编码的转换表两种编码的转换表Dummy Variable三、变量的转换三、变量的转换 4.重新组合新变量v把几个变量重新组合为一个新变
23、量,重新进行定义。例如:根据被调查者对耐用消费品在若干方面的评价,把各方面的评价值加权平均,就可以得到一个新变量“综合评价得分”。四、量表的转换四、量表的转换 v一些量表可能会分别从正、反两个方向设计问题,分析时应注意统一方向,如全部正向提问或全部反向提问,这样可以使数据便于比较。四、量表的转换四、量表的转换 例如,从以下六个角度调查观众对某广告的看法 1 非常同意 2 同意 3 不同意 4 非常不同意A.这个广告与您无关 .【】B.这个广告吸引您的注意力.【】C.您不想进一步了解有关它的更多信息.【】D.这个广告让您产生购买欲望.【】E.这个广告令人信任.【】F.天天播此广告,让您产生反感.【】B、D、E为正向提问 A、C、F为反向提问:该题的取值颠倒位置,原来选1现在该为4,原来选4 现在该为1,原来选2现在该为3,原来选3 现在该为2。为简化分析:把4级改为2级,即“非常同意”和“同意”合并,“非常不同意”和“不同意”合并。四、量表的转换四、量表的转换 v为了使不同单位或不同量表的变量在分析中具有可比性,可以对数据进行标准化(1)标准化变换(2)规格化变换