1、数学建模基础第五章第五章调查问卷设计调查问卷设计及处理及处理 调查问卷调查问卷 从啤酒和尿布的故事开始,我们发觉简单的数据中可能存在无穷的奥秘,好奇心趋势越来越多从啤酒和尿布的故事开始,我们发觉简单的数据中可能存在无穷的奥秘,好奇心趋势越来越多的人投身到枯燥的数据中。的人投身到枯燥的数据中。在瀚如烟海的数据中,不论是科学研究还是商业调查,很大一部分数据是通过调查问卷的方式在瀚如烟海的数据中,不论是科学研究还是商业调查,很大一部分数据是通过调查问卷的方式来获取的。来获取的。在问卷星平台上,每天都会产生上万份问卷和在问卷星平台上,每天都会产生上万份问卷和100多万份答卷,但大部分用户的数据分析仅仅
2、多万份答卷,但大部分用户的数据分析仅仅停留在简单的频率分析上。停留在简单的频率分析上。数据中隐藏的巨大价值,还等待着被人挖掘。数据中隐藏的巨大价值,还等待着被人挖掘。1 统计学基础及术语解释统计学基础及术语解释P值:也称显著性值或Sig值,用于描述某件事情发生的概率情况,其取值范围介于01,不包括0或者1。在大多数情况下,如果P值小于0.01(0.05或0.1),则说明某件事情的发生概率至少有99%(95%或90%)的把握。量表:通常是指李克特量表,其用于测量样本人群对于某件事情的态度或者看法情况。量表的尺度形式有多种,常见的是五级量表,即有五个答项。样本:通俗的讲即为填写问卷的人,对于样本的
3、数量,通常情况下为量表题项的5倍或者10倍即可(无效样本在分析问卷前需要进行删除或者筛选)。频数分析:通常会涉及样本、有效样本、频数、百分比、累计百分比、有效百分比等。描述性分析:通常会涉及平均值、标准差、中位数等术语名词。1.1 数据分析数据分析1.2 信度和效度分析信度和效度分析信度分析:在于研究数据是否真实可靠,通俗地讲,即研究样本是否真实回答了问题,信度分析只能分析量表题项。u 科隆巴赫系数:也称信度系数、内部一致性系数、Cronbach 系数或者系数,此值一般大于0.7即可。u 校正的项总计相关性,也称CITC值,此值大于0.4即说明某题项与另外的题项之间有着较高的相关性。效度分析:
4、用于研究题项是否有效地表达研究变量或者纬度的概念信息,通俗地讲,即研究题项设计是否合理,或者题项表示某个变量是否合适。u 内容效度:即使用文字叙述形式对问卷的合理性、科学性进行说明。u 结构效度:通常使用探索性因子分析(EFA)进行验证,通过因子分析对题项进行分析,如果输出显示题项与变量对应关系基本与预期一致,则说明结构效度良好。1.如果题项的因子载荷系数值小于0.4,则应该考虑删除该题项;2.KMO值应大于0.6;3.巴特球形检验对应的P值应小于0.05;4.根据方差旋转矩阵确定提取因子数量,如果某题项与某个因子对应的因子载荷系数值较高,那么该题项应当归纳对应至该因子。1.3 变量关系研究变
5、量关系研究相关分析:一种最基本的关系研究方法,其目的在于分析两个变量之间的相关关系,包括两者是否存在相关关系,以及相关关系的紧密程度。u Pearson和Spearman相关系数:描述先关关系程度,通常绝对值大于0.7说明两个变量之间表现出非常强的相关关系;当绝对值大于0.4时,说明相关关系强;当绝对值小于0.2时,说明相关关系较弱。线性回归分析:研究X对于Y的影响关系分析方法,其中X被称为自变量,Y被称为因变量。u R2或调整R2:代表X对于Y的解释力度,取值范围为01,该值越大越好。u F值:用于检验所有自变量X中至少有一个会对因变量Y产生影响的关系,若F值对应的P值小于0.05,则说明所
6、有自变量X中至少有一个会对因变量Y产生影响关系。Logistic回归分析:研究影响关系,即X对于Y的影响情况,此处涉及的Y是分类变量。u Hosmer和Lemeshow检验、Cox&Snell R2和Nagelkerke R2、对数比等指标。u 对应P值需要大于0.05,即说明预期拟合情况与实际拟合情况一致。2 问卷设计说明及注意事项问卷设计说明及注意事项量表题项需要有文献参考依据:也研究人员应该参考前人的文献量表设计,或者在前人设计的文献量表上进行适当的修改。量表题项数量:最好每个变量对应47个题项,不能太少也不能过多。量表题项设计要规范统一:同一个变量的题项不能混合使用多级量表,否则会导致
7、数据处理不准确。量变反向题:若变量题项中有正向态度和反响态度题项时,就涉及反向题,应尽量不实用反向题。排序或打分题:直接让样本回答排序情况;使用五级量表或七级量表;使用打分题。计算每个选项平均得分情况,通过平均得分进行排序分析。2.1 量表题项设计量表题项设计其他:若量表中填写需要一定条件,需要设置删选跳转题项。量表类问卷的设计框架从结构上可以分为6个部分,分别是筛选题项、样本背景信息题项、样本特征信息题项、样本基本态度题项、核心研究变量题项和其它题项。筛选题项:如果对样本特征有特殊要求,则需要将此类样本筛选题项设置在问卷前面。2.2 问卷设计框架问卷设计框架样本背景信息题项:加入样本背景题项
8、,比如性别、年龄等。通常进行频率统计。样本特征信息题项:此类问题多为非量表类题目,可用于深入了解样本特征情况,通常是计算频率直观展示各选项选择情况。样本基本态度题项:此类问题基本为非量表类题目,了解样本的基本态度。核心变量题项:此类部分为问卷研究的核心内容,题项数量最多,通常情况下均为量表类题项。适用于各类统计 方法(信效度分 析、相关分析、回归分析、因子 分析)。量表核心变量题项设计注意事量表核心变量题项设计注意事项项说明说明需要有变量参考依据题项是否有参考量表变量对应题项合理性每个变量对应题项数量是否合适因变量Y对应题项如果研究影响关系,那么是否有因变量Y对应题项反向题反向题是否需要,以及
9、是否可以反向处理案例案例1:“90后后”员工离职倾向调查问卷员工离职倾向调查问卷 本案例研究相关因素对于“90后”员工离职倾向的影响情况,相关因素共分为6个,分别是薪酬福利、人际关系、工作本身、价值观、成就发展和企业文化。此问卷包含样本背景信息题项、样本特征题项、样本基本态度题项和核心题项。框架内容框架内容题项题项题项内容题项内容筛选题项Q1请问您是90后吗(如果不是,则结束回答)样本背景信息题项Q2性别Q3年龄Q4婚姻状况Q5学历样本特征信息题项Q6从毕业开始,累计工作年限为Q7当前公司工作年限为Q8您是独生子女吗Q9您曾有几次主动离职经历Q10你现在的职位Q11你现在所在单位的性质样本基本
10、态度题项Q12如果离职,原因是什么(多选)Q13您对当前公司不满意的地方有那些(多选)框架内容题项题项内容核心变量题项薪酬福利Q14我认为我现在获得的报酬与付出的代价基本相符Q15单位的工资福利和其它单位相比更有吸引力Q16我认为我获得的报酬与付出的代价和同事相比基本公平Q17我对所获得的报酬感到满意人际关系Q18当我遇到困难时,能够得到同事或领导的关心Q19公司员工之间凝聚力强、合作融洽Q20我与上司关系和睦Q21在公司我有很好的归属感Q22公司内部的人际关系良好Q23我与同事关系融洽工作本身Q24现在的工作内容丰富Q25我现在的工作任务很有挑战性Q26我现在的公司有吸引力的一点是它提供弹性
11、工作时间Q27现在的工作环境、条件比较差备注:备注:Q27为反向题,样本对此题项打分越高,样本人群就会对工作本身这个变量表现出越不认可的态度。框架内容题项题项内容核心变量题项价值观Q28如果现在的领导不太有能力,我会不大服从他的指令甚至跳槽Q29在工作中体现我的自我价值,对我来说非常重要Q30在工作中能充分表达我的想法和意见,对我来说很重要Q31如果工作中不能充分表达我的意见,我会感觉郁闷Q32对我来说,好的工作最主要是自己喜欢,而不是别人的意见成就发展Q33公司提供了明晰的晋升机会和发展空间Q34公司效益、发展前景良好Q35在现在的岗位上,可以实现我的理想Q36我现在从事的工作有良好的前景企
12、业文化Q37公司具有良好的企业文化Q38公司的领导和管理者能够信守诺言Q39公司的领导者和管理者具有独特的管理风格和管理方法Q40公司有明确的价值观来知道我们日常的工作Q41公司有明确的道德准则知道我们的行为,使我们明辨是非离职意愿Q42现在还没有找到合适的工作,一旦找到就立刻辞职Q43如果现在辞职,经济上的损失不能承受Q44我常常想到辞去我目前的工作Q45我在明年可能会离开公司另谋他就Q46假如我继续待在本单位,我得前景不会好备注:备注:Q14Q46属于核心变量题项,全部为量表题项(1表示非常不同意,2表示比较不同意,3表示中立,4表示比较同意,5表示非常同意)可以利用信度分析研究6个影响因
13、素和离异意愿变量的信度情况,用相关分析研究6个因素分别与离职意愿的影响关系,还可以使用方差分析或t检验,对比不同样本背景特征人群对6个因素和离职意愿的态度差异。案例案例2:大学生理财情况调查问卷:大学生理财情况调查问卷 本案例研究大学生理财现状及理财态度情况,只有在校大学生才能回答后续问题。框架内容框架内容题项题项题项内容题项内容筛选题项Q1是否为在校大学生样本背景信息题项Q2性别Q3年龄Q4专业Q5月生活费有多少样本特征信息题项Q6您每月的支出有计划么Q7您对理财方面的知识了解多少Q8您平时会关注一些理财方面的信息吗样本基本现状题项Q9您是否使用过理财产品(跳转题,寻则否跳到Q12)Q10您
14、选择过哪种投资理财产品(多选)Q11您使用过哪种互联网理财产品样本基本态度题项Q12您心目中合理的理财状态和结构是Q13您对当前公司不满意的地方有那些(多选)Q14您认为对大学生有必要制定投资理财规划吗Q15影响您进行投资理财最大额因素是Q16您最希望通过哪种途径了解理财知识Q17您对理财产品的了解程度是Q18您认为导致自己没有购买投资理财产品的主要因素是Q19您未来是否愿意或者继续购买理财产品 对各部分题项进行频数统计后可以进行交叉分析,例如研究有购买经历和没有购买经历的样本人群在基本态度上是否有差异性。频数分析用于各个题项的选择情况统计,卡方分析用于研究交叉关系,二元Logistic回归分
15、析研究样本基本信息或态度题项与样本购买经历或购买意愿之间的影响关系,找出影响因素并且提供相关建议措施。3 量表类问卷影响关系研究量表类问卷影响关系研究1.样本背景分析:包括性别、年龄、学历、收入等。目的在于对样本基本情况有一定的了解;2.样本特征、行为分析:通过计算频数、百分比或平均值进一步了解样本人群的特征行为或基本态度情况;3.指标归类分析:使用探索性因子分析,使用软件自动找到题项与因子的对应关系,以得到更为严谨的科学的言论;4.信度分析:通过信度分析证明研究样本数据是真实可信的。信度高但效度不一定高,而信度低时效度一定低;5.效度分析:通过探索性因子分析(EFA)或验证性因子分析(CFA
16、)对题项进行效度分析;6.研究变量描述分析:计算研究变量或者具体题项的平均值,了解样本对各个研究变量的基恩态度,进行详细描述分析;7.变量相关性分析:了解变量间的基本关系情况、是否有相关关系,以及相关关系的紧密程度;8.研究假设验证分析:提出假设并进行假设验证;9.差异分析:通过方差分析、t检验或卡方检验研究不同样本群体行为或态度的差异情况。3.1 分析思路分析思路量表类问卷分析可以从以下9个部分进行:3.2 分析方法分析方法具体分析思路框架与分析方法对应关系图:将研究题项进行分类并浓缩成少数因子系数,即内部一致性系数,0.6以下需要修改量表内容效度:专家判断和问卷前测;结构效度:探索性和验证
17、性因子分析Pearson系数,正态性,0.6强正相关、0.4较强正相关Spearman系数,非正态性线性回归、Logistic回归;F检验P值小于0.05;R2越大越好;t检验小于0.05且大于0.01;DW值越接近于2越好。方差分析:单因素和多因素分析;t检验:独立样本t检验、配对样本t检验和单样本t检验;卡方检验:分类变量间差异关系。3.3 分析实例分析实例 本案例为研究某在线英语学习网站上各种因素对课程购买意愿的影响情况,初步拟定是研究产品、促销、渠道推广、价格、个性化服务和隐私保护这6个因素对消费者购买意愿的影响情况。(数据:5-1.sav)1.样本背景信息统计(频数分析)分析描述统计
18、频率将“性别、年龄、月收入、职业”放入变量窗口。2.样本基本特征情况描述(描述性分析)分析描述统计频率将“你为什么学习外语”放入变量窗口图表。3.探索性因子分析 分析降维因子分析将“问题115”放入变量窗口;描述勾选KMO和Bartlett的球形度检验;抽取主成份方法基于特征值或固定因子数量(这里人为设置为6个因子);旋转最大方差法;选项按大小排序取消小系数(0.4);查看KMO是否大于0.6,P值是否小于0.05,根据旋转载荷矩阵中载荷系数高的题项对因子进行命名。4.信度分析 以“产品”因子为例(Q13),分析度量可靠性分析将问题13放入变量窗口统计量勾选如果项已删除则进行度量;查看系数是否
19、大于0.7,查看校正的项总计相关性是否大于0.5;0.7表示信度水平较高,CITC值大于0.5,表示任一题项被删除,信度系数都将小于当前值。5.效度分析 步骤结果同探索性因子分析;探索性因子分析结果显示KMO值为0.866,并通过Bartlett球形检验,最终提取到6个因子。这6个因子与题项均有良好的对应关系,对应关系与专业知识完全相符,并且题项的因子载荷系数值均高于0.4。因子旋转后累计方差解释率为73.729%,且6个因子的旋转后方差解释率均高于10%(或接近与10%)。因此综合说明本案例量表具有良好的结构效度。6.变量描述性分析 分析描述统计描述选项勾选平均值、最大值、最小值、方差、标准
20、偏差。7.相关分析 分析相关双变量将V1V7放入变量窗口;正负代表正相关和负相关,数值越大相关性越大,*代表P0.05,*代表P0.01。9.方差分析 分析比较均值单因素ANOVAV1V7放入因变量窗口,月收入水平放入因子窗口两两比较勾选LSD选项勾选描述性、方差同质性检验和均值图;方差齐性检验显著性要大于0.05,说明不同组别的数据波动情况一致,即方差齐性;单因素方差分析表中显著性小于0.05,表示有差异性,即不同收入水平人群字购买意愿上有显著性差别;多重比较图中,显著性小于0.05表示存在差异性,即2000元以下样本与8000元以上样本在购买意愿有显著性差异,P值为0.006小于0.05。
21、8.多元线性回归 因变量为定量数据,线性回归;因变量为分类数据,Logistic回归;分析回归线性回归购买意愿放入因变量,V1V6放入自变量统计量DW检验,共线性诊断;R2为0.38表示自变量能够解释因变量变化的38%,DW值为2.145在2附近,说明基本无自相关性,变异系数(ANOVA)中P值为0,说明自变量中至少有一个会对因变量产生影响;系数表显著性中大于0.05说明不会对因变量产生影响,非标准化系数正负表示正向和负向影响,VIF值小于5表示没有多重共线性。4 量表类问卷权重研究量表类问卷权重研究 量表类问卷权重研究的重心在于各个指标的权重得分,通过计算各个指标或题项的权重得分,最后构建完
22、善的权重体系,并且结合各指标权重情况提过科学的建议。量表类问卷权重研究方法在通常情况下可以分为两类:主观评价法和客观评价法。量表类问卷权重研究方法主观评价法客观评价法专家咨询法AHP层次分析法因子分析法熵值法利:具有权威性弊:带有主观判断因素利:客观性强弊:权威性受到质疑p 因子分析法指标权重构建(数据:5-2.sav)分析降维因子分析A、B、C、D共12个变量放入因变量窗口;描述勾选KMO;抽取提取4个因子;旋转最大方差法;选项按大小排序、取消小系数(0.4);得分保存为变量、显示因子得分系数矩阵;生产FAC数据为因子得分数据;因子的权重系数,即加权后的方差解释率=该因子方差解释率/所有因子
23、累计方差解释率(FAC1=23.397%/76.370%=30.636%);综合得分表达式:F=30.636%*因子1+25.044%*因子2+22.378%*因子3 +21.941%*因子4;根据成分得分系数矩阵得出因子表达式:因子1=0.466*A1+0.313*A2+-0.013*D2 因子4=-0.021*A1+0.037*A2+0.435*D2 根据上述公式计算最终综合得分问题:什么是方差?为什么使用方差多权重?问题:什么是方差?为什么使用方差多权重?样本值与平均值(期望)之差的平方值的平均数。表示数据的离散程度。22(x)=N5 聚类样本类和非量表类问卷研究聚类样本类和非量表类问卷
24、研究 什么是聚类什么是分类?两者有什么区别?分类:按照某种标准给对象贴标签,在根据标签来区分归类;聚类:事先没有标签而通过成团分析找出食物之间存在的聚集性原因的过程。聚类分析可以对样本进行分析也可以对题项(变量)进行分析,前者我们称之为Q型聚类,后者称之为R型聚类。聚类效果判断:u 看聚类分析得到的每个类别是否可以进行有效的命名,是否符合现实意义;u 使用判别分析进行判断,判断聚类变量与类别之间的投影关系情况;u 是否能科学详细的描述清楚聚类分析的使用过程;u 看聚类分析后每个类别样本量是否均匀。SPSS中聚类分析:在SPSS软件中,聚类分析可分为三种:两步聚类、K-均值聚类和系统聚类。聚类分
25、析方法两步聚类适用于数量大并且结构复杂的分析,可以同时处理分类数据和定量数据,自动寻找最优聚类类别数量。K-均值聚类快速处理大量数据,仅能处理定量数据,需要自主设定聚类类别数量,不能自动寻找最优聚类类别数。系统聚类处理速度慢,可以同时处理分类数据和定量数据,需结合相关结果主观判断聚类类别数量。聚类分析聚类分析方法方法数据标准数据标准化功能化功能分类数分类数据分析据分析定量定量数据数据自动聚类自动聚类类别数量类别数量聚类类别聚类类别数量设置数量设置聚类质聚类质量判断量判断处理处理速度速度两步聚类有可以可以可以可以有较快K-均值聚类无不可以可以不可以可以无快系统聚类有可以可以可以可以无较慢聚类分析
26、方法特点对比聚类分析方法特点对比聚类分析基本步骤:聚类分析步骤3.聚类方法结果对比1.数据处理2.K-均值聚类试探分析4.聚类效果验证5.聚类类别命名数据标准化,Z值法:xxZ生产聚类类别编号,计算不同类别样本的数量。对比另外两种聚类分析方法的聚类类别数量。通过经验和专业知识判断聚类效果,是否能有效识别样本特征。聚类样本差异性用方差和卡方分析进行。p 聚类分析(数据:5-3.sav)分析分类K-均值聚类V1V5放入变量窗口聚类数为3;保存勾选聚类成员,选项ANOVA表;初始聚类中心表,第一类最优,第三类次之;最终聚类中心表,第一类最优,第三类次之,第二类不理想;ANOVA显著性都通过;分析分类
27、两步聚类V1V5放入连续变量窗口聚类数量固定为3;聚类质量图可以看出聚类效果可以接受,双击模型概要图,选择预测变量重要性,可以看出因子对聚类建模的重要性高低情况;分析分类系统聚类V1V5放入连续变量窗口;绘图勾选谱系图;方法转换值勾选Z分数;保存单一方案聚类数为3;聚类步骤哪两类聚成一类个体间距离参与聚类的个体(0值)或小类(非0)本步聚类结构在以下第几步用到非量表类问卷研究 此部分更多的会使用简单易懂的频数和百分比描述,最好结合各种图形展示,比如选题可以通过条形图展示,单选题可以使用柱形图展示。此类问卷中大部分题项均为分类数据,因此需要使用卡方分析(交叉表分析)进行差异关系研究,也可能会需要
28、使用Logistic回归进行影响关系研究。p 卡方分析(数据:5-4.sav)分析描述统计交叉表将Q9和Q11放入行变量窗口,Q2放入列变量窗口;统计量勾选卡方;单元格百分比勾选列;查看卡方表下方是否80%以上数据值大于5,若不满足此条件不能使用卡方检验,只能用平均值比较方法来分析差异性;满足条件,看Pearson卡方对应的P值,P值大于0.05表示没有差异性,通过交叉表总计行和列进行解释;若P值小于0.05表示有差异性,此时要根据表内部各行各列进行解释;尝试分析性别与投资理财产品使用情况的差异性,并作解释。p Logistic分析(数据:5-4.sav)研究性别、年龄、专业和生活费对研究性别
29、、年龄、专业和生活费对“您未来是否有意愿购买理财产品您未来是否有意愿购买理财产品”的影响情况;的影响情况;分析回归二元Logistic将Q19_New放入因变量窗口,Q2Q5放入协变量窗口;Q2和Q4是分类数据,需要进行虚拟变量处理,分类将Q2和Q4放入分类协变量窗口;选项勾选H-L拟合度;分类变量编码表中,体育类为“000”表示为参照项;女性为“0”表示为参照项;模型汇总表,C&S R2和Nagelkerke R2伪系数决定迭代次数;H&L检验表,H&L检验是验证真实数据情况是否与模型拟合结果表现一致,P值小于0.05则说明真实数据与模型拟合情况不一致;分类表,体现模型拟合情况,整体拟合正确
30、率是77.1%;方程中的变量表,查看P值,若P值大于0.05则表示没有呈现出显著性;反之则呈现出显著性,根据分类变量编码表得知Q4(2)表示Q4(010)为文科类;理工类P值为0,说明呈现显著性,B值为-2.139,也就是说相对于体育类样本,理工类样本未来理财意愿明显更低。6 问卷分析思路和分析方法问卷分析思路和分析方法1.样本背景分析样本背景分析2.样本特征行为分析样本特征行为分析3.指标归类分析指标归类分析4.信度分析信度分析5.效度分析效度分析频数分析频数分析描述性分析描述性分析频数分析频数分析描述性分析描述性分析探索性因子分析探索性因子分析信度分析信度分析探索性因子分析探索性因子分析方
31、差分析方差分析、t检验检验、卡方检验卡方检验6.聚类分析聚类分析8.差异分析差异分析7.聚类效果验证聚类效果验证经验和专业知识经验和专业知识Q型聚类型聚类R型聚类型聚类聚类样本类问卷非量表类问卷1.样本背景分析样本背景分析2.样本特征行为分析样本特征行为分析4.基本态度分析基本态度分析5.差异分析差异分析频数分析频数分析描述性分析描述性分析频数分析频数分析描述性分析描述性分析频数或百分比频数或百分比频数频数、百分比百分比、直方图直方图 方差分析方差分析、卡方检验卡方检验6.影响关系分析影响关系分析7.其它其它探索性因子分析探索性因子分析、信度信度、方差分析方差分析Logistic回归分析回归分析3.基本现状分析基本现状分析l 操作实训:北京大学师生对咖啡屋及类似休闲 场所的需求调查要求:1、受访者人口背景特征分析2、受访者对现有酒吧的习惯和态度3、受访者在酒吧消费的情况4、背景资料的相关分析分析并给出相应结论。(1)受访者人口背景特征分析 是否去过咖啡店与性别、年龄、学历身份、收入的 关系(2)受访者对现有酒吧的习惯和态度 对光顾频次和咖啡店偏好情况,喜欢的原因和光顾 的原因(3)受访者在酒吧消费情况 最频繁光顾的咖啡店与消费品、与人均花费间的关 系(4)背景资料的相关分析 最频繁去处、最喜欢去处与人口 背景资料,人口背景资料间关系。