1、学习指导做研究的目的绝对不是得到一堆数据,而是通过对数据的解释来回答研究问题。在成文的研究报告或者学位论文里,研究者应当给读者呈现经过加工和分析之后的数据,而不是“原生态”的数据。更重要的是,研究者应当解释,某个数据代表什么意思,意味着什么,有什么理论或实际意义。目录 第一节 整理和录入数据 第二节 单变量统计分析 第三节 双变量统计分析 第四节 多变量统计分析第一节 整理和录入数据一、资料的转换 不论以何种手段收集到的量化资料,只要使用电脑统计软件来进行分析,就需要将它转换成电脑能够识别的数字。研究对象的回答可能是文字,调查问卷也大多以文字和量表的形式表现,那么,为了进行数据分析,需要将它们
2、转换为数字,这就是编码的过程。案例:l 请问您平均每天看新闻的时间是:A.少于30分钟 B.31分钟60分钟C.61分钟120分钟 D.121分钟以上l 1A,2B,3C,4D,5不作答第一节 整理和录入数据二、数据的核查 由于将数据录入电脑这一过程往往是人为活动,因此可能出现数据录入误差,此时就需要对已经录入电脑软件的数据进行核查,获得更准确的运算结果。第一节 整理和录入数据二、数据的核查l 最理想的核查方式是由另一位数据录入员将数据再次录入电脑,比较前后两次录入结果,两人不一致的地方就可能是录入误差,但是这种方法太花费时间和研究经费。l 更常见的做法是随机抽取2550的数据进行部分核查,如
3、果错误很少,那么就不必变更数据,如果错误太多,那么就有必要重新录入所有数据。第一节 整理和录入数据二、数据的核查l 数据核查还包括一致性差错和逻辑差错。前者指的是变量的取值范围是否在规定的范围之内,比如“性别”这个变量只规定了3种可能的取值,然而结果里却出现了数字6、7等,那么这些超出规定范围的取值是错误的编码值。l 逻辑差错指的是检查数据之间是否存在逻辑上的一致性。第一节 整理和录入数据三、数据的整理 为了保证不同录入员的录入结果能够合并,在进行数据录入之前,研究者应该制作编码手册发给每个录入员,要求他们采用相同的格式进行数据录入。第二节 单变量统计分析一、单变量描述统计 以概括的形式描述单
4、个变量的基本信息,是进行其他统计运算的基础环节。l 频数分析l 数据探索频数分析:在SPSS软件里,进行单变量描述统计常用的命令是频数分析。l 第一,默认状态下,Display Frequency Table复选框被选中,意味着电脑将输出频数表。l 第二,单击Statistics按钮,确定弹出的对话框里的数据是否为将要在输出结果中出现的统计量,然后选择Continue。l 第三,单击Charts按钮,在弹出的对话框里确定将要在输出结果中出现的统计量,然后选择Continue。这一部分表示以何种图形描述数据的分布。频数分析:在SPSS软件里,进行单变量描述统计常用的命令是频数分析。l 第四,单击
5、Format按钮,在弹出的对话框里设置频数表的输出格式,然后选择Continue。l 第五,单击OK,提交运行,电脑输出结果。数据探索:描述单一变量时,一般情况下先做频数表,如果是定类或定序变量,可以用饼状图、条形图和折线图来直观描述,这些图形在Word软件里依次选择“插入图片图表”也可以做出来;如果是定距或定比变量,可以用直方图、茎叶图和盒形图来直观描述。绘制茎叶图和盒形图要用到SPSS软件里的数据探索菜单。盒形图:第二节 单变量统计分析二、单变量推论统计l 第一,通过样本的分布来推断总体分布。l 第二,通过样本来推断关于总体的假设是否成立。估计总体:由于量化研究的总体往往数量巨大,我们不可
6、能对它进行精确的描述,常见的对总体的估计的描述形式是“在95置信度下,总体分布在某个区间内”,就是区间估计。置信度这个概念反映的是研究者进行区间估计时的信心或者把握度,也就是说,总体分布落在某个区间内的概率(或机会)有多大。置信度和置信区间的理解:“95置信度”可以这样理解:当我们从总体中随机抽样100次,大约有95个样本的统计值的某个区间都会包括总体的参数值,或者说,总体的某个参数值会落在95个样本的统计值的某个区间内,那么就可以认为,这个区间估计的可靠性为95。常用的置信度为90、95和99,在一定置信度下估计的区间被称为置信区间。值得注意的是,95的置信区间并不是说95的总体参数落在了这
7、个区间内,而是说,进行无穷次重复抽样,我们有95的把握认为总体参数落在了这个区间内。假设检验:假设检验的基本原理是小概率事件原理,即小概率事件在一次观察中不可能出现,如果在一次观察中,小概率事件出现了,那么说明原来的假设不正确,就可以拒绝它。第三节 双变量统计分析一、交互分类(cross tabulation)当两个变量都是定类变量或其中一个是定类变量另一个是定序变量时,我们可以用交互表(cross table)来展现它们之间的关联。通过变量的频数和百分比,交互表能够描述数据的分布,同时展示变量之间的关系。第三节 双变量统计分析一、交互分类(cross tabulation)第三节 双变量统计
8、分析二、卡方检验 当我们想对定类变量和定序变量之间的关系做出更准确的描述时,或者当总体分布情况未知时,往往需要卡方(2)检验。卡方检验的用途之一是独立性检验,即判断样本在两个变量上的观测值是否相关。第三节 双变量统计分析二、卡方检验 卡方检验对样本量大小十分敏感,如果样本量增大,那么卡方值也会增大,P值降低,从而增加拒绝原假设的概率。因此,当样本量过大的时候,需要参考列联系数C(Contingency Coefficient),如果C值也比较大,才能考虑拒绝原假设。究竟C值达到多大才可以拒绝原假设,这要参考交互表单元格的数目,也就是说,两个变量被分成的类别越多,交互表单元格数目越多,那么C值应
9、该越大。第三节 双变量统计分析二、卡方检验第三节 双变量统计分析三、相关分析 所谓相关(correlation),就是指一个变量的变化在多大程度上与另一个变量的变化有关。SPSS软件里的Crosstabs菜单可以计算各种相关系数,当考察两个定距或定比变量的简单线性相关关系时,可以依次打开AnalyzeCorrelateBivariate对话框来计算。第三节 双变量统计分析三、相关分析第三节 双变量统计分析四、回归分析 对于定距和定比变量,我们还想知道,一个变量的变化在多大程度上可以预测另一个变量的变化,也就是对变量进行回归(regression)分析。只有存在相关关系的变量才能进行回归分析,由
10、于回归分析需要建立一个回归方程来量化地描述变量之间的变化,因此回归分析也是判断变量之间是否具备因果关系的重要方法。第三节 双变量统计分析五、t检验和方差分析 当自变量是只有两个类别的定类或定序变量,因变量是定距或定比变量时,可以运用t检验。自变量将样本分成了两个子样本,因此t检验通常用于检验这两个子样本之间是否具有差异。方差分析(ANOVA)(也被称为F检验)跟t检验的区别在于,自变量是三个以上类别的定类或定序变量,即方差分析用于检验多个样本之间是否具有差异性。t检验:在SPSS里,依次点击:AnalyzeCompare MeansIndependentSample T Test,打开主对话框
11、,将因变量输入Test框里,将自变量输入Grouping框里,单击Define Groups按钮,进行分组,然后回到主对话框,单击OK即可输出结果。t检验:方差分析:在SPSS软件里,依次点击AnalyzeCompare MeansOneway ANOVA,打开主对话框,将因变量输入Dependent List里,将自变量输入Factor里,单击OK按钮,即可输出结果。第四节 多变量统计分析一、多元线性回归 当自变量不止一个,因变量只有一个时,如果我们想知道如何通过这些自变量的变化来预测因变量,那么可以采用多元线性回归分析。多元线性回归方程可以写成:Yb0b1X1b2X2bkXk第四节 多变量
12、统计分析一、多元线性回归第四节 多变量统计分析二、多元方差分析(MANOVA)当自变量是三个以上类别的定类或定序变量、因变量是两个以上的定距或定比变量时,为了检验根据自变量分组的各个样本之间是否存在着差异,可以采用多元方差分析。第四节 多变量统计分析二、多元方差分析(MANOVA)第四节 多变量统计分析三、因子分析(factor analysis)因子分析的目的在于从一组变量里抽取潜在的少量因子,这些因子浓缩了原始变量的信息,同时损失的信息最少,因而可以用于解释原始变量。因子分析经常用于对量表的分析,对一份量表里的若干陈述进行检验,看它们能否有效测量出因变量,如果某些陈述的测量效果不明显,那么
13、就可以考虑删掉,以提高量表的有效性。第四节 多变量统计分析三、因子分析(factor analysis)第四节 多变量统计分析三、因子分析(factor analysis)提取几个因子才合适,我们可以借助碎石图(scree plot)来进行判断,碎石图显示出一条折线,在某一处突然转折向下走,那么这个点所对应的横坐标的数值可能是合适的因子个数。我们可以反复运算,比较抽取不同个数的因子时每一种方案所能够解释的方差,如果少量因子所解释的方差跟大量因子所解释的方差相差无几,那么就可以考虑抽取少量因子,以实现更简化数据的目的。碎石图:第四节 多变量统计分析三、因子分析(factor analysis)完成了因子分析之后,我们可以将同一个因子上有着高负荷值的几个变量的取值相加,得到一个新变量,用这个新变量来代替多个原始变量进行接下去的运算。【思考题】1 找一份媒介研究的调查问卷,对其进行编码,注意多选问题的编码。2 根据变量的测量级别,可以采用哪些合适的单变量描述方法?3 定类和定序变量可以用哪些图形来直观描述?定距和定比变量呢?【思考题】4 什么是置信度和置信区间?为什么从样本推断总体时,把握度和精确度是一对矛盾?5 两个变量之间的相关系数都有哪些?6 自己找几份量化媒介研究报告,试分析并评价它们所采用的统计分析方法。