1、第十一章 定量资料分析 目 录 第一节 资料的整理与录入 第二节 单变量统计分析 第三节 双变量统计分析 第四节 多变量统计分析 回顾回顾: : 社会调查的一般程序社会调查的一般程序 准备 阶段 调查 阶段 研究 阶段 总结 阶段 第一节 资料的整理与录入 ? 一、资料的审核一、资料的审核 ? 资料审核是资料处理的第一步工作。它是指研究者对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。其目的是使得原始资料具有较高的准确性、完整性和真实性,从而为后续资料整理录入与统计分析工作打下较好的基础。 ? 在资料审核中,如发现问题,可以分别不同情况予以
2、处理: ? (1)调查中已发现并经认真核实后确认的错误,可由调查者代为更正。 ? (2)资料中的可疑之处或明确有错误与出入的地方,应设法进行补充调查。 ? (3)无法进行或无需进行补充调查的情况下,剔除那些明显错误的或无把握的资料,保证真实性和准确性。 ? 资料审核的方法主要有两种,即逻辑审核与计算审核。 ? 逻辑审核,即核查资料的内容是否合乎逻辑和常识,项目之间有无互相矛盾之处,与其他有关资料进行对照是否有明显出入等等。 ? 计算审核,是针对数字资料进行的审查。要检查计算有无错误。度量单位有没有错,前后数字之间有无相互矛盾之处等等。 在前面介绍问卷设计时,我们曾指出,编码就是给每个问题及答案
3、一个数字作为它的代码。 从资料处理的角度看,编码就是用阿拉伯数字来代替问卷每一个问题的回答,或者说是将问卷中的答案转换成数字的过程。下面两个表就是一份问卷中前几个问题的答案和编码。 二、资料的转换二、资料的转换 在对问卷中的问题进行编码时,要给不同的问题分配合适的栏码,即指定该问题的编码值在整个数据文件中所处的位置。 这种栏码有时在问卷设计时就印在问卷上(每页的右边,用一条竖线与问题及答案隔开),但也有很多情况下是在问卷收回后编码时再指定。 三、数据录入 ? 录入方法:录入方法: ? 1登录表法 ? 直接录入 ? 光学扫描 ? 条形码 四、数据清理 有效范围清理 对于问卷中的任何一个变量来说,
4、它的有效编码值往往都有某种范围,而当数据中的数字超出了这一范围时,可以肯定这个数字一定是错误的。 有效范围数据清理有效范围数据清理 逻辑一致性清理 ? 逻辑一致性清理则是从另一种角度来查找数据中所存在的问题。其基本思路是依据问卷中的问题相互之间所存在的某种内在的逻辑联系,来检查前后数据之间的合理性。 ?例如 性别性别/怀孕次数怀孕次数 ; 无孩子无孩子/子女个数子女个数,年龄年龄 未婚/配偶职业收入等;独生子女/兄妹个数,年龄 数据质量抽查 ? 一个很简单的例子: ?假设某个案的数据在假设某个案的数据在“文化程度文化程度”这一变量上输错了,这一变量上输错了,问卷上填答的答案是2(初中),编码值
5、也是2,但数据录入时却错敲成了3(高中及中专)。 由于3这个答案在正常有效的编码值范围中,因此,前一种方法检查不出这一错误。同时,这一变量值与其他变量之间又没有前述那样的逻辑联系,因此后一种方法也用不上。 第二节 单变量统计分析 ? 一、单变量描述统计一、单变量描述统计 ? 单变量统计分析可以分为两个大的方面,即描述统计和推论统计。描述统计的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信息。它的基本方法包括集中趋势分析、离散趋势分析等。而推论统计的主要目的,则是用从样本中所得到的数据资料来推断总体的情况,它主要包括区间估计和假设检验等。 描述统计 1. 1. 内容内容 ? 搜集
6、数据 ? 整理数据 ? 展示数据 2. 目的目的 ? 描述数据特征 ? 找出数据的基本规律 0 25 50 Q1 Q2 Q3 Q4 ¥ 推断统计 1.内容 ?参数估计 ?假设检验 2.目的 ?对总体特征作出推断 样本 总体 描述统计与推断统计的关系 反映客观现象的数据 总体内在的数量规律性 推断统计 (利用样本信息和概率论对总体的数量特征进行估计和检验等) 概率论 (包括分布理论、大数定律和中心极限定理等) 描述统计 (统计数据的搜集、整理、显示和分析等) 统计学探索现象数量规律性的过程 集中趋势分析 ? 集中趋势分析指的是集中趋势分析指的是用一个典型值用一个典型值来反映来反映一组数据的一般水
7、平一般水平,或者是反映这组数据向这个典型值集中的情况。 ? 这样一个典型值就被称为集中统计量。这样一个典型值就被称为集中统计量。 ? 按照处理方式不同集中统量可分为几类,两最常见的集中趋势有算术平均值、众数和中位数三种。用得最多的是平均数。 ? 1 定类层次:众值(众数) ? 其意义为,在众多数值中,出现次数最多的一个数值。 ? (1)原始资料,求众值 ? 例如:2 2,3 3,5 5,5 5,5 5,6 6,6 6,7 7,8 8 ? 出现次数最多的是5 5,其M M0=5 0=5 ? (2)次数资料,求众值 ? 例如:江村女青年找对象的标准 标准 相貌 人品 文化 健康 职业 能力 经济条
8、件 政治条件 家庭背景 感情 人数 55 122 51 104 13 29 16 13 6 82 其次数最多的为人品其次数最多的为人品122人次,所以人次,所以M0=人品人品 ? (3)分组的频数表中,频数最大的区间的组中值就是众值 区间 组中值 频数 75-79 77 1 70-74 72 3 65-69 67 5 60-64 62 10 55-59 57 4 50-54 52 2 表中频数最大的为表中频数最大的为10,对应的区间是60-6460-64,其组中值是62,所以众,所以众值值=62。 如果在一个次数中出现两个邻近的次数较多者,众数是二次数多的组中值的平均值 ? 2 定序层次:中位
9、值(中位数)(单选) 其意义为按大小顺序排列,处在一群数据中央位置的数值。 (1)原始资料,求中位值 例如:有9个人,他们的月工资分别如下: 47,42,50,51,92,112,71,83,108 首先作排列处理,从小到大排列 42,47,50,51,71,83,92,108,112 其次求中央位置 Md的位置=(N+1)2=(9+1)2=5 最后求中位置Md=71 (3)定距层次:算术平均数 ? 通常称平均数,又称均数或均值。英文为 Mean,故以M表示。如果是由变量 X计算得来的就记为 (读X杠),现在一般都以 表示样本的平均数,以U U 表示总体的平均数。 ? 算术平均数就是各个变量值
10、相加求和再除以变量的总次数。 xXXXXXNn12?XN?XX= = 离散量数分析 ? 离散趋势指的是测量值围绕中心值 比如平均值的分布。极差就是个简单例子。如我们可以报告说平均年龄是37.9,范围是从12到89岁。 ? 离散(中)量数分析 指的是用一个特别的数值来反映一组数据相互之间的离散(中)程度 .即各组数据相对于平均数的差异程度 (离中程度)。差异程度小,平均数的代表性高;差异程度大,代表性低。 ? 它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况。共同反映出资料分布的全面特征,同时它还对现各集中量数的代表性做出补充说明。 二、单变量推论统计 ? 区间估计 ? 以样本统
11、计量的抽样分布为理论依据,按一定概率要求,由样本统计量的值来估计总体参数的值所在的范围,叫做总体参数的区间估计。 ? 区间估计的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围来估价总体的参数值 。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的是这种估计的可靠性或和握性问题。估计的可靠性或和握性问题。 ? 区间估计的可靠性或把握性是指用某个区间去估计总体参数时,成功的可能性有多大。可以解释为:如果从总体中重复抽取100次,约有95%次所抽取样本的统计值的某个区间中都将包含总体的参数值,那么就说这个区间估计的可靠性为95%。 ? 区间估计的结果通常可以用下述方式来表述:“我
12、们有95%的把握认为,全市职工的月工资收入在182元至218元之间。”或者“全省人口中,女性占50%-52%的可能性为99%” 。 课堂练习题 例:调查某厂职工的工资状况,随机抽取900名工人做样本,调查得到他们的月平均工资为186元,标准差为42元。求95%的置信度下,全厂职工的月平均工资的置信区间是多少? 解将调查资料代入总体均值的区间估计公式得 总体均值的置信区间为183.26-188.74 当将置信度提高到99%,总体的置信区间为182.39-189.61元 (随着可靠性的提高,所估计的区间扩大了,但估计的精确性就相应地降低了。 例:从某工厂随机抽取400名工人进行调查,结果表明女工的
13、比例为20%。现在要求在90%的置信度下,估计全厂工人中女工比例的置信区间。 解带入总体百分数的区间估计公式 得16.7%-23.% (二)(二) 假设检验假设检验 ? 利用样本信息,根据一定的概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。 ? 假设是对总体参数的一种看法 ? 总体参数包括总体均值、比例、方差等 ? 分析之之前前必需陈述 假设检验的基本思想 . 因此我们拒绝假设 ? = 50 . 如果这是总体的真实均值 样本均值 ? = 50 抽样分布 H0 这个值不像我们应该得到的样本均值 . 20 总体 ? ? ? ? ? ? ? 假设检验的过程 (提出假设抽取样本作
14、出决策) 抽取随机样本抽取随机样本 均值 ?X = 20 ? ? ? ? 我认为人口的平均年龄是 50岁 提出假设提出假设 拒绝假设! 作出决策作出决策 第三节 双变量统计分析 ? 一、交互分类与一、交互分类与检验检验 ? 交互分类 ? 交互分类是一种专门用来分析两个定类变量(或一个定类变量,一个定序变量)之间关系的统计分析方法。 某次调查样况的构成情况统计表 性别 年 龄 青年 中年 老年 合计 男 70 60 50 180 女 50 40 30 120 合计 120 100 80 300 上表是对总数为300人的调查样本按年龄和性别两个变量进行交互分类的结果。通过这种交互分类表,不仅可以知
15、道样本中男性、女性各有多少,或者青年、中年、老年各有多少,同时还可以知道男性青年、男性中年 等等各有多少。因此,交互分类可以较为深入地描述样本资料的分布状况和内在结构,进而对变量之间的关系进行分析和解释。 二、不同层次变量的相关测量与检验 ? 1.定类变量与定类变量 ? 消减误差比例,指的就是知道X的值时所减少的误差(E1-E2 )与总误差的比。 ? 2.定序变量与定序变量 ? 3.定类变量(或定序变量)与定距变量 ? 4.定距变量和定距变量 总结:不同层次变量的相关测量与检验总结:不同层次变量的相关测量与检验 两变量层次 相关系数 取值范围 是否对称 有无消减误差的比例意义 检验方法 定类-
16、定类 定类-定序 0,1 对称 有 x2 定序-定序 G -1,1 对称 有 Z 定类-定距 定序-定距 E E2 0,1 不对称 无 有 F 定距-定距 r r2 -1,1 0,1 对称 无 有 F (t检验) 三、回归分析 ? 相关分析的目的在于了解两个变量之间的关系强度,即用相关系数来描述两个变量之间的共变特征。回归分析则是对有相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以便依据回归方程对未知的情况进行估计和预测。由于回归分析增加了因果性,且具有了预测的功能,因此,它比相关分析更进了一步,其作用也更大了。 ? 两个变量(预测变
17、量X与标准变量Y)间的回归分析,是只有一个自变量的线性回归,也叫一元线性回归。其回归方程为: YabX?其中a,b、对一对特定数据来说是常数: abbrSSYX?aYb X?例:以前例数据计算由(身高)预测(体重)的回归方程。 X ? 176Y? 71SX? 502.SY? 4 47.r ?.98有了这一回归方程后,我们就可以由预测变量的值经回归方程计算出标准变量的预测值。如另一名大学生的身高为170厘米,则其体重的预测值为65.78公斤。 b?.9844750287a ? ?71 87 1768212.YX? ?821287.第四节 多变量统计分析 ? 在社会研究中,研究者除了进行双变量分析
18、外,还常常需要进行多变量分析。多变量统计分析的方法种类较多,比如阐释模式、复相关分析、多元线性回归分析、路径分析、因子分析、聚类分析、判别分析、对数线性模型等等。 阐释模式阐释模式 ? 所关心的是两个变量之间的关系,它是通过引进并控制第三变量,来进一步了解和探讨原来两个变量之间关系性质的统计分析方法。 ? 因果分析 ? 阐明分析 ? 条件分析 ? 因果分析的目标是检定被看作自变量的X与被看作因变量的Y之间,是否确实存在因果关系。引进若干前置变量(第三变量),以判明X与Y之间的因果关系是否为虚假的,即二者的关系是否为前置变量影响的结果。(例如,住户的拥挤程度对夫妻间冲突的影响) ? 阐明分析的目
19、标则是探讨因果关系的作用方式与作用途径。 ? 条件分析所关注的则是原关系在不同条件下是否会有所不同。 二、复相关分析 ? 复相关分析是一种以一个统计值来简化多个自变量与一个因变量之间关系的统计分析方法。它要求所有的变量都是定距以上层次的变量。 三、多元回归分析 ?Y=b1x1+b2x2+bkxk+a ?B值称为净回归系数,它表示的是在控制了其他自变量以后,某一变量对因变量的单独效果。 基本概念 ? 资料审核 数据清理 ? 集中趋势分析 离散趋势分析 ? 区间估计 假设检验 ? 交互分类 阐释模式 ? 复相关分析 多元回归分析 思考与实践 ? 找一份实际社会研究所用的问卷,对其编写一份编码簿。 ? 利用老师提供的数据,对其进行数据清理工作。 ? 试写出下列各种变量间相关系数的类型:定类变量与定类变量;定序变量与定序变量。定类变量与定距变量;定距变量与定距变量。(p271-275) ? 统计检验的目的是什么?为什么社会研究常常需要进行多变量分析? (p265-266) ? 从社会科学期刊中选择三篇研究报告,分析并评价这些研究中所采用的统计分析方法。