1、社会调查研究方法目目 录录 第一节定量资料的整理 第二节定性资料的整理 学习目标学习目标熟悉定量资料分析的类型。掌握单变量、双变量统计分析的方法。了解多变量统计分析的方法。熟悉内容分析法、比较分析法和结构功能分析法。2015年9月,麦肯锡全球研究院(MGI)发布了一份名为平等的力量:性别平等如何为全球经济创造12万亿美元的增长的报告。这份报告反映了全球95个国家的性别不平等问题,并对缩小全球性别差距所带来的经济潜力进行了量化,旨在帮助缩小职场的性别差距、使妇女为20142025年的全球GDP增长做出双倍的贡献。案例导入全球性别平等的力量职场上的性别差距是社会上的性别差距的缩影。因此,研究性别不
2、平等问题及思考如何应对这个问题时,需要把经济和社会方面的因素考虑进去。麦肯锡全球研究院的性别平等研究框架分为4个维度,包含了15个指标(见表11-1)。表11-1 麦肯锡全球研究院的性别平等研究框架及指标为了解各个性别平等指标之间的关系及经济发展发挥的作用,MGI对95个国家进行了研究,分析了各指标之间的相关性,以及性别平等指标与人均GDP和城市化等整体经济发展指标之间的关联。MGI在报告中明确指出,相关性并不等同于因果关系。在许多情况下,各个指标之间可能存在互相加强的关系,而非因果关系。然而,相关性研究仍然是一个有用的工具,它有助于发现存在协同效应的领域,以及实现性别平等的着力点。图11-1
3、 经济发展、社会性别平等、职场性别平等指标之间的相关性如果各国利用GDP增长率较高的红利来促进对包容性社会开支和城市化的投资,那么经济发展就能够为进一步缩小性别差距推波助澜。相关性分析还显示出,要加快实现职场性别平等,最具希望的路径是推进以下四方面的发展:教育水平、金融和数字化参与度(这两项可归为同一方面,因为金融服务的交付模型与数字化渠道紧密相关)、法律保护、无偿抚养工作。除了与职场性别平等息息相关,这四方面也是改善女性卫生保健、人身安全和政治参与情况的基础。在这四个领域里投入资源并付出努力,很有可能产生深远的影响并带来社会变革。上述报告通过对所收集的有关性别平等指标数据和经济发展等定量数据
4、进行相关分析,由相关分析的结果得出了缩小职场性别不平等的路径等重要结论和建议。对社会调查研究所收集的资料进行整理后,调查研究者就需要对资料进行全面、系统而深入的分析。进行资料分析是获得调查研究结论和进行社会管理决策的最核心的工作。可以说,想要发挥社会调查研究的巨大威力,就必须关注数据的分析。本章将根据社会调查研究所收集的资料类型不同,从定量资料的分析和定性资料的分析两个方面介绍资料分析的一般原理和技术。定量资料的研究分析借助的是各种统计分析方法。按统计分析的性质的不同,定量资料的分析可分为描述统计和推断统计;按统计分析涉及变量的多少,定量资料的分析可分为单变量统计分析、双变量统计分析和多变量统
5、计分析。 描述统计与推断统计 一、描述统计(descriptive statistics)是用图形、表格和概括性的数字对数据进行描述的统计方法,即用直观的图形、汇总的表格和概括性的数字(如平均数)表示数据的分布、形状等特征。推断统计(inferential statistics)是指研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。描述统计与推断统计的划分还反映了统计方法发展的前后两个阶段和使用统计方法探索客观事物数量规律性的不同过程。统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中
6、,如果搜集到的是总体数据(如普查数据),那么运用描述统计就可以达到认识总体数量规律性的目的;如果获得的只是研究总体的一部分数据(样本数据),那么要想找到总体的数量规律性,就要运用概率论的理论并根据样本信息对总体进行科学的推断。显然,描述统计和推断统计是统计方法的两个组成部分。描述统计是所有统计分析的基础,推断统计则是实际工作中定量资料分析的主要内容。而且,推断统计的地位和作用也越来越重要,已成为统计分析的核心内容,这是因为在对现实问题的研究中所获得的数据主要是样本数据。但这并不等于说描述统计不重要,如果没有描述统计搜集可靠的统计数据并提供有效的样本信息,再科学的统计推断方法也难以得出切合实际的
7、结论。从描述统计学到推断统计学反映了统计学发展的巨大成就,是统计学发展成熟的重要标志。 单变量、双变量和多变量统计二二、在社会调查研究中,通常都会涉及多个变量。但是在统计分析中,究竟是进行单变量统计分析,还是进行双变量统计分析或多变量统计分析,取决于调查研究者的意图和目的。单变量统计分析只能进行描述性研究。因为单变量统计分析只涉及一个变量,所以它只能用统计数值(如平均数、百分比、标准差等)来描述单个变量的特征,不能对变量之间的关系做出解释,而只有双变量统计分析或多变量统计分析才能进行解释性研究。因为只有涉及两个或两个以上的变量时,才有可能分析它们之间的关系(包括相关关系和因果关系),才有可能用
8、自变量来解释因变量。也就是说,如果要进行解释性研究,就必须进行双变量统计分析或多变量统计分析。常用的双变量统计分析方法包括列联表分析与2检验、各种双变量相关分析、一元回归分析等等。当一项统计分析涉及三个或三个以上变量(其中至少有一个因变量)时,则称为多变量或多元统计分析。多变量统计分析是一种更为复杂的统计分析方法,因而通常称为高级统计方法。在计算机统计软件产生之前,多变量统计方法由于技术太复杂、计算太困难,应用范围受到很大的限制。在计算机统计软件产生并推广应用之后,这种情况已完全改变,各种设计精巧的统计软件可以让社会调查研究者根据需要进行各种复杂的多变量统计分析。当然,要正确使用统计软件、正确
9、解释和使用统计分析结果,就必须掌握多变量统计分析的基本原理和方法,否则再好的统计软件也不可能做出正确的统计分析。在社会调查研究中,多变量统计分析方法有很多,如多元相关分析、多元回归分析、因子分析等。 (一)单变量统计分析单变量统计描述分析单变量统计推断分析单变量统计分析又分为 1.单变量统计描述分析单变量统计描述分析是对单一变量利用描述统计的主要方法进行研究。单变量的统计描述分析在社会调查研究中很常见,如某城市的家庭结构如何?有多少直系家庭?有多少联合家庭?又有多少核心家庭?某城市居民中有多少种民族?其各占比例多少?某企业有多少女性员工?其年龄结构如何?某学校教师的文化结构如何?等等。单变量统
10、计描述的分析方法分为集中趋势分析和离中趋势分析。(1)集中趋势分析。集中趋势是指一组数据向其中心值靠拢的倾向和程度。分析集中趋势就是寻找该组数据的代表值或中心值。众数。众数是指总体中出现次数最多的那个标志值,用Mo表示。众数表示被研究社会经济现象中最普遍最常见的标志值,以反映该现象的一般水平。众数用得最多的情形是具有明显偏态集中趋势的次数分布,如对一个地区的家庭收入分配数列、工人月工资分配数列、某种债券息票率分组的行情次数分布等进行分析。根据未分组数据或分组数据计算众数时,只需要找出出现次数最多的变量值即可。【例例11-111-1】【例例11-211-2】应该注意的是,一组数据也许有两个甚至多
11、个众数存在。数据中出现两个次数最多的变量值时,可称为复众数。在实际工作中,还可以利用直方图来确定众数的近似值,但要求绘制的直方图足够精确,其具体方法不再赘述。众数属于位置平均数,不受极端值的影响。当变量数列为均匀分布、U型分布、J型分布时,不存在众数。众数缺乏敏感性,这是因为众数的计算只利用了部分数据的信息,不像均值那样利用了全部数据信息。【例例11-311-3】【例例11-411-4】中位数因为不受极端值影响,所以其代表性比均值稳定。但中位数没有考虑总体的全部变量值,不宜用来推算总体。此外,中位数还具有一个优良的数学性质,就是各变量值与中位数的离差绝对值之和最小,即该性质表明,中位数与各数据
12、的绝对距离之和最短,这在工程设计、城市规划、网点布局等方面有一定的应用价值。 分位数。分位数是将按标志值大小顺序排列的各总体单位划分为数目相等的若干部分的数值。中位数是将统计分布从中间分成面积(即数据个数)相等的两部分,与中位数性质相似的还有四分位数(quartile)、十分位数(decile)和百分位数(percentile)。不难理解,四分位数就是将数据分布四等分的三个数值,其中中间的四分位数就是中位数(Q2),在25%位置上的分位数称为下四分位数(Q1),在75%位置上的分位数称为上四分位数(Q3)。十分位数和百分位数分别是将数据分布10等分和100等分的数值。使用Excel软件可以方便
13、地得出数据的四分位数。【例例11-511-5】图11-2 数据输入在“公式”项下点击“插入函数”,并在复选窗口选择“统计”,再点选“QUARTILE.EXC”,最后点击“确定”,如图11-3所示。图11-3 函数“QUARTILE.EXC”的调取在弹出的对话框中,“Array”后选择要处理的数据区域,“Quart”后填写1,点击“确定”,得到这组数据的下四分位数为2 675元,如图11-4所示。图11-4 函数参数的输入及下四分位数结果的得出重复上一步的操作,“Array”后选择要处理的数据区域,“Quart”后填写3,点击“确定”,得到这组数据的上四分位数为3 125元,如图11-5所示。图
14、11-5 函数参数的输入及上四分位数结果的得出 算术平均数。算术平均数亦称均值,是总体各单位某一数量标志的平均数,它的基本形式是总体各单位某一标志值的总和(标志总量)除以总体单位总量。其计算公式为利用此公式时应注意分子和分母必须属于同一总体,分子的标志总量应是分母所有总体单位标志值之和,分子与分母的范围是一致的。总体标志总量是数量标志值的和,由于品质标志不能相加,因而不能计算算术平均数。算术平均数是一个有名数,计量单位应和标志值的计量单位一致。 (11-2)根据所得数据的形式不同,算术平均数的计算分为简单算术平均数和加权算术平均数两种形式。简单算术平均数是将总体各单位的标志值简单相加求得标志总
15、量,然后除以总体单位总量得到的,其计算公式为式中,x 为算术平均数,xi为各单位标志值,n为总体单位数,为求和的符号。(11-3)【例例11-711-7】表11-5 某工厂工人工资水平分布情况 几何平均数。几何平均数是各个标志值连乘积的项数方根所得的平均水平。几何平均数在计算社会经济问题的平均发展速度等方面发挥着重要作用。根据所得资料的形式不同,几何平均数可分为简单几何平均数和加权几何平均数两种形式。【例例11-811-8】表11-6 20112014年我国的国内生产总值的发展速度在资料分组的情况下每个变量值次数不相同时,计算几何平均数应采用加权几何平均数,公式如下其中f表示各标志值出现的次数
16、,f表示次数之和。(11-6)【例例11-911-9】表11-7 定期存款的年利率资料(2)离中趋势分析。平均数是概括数据的一种有效方法,但有时用平均数却会使人们产生错误的认识。例如,一个社区的平均家庭户收入可能是每年30万,但如果这个均值是根据200户非常贫困的家庭和20户极其富有的家庭收入计算得来的,那么这一平均年收入就几乎没有代表性。离中趋势是数据分布的另一个重要特征,它反映了各变量值远离其中心值的程度,也从另一个侧面说明了集中趋势指标的代表程度。 极差。极差又称全距,是一组数据中最大值与最小值之差。其计算公式为极差=最大的标志值-最小的标志值 (11-7)一般说来,如果总体的标准差较大
17、,从中取出的样本的极差会大一些;如果总体的标准差较小,从中取出的样本的极差也会小一些。反过来说,若样本极差较大,表明总体取值较分散;若样本极差较小,则总体取值相对集中。【例例11-1011-10】极差是描述离中趋势的最简单指标,计算简单直观,也易于理解,但其数值大小易受极端值的影响,且不反映中间变量值的差异,因而不能准确描述出数据的离中程度。 内距。内距是两个四分位数之差,即内距=上四分位数-下四分位数=Q3-Q1 (11-8)【例例11-1111-11】(11-9)(11-10)a.对于未分组资料,采用简单平均式。总体标准差式中,x为总体各个标志值,为总体的均值,N为总体单位总数。样本标准差
18、式中,x为样本各个标志值,x为样本的均值,n为总体单位总数。b.对于分组资料,采用加权平均式。总体标准差样本标准差在单项式变量数列中,x代表各组标志值;在组距式数列中,x代表各组组中值,f为各组对应的次数。(11-11)(11-12)【例例11-1211-12】表11-8 31个家庭的知识测验分数 离散系数。极差、标准差都是使用绝对数来说明标志值的差异程度或离中趋势的,它们的大小不仅受离散程度的影响,而且受标志值数列水平的影响,也就是说,同样大小的变异度对于不同水平的标志值数列来说,其表明的意义是不一样的。例如,2 000元的损失对于月薪4 000元和月薪15 000元的人来说,影响就大不相同
19、。(11-13)【例例11-1311-13】 2.单变量统计推断分析单变量统计推断分析有两个方面的工作:一是参数估计,即由对部分进行观测取得的数据对研究对象整体的数量特征取值给出估计;二是假设检验,即由对部分进行观测取得的数据对研究对象的数量规律性是否具有某种指定特征进行检验。(1)参数估计。所谓参数估计就是用样本统计量去估计总体的参数。例如,用样本均值 x 估计总体均值,用样本方差s2估计总体方差2,用样本比例p估计总体比例等。参数估计的方法有点估计和区间估计两种。 点估计。点估计又称定值估计,它是直接以样本指标数值(统计量)推断总体指标数值(参数)的方法。点估计给出的只是总体缩小的一个估计
20、数值,即没有给出估计的精确或准确程度,也没有给出估计的可靠程度。因此,在实际推断中,一般不单独使用点估计的方法,而多采用区间估计的方法。但点估计是区间估计的基础,区间估计的置信区间是以点估计的值为中心的。因此在抽样调查的估计理论中,点估计的方法与原理也很重要。 区间估计。区间估计是指在一定的概率保证下,根据样本指标和抽样极限误差去推断总体相应指标所在的可能范围(置信区间)的方法。这个可能范围通常用一个最低限和一个最高限构成的区间来表示,并以一定的概率保证总体指标的估计值在这两个数值构成的区间之内。因此,它是利用样本指标去推断总体指标的主要方法。要想深刻理解区间估计,就需要从以下3个方面来把握:
21、a.区间估计是根据样本指标和抽样极限误差去估计总体指标所在的范围的。在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间。区间的最小值称为置信下限,区间的最大值称为置信上限。用公式表示为其中为抽样极限误差(允许误差)。(11-14)(11-15)b.区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。总体指标在这个范围的判断是不肯定的,其在一定范围内的判断会有一定可靠程度,即置信水平、置信度,或者称有一定概率保证。例如,总体均值落在以样本均值为中心构造的1.96个抽样平均误差范围之内的概率为95%,落在两个抽样平均误差范围之内的概率为95.45%。c.扩大抽样极限误差的范围
22、可以提高推断的可靠程度,缩小抽样极限误差的范围会降低推断的可靠程度。即精确程度与推断的可靠程度此消彼长。如果总体方差未知,那么在大样本条件下就可以用样本方差s2代替总体方差2,这时总体均值在1置信水平下的置信区间可以写为(11-17)如果是采取不重复抽样,而且抽样比很大时(一般大于5%),则抽样分布的方差应乘以修正系数 ,这时总体均值在1置信水平下的置信区间可以写为【例例11-1411-14】(2)假设检验。假设检验是除参数估计之外的另一类重要的统计推断问题。它是指对未知总体的某种特征提出某种假设,再根据样本资料来验证该假设是否成立的推断统计方法。假设检验的基本思想可以用小概率原理来解释。所谓
23、小概率原理,就是认为小概率事件在一次试验中是几乎不可能发生的。也就是说,如果对于总体的某个假设是真实的,那么不利于或不可能支持这一假设的小概率事件A在一次试验中几乎是不可能发生的,要是一次试验中事件A竟然发生了,我们就有理由怀疑这一假设的真实性,从而拒绝这一假设。假设检验可分为以下4个基本步骤: 提出原假设和备择假设。根据已知的信息,在经过周密考虑之后提出原假设H0和备择假设H1,假设的设定依据是原假设和备择假设的定义。 选择适当的检验统计量,并根据样本信息计算检验统计量的值。不同的假设检验问题需要选择不同的统计量作为检验统计量。所谓检验统计量是根据样本观测结果计算得到的,并据以对原假设和备择
24、假设做出决策的某个样本的统计量。检验前必须先确定用于检验的统计量,了解其分布特点。 选择显著性水平,确定临界值。假设检验的基本原理就是根据检验统计量建立一个准则,依据这个准则和计算得到的检验统计量值,研究者就可以决定是否拒绝原假设。但统计量的哪些值将导致拒绝原假设而倾向于接受备择假设?这就需要找出能够拒绝原假设的统计量的所有可能取值,这些取值的集合称为拒绝域(否定域)。拒绝域的大小与研究者事先选定的显著性水平有一定的关系。在确定了显著性水平之后,就可以根据值的大小确定出拒绝域的具体边界值临界值。拒绝域的位置取决于检验是单侧检验还是双侧检验。双侧检验的拒绝域在抽样分布的两侧。而在单侧检验中,如果
25、备择假设具有符号“”,那么拒绝域就位于抽样分布的右侧,故称为右侧检验。在给定显著性水平条件下,拒绝域和临界值可用图11-6来表示。图11-6 显著性水平、拒绝域和临界值 将检验统计量值与临界值进行比较并做出判断。拒绝域是由显著性水平所围成的区域。如果利用样本观测结果计算出来的检验统计量的具体数值落在了拒绝域内,就拒绝原假设,否则就不能拒绝原假设。 (二)双变量统计分析前面所讲授的统计方法都属于单变量的统计方法,即把总体看作一维的随机变量。但是,构成社会现象的研究更多的是指命题,即研究两个或两个以上概念间的关系,用统计语言表达就是研究变量x和变量y之间的关系。例如,沟通能力与收入的关系;文化程度
26、与生育意愿的关系;年龄与人们爱好的关系;人格与个人事业成就的关系;等等,这些都属于双变量统计分析的内容。由于变量存在不同的测定层次,双变量统计分析有着不同的研究方法。需要说明的是,由于社会调查研究中很少能找到只满足定距要求而不满足定比要求的变量(除了智商IQ),因此常把定距和定比两类合并为一类。按照以下三种方式划分的双变量的统计分析方法可制成如表11-9所示的二维矩阵。表11-9 双变量统计分析方法矩阵其中每一种(xi,yj)(i1,2,3;j1,2,3)的组合,都构成了双变量的一种特定的统计分析方法的讨论。下面双变量统计分析方法的介绍就是根据以上组合展开的。 1.两个定类变量的相关测量系数的
27、计算分两种形式:一种是非对称形式,另一种是对称形式。假设有rc列联表(见表11-10),则有表11-10 rc列联表 非对称形式。非对称形式假设两个变量的关系是非对称的,即一个是自变量x,一个是因变量y,用自变量x来预测因变量y时,可以消减的误差比例是多大,通常以符号y表示,其计算公式为(11-20)同理,如果y为自变量,x为因变量,用自变量y来预测因变量x时,可以消减的误差比例通常以符号x表示,计算公式为(11-21) 对称形式。对称形式即假设两个变量的关系是对称的,在区分不出自变量和因变量时,可同时计算y和x,并取其平均值作为x和y间的相关程度,其公式是值只使用了众数的频次,资料信息使用不
28、充分,如果全部众数的频次集中在交互分类表中的同一列或同一行中,那么系数便会等于0。因此,有些研究者用系数对定类变量的相关关系进行测量。(11-22)(2)系数。系数在运用PRE准则时与系数不同,并有所修正。具体来说,当不知x与y有关系预测y时,系数要充分考虑到y值边缘分布所提供的信息,因此不再用众数来对y进行预测,而是用边缘分布所提供的比例来进行预测。系数值域在0和1之间。当以x为自变量时,用对y的预测来定义PRE,得的值称作y,其公式为(11-23)同样,如果y为自变量,用对x的预测来定义PRE,所得的值称作x,其公式为由于系数考虑了全部的次数,所以比系数更可靠。因此,如果是非对称关系,最好
29、选用系数简化两个定类变量之间的关系。(11-24) 2.两个定序变量的相关测量最常用的简化两个定序变量的相关测量有Gamma系数(通常用G表示)和d系数。Gamma系数适用于对称关系,d系数适用于非对称关系。两者的取值都在1和1之间,既表示相关的程度,也表示相关的方向,并且都具有消减误差比例的意义。(1)Gamma系数。计算Gamma系数(G)的公式如下其中ns表示同序对的数目,nd表示异序对的数目。(11-25)同序对是指形成一对的两个个案在不同变量上的等级次序是相同的,也就是说其在变量x上的等级高低顺序与在变量y上的等级高低相同。如果个案A在x变量上的等级为xa,在y变量上的等级为ya,个
30、案B在x变量上的等级为xb,在y变量上的等级为yb。如果xaxb,yayb,那么就称个案A和B是同序对。而异序对则是指某对个案中在不同变量上的等级次序不同,其中一个变量的等级高于对方,另一个变量的等级低于对方。如果个案A在x变量上的等级为xa,在y变量上的等级为ya,个案B在x变量上的等级为xb,在y变量上的等级为yb。如果xaxb,yayb,那么就称个案A和B是异序对。(2)d系数。d系数的计算公式如下其中ns表示同序对数;nd表示异序对数;ny表示y变量的同分对。这里所说的y变量的同分对指的是在两个个案中,变量y具有相同的等级。(11-26)由于dy系数考虑了因变量y的同分对,所以其数值小
31、于Gamma系数值。值得说明的是,原则上需要用dy系数分析非对称的关系,用Gamma系数分析对称关系,但在一些研究中,即使区分了自变量和因变量,也选用Gamma系数,这种做法是可以接受的。除了Gamma系数和d系数外,还有一些测量定序变量关系的方法,如肯德尔(Kendall)的系数和斯皮尔曼(Spearman)的等级相关系数rs等,具体可参考相关文献。 3.两个定距或定比变量的相关测量两个定距或定比变量之间的相关关系可以用系数r、R2来表达。(1)样本相关系数。相关系数是对变量之间密切程度的度量。对两个定距或定比变量之间线性相关程度的度量称为简单相关系数。根据样本数据计算的相关系数叫作样本相关
32、系数,记为r。英国统计学家卡尔皮尔森(Karl Pearson)在1890年提出了一个测定两变量线性相关的计算公式,其为相关系数r具有下面几个性质: 相关系数的取值范围在-1和+1之间,即-1r1。 若r为正,则表明两变量为正相关;若r为负,则表明两变量为负相关。 r的数值越接近于1,表示相关系数越强;越接近于0,表示相关系数越弱。当r=1或-1时,表示两个现象完全线性相关。当r=0时,则表示两个现象完全不相关(不是直线相关)。 判断两变量线性相关密切程度的具体标准为:若0r0.3,则称为微弱相关;若0.3r0.5,则称为低度相关;若0.5r0.8,则称为显著相关;若0.8r1,则称为高度相关
33、。需要说明的是,皮尔森相关系数r只能测定两个定距或定比变量之间存在的线性相关关系。也就是说,如果两个变量之间r数值较大,也只能够说明两者之间存在较强的线性关系。如果两者之间r为0,并不能说明两个变量之间不存在除线性形式以外的其他形式的相关关系。所以,在计算两个变量的相关系数时,应该先使用散点图观察两变量之间的函数形式,然后再使用相关系数来测量相关关系的方向和程度的大小。(2)可决系数(判定系数)。可决系数R2是对拟合优度进行度量的一种方法。所谓拟合优度,指的是对所估计出的样本回归线考察其对样本观测数据拟合的优劣程度。如果样本回归线对样本观测值拟合程度越好,各样本观测点与回归线靠得越近,由样本回
34、归做出解释的离差平方和在总离差平方和中占的比重也将越大;反之,拟合程度越差,这部分所占比重就越小。可决系数R2的公式为(11-29)可决系数R2有如下特点: 可决系数R2是非负的统计量。 可决系数R2取值范围为0R21。 可决系数R2是样本观测值的函数,是随抽样而变动的随机变量。 在一元线性回归中,可决系数R2在数值上是简单线性相关系数的平方: 4.定类变量与定序变量的相关测量由于定序变量具有定类变量层次的数学特征,因此,大部分社会调查研究者在分析定类变量和定序变量时,都采用系数和系数,也就是将定序变量作为定类变量来看待,虽然这种做法会损失定序变量的一些数学特质,但统计起来较为方便。 5.定类
35、变量与定距变量的相关测量定类变量和定距变量的测量一般采用相关比率E2表示,它是根据自变量的每一个值来预测或估计因变量的均值,具有消减误差比例的意义,其取值范围为01。相关比率E2开方后可得到相关系数E,因为有一个变量是定类变量,所以E系数没有负值。其计算公式如下(11-30) 6.定序变量与定距变量的相关测量在定序变量和定距变量的测量中,通常也是采用相关比率E2来进行测量的,也就是把定序变量作定类变量处理。在分析定序变量和定距变量的关系时,除了采用相关比率系数外,社会调查研究中也会采用积矩相关系数甚至线性回归,其基本的逻辑是定序变量通过赋值作为定距变量进行统计。 (三)多变量统计分析多变量统计
36、分析又称多元统计分析,是指涉及三个及三个以上变量(其中至少一个因变量)的统计分析方法。社会现象之间的复杂性使人们认识到正确使用多变量分析,通常会比只进行单变量和双变量分析更具有解释力。20世纪80年代以来,随着计算机的普及和统计软件的广泛应用,多变量统计分析方法迅速发展,现已发展成为一个各种方法互相交叉、内容丰富、层次复杂的庞大体系。囿于篇幅,下面简略地介绍几种比较常用的多变量统计分析方法。 1.多元相关分析在双变量分析中,是用一个统计量(如相关系数、G、r等)反映两个变量间的相关关系的。当变量达到三个或三个以上时,相关关系的分析就属于多元相关分析或多变量相关分析的范畴了。多元相关分析也是用一
37、个统计量(如偏相关系数、复相关系数等)来简化和反映多个变量之间的相互依存关系的,只不过这种关系更加复杂。与多元相关分析直接有关的方法有偏相关分析、复相关分析和典型相关分析等。(1)偏相关分析。偏相关分析指的是在控制了其他变量影响的情况下,用一个统计值来测量某一变量x和另一变量y之间相关关系强弱程度与方向的方法,这个统计值叫作偏相关系数。(2)复相关分析。复相关分析指的是测量多个自变量(如x1、x2、x3xn)共同对一个因变量(如y)发挥作用时形成的相关关系的方法,它用一个统计值来表示这些自变量与该因变量关系的强弱和方向,这个统计值被称为复相关系数。(3)典型相关分析。典型相关分析指的是一种测量
38、两组变量(每组变量均多于一个变量)相关强弱与方向的多元统计方法。典型相关其实是简单相关和复相关分析的进一步推广。因为当两个变量组均只有一个变量时,典型相关系数就成了双变量分析中的简单相关系数;同样,当典型相关中的两组变量中有一组变量只有一个变量时,典型相关便成了复相关。在进行典型相关分析时,习惯上将自变量组称为预测变量,而将因变量组称为标准变量,用于测量典型相关的统计量称为典型相关系数。 2.多元回归分析多元回归分析是研究两个或两个以上自变量(如x1、x2xn)和一个因变量(y)之间的关系,并用自变量解释与预测因变量的多变量统计分析方法。在社会调查研究中,应用较多的是多元线性回归分析法和Log
39、istic回归分析法。(1)多元线性回归分析法。多元线性回归分析法是简单线性回归的推广,也是多元回归分析方法中的基本形式,它的应用通常对数据有比较严格的要求。它要求各自变量之间不能存在高度的线性相关性(即多重共线性);而且它还要求自变量和因变量均为定距或定比变量。如果自变量为定类或定序变量,则要采取其他的回归分析方法,如Logistic回归分析法。(2)Logistic回归分析法。Logistic回归分析法是自变量为定距或定比变量(或虚拟变量),因变量为定类变量或定序变量条件下的多元回归分析方法。由于社会调查研究中的数据很多时候是定类或定序地测定层次,难以满足多元线性回归分析的条件要求,而Lo
40、gistic回归分析的方法弥补了多元回归分析的局限,因而取得了广泛的使用。 3.多元方差分析多元方差分析是对多个定类变量(自变量)与多个定距或定比变量(因变量)关系的多元分析方法,其分析的统计原理与方法同一元方差分析相似,只是程序更加复杂。 4.因子分析因子分析是一种数据简化的技术,即用相对少量的几个因子表示多个相互有关联的变量之间的关系。被描述的变量是可以观测的显在变量(显变量),而因子是不可观测的潜在变量(潜变量)。因子分析的基本思想是:将观测变量分类,把相关性较高的(联系比较紧密的)变量放在同一类中,每一类的变量实际上隐含着一个因子;而不同类的变量之间则相关性较弱,也就是说各个因子之间是
41、不相关的。因子分析就是要找到这些具有本质意义的少量因子,并用一定的结构或模型表达、解释大量可观测的变量。 5.对数线性模型分析在自变量和因变量都是定类或定序变量的情况下,可以使用对数线性模型分析它们之间的相关关系。对数线性模型处理的是以交互分类表形式出现的定类或定序数据。 6.结构方程建模法结构方程建模法(structural equation modeling,SEM)是一种综合运用多元回归分析、路径分析和因子分析方法而形成的一种统计数据分析工具。可用来解释一个或多个自变量与一个或多个因变量之间的关系。适用的数据类型可以是定类或定序变量,也可以是定距或定比的变量。经验调查中所获得的现象和所收
42、集的材料只是一种表象,可是在表象里却包含着社会调查研究所要寻找和发现的东西。在对这些表象和材料进行定性分析时,社会调查研究者需要使用不同方式来分析和揭示其所包含的内容。区别于对定量资料的分析,对定性资料的分析有着独特的方法体系。下面介绍其中三种重要的分析方法:内容分析法、比较分析法、结构功能分析法。 内容分析法 一、作为一种定性资料的分析方法,内容分析法不是一种标准化的分析方法,而是属于开放式的分析过程或方式。内容分析需要研究者在知识积累的基础上发挥自己的创造性,并且只有通过严谨的分析和大量艰苦的工作研究者才能获得真知。内容分析的对象既可以是定性访谈的记录材料,也可以是观察的记录,或者是实地调
43、查所获得的音像资料、文件材料和档案资料等。内容分析法就是通过对这些记录资料的系统检查从中揭示关于研究对象的系统认识。 (一)内容分析法的含义及特点内容分析法是指对与研究对象密切相关的定性资料所包含的意义、主体意识与观念及社会与文化法则等进行细致的、具体的、系统的分析的方法。不难理解,作为一种分析策略,内容分析法主要有如下3个特点: 1.针对性内容分析所针对的是定性资料的特定部分,也就是要从定性资料中选定某个部分,并剖析其中的内容及隐含意义。内容分析通常需要依据理论建构的要求进行,即内容分析需要选定特定的资料进行研究,一方面可能是因为该部分资料对解释社会现象具有特殊的效果;另一方面也可能是由于研
44、究者根据理论分析需要来进行资料选择,这些资料对验证和解释理论假设可能有特殊的意义。 2.系统性内容分析需要对选定的资料进行系统的分析。内容分析的系统性体现在分析方法的系统性和分析内容的系统性。分析方法的系统性主要体现在通过有效的途径重新组织和处理定性资料的内容,以达到揭示和呈现在资料内容所暗指或隐含的深层意义及可以称得上是规则的东西。换言之,分析方法的系统性就是要求研究者不能断章取义,而是要用细致的、严谨的、系统的方法对资料内容加以深入全面的分析和诠释。此外,分析内容的系统性则是要求在分析过程中所揭示和呈现的意义和规则是相互关联、前后衔接的系统整体,而不是散乱的意义注解。 3.解释性内容分析的
45、目的在于分析和解释定性资料中所包含和隐含的主题、规则、观念及意义。其实质是透过现象看本质,即从定性资料所呈现出的表象去把握关于研究对象的本质,形成对研究对象的系统解释。可以说,解释性特点体现着内容分析的价值。 (二)内容分析的分类 1.显性内容分析显性内容是指由资料的物质载体直接显现的事实及意义。例如,在一段谈话录音资料中,我们可能会直接听到被访者讲述有关自己行动及思想的讲话内容;或是在一段实地调查过程中摄录下的某项活动录像中,活动的流程可以被直接观察到。显性内容分析就是再现或重新组织资料自身所呈现的内容。 2.潜性内容分析与显性内容相比,潜性内容是指资料所隐含的潜在意义、规律和意识,它是显性
46、内容的深层结构及意义。潜性内容不仅不能被资料的载体形式直接显现出来,而且也不是通过常识或直觉经验就能被发现、理解和把握的。潜性内容是隐藏在现象背后、更为本质性、更深层次的结构和意义。例如,当分析一个地方性社会关于某种禁忌习俗的经验材料时,研究者可以从中了解禁忌的内容及人们赋予这种习俗的文化意义,这些都属于显性内容。而潜性内容则是这种禁忌背后所隐含的更为宏大、更深层次的关于人或社会的基本认知结构。显性内容分析与潜性内容分析有着密切的联系。一项系统的分析,尤其是旨在构建理论解释的定性分析,一般会同时包括显性和潜性内容分析。首先,显性内容分析是分析的开始和必要构成。对社会现象的认识和理解离不开有关现
47、象的基本事实和信息,显性内容分析则是再现和揭示这种事实的基本方式。其次,潜性内容分析是在显性内容分析基础上的一种理论升华。在把握和理解资料所呈现的基本内容及意义后,就需要找到其与某种更宏大意义之间的联系,也就是要解释这些意义为何产生,或揭示这些意义的更宏大或更深层的结构。最后,显性内容与潜性内容之间会有一种桥梁或结点,通过这种桥梁或结点的中介作用,内容分析会形成逻辑一致、意义连贯的认识和解释。在有些定性研究中,将显性内容和潜性内容巧妙结合起来进行内容分析具有重要的意义。虽然有些内容分析可能只需要分析基本的事实和意义,而难以从中分析潜性内容,或者分析潜性内容的意义不大,但在某些基础性的学术研究中
48、,合理运用内容分析法,就需要妥善地将显性与潜性内容分析结合起来。只有如此,研究者才可能从分析中构建起有效的理论。显性与潜性内容分析的结合关键需要把握以下三点要求:一是要在分析资料之前,必须明确资料分析究竟要回答哪些问题,即要求研究者带着一些理论问题去进行资料分析;二是要弄清资料所反映的问题,即准确地分析和把握资料的基本内容及意义结构;三是在显性与潜性内容中探索出能够关联起来的东西,也就是在问题与基本意义之间寻找到结点。 比较分析法二二、在科学研究中,比较是一种最常使用的研究工具,可用来帮助人们识别事物的相同与相异之处。比较分析法在定性研究中发挥着重要的作用。通过比较,研究者可以借助参照物来认识
49、事物的性质和特征;通过比较分析,研究者可以获得一种考察和认识事物的视角。 (一)比较分析法的含义及特点 1.比较分析法的含义比较分析法就是把两个或两个以上的事物或现象放在一起考察和分析,以检视和把握它们之间所具有的相同、相似或相异的属性和特征,也就是比较不同事物之间的异同。比较分析法一般由三个基本要素构成:一是比较的客体,即研究者选择加以比较的对象;二是比较的维度,就是用于对这些事物进行比较的各个角度;三是对比和分析,即以比较维度为标准,将比较客体加以对比,分析它们之间的异同,并对它们在相关方面的属性做出某种判断。 2.比较分析法的特点(2)比较分析法讨论多重或交互因果关系。相比较而言,定量分
50、析无法解决变量数量多而观测次数少的问题,案例分析虽然是比较分析的一个基础,但对多重关系的讨论则不如比较分析法更有成效。不过比较分析法存在着一定的局限:成本高、资料获取困难和等值性差;难以找到足够的个案;研究只能应用理论做有限的通则化努力,或对理论进行有限的检验,不能进行严谨的理论检验。 (二)比较分析法的基本步骤(3)描述。(5)并列。(6)提出假设。(8)归纳整理研究结论。(2)锁定问题。(4)解释。(7)检验假设与比较异同。比较比较分析分析法的法的基本基本步骤步骤如下:如下:(1)选定主题。 (三)比较分析法的基本方式比较的基本方式有2种。一种是对比,即对照比较,将不同比较客体加以对照衡量
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。