1、第一章导论与统计基础知识 SPSS是发展较早、应用非常普遍的社会统计软件包。它具有十分强大的数据处理、统计分析功能,同时又具有易学、易用的特点。因此,本书所介绍的高级统计方法将以SPSS for Windows第版及其他更新版本作为应用软件。本书是一本多元统计分析方法教材,主要目的是介绍和讲解各种统计方法的原理与应用。为了方便读者将这些分析方法投入使用,示范了用SPSS软件分析例题的操作。对一些统计知识和SPSS软件两方面基础均较为薄弱的读者,本章第三节和第四节分别提供了一些初级统计知识要点的复习和SPSS软件入门的简介。另外本书还设有一章,介绍事件史数据的预处理。一、关于本书各章的简介 为了
2、建立这些方法的分类框架,需要具备一些统计学基础知识,即变量测度等级的概念。下面第一小节是对变量测度等级的简介。然后,在第二小节中对各种方法做一概括。第三小节将按照各种方法应用的变量条件列出一个框架图。(一)变量的测度等级 在科学研究中,用变量来量化描述概念。但是不同概念能够被量化的程度有所不同,另外即使一个概念实际上具备较高的量化程度,而在实际观测时也可能因为具体情况而采用较低的量化程度。这种量化程度在统计学中称为变量的测度等级或测度水平。变量的测度等级直接关系到统计分析方法的选择。变量的测度等级的划分有多种,一般常用的划分为四种,即:名义测度、序次测度、间距测度、比率测度。名义测度 名义测度
3、是最低的一种测度等级,也称定名测度。实际上,名义测度变量的值只代表类型的编码,而这些编码的数值只是一个符号,数值之间不存在有实际意义的量的关系。比如,性别便是一个名义测度等级的变量,可以将男性编码定为,女性编码定为。序次测度 序次测度的量化水平高于名义测度,也就是说它所包含的信息量大于名义测度等级的变量。因为在序次测度等级的变量中,变量编码不仅具有分类的作用,而且也存在量的关系。比如,受教育程度这个序次测度等级的变量,采用数字编码表示不同类别,比如:文盲半文盲,小学,初中,高中,大学。间距测度 间距测度等级的量化程度更高,它的取值不再是类的编码,而是采用一定单位的实际测量值。这时不仅可以知道两
4、个不同变量值存在差异,而且可以应用减法得到两值之间的差或应用加法得到两值之间的和,它们的差与和都有实际意义。但是,间距测度等级的变量值之间不能进行乘除计算。比率测度 比率测度是最高级的测度等级,它除了具有间距测度等级的所有性质外,而且其值是非人为制定的,比如温度中的度被称为绝对度。(二)本书所介绍的分析方法的概述 多元线性回归多元线性回归应用于单方程模型,其因变量必须为测量型变量,其自变量既可以为测量型变量也可以采用虚拟变量等特殊编码变量。研究目的是分析因变量值的变化与自变量值变化之间的关系。多元回归用最小二乘法求解回归系数。如果变量之间有多层因果关系,便可以由多个具有内在联系的多元回归方程组
5、成一套通径分析通径分析联立方程组。在满足特定条件的情况下,每个方程都可以通过多元回归求解系数,然后应用通径分析分解变量之间的直接作用和间接作用。如果一套联立方程组中含有潜在变量(即不可直接观测的变量),便不能再用最小二乘法求解,这时可以应用结构方程模型结构方程模型,它主要采用最大似然估计求解。在研究有两组各包含多个变量的变量组之间的关系时,可以采用典型相关分析典型相关分析。典型相关分析的所有变量必须为测量型变量或虚拟变量。多元方差分析多元方差分析研究两个以上的类别中在多项测量型数据指标上是否存在显著差异。当因变量为分类变量或序次变量且自变量为测量型变量和虚拟变量时,不能采用常规的多元线性回归,
6、而应该采用logisticlogistic回归回归。当因变量为计数变量(即有限的正整数值)且自变量为测量型变量和虚拟变量时,则应该采用泊松回归泊松回归。鉴别分析鉴别分析主要应用于在已知一些案例的各种条件值及其结果类型的条件下,形成鉴别方程,然后将其应用于其他条件值已知但结果类型未知的案例,预测它们的结果类型。这种方法可以视为因变量为多分类结果、自变量为测量型或虚拟变量的因果预测。它的主要应用目的是进行鉴别分类。在使用纵贯数据进行因果分析时,事件史分析事件史分析是可以应用的分析技术。其中,离散时间模型实际上就是用logistic回归求解。而Cox比例风险模型是连续变量模型,它分为两种,一种包括动
7、态变量(即随时间变化的自变量),另一种不包括动态变量。事件史分析的数据处理是一项比较复杂的工作,本章第十四章专门介绍这方面的技术。至于因子分析、聚类分析和对应分析,它们并不是因果模型,分别用以分析变量、案例和类型(变量值)之间的结构关系。它们被称为相依模型。因子分析因子分析经常服务于浓缩多个测量型变量,使之转换为较少数量的新变量(称为因子)后,仍然携带原变量的绝大部分信息。聚类分析聚类分析用于分析各案例在多个测量型变量值上的距离,将其按近似性原则进行案例排列。对应分析对应分析可以用来对不同非测量型变量的类别之间的关系进行分析,以作图形式显示不同变量类别之间的近似程度。(三)本书所介绍的统计方法
8、的分类框架 以下框架首先按照观测数据的来源分为两大类:第一类是横贯数据横贯数据指在同一时间不同案例的观察数据。它可以来自一次普查、抽样调查或分地区(部门)的统计资料汇总表等。本书所介绍的方法主要是应用于横贯数据的方法。第二类是纵贯数据纵贯数据指对同样的案例在不同时间上的多次观测所得到的数据。从方法论而言,对于研究因果关系,纵贯数据具有更高的有效性。然而,纵贯数据的取得相对于横贯数据要难得多。它可以来自追踪观测,然而追踪调查存在周期长、成本高、案例容易损耗等困难。它也可以来自回顾调查,但是回顾调查往往发生由于记忆不准所造成的偏差。实际上,本书所介绍的方法中只有事件史分析属于这一类。所以,在框架中
9、直接以该方法名称作为标注。该框架的第二种划分是分析模型的属性。一类是因果模型,一类是相依模型。该框架所采用的另一种划分依据是变量的测度等级。二、在应用统计的研究中,要以研究方法论为指导 虽然本书的主要宗旨是介绍统计方法,但是作为全书导论,在此要特别强调社会科学研究的整体性,即一个好的研究不可能仅仅建立在统计分析的基础上。统计分析只是整个研究当中的一个环节,因此在学习和应用统计分析时,必须清醒地把握统计分析的方法论意义,自觉地将其服从于整个研究。(一)理论、观察、统计之间的关系 现代社会科学研究中包含三个要素:理论、观察、统计。所以,统计技术的应用绝不是孤立的事情,它不仅需要专业理论的指导,也需
10、要研究方法论的指导。忽视这两个方面,便极易导致研究结论中的谬误。比如,经常可以见到错误理解和阐述统计结果的问题,即分析计算结果是正确的,但是对于这些结果的理解和解释却是错误的。(二)统计研究中的常见谬误 混淆统计联系与因果关系 事后解释谬误 生态学谬误 还原论谬误 混淆统计检验显著性与实际意义显著性(三)社会科学的研究对象和模型 社会科学的研究对象应该是人所生活于其中的社会有机体,比如客观存在着的社会制度、经济体制、家庭模式等等。构成这些社会体系的要素并不是人,而是一系列社会存在的构件和方面,包括制度、机构、规范、组织等等。这些社会构件和方面的属性、特征、意向、行为可以通过科学抽象得到概念,将
11、它们定义为一套变量,并经过操作化得到测量。(四)统计分析与理论分析 实际上,统计研究不可能脱离理论指导,比如,如何判定哪些变量应该列入分析模型,便主要是理论分析的结果,而不是统计分析的结果。统计分析的功能主要是在理论分析的上,检查各个模型变量的作用,对其作用进行量化描述,并对有关理论假设进行检验。(五)真理性的检验与统计检验 实践是检验真理的唯一标准。但是,实践是一个活动过程,不能简单归结为直接经验这样的个别环节。并且,实践检验过程是借助逻辑推论的链条进行的,实际上在这一逻辑链条中,只是某些环节才可能进行直接。如果把直接检验绝对化,就会犯经验主义的错误,把检验知识真理性的全过程局限于主体感受中
12、。并且,实证主义的证实性原则在方法论上是排斥理论的。至于统计检验,可以认为是实践检验的一种形式。一种认识是否正确,要看它是否符合客观实际。反映在统计研究中,就是看理论假设是否符合观测数据。但是统计检验也不可避免地存在其局限性,其结果会受到分析技术的成熟程度、模型变量的有效性、测量数据的可靠性、样本规模的大小等许多方面的影响。所以,统计检验不显著,并不意味着这一研究无价值。事实上,许多统计研究正是从失败的经验中不断总结、修改研究方案,而最终得到正确的结论的。而在统计检验显著时,则更要清醒地认识到,统计分析只是就事物的统计联系进行分析,从统计分析中得到肯定的事物联系到对于事物之间本质联系的认识还有
13、很远的距离。因此,统计检验只是从一个侧面进行的实践检验,并不能替代其他形式的实践检验。三、基础统计原理与概念回顾 在社会科学研究中,经常会从一个总体中抽取一部分个体进行调查,抽样调查不仅是最普遍、最流行的数据收集方法,而且随机抽样也是大部分推断统计和显著性检验的最基本的条件。通过一定的程序从样本特征去推断总体的特征构成了推断统计学的基本内容。(一)抽样调查的定义及其相关概念 抽样调查的定义 所谓的抽样调查是指从研究对象的总体中按照科学方法和程序抽取一部分个体作为样本进行调查,据此推断有关总体的特征。在调查研究中,除非重大的调查如人口普查、资源普查等,一般都是进行抽样调查。根据抽样的方法,抽样调
14、查又分为非随机抽样。抽样调查的优缺点 第一,经济性强。抽样调查不需要对总体中的所有单位进行逐一调查,而是调查其中的一部分,因此可以大大地节约调查的人力、物力和财力。第二,及时性强。不像普查那样每隔几年进行一次,抽样调查因为涉及较少的调查单位,可以随时进行,及时、快速地获得相关数据。第三,信息量大。抽样调查可以包括较多方面的深度信息,提高详细程度。第四,质量较好。不过,抽样调查的技术难度较大,尤其是随机抽样方法,需要经过专门的培训才可能掌握;此外,在抽样调查尤其是在随机抽样时,需要对总体的一些信息比如总体抽样框、总体方差等有一个了解,而这些信息有时候很难获得。另外,如果违反随机原样,抽样调查可能
15、出现较严重的覆盖偏差,从而导致统计结果产生较大偏差,这时的抽样数据就不能简单用于推断总体。总体与样本 所谓的总体就是研究对象的全体。对于社会科学研究来说,我们可能要关注总体的某个方面的特征,比如总体的平均数、总体的标准差等等。我们把描述总体某方面特征的指标称为参数,一般而言用大写字母标注。所谓的样本就是按照一定的方式从总体中抽取出来的一部分个体,样本中包含的个体数目狀称为样本规模或样本量。(二)统计推断与抽样分布 当我们用样本的统计量去推论总体的参数值时,通常有两种方法:参数估计和假设检验。统计推断,无论是参数估计还是假设检验,都建立在抽样分布的基础之上。四、SPSS入门示范 本节所使用的例题
16、数据是根据美国人口咨询局年发布的世界人口数据表整理而成。原数据表中有更多的国家或地区数据和更多的变量,但是数据中存在不少缺失。此外在艾滋病感染率这个变量中一些案例是用小于某一上限值的描述。本书为了示范和练习方便,只保留了其中一些主要变量,而且删除了这些保留变量中存在数据缺失的案例,对上述艾滋病感染率那些不确切的测量值直接取其上限值作为替代,整理后的数据文件名为。在本节的示例分析中,我们都尽量使用这个数据,并且直接使用案例数据,并不根据各国或地区人口规模来对统计分析进行加权。并且,我们将这个数据作为全世界各国或地区的一个随机抽样数据来对待。(一)取得基本统计指标 间距变量的描述性指标 分类变量的
17、频数表 分类别的描述性指标 交互表频数与相应统计指标(二)样本平均数的t检验 单样本平均数检验 独立样本平均数检验(三)方差分析 方差分析的数据要求和假定条件 方差分析原理 用SPSS进行单因素方差分析 多因素方差分析简介 双因素饱和模型 双因素非饱和模型 用命令来运行SPSS分析基本概念 理论 观察 统计 研究方案 事后解释谬误 生态学谬误 还原论谬误 变量 测度 等级 抽样调查 总体 样本 参数 统计量 抽样分布 统计推断 参数估计 置信区间 置信度 假设检验 弃真错误 纳伪错误 显著度 描述性统计 概要指标 频数表 方差分析本章要点 实际研究中的变量有不同的测度等级,其变量值虽然可能都以数字形式出现,然而表达的量的意义完全不同。各种统计分析方法对于变量测度等级有具体要求。在应用统计方法时必须满足其对于变量测度等级的要求以及其他假设条件,不合乎统计方法所要求的变量类型不能应用。不同统计方法的基础是对变量之间关系的模型假设。应该按照研究需要和数据类型选择统计方法。统计分析只是整个研究的一个组成部分。必须以科学研究方法论和具体学科理论为指导,正确理解和阐释所得到的统计结果。参考文献 郭志刚,郝虹生,杜亚军,曲海波社会调查研究的量化方法北京:中国人民大学出版社,1989 肯尼斯贝利现代社会研究方法许真译上海:上海人民出版社,1986 刘大椿科学活动论北京:人民出版社,1985
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。