1、 第十 教学资源一.知识点与关键词解释第十章知识点与关键词列表序号知 识 点页码教材章节1资料审核P24510.12资料的转换P24610.13数据录入P24710.14数据清理P24810.15集中趋势分析P25010.26离散趋势分析P25110.27区间估计P25310.28假设检验P25410.29交互分类P25510.3102检验P25810.311相关测量P26110.312削减误差比例P26110.313回归分析P26410.314阐释模式P26610.415复相关分析P26810.416多元回归分析P26910.41.关键词:资料审核资料审核是资料处理的第一步工作。它是指研究者
2、对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。其目的是使得原始资料具有较髙的准确性、完整性 和真实性,从而为后续资料整理录入与统计分析工作打下较好的基础。2.知识点:资料的转换研究者编制一份编码簿(即编码手册)发给编码员,每个编码员按编码簿的要求,将被调查者对问卷中问题的回答转换成供计算机识别和统计的数字。3.知识点:数据录入数据的录入有两种主要的方式:一种方式是直接在SPSS软件中进行录入(有关用SPSS软件录入数据的方法,可参见各种介绍SPSS软件的专门著作)。另一种方式是采用专门的数据库软件,如Excel、FoxPro等进行录入(这
3、类数据库软件的使用方法也同样有专门的著作介绍),然后再用SPSS软件将录好的数据读入即可(Excel、FoxPro等软件录入后生成的是XLSX格式或DBF格式的数据,SPSS可以直接将这种数据转化成SPSS的SAV格式文件)。4.关键词:数据清理数据清理是指在计算机统计分析前,对数据的有效范围、逻辑一致性以及数据质量的清理。数据清理工作的目的是为了避免在数据资料的录入过程中出现差错。因此,在开始进行计算机统计分析之前,应仔细地进行数据清理。5.关键词:集中趋势分析集中趋势分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。最常见的集中趋势有算术平均
4、数(简称平均数,也称为均值)、众数和中位数三种。6.关键词:离散趋势分析离散趋势分析指的是用一个特别的数值来反映一组数据相互之间的离散程度。它与集中趋势一起,分别从两个不同的侧面描述和揭示一组数据的分布情况,共同反映出资料分布的全面特征。7.关键词:区间估计答:区间估计是指在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来估计总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题。区间估计中的可靠性或把握性是指用某个区间去估计总体参数时,成功的可能性有多大。8.关键词:假设检验假设检验实际上就是先对总体的某一参数作出假设,然后用样
5、本的统计量去进行验证,以确定假设是否为总体所接受。假设检验所依据的是概率论中的小概率原理,即“小概率事件在一次观察中不可能出现”的原理。9.关键词:交互分类答:交互分类是一种专门用来分析两个定类变量(或一个定类变量,一个定序变量)之间关系的统计分析方 法。它是将研究所得的一组数据按照两个不同的变量进行综合的分类,其结果通常以交互分类表(又称为列联表) 的形式反映出来。10.知识点:2检验2的计算公式如下:2=(fo-fe)2fe其中,fo为交互分类表中每一格的观察频数,fe为交互分类表中fo所对应的期望频数。为了计算2,必须先计算出每一格fo所对应的fe(即期望频数),具体
6、的计算方法是用每一个fo所在的行总数乘以它所在的列总数,再除以全部个案数。2检验的具体步骤如下:首先,建立两变量间无关系的假设。然后计算出2值。再根据自由度df=(r-1)(c-1)和给出的显著性水平,即p值,查2分布表,得到一临界值。自由度计算公式中的r和c分别为交互分类表的行数和列数。将计算出的2值与查得的临界值进行比较:若2值大于或等于临界值,则称差异显著,并拒绝两变量独立的假设,也即承认总体中两变量间有关系;若2值小于临界值,则称差异不显著,并接受两变量独立的假设,即总体中两变量间无关系。当然,2检验也有其弱点。这主要是由于2值的大小不仅与数据的分布有关,同时它还与样本的规模有关。当样
7、本足够大时,一些很小的分布差异也可以通过2检验达到显著性水平。11.知识点:相关测量要判断两个变量之间的相关强度,必须进行相关系数的计算。而这种相关系数的计算与变量的层次有着密切的关系。(1)定类变量与定类变量(或定序变量)如果两个变量都是定类层次,或一个定类一个定序,我们可以采用系数进行测量。系数优于其他几种相关统计量的地方,是它具有消减误差比例(PRE)的意义。其计算公式如下:=fo-Fyn-Fy式中,fo表示变量X的每一个值之下变量Y的众值,Fy表示变量Y的边际分布中的众值。(2)定序变量与定序变量如果两个变量都是定序变量,我们可以用古德曼和古鲁斯卡的Gamma系数来
8、测量它们之间的相关关系。Gamma系数通常用G表示,其取值范围是-1,+1,适用于分析对称关系,且既表示相关的方向性,又表示相关的程度。Gamma系数与系数一样,也具有消减误差比例的意义。Gamma系数的计算公式如下:G=Ns-NdNs+Nd式中,Ns表示同序对数目,Nd表示异序对数目。所谓同序对,指的是变量大小顺序相同的两个样本点,即其在变量X上的等级高低顺序与在变量Y上的等级高低顺序相同;否则就叫作异序对。(3)定类变量(或定序变量)与定距变量当两个分析的变量一个为定类(或定序)变量,另一个为定距(以上)变量时,我们用相关比率(correlation ratio)或eta系数来测量二者间的
9、相关程度。相关比率又称为eta平方系数,记为E2,其数值范围为0-1,也具有消减误差比例的意义。其计算公式如下:E2=(y-Y)2-(y-Yi)2(y-Y)2应该注意,相关比率E2的计算中有自变量和因变量之分。式中,y为因变量的数值,Y为因变量的均值;Yi为在自变量x的每个取值xi上的因变量的均值。(4)定距变量与定距变量于定距变量来说,由于其数学特征的不同,我们可以用更精确一些的相关系数来反映它们之间的相关程度。这种更精确的相关系数就是皮尔逊相关系数(或称皮尔逊积差相关系数)r。皮尔逊相关系数的计算公式如下:r=(x-X)(y-Y)(x-X)2(y-Y)2它具有这样几个特点:第一,公式中x与
10、y是对等的,即将二者位置互换,r的值不变。它说明r是一种对称关系的测量。第二, r的取值范围在-1到1之间。第三,r的取值具有方向性。第四,r本身不具有消减误差比例的意义,但其平方r2(又称为决定系数)具有消减误差比例的意义。12.关键词:消减误差比例消减误差比例(简称PRE)指的是知道X的值时所减少的误差(E1-2)与总误差的比。PRE越大,表示以X值去预测Y值时能够减少的误差所占的比例越大,即X与Y之间就越是相关,或者说,X与Y的关系越强。13.关键词:回归分析回归分析则是对有相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以便依据
11、回归方程对未知的情况进行估计和预测。由于回归分析增加了因果性,且具有了预测的功能,因此,它比相关分析更进了一步,其作用也更大了。回归分析的对象是定距层次的变量,它的中心问题是建立回归方程,而建立回归方程的基础是最小二乘法。14.关键词:阐释模式阐释模式所关心的是两个变量之间的关系,它是一种通过引进并控制第三变量,来进一步了解和探讨原来两变量之间关系性质的统计分析方法。主要分为因果分析、阐明分析以及条件分析。15.关键词:复相关分析复相关分析是一种以一个统计值来简化多个自变量与一个因变量之间关系的统计分析方法。它要求所有的变量都是定距以上层次的变量。它的统计值R表示多个自变量与一个因变量之间相关的程度,它的计算是以两变量相关中的积矩相关系数为基础的。16.关键词:多元回归分析多元回归分析是多变量统计分析的一种。多元回归分析方法的目的是要用多个自变量来估计或预测一个因变量的数值,以及弄清不同的自变量对因变量所实际具有的影响大小这两个方面的问题。6 / 6