1、第十章 调查资料的统计分析 第一节 统计分析概述 第二节 单变量统计分析 第三节 双变量统计分析 第四节 推论统计第一节 统计分析概述一、统计分析的含义与作用二、统计分析的特点一、统计分析的含义与作用 统计分析,就是指运用统计学的方法,对调查所得资料的数量特征进行描述,并用各种数学模型揭示调查资料中所隐含的关系、规律及发展趋势。统计分析就是从量的方面来分析事物之间的相互关系和相互作用,并通过对事物量的规定性的分析,来把握和认识事物质的规定性。事实说明,正确恰当的统计分析,已成为现代社会调查研究中不可缺少的一个环节,成为人们认识社会现象的一种重要分析手段。统计分析的作用:1统计分析能为社会调查研
2、究提供一套精确的形式化语言。2统计分析使抽样调查成为可能。3、统计分析有助于揭示社会现象的规律。4、统计分析有助于我们较为精确地预测社会现象的发展趋势。二、统计分析的特点 1统计分析要以定性分析为基础。2统计分析必须与理论分析方法相结合。统计分析的内容可分为两个大的方面,即描述统计和推论统计。描述统计的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信息。它的基本方法包括集中趋势分析、离散趋势分析、相关分析、回归分析等。而推论统计的主要目的,则是要用从样本调查中所得的数据资料来推断总体的情况。它的基本内容包括区间估计和假设检验两部分。第二节 单变量描述统计一、频数分布与频率分布二、
3、集中趋势分析三、离散趋势分析一、频数分布与频率分布 所谓频数分布,就是指一组数据中取不同不同值值的个案的次数分布次数分布情况,它一般以频数表的形式表达。例如,某班有25名学生,其年龄情况如下:20,19,18,19,18,20,21,17,18,18,19,19,20,19,19,17,18,20,19,19,21,21,19,20,19。则该班学生的年龄分布则为下表(见表1)频数分布表的作用主要有两方面:一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来;二是从频数分布表中,我们可以更清楚地了解调查数据的众多信息。所谓频率分布,则是指一组数据中不同取值的不同取值的频
4、数相对于总数的比率分布频数相对于总数的比率分布情况,这种比率通常以百分比的形式表达,而频率分布情况同样以频率表的形式出现。下表2就是上例对应的频率分布表。频率分布表除具备频数分布表的优点外,还能反映各类所占的比重,便于不同总体或不同类别之间的比较。这种分布的应用更为普遍。二、集中趋势分析 所谓集中趋势分析,指的是用一个典型值或代表值代表值来反映一组数据的一般水平反映一组数据的一般水平,或向这个典型值集中的情况。最常见的集中趋势统计量有平均数平均数、众众数数和中位数中位数三种。1平均数(算术平均数)是用总体各单位数值之和除以总体单位总数的商。平均数又称为均值或均数。以下是计算公式及应用举例。由原
5、始数据计算平均数。设总体单位总数为n,总体各单位的数值为xi(i=1,2,n),则计算公式为:由单值分组资料计算平均数。首先要将每一个组的量值乘以所对应的频数(得出各组的数值之和);然后将各组的数之和全部相加,最后除以单位总数(也即各组频数之和f)得出平均数。其计算公式为:nxXni1mimiiffxX11 由组距分组资料求平均数。先计算出各组的组中值Xm,然后再按照单值分组资料计算平均数的公式计算。也就是说,用组距分组资料求平均数的公式与用单值分组资料求平均数的公式基本相同,只是需要事先将组距转化成单值。计算公式为:例题 例1 某班10名学生的年龄分别为20岁、21岁、19岁、19岁、20岁
6、、20岁、21岁、22岁、18岁、20岁,求他们的平均年龄。mimiimffxX11 例2 调查某年级150名学生的年龄,得到下列结果(左表),求平均年龄。(19.33)例3 调查某厂100名职工的收入情况如下(右表),求他们的平均收入。(212)年 龄(岁)人 数(f)17181920212210255040205合 计150收 入(元)职 工 数(人)100-140140-180180-220220-260260-3001010402020合 计1002众数 众数是一组数据中出现次数最多(即频数最高)的那个数值。通常用M。表示。众数与平均数一样,也可用来概括反映总体的一般水平或典型情况。根
7、据不同资料,众数的求法分为以下两种形式:由单值分组资料求众数。由于单值分组资料中已将各标志值及其所对应的频数都一一列出,故我们只需采用直接观察的方法直接观察的方法就可求得众数。具体做法是,首先在频数一栏中找出最大的频数找出最大的频数,假定为 fm;然后根据fm找到它所对应的标志值 Xm,则众数即为 Xm。由组距分组资料求众数。由组距分组资料求众数的方法有两种:一种是组中值法,另一种是摘补法。前者比较简单,后者较为复杂。由于众数在社会调查研究中的使用远不象平均数那样广泛。故我们只需了解组中值法即可。用组中值法求众数分为三步:首先也是通过直接观察找出最高的频数;然后根据最高的频数找到它所对应的组;
8、最后求出该组的组中值即是众数。需要说明的是,求众数往往要求数据具备一定的条件,即只有当总体单位数目较多且其数据当总体单位数目较多且其数据有明显的集中趋势时才能计算众数有明显的集中趋势时才能计算众数。而当总体数目较少,或总体数目虽多但无明显集中趋势时,不宜计算众数。举例:以前面例2为例,首先我们在人数(频数)一栏中找出最大的频数50,再从50找到所对应的年龄19岁。则例2资料中的众数为19岁。需要注意的是,众数是最大的频数所对应的众数是最大的频数所对应的那个那个标志值标志值,而不是最大的,而不是最大的频数本身频数本身。又,若以前面例3为例来求众值,我们首先在职工数(即额数)一栏中,找到最大的频数
9、40;然后找到40所对应的组:180220;最后计算该组的组中值,计算结果为200元。因此,该例中的众数为200元。3中位数 什么是中位数呢?当我们把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数。中位数通常用Md表示,它将整个数据资料一分为二,其中一半的数值比它大,而另一半的数值比它小。当数据为偶数个时,取中间两数的平均数。需要注意的是,计算中位数时常常要求数据是定距以上的变量。而对定序的或定类的变量通常不用来计算中位数。关于计算方法(参见教材)三、离散趋势分析 与集中趋势分析相反,离散趋势(又称离中趋势)分析指的是用一个特定的数值来反映一组数据相互之间的离散程度。作用:它
10、与集中趋势一起,分别从两个不同的侧面描述和揭示一组数据的分布状况,共同反映出资料分布的全面特征;同时,它还对集中趋势的统计量(如平均数、众数、中位数)的代表性作出补充说明。为了理解离散趋势分析的这两种作用,我们先来看看下面的例子。例4 某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:78 79 80 81 82 X80 数学系:65 72 80 88 95 X80 政治系:35 78 89 98 100 X80 无论是从团体总分来看,还是从平均得分来看,这三个系代表队的成绩都是相同的。因此,如果仅以集中趋势统计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差别
11、。但从直观上我们不难发现,三个代表队中五名队员的成绩相互之间的差跟程度(离散程度)很不一样。中文系成绩十分接近;数学系成绩比较分散;而政治系队成绩则相差十分悬殊。不难理解,这个80分对中文系队同学的代表性最高,而对政治系队同学的代表性最低。因此,离散趋势的各种统计量,一方面揭示出一方面揭示出数据相互分离的程度;另一方面又对相应的数据相互分离的程度;另一方面又对相应的集中趋势统计量的代表性作出判断集中趋势统计量的代表性作出判断。结论:集中趋势统计量的代表性与所对应的离散趋势统计量是反比关系,即离散趋势统计量越大,则所对应的集中趋势统计量的代表性就越小;反之,则越大。离散趋势统计量有全距、标准差、
12、异众比率、四分位差、离散系数等。其中,标准差、异众比率、四分位差分别与平均数、众数、中位数相对应。1全距 也叫极距,它是一组数据中最大值与最小值之差。全距是离散趋势统计量中最简单的一种。在原始数据资料条件下,只需将全部数据按大小颀序排列,然后用最大值减去最小值即可。如上面所举例6,三个代表队成绩的全距分别为:中文系:82784(分)数学系:95 65=30(分)政治系:100 25=65(分)在组距分组资料的条件下,只需将最大组的上限减去最小组的下限即可。如前面例3中的全距九300100200(元)全距的意义在于,一组数据的全距越大,在一定程度上说明这组数据的离散趋势越大,而集中趋势统计量的代
13、表性越低。反之,一组数据的全距越小,则说明这组数据的离散趋势越小,集中趋势统计量的代表性就越高。从上面三个代表队的例子中,我们不难认识到这一点。应该注意到,由于全距仅仅依靠两个极端值,因而带有很大的偶然性,它对于大量的处于两个极端值之间的数值分布情况以及在中心点周围的集中情况,都无法提供任何信息。比较粗糙。2标准差 标准差的定义是:一组数据对其平均数的偏差平方的算术平均数的平方根。它是用得最多、也是最重要的离散趋势统计量。通常用符号S来表示,其计算公式根据资料的形式不同而稍有差别。由原始数据计算标准差。公式为:例4的结果:S中文=1.414,S数学=10.8,S政治=23.8。由此可见,标准差
14、大,离散程度就大,反之,就标准差大,离散程度就大,反之,就小。小。nXxSni12)(由单值分组资料计算标准差。公式为:这里f为X所对应的频数。由组距分组资料计算标准差。其方法与上述单值分组资料计算标准差的方法相似,唯一不同的是需要先计算出各组的组中值,然后采用下述公式:imiijffxxS12)(nfXXSmi2)(3异众比率 所谓异众比率,指的是一组数据中非众数的次非众数的次数数与总体全部单位数的比率。公式为:这里fmo为众数的次数。在例2中,众数的次数为50,总体单位的总数为150,故异众比率为:VR=(15050)/150=67%异众比率的意义是指众数所不能代表的其他数值(即非众数的数
15、值)在总体中的比重。因此,异众比率越大异众比率越大,即众数所不能代表的其他数值的比重越大,则众数在总体中所占的比重自然就越小,这样众数的代表性也就越小众数的代表性也就越小。nfnVRm04、四分位差 四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高的四分之一和最低的四分之一,仅就中间的一半数值来测定序列的全距。四分位差的符号通常用Q表示。Q=Q3Q1 而Q1、Q3分别表示第一个四分位点和第三个四分位点。如下图所示:Q1 Q2 Q3 5离散系数 上述各种离散趋势统计量都属于绝对量测量,其单位与原资料的单位相同。这种特征对调查研究中进行比较带来了一定的困难。离散系数离散系数则是
16、一种相对的离散趋势统计量,它使我们能够对两种不同单位对两种不同单位的离散趋势统计量,或者对两个不同总体不同总体的离散程度进行比较。离散系数的定义是:标准差与平均数的比值,用百分比表示。其计算公式为:%100XSCV 在平均数不为零的条件下,离散系数越大,表明数据的离散程度越大,而所对应的集中趋势统计量的代表性就越小;反之,则数据的离散程度越小,集中趋势统计量的代表性就越大。应用举例:1)一项调查得到下列结果,某市人均月收入为92元,标准差为17元;人均住房面积75米,标准差为18米。试比较该市人均收入和住房情况哪一个差异程度比较大。计算结果:人均收入的离散系数为18.5%,人均住房面积的离散系
17、数为24%可见人均住房面积的差异情况比人均收入的差异情况要大。以上是同一总体不同指标间的比较,下列则是同一指标不同总体间的比较。2)某校学生的平均年龄为20岁,标准差为2岁;该校教师的平均年龄为28岁,标准差为4.5岁。试比校学生年龄与教师年龄哪一个差异程度更大。计算结果:学生年龄的离散系数为10%,教师年龄的离散系数为11.8%可见教师年龄间的差异程度更大一些。第三节 双变量统计分析 前节所介绍的单变量描述统计。在社会调查研究中,我们常常要讨论两个甚至多个因素或现象之间的关系问题,因此,本节介绍两个变量统计分析两个变量统计分析的基本内容。一、交互分类二、相关与回归一、交互分类 1交互分类的定
18、义与作用 所谓交互分类,简单地说,就是将一组数据将一组数据按照两个不同变量的类型进行综合的分类按照两个不同变量的类型进行综合的分类。交互分类的结果通常以交互分类表交互分类表(又称列联表)的形式反映出来。下面是一个例子:上表是对总数为300人的调查对象按照年龄和文化程度两个变量的标准进行交互分类的结果。每一个被调查者按这两种标准被划分到某一个格内。即格内数字就是分类的结果。作用:通过对各种不同类型格内的频数或相对额数(即百分比)的分析,来研究和探讨变量之间是否存在关系。比如说从上表中我们可以看出,老年人中文化程度低的比重很大,中年人次之,年轻人比重最小;而在高中及大专以上颇高文化程度中,年轻人比
19、重最大,中年人次之,老年人最低。结论:即被调查者的文化程度与他们的年龄有关,并呈现出年龄越低,总体文化程度越高的状况。交互分类方法的适用对象适用对象主要是定类与定序层次的变量,而在社会调查研究中的绝大部分变量正好又是这两个层次的。因此,交互分类的方法对于大量社会调查资料的相关分析有着十分重要的作用,我们应该熟悉这种方法。2、2检验通过实例讨论何为2检验。表中显示,年龄与对待老年人再婚问题的态度存在关系,随着年龄的下降,较多的人反对老年再婚。老年 中年 青年合计赞成反对 60 40 20 20 60 60120140合计 80 100 80260 上述结论通常只是在所调查的样本范围内成立。而我们
20、进行调查的目的常常又不仅仅是描述或说明样本的情况,更重要的是要通过样本的情况来反映和说明总体的情况。因此,要保证我们从样本中得出的结果具有统计意义,保证样本中所体现的变量间关系也反映了总体的情况,我们必须有一个保证的办法。这就是要对它们进行2检验(卡方检验)。2检验的原理及公式的证明略去。下面我们主要介绍2检验的计算公式及检验步骤。2检验的计算公式 f0为交互分类表中每一格的观察频数;fe为交互分类表中f0所对应的期望频数。具体的计算方法是用每一个f0所在的行总数乘以所在的列总数,再除以全部总体数。2值的计算。f11=120*80/260=37 f12=46 f13=37 f21=43 f22
21、=54 f23=432=(60-37)2/37+=42.6fefefox22)(2检验的具体步骤(以上表为例):建立两变量间无关系的假设,即设年龄及对某事件的态度两变量相互独立,互不相关。计算出2值。根据自由度 df=(r一1)(c1)和给出的显著性水平,即 P值,查2分布表,得到一临界值。(自由度计算公式中的r和c分别为交互分类表的行数和列数,因此,本例的自由度为:df(21)(31)=2;显著性水平通常为P=0.05;2分布表可查得临界值为5.991)比较2值与临界值判断:a)若2值临界值,拒绝两变量无关系的假设。b)若2值 Z0.05/2=1.96 所以,拒绝虚无假设,接受研究假设。即从总体上说,该单位职工月平均收入与上月相比有变化。以上总体均值的假设检验,总体百分比的假设检验相似。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。