调查资料的统计分析课件.ppt

上传人(卖家):晟晟文业 文档编号:4532579 上传时间:2022-12-17 格式:PPT 页数:146 大小:3.27MB
下载 相关 举报
调查资料的统计分析课件.ppt_第1页
第1页 / 共146页
调查资料的统计分析课件.ppt_第2页
第2页 / 共146页
调查资料的统计分析课件.ppt_第3页
第3页 / 共146页
调查资料的统计分析课件.ppt_第4页
第4页 / 共146页
调查资料的统计分析课件.ppt_第5页
第5页 / 共146页
点击查看更多>>
资源描述

1、第十一章 调查资料的统计分析第一节第一节 统计分析概述统计分析概述第二节第二节 单变量统计分析单变量统计分析 一、频数分布与频率分布一、频数分布与频率分布 二、集中趋势分析二、集中趋势分析 三、离散趋势分析三、离散趋势分析第三节第三节 双变量统计分析双变量统计分析 一、交互分类一、交互分类 二、相关分析二、相关分析 三、回归分析三、回归分析第四节第四节 推论统计推论统计 第一节 统计分析概述一、统计分析的含义与作用运用统计学的方法,对调查所得资料的数量特征进行描述,运用统计学的方法,对调查所得资料的数量特征进行描述,并用各种数学模型揭示调查资料中所隐含的关系、规律及并用各种数学模型揭示调查资料

2、中所隐含的关系、规律及发展趋势。发展趋势。1 1为社会调查研究提供一套精确的形式化语言为社会调查研究提供一套精确的形式化语言2 2使抽样调查成为可能使抽样调查成为可能3 3有助于揭示社会现象的规律有助于揭示社会现象的规律4 4有助于较精确地预测社会现象的发展趋势有助于较精确地预测社会现象的发展趋势含义作用二、统计分析的特点二、统计分析的特点统计分析要以定性分析为基础统计分析要以定性分析为基础根据研究目的制定具体的统计分析计划根据研究目的制定具体的统计分析计划统计分析的内容统计分析的内容集中趋势分析离散趋势分析相关分析回归分析区间估计假设检验描述统计描述统计推论统计推论统计用最简单的概括用最简单

3、的概括形式反映出大量形式反映出大量数据资料所容纳数据资料所容纳的基本信息的基本信息从样本调查中所从样本调查中所得的数据资料来得的数据资料来推断总体的情况推断总体的情况基本方法基本方法基本内容基本内容第二节 单变量统计分析一、频数分布与频率分布一、频数分布与频率分布 所谓频所谓频数分布,就是数分布,就是指一组数据中指一组数据中取取不同值不同值的个的个案的案的次数分布次数分布情况,它一般情况,它一般以频数表的形以频数表的形式表达。式表达。某班有某班有2525名学生,其年龄情况如下:名学生,其年龄情况如下:2020,1919,1818,1919,1818,2020,2121,1717,1818,18

4、18,1919,1919,2020,1919,1919,1717,1818,2020,1919,1919,2121,2121,1919,2020,1919。年龄年龄 (岁岁 )学生人数学生人数171819202125105325合计合计该班学生的年龄分布表该班学生的年龄分布表例如 频数分布表的作用 一是简化资料,即将调查所得到的一长串一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来;原始数据,以一个十分简洁的统计表反映出来;二是从频数分布表中,可以更清楚地了解二是从频数分布表中,可以更清楚地了解调查数据的众多信息。调查数据的众多信息。所谓频率分布,则是指一组数据中不

5、同取值的不同取值的频数相对于总数的比率分布频数相对于总数的比率分布情况,这种比率通常以百分比的形式表达,频率分布情况以频率表的形式出现。频率分布表除具备频数分布表的优点外,还能反频率分布表除具备频数分布表的优点外,还能反映各类所占的比重,便于不同总体或不同类别之映各类所占的比重,便于不同总体或不同类别之间的比较。这种分布的应用更为普遍。间的比较。这种分布的应用更为普遍。例如年龄年龄 (岁岁 )百分比百分比1718192021820402012100合计合计某班学生的年龄分布某班学生的年龄分布SPSS操作例操作例二、集中趋势分析二、集中趋势分析所谓所谓集中趋势分析集中趋势分析,指的是用一个典型值

6、或代表值,指的是用一个典型值或代表值来反映一组数据的一般水平,或向这个典型值集中来反映一组数据的一般水平,或向这个典型值集中的情况。的情况。最常见的集中趋势统计量平均数平均数众数众数中位数中位数 平均数平均数 (算术平均数)用总体各单位数值之和除以总体单(算术平均数)用总体各单位数值之和除以总体单位总数的商。平均数又称为均值或均数。位总数的商。平均数又称为均值或均数。计算公式及应用举例由原始数据计算平均数。设总体单位总数为n,总体各单位的数值为xi(i=1,2,n),则计算公式为:nxXni1由单值分组资料计算平均数。首先要将每一个组的量值乘以所对应的频数;然后将各组的数之和全部相加,最后除以

7、单位总数,得出平均数。其计算公式为:11miimixfXf由组距分组资料求平均数。先计算出各组的组中值Xm,然后再按照单值分组资料计算平均数的公式计算。11mm iimixfXf 注:注:组中值组中值是各组变量范围内的一个中间数值,一般由是各组变量范围内的一个中间数值,一般由各组的上限和下限进行简单平均计算,各组的上限和下限进行简单平均计算,即:组中值即:组中值=(上限(上限+下限)下限)2 2 若为开口组,其组中值按下列公式计算:若为开口组,其组中值按下列公式计算:缺下限的最小组组中值缺下限的最小组组中值=上限上限-邻组组距邻组组距2 2 缺上限的最大组组中值缺上限的最大组组中值=下限下限+

8、邻组组距邻组组距2 2例题例1 某班10名学生的年龄分别为20岁、21岁、19岁、19岁、20岁、20岁、21岁、22岁、18岁、20岁,求他们的平均年龄。例2 调查某年级150名学生的年龄,得到下列结果(右表),求平均年龄。(19.33)年龄(岁)人数(f)合计 15017181920212210255040205例3 调查某厂100名职工的收入情况如下(右表),求他们的平均收入。(212)收入(元)职工数(人)100140140180180220 220260 260-3001010402020合计100 例:某单例:某单位职工月位职工月工资资料工资资料如下表,如下表,试求该单试求该单位职

9、工月位职工月平均工资。平均工资。(833.3元元/人人)按月工资额按月工资额 分组分组 组组/元元组中值组中值 X/X/元元职工人数职工人数 f/f/人人各组职工工各组职工工 资额资额 X f/X f/元元600600以下以下600-800600-800800-1000800-10001000-12001000-120012001200以上以上 500500 700 700 900 9001100110013001300120120250250360360 80 80 60 60 60 000 60 000175 000175 000324 000324 000 88 000 88 000 7

10、8 000 78 000合合 计计 870 870725 000725 000中位数中位数把一组数据按值的大小顺序排列起来,处于中央把一组数据按值的大小顺序排列起来,处于中央位置的那个数值叫中位数。中位数通常用位置的那个数值叫中位数。中位数通常用MeMe表示,表示,它将整个数据资料一分为二,其中一半的数值比它将整个数据资料一分为二,其中一半的数值比它大,而另一半的数值比它小。当数据为偶数个它大,而另一半的数值比它小。当数据为偶数个时,取中间两数的平均数。时,取中间两数的平均数。中位数的作用:中位数的作用:不受极端数值的影响不受极端数值的影响321521N元520eM5.321621N元5602

11、600520eM日产量(件)日产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)10111213147010038015010070170550700800合计合计800Xf计算该企业该日全部工人日产量的中位数。计算该企业该日全部工人日产量的中位数。中位数的位次:中位数的位次:5.40021800eM 为中位数所在组的组距。式中,假定中位数所在组的频数在该组内是均匀分布的。组距数列计算中位数:组距数列计算中位数:ifSfLMemm121mSmfi采用公式计算中位数的近似值:采用公式计算中位数的近似值:为数据的个数(总次数);L为中位数所在组的下限值;为中位数所在组以前各

12、组的累积频数;为中位数所在组的频数;ACiXB个次数或频数,式中的C点AB区域即整个中位数所在的组内,次数分布是均匀的,依次分布着mf个次数或频数。12mSf1mS再假定AC区域内,次数分布也是均匀的,且依次分布着是中位数所在的位置,为中位数所在组以前各组的累积频数。区域中的次数分布区域中的次数分布的距离到的距离到ABACBACAmmfSfi12XifSfXmm12XLMe 例、设某车间例、设某车间50名工人日加工零件数分组表如下:名工人日加工零件数分组表如下:按零件数分组按零件数分组(个个)频数频数(人人)频率频率(%)105110361101155101151208161201251428

13、125130102013013561213514048合计合计50100计算该车间计算该车间50名工人日加工零件数的中位数。名工人日加工零件数的中位数。)(21.12351416250120个eM众数众数 众数是一组数据中出现次数最多众数是一组数据中出现次数最多(即即频数最高频数最高)的那个数值。通常用的那个数值。通常用M M表示。表示。众数的求法由单值分组资料求众数。由于单值分组资料中已将各标志值及其所对应的频数都一一列出,故只需采用直接直接观察的方法观察的方法就可求得众数。具体做法是,首先在频数一栏中找出最大找出最大的频数的频数,假定为 fm;然后根据fm找到它所对应的标志值 Xm,则众数

14、即为 Xm。由组距分组资料求众数。由组距分组资由组距分组资料求众数。由组距分组资料求众数的常用的方法是组中值法。料求众数的常用的方法是组中值法。用组中值法求众数分为三步:用组中值法求众数分为三步:首先通过直接观察找出最高的频数;首先通过直接观察找出最高的频数;然后根据最高的频数找到它所对应的组;然后根据最高的频数找到它所对应的组;最后求出该组的最后求出该组的组中值组中值即是众数。即是众数。求众数往往要求数据具备一定的条件,即只有当总体单位数目较多且其数据有明显的集中趋当总体单位数目较多且其数据有明显的集中趋势时才能计算众数势时才能计算众数。调查某年级150名学生的年龄,得到下列结果。首先我们在

15、人数(频数)一栏中找出最大的频数50,再从50找到所对应的年龄19岁。则资料中的众数为19岁。例如 年龄(岁)人数(f)17181920212210255040205 合计 150某厂100名职工的收入情况,首先在职工数一栏中,找到最大的频数40;然后找到40所对应的组:180220;最后计算该组的组中值,计算结果为200元。因此,该例中的众数为200元。收入(元)职工数(人)100140140180180220 220260 260-3001010402020合计100 众数、中位数和均值都是对数据集中趋势的测度,众数、中位数和均值都是对数据集中趋势的测度,1、均值均值由全部数据计算,包含了

16、全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差;受极端值的影响较大。2、中位数中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。3、众数众数是一组数据分布的峰值,是一种位置的代表,与数据出现的次数有关,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。但具有不唯一性。4、对接近正态的分布数据,常用均值均值描述数据的集中趋势;对偏态分布,常用众数众数或中位数中位数描述数据的集中趋势。5、均值、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数中位数或众数众数进行

17、描述,而对定类尺度数据,只能用众数众数进行描述。众数、中位数和均值的应用场合众数、中位数和均值的应用场合数据分布形状数据分布形状 Shape表明数据是如何表明数据是如何分布分布的的偏态偏态Skew Skew 与与 对称对称SymmetrySymmetry左偏左偏:均值均值 中位数中位数对称对称(零偏度零偏度):均值:均值 =中位数中位数右偏的右偏的左偏的左偏的对称的对称的均值均值=中位数中位数=众数众数均值均值 中位数中位数 众数众数众数众数 中位数中位数 均值均值三、离散趋势分析 离散趋势(又称离中趋势)分析指的是用一个特定的数值来反映一组数据相互之间的离散程度。作用:作用:它与集中趋势一起

18、,分别从两个不同的侧它与集中趋势一起,分别从两个不同的侧面描述和揭示一组数据的分布状况,共同反映出面描述和揭示一组数据的分布状况,共同反映出资料分布的全面特征;同时,它还对集中趋势的资料分布的全面特征;同时,它还对集中趋势的统计量(如平均数、众数、中位数)的代表性作统计量(如平均数、众数、中位数)的代表性作出补充说明。出补充说明。某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:78 79 80 81 82 X80 数学系:65 72 80 88 95 X80 政治系:35 78 89 98 100 X80如果仅以集中趋势统计量(平均数)来衡量,那么,三个系代如果仅以集中趋势统

19、计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差别。表队的水平一样高,不存在什么差别。但从直观上不难发现,三个代表队中五名队员的成绩相互之间但从直观上不难发现,三个代表队中五名队员的成绩相互之间的差跟程度(离散程度)很不一样。的差跟程度(离散程度)很不一样。中文系成绩十分接近;数学系成绩比较分散;而政治系队成绩中文系成绩十分接近;数学系成绩比较分散;而政治系队成绩则相差十分悬殊。则相差十分悬殊。8080分对中文系队同学的代表性最高,而对政治系队同学的代表分对中文系队同学的代表性最高,而对政治系队同学的代表性最低。性最低。离散趋势的各种统计量,一方面揭示出数离散趋势的各种统计量

20、,一方面揭示出数据相互分离的程度;另一方面又对相应的集中据相互分离的程度;另一方面又对相应的集中趋势统计量的代表性作出判断。趋势统计量的代表性作出判断。结论集中趋势统计量的代表性与所对应的离散集中趋势统计量的代表性与所对应的离散趋势统计量是反比关系,即趋势统计量是反比关系,即离散趋势统计离散趋势统计量越大,则所对应的集中趋势统计量的代量越大,则所对应的集中趋势统计量的代表性就越小表性就越小;反之,则越大。;反之,则越大。离散趋势统计量全距标准差异众比率四分位差离散系数对应众数平均数中位数对应对应 1 1全距全距n也叫极距,它是一组数据中最大值与最小值之差。也叫极距,它是一组数据中最大值与最小值

21、之差。n全距是离散趋势统计量中最简单的一种。全距是离散趋势统计量中最简单的一种。n在原始数据资料条件下,只需将全部数据按大小在原始数据资料条件下,只需将全部数据按大小顺序排列,然后用最大值减去最小值即可。顺序排列,然后用最大值减去最小值即可。全距的意义在于,一组数据的全距越大,在一定程全距的意义在于,一组数据的全距越大,在一定程度上说明这组数据的离散趋势越大,而集中趋势统度上说明这组数据的离散趋势越大,而集中趋势统计量的代表性越低。反之,一组数据的全距越小,计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散趋势越小,集中趋势统计量则说明这组数据的离散趋势越小,集中趋势统计量的代表

22、性就越高。的代表性就越高。由于全距仅仅依靠两个极端值,因而带有很大的偶然由于全距仅仅依靠两个极端值,因而带有很大的偶然性,它对于大量的处于两个极端值之间的数值分布情性,它对于大量的处于两个极端值之间的数值分布情况以及在中心点周围的集中情况,都无法提供任何况以及在中心点周围的集中情况,都无法提供任何信息,比较粗糙。信息,比较粗糙。2 2、四分位差、四分位差 四分位差是先将一组数据按大小排列四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高成序,然后将其四等分,去掉序列中最高的四分之一和最低的四分之一,仅就中间的四分之一和最低的四分之一,仅就中间的一半数值来测定序列的全距。的一半

23、数值来测定序列的全距。四分位差的符号通常用四分位差的符号通常用Q Q表示。表示。Q=Q3Q=Q3Q1Q1 而而Q1 Q1、Q3Q3分别表示第一个四分分别表示第一个四分位点和第三个四分位点。位点和第三个四分位点。例:位分组资料计算四分位差例:位分组资料计算四分位差 某班某班7 7位同学的成绩依次为:位同学的成绩依次为:55,61,72,80,83,88,9255,61,72,80,83,88,92。计算。计算其四分位差。其四分位差。Q1=(N+1)/4=2Q1=(N+1)/4=2;Q2=2(N+1)/4=4Q2=2(N+1)/4=4;Q3=3(N+1)/4=6Q3=3(N+1)/4=6 Q=(Q

24、3-Q1)/2=(88-61)/2=13.5Q=(Q3-Q1)/2=(88-61)/2=13.5 四分位差是指舍去资料中的数值最高的四分位差是指舍去资料中的数值最高的25%25%数据和数值最低数据和数值最低的的25%25%数据,仅就属于中间的数据,仅就属于中间的50%50%数据求其量数作为离散量数。数据求其量数作为离散量数。四分位差能够避免次数分配数列中两端极端数值的影响,中四分位差能够避免次数分配数列中两端极端数值的影响,中间部分数列分配愈集中,标志值的差异愈小,四分位差也愈间部分数列分配愈集中,标志值的差异愈小,四分位差也愈小。小。3标准差 标准差:一组数据对其平均数的偏差平方的算术平均数

25、的平方根。它是用得最多、也是最重要的离散趋势统计量。通常用符号 来表示,其计算公式根据资料的形式不同而稍有差别。公式由原始数据计算标准差21()nixXn由单值分组资料计算标准差21()mijiixxff(f f为为X X所对应的频数)所对应的频数)由组距分组资料计算标准差。其方法与上述单值分组资料计算标准差的方法相似,唯一不同的是需要先计算出各组的组中值,然后采用下述公式:2()miXX fn元558527905750600520480440X元62.10956008055587505584402221NXXNii标准差计算例标准差计算例单项数列单项数列 :某村社会救助款额发放资料如表所示,

26、求加权:某村社会救助款额发放资料如表所示,求加权标准差。标准差。115.67元元组距数列组距数列 :以下表资料为例,计算加权标准差。以下表资料为例,计算加权标准差。676.68万元万元社会救助款额(元)人数 fXf(X-X)(X-X)2(X-X)2f640750890940980 3 3 5 6 319202250445056402940-220-110 30 80 1204840012100900640014400 145200 36300 4500 38400 43200 合 计 2017200 267600保险基金 收缴额(万元)县市数(个)组中值(万元)Xf(X-X)(X-X)2(X-

27、X)2f1000以下1000-15001500-20002000-25002500-30003000以上 6 14 17 32 21 1075012501750225027503250 45001750029750720005775032500 1390 890 390 110 610 11101932100 792100 152100 12100 372100123210011592600110894002585700387200781410012321000合 计 100 214000 457900004 4离散系数离散系数 离散系数是一种相对的离散趋势统计量,它使我们能够对两种不同单位的

28、离散趋势统计量,或者对两个不同总体的离散程度进行比较。标准差与平均数的比值,用百分比表示。定义:定义:100VX在平均数不为零的条件下,离散系数越大,表明数据的离散程度越大,而所对应的集中趋势统计量的代表性就越小;反之,则数据的离散程度越小,集中趋势统计量的代表性就越大。应用举例一项调查得到下列结果,某市人均月养老保险金为一项调查得到下列结果,某市人均月养老保险金为9292元,元,标准差为标准差为1717元;人均住房面积元;人均住房面积7.57.5平米,标准差为平米,标准差为1.81.8平平米。试比较该市人均养老保险和住房情况哪一个差异程度米。试比较该市人均养老保险和住房情况哪一个差异程度比较

29、大。比较大。计算结果:人均养老保险的离散系数为计算结果:人均养老保险的离散系数为18.5%18.5%,人均住房,人均住房面积的离散系数为面积的离散系数为24%24%可见人均住房面积的差异情况比人均养老的差异情况要大。可见人均住房面积的差异情况比人均养老的差异情况要大。某校学生的平均年龄为某校学生的平均年龄为2020岁,标准差为岁,标准差为2 2岁;该校岁;该校教师的平均年龄为教师的平均年龄为2828岁,标准差为岁,标准差为4.54.5岁。试比校岁。试比校学生年龄与教师年龄哪一个差异程度更大。学生年龄与教师年龄哪一个差异程度更大。计算结果:学生年龄的离散系数为计算结果:学生年龄的离散系数为10%

30、10%,教师年龄,教师年龄的离散系数为的离散系数为11.8%11.8%可见教师年龄间的差异程度更大一些。可见教师年龄间的差异程度更大一些。以上是同一总体不同指标间的比较,下列则是同一指标不同总体间的比较02.19100826.15100111XV47.19100768.14100222XV21VV:如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,两家供应商均表示能在大约两家供应商均表示能在大约1010个个工作日内供齐所需原材料工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所他们供货所需天数的分布情况却是不同的需天数的分布

31、情况却是不同的(图)。相 对 频 数 相 对 频 数 5 A 供 货 商 B 供 货 商 4 3 2 1 1 1 1 1 1 9 10 11 天 7 8 9 10 11 12 13 14 15 天问问:两家供货商按时供货的可信度相同吗?考虑它们直方图的两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择哪家供货商供货呢?差异,你更愿意选择哪家供货商供货呢?5异众比率异众比率:一组数据中非众数的次数非众数的次数与总体全部单位数的比率。nfnVRm0公式:公式:(这里fmo为众数的次数)异众比率的意义是指众数所不能代表的其他数值(即非众数的数值)在总体中的比重。因此,异众比率越大异

32、众比率越大,即众数所不能代表的其他数值的比重越大,则众数在总体中所占的比重自然就越小,这样众数的代表性也就众数的代表性也就越小越小。第三节 双变量统计分析一、交互分类1交互分类的定义与作用所谓交互分类,就是将一组数据按照两个不同变量将一组数据按照两个不同变量的类型进行综合的分类的类型进行综合的分类。交互分类的结果通常以交交互分类表互分类表的形式反映出来。老年老年 中年中年 青年青年合计小学以下初中高中中专以上68 45 20 20 32 4411 18 26 1 5 10 133 96 55 16合计100 100 100 300 上表是对总数为300人的调查对象按照年龄和文化程度两个变量的标

33、准进行交互分类的结果。每一个被调查者按这两种标准被划分到某一个格内。即格内数字就是分类的结果。作用作用通过对各种不同类型格内的频数或相对通过对各种不同类型格内的频数或相对额数(即百分比)的分析,来研究和探额数(即百分比)的分析,来研究和探讨变量之间是否存在关系。讨变量之间是否存在关系。结论即被调查者的文化程度与他们的年龄有即被调查者的文化程度与他们的年龄有关,并呈现出年龄越低,总体文化程度关,并呈现出年龄越低,总体文化程度越高的状况。越高的状况。交互分类方法的交互分类方法的适用对象适用对象主要是主要是定类与定序层次定类与定序层次的的变量,而在社会调查研究中的绝大部分变量正好又变量,而在社会调查

34、研究中的绝大部分变量正好又是这两个层次的。是这两个层次的。因此,交互分类的方法对于大量社会调查资料的相因此,交互分类的方法对于大量社会调查资料的相关分析有着十分重要的作用。关分析有着十分重要的作用。二、相关分析交互分类主要处理的是定类交互分类主要处理的是定类(或定序)变量间的关或定序)变量间的关系问题,对于定距及定比变量来说,则有另一些方系问题,对于定距及定比变量来说,则有另一些方法来探讨。法来探讨。这里主要简单介绍相关系数的计算方法及一元线性这里主要简单介绍相关系数的计算方法及一元线性回归模型。回归模型。相关分析的意义相关分析的意义 如,如,职业种类和收入之间的关系、政府投入和经济增长之间的

35、关职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。关系等等。这些都是这些都是二元二元的关系。的关系。还有更加复杂的还有更加复杂的诸多变量之间的相互关系诸多变量之间的相互关系,如如企业的固定资产、流动资产、预算分配、管理模式、生产率、企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系则不能用简单的一些二元关系描述。债务和利润等诸因素的关系则不能用简单的一些二元关系描述。在分析变量的依存关系时,把变量分为两种:在分析变量的依存关系时,把变量分为两

36、种:自变量自变量因变量因变量引起其他变量发生变化的量。引起其他变量发生变化的量。受自变量的影响发生对应变化的量受自变量的影响发生对应变化的量如:家庭收入决定消费支出,收入的变化必然引起消费如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是支出的变化,这两个变量中收入是自变量自变量,而消费支出,而消费支出则是则是因变量因变量。指变量之间存在着确定性依存关系。即当一个或指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应有一个确定值与之对应 。函数关系可以用一个确定的公式,即函

37、数式函数关系可以用一个确定的公式,即函数式 2Sr例、圆 面 积),(21nxxxfy或:Y=F(X)来表示。来表示。指变量之间存在着非确定性依存指变量之间存在着非确定性依存关系。即当一个或一组变量每取关系。即当一个或一组变量每取一个值时,相应的另一个变量可一个值时,相应的另一个变量可能有多个不同值与之对应能有多个不同值与之对应。例、根据消费理论,商品需求量例、根据消费理论,商品需求量Q Q与商品价格与商品价格P P、居、居民收入民收入I I之间具有的相关关系;工资收入与工龄之间之间具有的相关关系;工资收入与工龄之间的关系;工作业绩与文化程度的关系等等。的关系;工作业绩与文化程度的关系等等。相

38、关关系分析相关关系分析 1.1.广义上的相关分析广义上的相关分析包括以下五个方面:(1)确定现象之间是否存在相关关系 (2)确定相关关系的表现形式 (3)判定相关关系的方向和密切程度 (4)对达到一定密切程度的相关关系建立适当的数学模型,以确定自变量与因变量之间数量变化的规律性。(5)测定数学模型的代表性大小并根据自变量数值对因变量的数量变化做出具有一定概率保证程度的推算和预测。2.2.前三个方面前三个方面内容称为狭义的相关分析狭义的相关分析,后两方面后两方面内容的研究称为回归分析回归分析。是两个变量之间存在的相关关系,即一个是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系

39、。因此因变量与一个自变量之间的依存关系。因此也称为也称为也称多元相关,是指三个或三个以上变量之也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及一个因变量与间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称两个或更多个自变量,也称1 1、按相关关系涉及变量的多少可分为:、按相关关系涉及变量的多少可分为:只研究家庭收入对消费支出的影响为单相只研究家庭收入对消费支出的影响为单相关;如果研究家庭收入、家庭人员构成、家关;如果研究家庭收入、家庭人员构成、家庭生活方式等因素对于家庭消费支出的影响庭生活方式等因素对于家庭消费支出的影响则为复相关。则为复相关。2 2、按相关的方向可

40、分为:、按相关的方向可分为:国民生产总值与社会福利设施建设投资额,国民生产总值与社会福利设施建设投资额,存在着同向增加的关系,为正相关;存在着同向增加的关系,为正相关;教育程度与工资水平呈一定程度的反向关教育程度与工资水平呈一定程度的反向关系;为负相关系;为负相关体 重90807060504030身高180170160150线性正相关线性正相关价格700600500400300200消费量消费量100806040200线性负相关线性负相关非线性相关非线性相关体 重90807060504030成绩100806040200无(不)相关无(不)相关3 3、按相关关系的密切程度分为:、按相关关系的密切

41、程度分为:定性分析定性分析定量分析定量分析定性和定量变量间的混和关系定性和定量变量间的混和关系 假想关于高等学校的数据的一些指标包括假想关于高等学校的数据的一些指标包括:在校生人数在校生人数(S),(S),研研究生比例究生比例(G),(G),教师人数教师人数(F),(F),职工人数职工人数(ST),SCI(ST),SCI和和SSCISSCI文章数文章数目目(P),SCI(P),SCI和和SSCISSCI文章引用数目文章引用数目(Q),(Q),科研项目数科研项目数(PR),(PR),科研经科研经费费(B),(B),总经费及招生范围总经费及招生范围(N)(N)等等 从该数据很难马上看到任何关系。但

42、是从数据可以得到许多有从该数据很难马上看到任何关系。但是从数据可以得到许多有用的关系和结论。用的关系和结论。如,可以得到如,可以得到任何一个变量和其余变量之间的定量关系任何一个变量和其余变量之间的定量关系或者或者多多个变量之间的定量关系个变量之间的定量关系(因而可以建立模型,进行预测和各种(因而可以建立模型,进行预测和各种推断);推断);也可以利用其中一些变量把也可以利用其中一些变量把各个高等学校分类各个高等学校分类;还可以;还可以把众多把众多的变量用少数几个变量代替以利于分析和理解的变量用少数几个变量代替以利于分析和理解;数据可以数据可以作为高校排名的根据之一作为高校排名的根据之一将两个变量

43、伴随变动结果编成一将两个变量伴随变动结果编成一张统计表,即张统计表,即相关表相关表。两个变量两个变量均不分组均不分组而形成的相而形成的相关表。关表。对变量进行对变量进行分组分组而形成的相关而形成的相关表。依两个变量是否同时分组,表。依两个变量是否同时分组,又分为:又分为:只对其中一个变量分组。只对其中一个变量分组。对两个变量同时分组。对两个变量同时分组。企业编号企业编号月产量(千吨)月产量(千吨)X生产费用(万元)生产费用(万元)Y123456781.22.03.13.85.06.17.28.0628680110115132135160八个同类工业企业的月产量与生产费用八个同类工业企业的月产量

44、与生产费用 例例 简单相关表简单相关表某市居民月消费支出和可支配收入相关表某市居民月消费支出和可支配收入相关表(单位:百元单位:百元)平均每昼平均每昼夜产量夜产量 固定资产原值固定资产原值3540404545505055 5560606565706006501 15506001235005502134505001517400450224350400030035022223543120(百万元)(百万元)(吨)(吨)YfXf2020个同类工业企业固定资产原值与平均每昼夜产量个同类工业企业固定资产原值与平均每昼夜产量将变量之间的伴随变动绘于坐标图上将变量之间的伴随变动绘于坐标图上所形成的统计图。又

45、称所形成的统计图。又称散点图散点图。根据根据未分组资料未分组资料的原始数据直接的原始数据直接绘制的相关图。绘制的相关图。根据根据分组资料分组资料绘制的相关图。绘制的相关图。正正 相相 关关负负 相相 关关曲线相关曲线相关不不 相相 关关xyxyxyxy用直角坐标系的用直角坐标系的x轴代表自变量,轴代表自变量,y轴代表因轴代表因变量,将两个变量间相对应的变量值用坐标变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状点的形式描绘出来,用以表明相关点分布状况的图形。况的图形。1 1 定类变量:可以使用卡方或者定类变量:可以使用卡方或者LAMBDALAMBDA系数;系数;2

46、2 定序变量,或者至少有一个定序:行与列相等时用定序变量,或者至少有一个定序:行与列相等时用GAMMAGAMMA系系数,其他用数,其他用SOMERSOMERS DS D相关系数。相关系数。3 3 定距和定比变量,或者定序取值达到或超过定距和定比变量,或者定序取值达到或超过5 5:用皮尔逊相:用皮尔逊相关系数。关系数。注意:注意:在统计软件中一般把前两类的计算归在统计软件中一般把前两类的计算归于描述性统计类别里,而后者才在相关分析于描述性统计类别里,而后者才在相关分析类别里。类别里。定类变量间的相关测定:定类变量间的相关测定:系数(系数(Lambda)定类变量之间的相关系数,只能以变量值的次数来

47、计定类变量之间的相关系数,只能以变量值的次数来计算,常用算,常用Lambda系数法。系数法。例:性别与对吸烟的态度资料见下表例:性别与对吸烟的态度资料见下表性别与对吸烟态度性别与对吸烟态度 态度y 性别x 男 女 合计(Fy)容忍 反对 37 15 8 42 45 57 合计(Fx)52 50 102 AnalyzeDescriptive Statistics CrosstabsSpss操作自行练习,参见操作自行练习,参见SPSS.11_0统计分析教程统计分析教程.(基础篇)(基础篇)第第14章章 定序变量间的相关测定:定序变量间的相关测定:G系数(系数(Gamma)例:管理人员的管理能力与声

48、望的交互分类表例:管理人员的管理能力与声望的交互分类表声望声望y 管理能力管理能力x 高高低低合计(合计(Fy)高高 低低37 15 8 42 45 57 合计(合计(Fx)52 50 102 SPSS中列联表分析的常用方法中列联表分析的常用方法 1、适用于两定类变量的方法、适用于两定类变量的方法 2、适用于两定序变量的方法、适用于两定序变量的方法 3、适用于一定类变量、一定序变量的方法、适用于一定类变量、一定序变量的方法定类与定序变量间的相关测定在定类与定序变量间的相关测定在SPSS中的分析工具主中的分析工具主要位于要位于描述性统计类别描述性统计类别Crosstabs之中。之中。具体分类如下

49、文所述:具体分类如下文所述:1、适用于两定类变量的方法、适用于两定类变量的方法 Phi系数:适用于系数:适用于22的列联表,是对的列联表,是对Pearson卡方统计量的修正。卡方统计量的修正。卡方值容易受样本量的影响。卡方值容易受样本量的影响。Phi系数是一种排系数是一种排除样本量影响的卡方检验修正方法。除样本量影响的卡方检验修正方法。GramerGramers Vs V系数系数:V系数也是对Pearson卡方统计量的修正。V系数在考虑了样本数影响的同时,还考虑了列联表的单元格数。V系数的取值在01之间,越接近1表明变量的相关系数越强。2、适用于两定序变量的方法、适用于两定序变量的方法 这些方

50、法都是围绕“同序对数”与“异序对数”展开的,它们是变量相关性检验的给参数方法中的两个重要指标。如果同序对占多数,则认为两个变量为正相关;如果异序对较多,则认为两变量为负相关;如果同序对和异序对数大致相同,则认为两个变量无线性关系。2、适用于两定序变量的方法 Kendalls tau-b 系数:取值范围在取值范围在-1+1之间,正负符号代表相关方向。绝对值之间,正负符号代表相关方向。绝对值越接近越接近1,变量的相关性越强。通常用于方形列联表,变量的相关性越强。通常用于方形列联表。Kendalls tau-c系数:取值范围在取值范围在-1+1之间,绝对值越接近之间,绝对值越接近1,变量的相关性,变

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(调查资料的统计分析课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|