1、 政治科学研究方法概论 新编政治学系列教材统计基础统计基础1.随即变量及其分布随即变量及其分布2.统计推论统计推论3.第第1515章章 实证资料的统计分析实证资料的统计分析相关分析相关分析4.回归分析回归分析5.政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础15.1.115.1.1集中量数分析集中量数分析15.1.215.1.2离散量数分析离散量数分析15.1.315.1.3频数分布与频率分布频数分布与频率分布 政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 统计最初是指对国情的研究,主要包括人口、职业等情况的统计最初是指对国
2、情的研究,主要包括人口、职业等情况的统计。统计。威廉.配第的政治算术(1676年)用大量的数据来分析国家的实力,是较早的统计学著作。自19世纪中期以来,统计学中引入概率论,形成数理统计学,使统计分析有了坚实的数理基础。20世纪上半叶,小样本推论统计技术迅速发展起来,使统计分析的功能大大扩展。20世纪下半叶以来,随着信息计算技术的发展,学者们终于可以从复杂繁重的运算负担中解脱出来,尤其是大量的统计分析软件的出现,极大地方便了统计分析在社会科学中的应用。政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 统计分析的主要功能:统计分析的主要功能:一是对数据资料进行简化,
3、用总体的数据特征对总体所包含的大量资料信息进行简化描述。二是可以描述变量之间的关系。对于两个或两个以上变量的数据资料而言,描述变量间的数量关系是统计分析的重要内容,比如教育程度与政治参与程度之间的关系究竟如何,不仅需要有见地的思辨的分析,还需要由经验证据对学者们的思辨分析所得出的不同结论中作出符合现实的挑选。三是可以通过样本资料推断总体的情况。总体规模通常是很大的,通过普查的方式来了解总体的情况需要耗费大量的人力、物力、财力和时间,这时可以用抽样的方法,通过了解一个很小的、具有代表性的样本,由这个样本的情况对总体的情况进行推断。政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统
4、计基础统计基础 统计分析依据分析变量的多寡,可以分为单变量分析和多变统计分析依据分析变量的多寡,可以分为单变量分析和多变量分析。量分析。根据是否使用统计推论,可以分为描述统计和推论统计。根据是否使用统计推论,可以分为描述统计和推论统计。描述统计描述统计的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信息。它的基本方法包括集中量数分析、离散量数分析等。推论统计推论统计的主要目的,则是用从样本中所得到的数据资料,即统计值,来推断总体的情况,即总体的参数,它主要包括参数估计和假设检验等。政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 15.1.1 15
5、.1.1集中量数分析集中量数分析 集中量数(也称为集中趋势)集中量数(也称为集中趋势)分析指的是用一个典型值或代表值来反映一组数据、一组观测值的一般水平,或者说反映这组数据向这个典型值集中的情况。最常见的集中量数有算术平均数(简称平均数,也称为均值)、众数和中位数三种:1.1.平均数平均数 (Mean Mean)是指一组数值之和除以该组数据包含的数目个数,是最常用的集中量数。在在ExcelExcel中中:工具-数据分析-描述统计-汇总统计,输出结果中的平均。政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 15.1.1 15.1.1集中量数分析集中量数分析 2.
6、2.众数众数(Mode)(Mode)是一组数据中出现次数最多(即频数最高)的那个数值,众数与平均数一样也可用来概括反映一组数据的一般水平或典型情况。对于按组距分组资料采用组中值法,首先通过直接观察找出最高的频数,然后根据最高的频数找到它所对应的组,最后求出改组的组中值作为众数。在在ExcelExcel中中:工具-数据分析-描述统计-汇总统计,输出结果中显示众数 政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 15.1.1 15.1.1集中量数分析集中量数分析 3.3.中位数中位数(Median)(Median)把一组数据按值的大小顺序排列起来,处于中央位置的那
7、个数值就叫中位数,它描述的是定序变量以上层次的变量,它的含义是整个数据中有一半数值在它之上,另一半数值在它之下。在在ExcelExcel中中:工具-数据分析-描述统计-汇总统计,输出结果中显示中位数 4.4.中位数与平均数的比较。中位数与平均数的比较。平均数要求计算所有的数值,而中位数只用到数值的相对位置,一般说来平均数利用了更多的信息,更全面和准确。但平均数容易受到极端值的影响,中位数则不会受到这种影响。当资料是定序或者是有开口组的定距测量时,无法计算平均数,中位数能够弥补不足。政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 15.1.2 15.1.2 离散
8、量数分析离散量数分析 离散量数(也叫离中趋势)离散量数(也叫离中趋势)分析指的是用一个特别的数值来反映一组数据、一组观测值相互之间的差异程度、分散程度,它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况,共同反映出数据分布的全面特征。政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 15.1.2 15.1.2 离散量数分析离散量数分析例:例:某校三个系各选5名同学参加竞赛,他们的成绩分别如下:中文系:78,79,80,81,82;平均分 =80数学系:65,72,80,88,95;平均分 =80外语系:35,78,89,98,100;平均分=80
9、如果仅以集中量数来衡量,这三个队的平均得分一样高。但80分对三个系的代表性是否一样呢?很显然,这个平均分80分对中文系队的同学代表性最高,而对外语系的同学代表性最低,因为中文系5位同学的得分跟80分都很接近,而外语系除了一个得78分的同学的成绩跟80分比较接近以外,其他同学跟80分的差距都比较大,也就是说80分作为一个代表性数值对该组同学的代表性较差。为比较全面反映一组数据的分布特征,除了要计算其集中趋势外,还要计算其离散趋势。政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 15.1.2 15.1.2 离散量数分析离散量数分析 全距也叫极差,它是一组数据中最大
10、值与最小值之差。用公式表示:全距也叫极差,它是一组数据中最大值与最小值之差。用公式表示:在在ExcelExcel中中:工具工具-数据分析数据分析-描述统计描述统计-汇总统计,输出结果中显示为区域汇总统计,输出结果中显示为区域 一组数据或观测值的方差反映了该组数据或观测值的离散程度。用公式表示:一组数据或观测值的方差反映了该组数据或观测值的离散程度。用公式表示:在在ExcelExcel中中:工具工具-数据分析数据分析-描述统计描述统计-汇总统计汇总统计1n)xx(sn1i2i2样本常见的离散量数统计量有全距、标准差、异众比率和四分位差。常见的离散量数统计量有全距、标准差、异众比率和四分位差。政治
11、科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 15.1.2 15.1.2 离散量数分析离散量数分析标准差是最重要的离散量数统计量,是指一组数据或观测值的方差的平方根,标准差标准差是最重要的离散量数统计量,是指一组数据或观测值的方差的平方根,标准差的计算公式为:的计算公式为:1)(12nxxsnii样本离散系数也叫变异系数、异众比率,是一种相对的离散量数统计量,用来对两组离散系数也叫变异系数、异众比率,是一种相对的离散量数统计量,用来对两组数据的差异程度进行比较。离散系数是标准差与平均数的比值。计算公式为:数据的差异程度进行比较。离散系数是标准差与平均数的比值。计
12、算公式为:对数据进行标准化最常用的是标准差标准化,即考察某个观测值偏离平均值多少个对数据进行标准化最常用的是标准差标准化,即考察某个观测值偏离平均值多少个标准差,这样得出的标准值也称为标准分,即标准差,这样得出的标准值也称为标准分,即Z Z值。计算公式如下:值。计算公式如下:sxxZi 政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 15.1.3 15.1.3 频数分布与频率分布频数分布与频率分布1.1.频数分布频数分布(Frequency Distribution)(Frequency Distribution)频数分布是指一组数据中取不同值的个案的次数分布
13、情况,它一般以频数分布频数分布是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。例如下面某抽样调查样本的学历分布表:表的形式表达。例如下面某抽样调查样本的学历分布表:学历分布表学 历人 数小学以下1中学72高中44中专13大专52大学58硕士4博士7缺失(Missing)49总计(Total)300该分布表表示本次抽样调查该分布表表示本次抽样调查共有共有300300个个案(个个案(casecase;有;有时亦称观察值,即时亦称观察值,即observationobservation),其中),其中4949个个个案的数据缺失,即有效数个案的数据缺失,即有效数据为据为2512
14、51个。个。政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 15.1.3 15.1.3 频数分布与频率分布频数分布与频率分布1.1.频数分布频数分布(Frequency Distribution)(Frequency Distribution)频数分布表能够清晰而简洁地呈现调查数据的某个变量的信息,也能很方便地频数分布表能够清晰而简洁地呈现调查数据的某个变量的信息,也能很方便地用数据图形更直观地表示出来,如下图。用数据图形更直观地表示出来,如下图。政治科学研究方法概论 新编政治学系列教材u 15.1 15.1 统计基础统计基础 15.1.3 15.1.3 频数
15、分布与频率分布频数分布与频率分布2.2.频率分布频率分布(percentage distribution)(percentage distribution)频率分布是一组数据中不同取值的频数相对于总数的比率分布情况,是不同类别在总体中的相对频数分布。学历分布表学 历人 数频率小学以下10.40 中学7228.69 高中4417.53 中专135.18 大专5220.72 大学5823.11 硕士41.59 博士72.79 缺失(Missing)49总计(Total)300100例如上述学历分布表可以加上频率的例如上述学历分布表可以加上频率的相关信息。频率只根据有效个案计算。相关信息。频率只根据
16、有效个案计算。在本例中,即把不同学历的出现的频在本例中,即把不同学历的出现的频数除以有效个案数数除以有效个案数251251得出。得出。政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布15.2.115.2.1概率概率15.2.215.2.2随机变量随机变量15.2.315.2.3随机变量的分布函数随机变量的分布函数15.2.415.2.4几个常用的概率分布几个常用的概率分布 政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布 在科学研究中存在着两种现象,一是必然现象,即在科学研究中存在着两种现象,一是必
17、然现象,即在一定条件下必然出现的现象;二是随机现象,即在在一定条件下必然出现的现象;二是随机现象,即在一定条件下可能出现也可能不出现的现象。产生随机一定条件下可能出现也可能不出现的现象。产生随机现象的不确定性的原因,是影响事物发展的偶然因素现象的不确定性的原因,是影响事物发展的偶然因素和无法控制的因素的存在。社会政治领域的现象都是和无法控制的因素的存在。社会政治领域的现象都是可能出现也可能不出现的,都是随机现象。可能出现也可能不出现的,都是随机现象。随机现象中出现的结果不能事先准确预言,但结果随机现象中出现的结果不能事先准确预言,但结果的全部可能性可以是已知的。的全部可能性可以是已知的。政治科
18、学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布 15.2.1 15.2.1 概率概率 政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布 15.2.1 15.2.1 概率概率 例:例:为设计某路口向左转弯的汽车候车道,在每天交通最繁忙的时间(上午8点)观测候车数,共观测了60次(天),结果如下:等候车辆数0123456总和出现的次(天)数416201432160频率0.06670.2670.3330.23330.050.0330.0171求在上午求在上午8 8点在该路口至少有点在该路口至少有5 5辆汽车在
19、等候左转弯的概率?辆汽车在等候左转弯的概率?(0.050.05)政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布15.2.2 15.2.2 随机变量随机变量 随机事件随机事件是按试验结果而定出现与否的事件,它是一种“定性”的概念,不利于研究。有了随机变量,我们就可以用实数来表示随机试验的各种结果,这样,不仅可更全面揭示随机试验的客观存在的统计规律性,而且可使我们用数学分析的方法来讨论随机试验。随机变量是研究随机现象的一个重要工具,也是概率论的一个基本概念。随机变量按其可能取值的全体的性质随机变量按其可能取值的全体的性质,大致可区分为两大类,大致可
20、区分为两大类,离散型随机变量,离散型随机变量,其特征是只能取有限或可列无限个值,其测量层次大致对应于定类变量、定序变量;连续型随机变量,连续型随机变量,这种随机变量的可能取值充满数轴上的一个区间,其测量层次大致对应于定距变量。政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布 15.2.3 15.2.3 随机变量的分布函数随机变量的分布函数 政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布 15.2.4 15.2.4 几个常用的概率分布几个常用的概率分布 1.1.正态分布(又称高斯分布)正态分布(又称
21、高斯分布)政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布15.2.4 15.2.4 几个常用的概率分布几个常用的概率分布1.1.正态分布(又称高斯分布)正态分布(又称高斯分布)正态分布的特征:正态分布的特征:1)正态分布有两个主要参数,正态分布有两个主要参数,为期望值,为标准差;为位置参数;为形状参数。2)很多随机现象都可以用正态分布来描述,如:测量误差都是用正态分布描述的,测量误差是随机变量,时大时小,时正时负,不过误差大的机会少,误差小的机会多,正误差与负误差出现的机会几乎相等,这些现象与正态分布曲线“中间高两边低左右对称”是相吻合的,所以
22、测量误差 被当作正态变量看来。有学者说“人类甚至也不是随意犯错误”,就是指误差服从特殊的统计分布。政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布15.2.4 15.2.4 几个常用的概率分布几个常用的概率分布1.1.正态分布(又称高斯分布)正态分布(又称高斯分布)正态分布的特征:正态分布的特征:3 3)许多分布可用正态分布作近似计算,在一定条件下,许多分布可用正态分布作近似计算,在一定条件下,很多随机变量的迭加都可以用正态分布来近似很多随机变量的迭加都可以用正态分布来近似。4)从正态分布可导出一些有用的分布,统计中常用的三从正态分布可导出一些有
23、用的分布,统计中常用的三大分布:大分布:X X2 2分布、t 分布、F 分布都是从正态分布导出的。政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布 15.2.4 15.2.4 几个常用的概率分布几个常用的概率分布 2.2.t分布分布 政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布 15.2.4 15.2.4 几个常用的概率分布几个常用的概率分布 政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布 15.2.4 15.2.4 几个常用的概率分布几个常用的
24、概率分布 政治科学研究方法概论 新编政治学系列教材u 15.2 15.2 随即变量及其分布随即变量及其分布 15.2.4 15.2.4 几个常用的概率分布几个常用的概率分布 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论15.3.115.3.1参数估计参数估计15.3.215.3.2假设检验假设检验 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 简单地说,统计推论就是利用样本的统计值对总简单地说,统计推论就是利用样本的统计值对总体的参数值进行估计。体的参数值进行估计。统计推论的内容主要包括两个方面:统计推论的内容主要包括两个
25、方面:一是参数估计一是参数估计 二是假设检验二是假设检验 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论15.3.1 15.3.1 参数估计参数估计 参数估计就是利用样本统计量来估计总体的未知参数估计就是利用样本统计量来估计总体的未知参数,它是统计推断的基本问题之一。在很多实际参数,它是统计推断的基本问题之一。在很多实际问题中问题中,我们知道一个随机变量服从什么样的的分布我们知道一个随机变量服从什么样的的分布,但不知道其分布的具体参数但不知道其分布的具体参数,因此需要对未知的参数因此需要对未知的参数做出估计。做出估计。参数估计有两种形式参数估计有两种形式:参数
26、的点估计参数的点估计 区间估计区间估计 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 15.3.1 15.3.1 参数估计参数估计 1.1.点估计点估计 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 15.3.1 15.3.1 参数估计参数估计 1.1.点估计点估计 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 15.3.1 15.3.1 参数估计参数估计 1.1.点估计点估计 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 15.3.1 15.3.1
27、参数估计参数估计 2.2.区间估计区间估计 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 15.3.1 15.3.1 参数估计参数估计 2.2.区间估计区间估计 (1 1)单个正态总体数学期望的区间估计)单个正态总体数学期望的区间估计 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 15.3.1 15.3.1 参数估计参数估计 2.2.区间估计(区间估计(1 1)单个正态总体数学期望的区间估计)单个正态总体数学期望的区间估计 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 15.3.1 15
28、.3.1 参数估计参数估计 2.2.区间估计(区间估计(1 1)单个正态总体数学期望的区间估计)单个正态总体数学期望的区间估计 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 15.3.1 15.3.1 参数估计参数估计 2.2.区间估计(区间估计(2 2)单个正态总体方差的区间估计)单个正态总体方差的区间估计 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 15.3.1 15.3.1 参数估计参数估计 2.2.区间估计(区间估计(3 3)单侧置信区间)单侧置信区间 政治科学研究方法概论 新编政治学系列教材u 15.3 15.
29、3 统计推论统计推论15.3.2 15.3.2 假设检验假设检验 科学研究中的理论假设不是作为一个已被认定科学研究中的理论假设不是作为一个已被认定为真的事实,而只是作为一个命题或陈述,其正确为真的事实,而只是作为一个命题或陈述,其正确与否,或更确切地说,我们是否打算接受它,要依与否,或更确切地说,我们是否打算接受它,要依据经验证据去做出决定。做出决定的过程,称作对据经验证据去做出决定。做出决定的过程,称作对该假设进行检验。该假设进行检验。政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论15.3.2 15.3.2 假设检验假设检验 “假设检验假设检验”的基本思想,
30、的基本思想,即先对总体的某一参数做出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受。它在逻辑上类似于初等数学中的反证法,即:不妨假设命题H0是真的,在这一前提下进行数学推导,结果得到了一个矛盾的结论,于是我们认为命题不成立,而接受反命题H1。政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 15.3.2 15.3.2 假设检验假设检验 假设检验的步骤:假设检验的步骤:(1)建立虚无假设(零假设,null hypothesis)和研究假设(备择假设,alternative hypothesis);每个假设检验问题都有一对竞争的假设,在假设检验中,常
31、把一个被检验的假设叫做零假设,而其对立面就叫做备择假设;两类假设互斥且穷尽,二者必居其一(2)根据需要选择适当的显著性水平;通常选0.05,0.01,或0.1;即小概率,称为检验水平,或叫显著性水平;(3)根据样本数据计算出统计值,并根据显著性水平查出对应的临界值;(4)将临界值与统计值进行比较,当统计值大于等于临界值的绝对值时,则拒绝虚无假设,接受研究假设;否则接受虚无假设,否定研究假设。政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推论 15.3.2 15.3.2 假设检验假设检验 政治科学研究方法概论 新编政治学系列教材u 15.3 15.3 统计推论统计推
32、论 15.3.2 15.3.2 假设检验假设检验 政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析15.4.115.4.1定类变量的相关分析定类变量的相关分析15.4.215.4.2定距变量的相关分析定距变量的相关分析(Correlation analysis)(Correlation analysis)政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 相关分析主要是判断两个或两个以上变量之间是否存相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的程度。许多现象或在相关关系,并分析变量间相关关系的程度
33、。许多现象或变量之间都存在着某种依存关系,一种是确定性的函数关变量之间都存在着某种依存关系,一种是确定性的函数关系,如系,如y=f(x)y=f(x),x x为自变量,为自变量,y y为因变量,当自变量取某值为因变量,当自变量取某值时,因变量有确定的值与其对应;另一种是两个变量之间时,因变量有确定的值与其对应;另一种是两个变量之间虽然不存在确定性的函数关系,但两个变量之间存在着统虽然不存在确定性的函数关系,但两个变量之间存在着统计规律性,具有相关关系,如计规律性,具有相关关系,如y=f(x,y=f(x,),其中,其中为随机变为随机变量,当变量量,当变量x x取某值时,变量取某值时,变量y y值并
34、不确定,但值并不确定,但y y按某种规律按某种规律在一定范围内变化。多数社会经济现象之间都不存在严格在一定范围内变化。多数社会经济现象之间都不存在严格的函数关系,而是存在着某种相关关系。的函数关系,而是存在着某种相关关系。在相关分析中,变量类型不同,所采用的方法也不同。在相关分析中,变量类型不同,所采用的方法也不同。政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.1 15.4.1定类变量的相关分析定类变量的相关分析 在政治科学研究中,我们经常会碰到定类变量,比如一在政治科学研究中,我们经常会碰到定类变量,比如一个人的党派、意识形态、对一项政策的态度等
35、,而要分析个人的党派、意识形态、对一项政策的态度等,而要分析定类变量之间的相关性,一般要用交叉列表(亦称二联表、定类变量之间的相关性,一般要用交叉列表(亦称二联表、列联表)。列联表)。当分析两个定类变量间的关系时,我们主要关注两个问当分析两个定类变量间的关系时,我们主要关注两个问题题:一是这两个定类变量是否具有相关关系,或者说是否彼一是这两个定类变量是否具有相关关系,或者说是否彼此相互独立;此相互独立;二是这两个变量如果彼此相关,它们的相关程度有多强。二是这两个变量如果彼此相关,它们的相关程度有多强。政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.1
36、15.4.1定类变量的相关分析定类变量的相关分析政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.115.4.1定类变量的相关分析定类变量的相关分析 政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.115.4.1定类变量的相关分析定类变量的相关分析 政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.2 15.4.2定距变量的相关分析定距变量的相关分析(Correlation analysisCorrelation analysis)定距变量之间相关关系的类型,依据两个
37、变量之间是定距变量之间相关关系的类型,依据两个变量之间是否存在着线性关系,可以将变量之间的相关关系区分为线否存在着线性关系,可以将变量之间的相关关系区分为线性相关和非线性相关;根据两个变量之间相关关系的方向,性相关和非线性相关;根据两个变量之间相关关系的方向,可以将变量之间的相关关系分为正相关和负相关。当一个可以将变量之间的相关关系分为正相关和负相关。当一个变量随着另一个变量的增加而增加时,两个变量之间是正变量随着另一个变量的增加而增加时,两个变量之间是正相关关系;当一个变量随着另一个变量的增加而减少时,相关关系;当一个变量随着另一个变量的增加而减少时,两个变量之间是负相关关系。两个变量之间是
38、负相关关系。政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.2 15.4.2 定距变量的相关分析定距变量的相关分析政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.2 15.4.2 定距变量的相关分析定距变量的相关分析 政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.2 15.4.2定距变量的相关分析定距变量的相关分析(Correlation analysisCorrelation analysis)使用佩尔森相关系数时,应当注意以下几点:使用佩尔森相关系数时,应当
39、注意以下几点:1 都是相互对称的随机变量,即;2 该系数只反映变量间线性相关程度,不能说明非线性相关关系;3 该系数只反映变量间的线性相关程度,不能确定变量间因果关系。因为变量之间有因果关系,必须具备三个要件:因为变量之间有因果关系,必须具备三个要件:1)共变性(covariation),即一个变量必须随着另一个变量的变化而变化,如果两个变量之间没有共变性,即当一个变量发生变化的时候,另一个变量不发生变化,则这两个变量之间就不存在相关性,因果关系更是无从谈起;2)时间差异性(temporal order),因在前,果在后;3)相关关系的独立性:即相关关系不因第三个变量的存在而消亡,也就是相关关
40、系的非虚假性(non-spurious),两变量间的关系不是因为其他变量的影响所产生。政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.2 15.4.2 定距变量的相关分析定距变量的相关分析 政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.2 15.4.2 定距变量的相关分析定距变量的相关分析 政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.2 15.4.2定距变量的相关分析定距变量的相关分析(Correlation analysisCorrelation anal
41、ysis)通常给定两个变量的数据之后,并不能容易看出两个通常给定两个变量的数据之后,并不能容易看出两个变量之间的关系,因为数据往往显得很杂乱,不直观,而变量之间的关系,因为数据往往显得很杂乱,不直观,而对数据做出散点图之后,数据间的关系就可以变得清晰起对数据做出散点图之后,数据间的关系就可以变得清晰起来,非常直观。来,非常直观。政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.2 15.4.2 定距变量的相关分析定距变量的相关分析AX81015231116217Y20114811951115BX235689111214Y7911121619222527
42、CX24681011935Y4525981132517看看下列下列A A、B B、C C三组数据,仅从数据看,很难判断三组数据,仅从数据看,很难判断x x、y y两个变量之间的关系。两个变量之间的关系。但两个变量之间的散点图,则可以让两个变量之间的关系变得很直观。但两个变量之间的散点图,则可以让两个变量之间的关系变得很直观。政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.2 15.4.2 定距变量的相关分析定距变量的相关分析 从从A A组数据的散点图看,变量组数据的散点图看,变量X X、Y Y之间没有很强的相关关系,当之间没有很强的相关关系,当X X
43、增加的增加的时候,时候,Y Y的变化很不确定,有时增加,有时减少,经计算,二者之间的相关的变化很不确定,有时增加,有时减少,经计算,二者之间的相关系数系数r=0.17r=0.17,基本不相关,基本不相关政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.2 15.4.2 定距变量的相关分析定距变量的相关分析 从从B B组数据的散点图看,变量组数据的散点图看,变量X X、Y Y之间有很强的相关关系,当之间有很强的相关关系,当X X增加的时候,增加的时候,Y Y 有线性增加的趋向,经计算,二者之间的相关系数有线性增加的趋向,经计算,二者之间的相关系数r=0.
44、99,9,高度正相关。高度正相关。政治科学研究方法概论 新编政治学系列教材u 15.4 15.4 相关分析相关分析 15.4.2 15.4.2 定距变量的相关分析定距变量的相关分析 从从C C组数据的散点图看,变量组数据的散点图看,变量X X、Y Y之间有很强的相关关系,当之间有很强的相关关系,当X X增加的时候,增加的时候,Y Y 有线性减少的趋向,经计算,二者之间的相关系数有线性减少的趋向,经计算,二者之间的相关系数r=-0.96r=-0.96,高度负相关。,高度负相关。政治科学研究方法概论 新编政治学系列教材u 15.5 15.5 回归分析回归分析 回归分析是相关分析的继续,目的在于找出
45、制约变回归分析是相关分析的继续,目的在于找出制约变量之间关系的合适的数学模型,即变量间的数学关系表量之间关系的合适的数学模型,即变量间的数学关系表达式达式-回归方程,并根据回归方程进行预测。回归分析回归方程,并根据回归方程进行预测。回归分析一般预先假设或确定了变量间的因果关系,明确了自变一般预先假设或确定了变量间的因果关系,明确了自变量和因变量,从而研究自变量的变化对因变量带来的影量和因变量,从而研究自变量的变化对因变量带来的影响。响。一元线性回归是回归分析中最简单的一种,是其他一元线性回归是回归分析中最简单的一种,是其他回归分析的基础。回归分析的基础。Excel Excel中回归方程的命令:
46、工具(中回归方程的命令:工具(T T)-数据分析数据分析(D D)-回归回归政治科学研究方法概论 新编政治学系列教材u 15.5 15.5 回归分析回归分析政治科学研究方法概论 新编政治学系列教材u 15.5 15.5 回归分析回归分析政治科学研究方法概论 新编政治学系列教材u 15.5 15.5 回归分析回归分析 政治科学研究方法概论 新编政治学系列教材u 15.5 15.5 回归分析回归分析 回归分析的目的是对因变量进行合理的预测,预测回归分析的目的是对因变量进行合理的预测,预测的基本方法就是将自变量的值代入回归方程,然后得出的基本方法就是将自变量的值代入回归方程,然后得出因变量的预测值。在运用回归方程做预测时,要注意回因变量的预测值。在运用回归方程做预测时,要注意回归方程可能的适用范围以及约束条件。归方程可能的适用范围以及约束条件。