1、12 第二章:简化一个变量之分布简化一个变量的资料 第三章:简化两个变量之分布简化两个变量的资料 第四章:相关测量法描述两个变量之间的关系3第四章第四章 相关测量法与测量层次相关测量法与测量层次统计相关的性质统计相关的性质第一节 两个定类变量:Lambda,tau-y第二节 两个定序变量:Gamma,dy第三节 两个定距变量:简单线性回归与积矩相关第四节 定类变量与定距变量:相关比率与非线性相关第五节 定类变量与定序变量:Lambda,tau-y第六节 定序变量与定距变量:相关比率第七节 综合4第一节 两个定类变量:Lambda,tau-y Lambda,tau-y都具有消减误差比例的意义。5
2、 一、Lambda相关测量法用希腊字母表示小写大写,Lambda读音(兰亩达)67 mx和my 是条件次数中的众值 Mx和My边缘次数中的众值 既是用x的值来预测y的众值,也是用y的值预测x的众值。8 这两个公式都具有消减误差比例的意义,即都是PRE测量法。和y 统计值在0和1之间。只表示相关的强弱程度,不能表示相关的方向。9 Lambda相关测量法的特点:以众值作为预测的准则,不理会众值以外的次数分布。然而当全部众值集中在条件次数表的同一行或者同一列中,则Lambda系数就会等于0。(此时my=My)Lambda相关测量法的敏感度不高。10 二、tau-y相关测量法 tau-y系数要求两个定
3、类变量一个是自变量一个是因变量。tau-y系数的取值在0和1之间,具有消减误差比例的意义。这种计算方法会包括所有的边缘次数和条件次数。1112 对称关系可用Lambda测量法,而不对称关系最好用tau-y测量法。13 课堂作业:以下是男、女青年对古典音乐是否喜爱的抽样调查:请计算系数。男男女女喜爱喜爱46462020无所谓无所谓10101818不喜爱不喜爱3030505014第二节 两个定序变量:Gamma,dy15第二节两个定序变量1617 原理:18例子:1920 表4-4资料21Gamma相关测量法2223 例子2425dy相关测量法 G系数计算的时候不考虑同分对。而dy则考虑同分对。G
4、系数适合对称关系;dy适合于不对称的关系。26 计算表4-5的值dy:2728 从少量的个案中,可以比较容易地数出同序对、异序对和同分对的数目,如果个案数比较多,直接数就不太现实,因此需要找出计算同序对、异序对和同分对的规律。29 对于一个22表格(即两个定序变量都只有两个等级)可以这样计算:303132 rc表格的同序对、异序对和同分对计算,原理和22表格一样。下面用图示说明:33 2 3表格:3435 2 3表格3637 3 3表格:383940课堂作业:以下是婚姻状况与文化程度的抽样调查,请计算G值和dy值,并解释含义。文化 程度婚姻状况大学中学小学美满9165一般83018不美满347
5、4142 tau-c没有消减误差比例的意义。4344第三节两个定距变量45 1、相关关系、相关关系(1)相关关系的含义:现象之间的数量关系存在)相关关系的含义:现象之间的数量关系存在着两种不同的类型:一种是函数关系,另一种是着两种不同的类型:一种是函数关系,另一种是相关关系。相关关系。函数关系指的是变量之间存在着的严格的依存关函数关系指的是变量之间存在着的严格的依存关系,它们之间的关系值是固定的,对于某一变量系,它们之间的关系值是固定的,对于某一变量的每一个值,都有另一个变量的完全确定的值与的每一个值,都有另一个变量的完全确定的值与之相对应。之相对应。例如,圆的面积等于圆周率乘以半径的平方。例
6、如,圆的面积等于圆周率乘以半径的平方。46A 相关与因果相关与因果47相关关系是指变量之间确实存在的但关系值相关关系是指变量之间确实存在的但关系值不固定的相互依存关系。不固定的相互依存关系。在这种关系中,当一个在这种关系中,当一个(或几个或几个)变量的值确定以后,另一个变量的值虽变量的值确定以后,另一个变量的值虽与它与它(或它们或它们)有关,但却不能完全确定。这是一有关,但却不能完全确定。这是一种非确定性的关系。种非确定性的关系。例如,电视机的拥有率与人均收入水平有关,例如,电视机的拥有率与人均收入水平有关,但对于人均收入水平相同的地区,其电视机的拥但对于人均收入水平相同的地区,其电视机的拥有
7、率可能不尽相同。有率可能不尽相同。在客观事物中,尤其是在社会现象中,相关关系在客观事物中,尤其是在社会现象中,相关关系普遍存在。统计分析很有必要对这种关系进行研究。普遍存在。统计分析很有必要对这种关系进行研究。48因果关系:是指某一变量的变化可以确定为另一变量变因果关系:是指某一变量的变化可以确定为另一变量变化原因的关系。在相关关系中,通常,在相互联系的现象之化原因的关系。在相关关系中,通常,在相互联系的现象之间存在着一定的因果关系,这时就把其中的起着影响作用的间存在着一定的因果关系,这时就把其中的起着影响作用的现象具体化,通过一定的变量反映出来,这样的变量称为自现象具体化,通过一定的变量反映
8、出来,这样的变量称为自变量。由于受到自变量变动的影响而发生变动的变量称为因变量。由于受到自变量变动的影响而发生变动的变量称为因变量。变量。相关关系确定为因果关系必须满足三个条件:其一,两相关关系确定为因果关系必须满足三个条件:其一,两变量之间必须存在相关关系;其二,必须确定自变量变化在变量之间必须存在相关关系;其二,必须确定自变量变化在前,因变量变化在后;其三,必须确定变量前,因变量变化在后;其三,必须确定变量X与变量与变量Y之间的之间的关系,不是由于第三个变量的存在而呈现出来的一种虚假关关系,不是由于第三个变量的存在而呈现出来的一种虚假关系。系。49B、线性相关与非线性相关线性相关与非线性相
9、关50从相关的形式上来看,相关关系可分为线性相关和非从相关的形式上来看,相关关系可分为线性相关和非线性相关。线性相关。线性相关也称直线相关,是指相关的两个变量之间变线性相关也称直线相关,是指相关的两个变量之间变化的趋势呈线性或近似于线性。即自变量发生变动,因变量化的趋势呈线性或近似于线性。即自变量发生变动,因变量随之发生变动,其增加或减少量是大致均等的,从图形上看,随之发生变动,其增加或减少量是大致均等的,从图形上看,其观察点的分布近似表现为直线形式。其观察点的分布近似表现为直线形式。非线性相关也称曲线相关,是指相关的两个变量之间非线性相关也称曲线相关,是指相关的两个变量之间变化的趋势呈非线性
10、。即自变量发生变动,因变量随之发生变化的趋势呈非线性。即自变量发生变动,因变量随之发生变动,但其增加或减少量不是均等的,从图形上看,其观察变动,但其增加或减少量不是均等的,从图形上看,其观察点的分布表现为各种曲线形式。点的分布表现为各种曲线形式。51简单线性回归分析法52所谓相关图,是把相关的两个变量之间的所谓相关图,是把相关的两个变量之间的关系在平面直角坐标中反映出来。通常将自变关系在平面直角坐标中反映出来。通常将自变量量(x)置于横轴上,因变量置于横轴上,因变量(y)置于纵轴上,而将置于纵轴上,而将两个变量相对应的变量值用坐标点形式描绘出两个变量相对应的变量值用坐标点形式描绘出来。来。53
11、 相关图就是用相关点的分布状况来描述相关关系相关图就是用相关点的分布状况来描述相关关系的,所以又称为散点图。根据相关图,可以直观的,所以又称为散点图。根据相关图,可以直观地看出变量之间相关关系的模式。地看出变量之间相关关系的模式。散点图:散点图将数据显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图能够将两个连续变量之间的关系直观地呈现出来,可以让人发现潜在的共变趋势。54555657 最小平方法则:58596061626364积矩相关测量法65666768相关与回归的比较 相同点:针对定距层次的变量关系,都分析线性关系。不同点:回归研究因果关系。不对称关系。相关研究相
12、关关系,对称关系。通过回归分析,用x可以预测y的均值,可以知道x的一个单位的变化将引起y几个单位的变化。但无法知道相关强弱。r值不受度量单位的影响,取值在-1到1之间。b值受度量单位的影响,取值没有上限。697071 再考虑两个定距变量之间的关系的时候 先计算r值,如果r值比较大,才考虑用回归直线拟合。r=0,说明两个变量不相关,或者两变量相关但是不是直线关系。72 课堂作业,(完成后请写好姓名和学号上交给我)以下是子代和父代的受教育年限的抽样调查。请求出回归直线 计算相关系数和决定系数。并解释b值、r值 和r的意义父 2 4 6 8 10子 4 5 8 7 973第四节 相关比率与非线性相关
13、74 相关比率,eta平方系数。E 一个定类变量为自变量,一个定距变量为因变量。根据自变量的每一个值来预测或者估计因变量的均值。eta系数值由0到1,E具有消减误差比例的意义。7576777879 考察两个定距变量之间的非线性关系 可使用相关比率测量法,将其中一个定距变量(自变量)看做是定类变量。将E值和r值进行比较,两者数值差别越大,越可能是非(直)线性关系。80相关比率可以分析:一个定类变量与一个定距变量 一个定序变量与一个定距变量 一个定距变量与一个定距变量的非线性关系81 在社会学统计的实际运用中,最重要的变量是定类变量和定距(连续)变量。定序变量经常被降低一个测量层次,使用定类层次的
14、统计法,或者升高一个测量层次使用定距变量的统计法(这时数字仅有级别高低的含义,仍不具有加减的数学特质)。82定序变量降低一个测量层次第五节 定类变量与定序变量:Lambda,tau-y第六节 定序变量与定距变量:相关比率83 定序变量升高一个测量层次:一个定序变量与一个定距变量:积矩相关系数或者线性回归分析。两个定序变量:积矩相关系数或者线性回归分析。84 例子8586 教育水平对青年志愿的影响为tau-y=0.138 性别对志愿的影响为tau-y=0.22487总结8889列联相关(交叉分析)基于列联表的相关计算 根据条件次数表来计算,一般是分析两个变量之间的关系,推而广之应用于行变量和列变量之间的关系分析。90结果呈现:91