1、All rights reserved1南审数统学院南审数统学院变量间关系变量间关系All rights reserved2南审数统学院南审数统学院引例引例引例1:秃头与政治n有西方专家研究发现,前苏联最高首脑头发多少居然与他们的政治风格有关,秃头的激进,头发浓密的保守,而且激进和保守交替出现:列宁秃头,激进;斯大林发多,保守;赫鲁晓夫秃头,激进;勃列日涅夫发多,保守;安德罗波夫秃头,激进;契尔年科夫发多,保守;戈尔巴乔夫秃头,激进l叶利钦虽然发多,却最激进,但他不属于前苏联All rights reserved3南审数统学院南审数统学院引例2:“裙摆定律”n泰勒就提出了着装与经济状况关系的“
2、裙边理论”l女士的裙子长短是经济状况的一个指示器l在经济繁荣的年代,女士能够穿得起并显露昂贵的丝袜鞋子,裙边自然上移;l到了经济萧条的年月,勤俭持家成为一种基本要求,丝袜鞋子自然没有那么漂亮了,于是裙边要往下放一下l有人验之以美国年代经济上升时期及年代大萧条时期的服装市场,还真证实了裙子长度与经济状况的这种反比关系All rights reserved4南审数统学院南审数统学院引例3:有名字的奶牛产奶量更高n英国纽卡斯尔的科学家,凯瑟琳道格拉斯博士和皮特罗林森博士表示,给奶牛起名字,并像对待人一样去对待奶牛,这样牛也高兴了,放松了,产奶量也上去了,可以为每个奶牛场提高500品脱的年产量All
3、rights reserved5南审数统学院南审数统学院引例4:鹳鸟送子 n欧洲,人们把一种鸟称为送子鸟l相传,送子鸟落到谁家屋顶造巢,谁家就会喜得贵子,幸福美满。因此,在欧洲乡村,你经常能看到住家的屋顶烟囱上搭着一个平台,那是专为送子鸟准备的,种神奇的送子鸟就是白鹳All rights reserved6南审数统学院南审数统学院函数关系n19世纪末,德国数学家康托创立了集合论,人们把函数的定义提升到抽象的层次:设A,B是非空的集合,f是某一法则,若A中每个元素x,经由法则f,总有集合B中确定的元素y与之对应,则称f是定义在集合A上的一个函数l圆的面积(S)与半径之间非关系可表示为S=R2;l
4、商品的销售额(y)与销售量(x)之间的关系可表示为 y=p x p 为单价变量间关系变量间关系All rights reserved7南审数统学院南审数统学院统计(相关)关系n变量间确实存在、但数量上不固定的相互依存。这种关系不能用函数关系精确表达lFourth Levell商品销售额(y)与广告费支出(x)之间的关系l粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系l收入水平(y)与受教育程度之间的关系(x)l父亲身高(y)与子女身高(x)之间的关系l变量间关系(续)变量间关系(续)All rights reserved8南审数统学院南审数统学院变量间关系(续)变量间
5、关系(续)因果关系n科学研究的目的是探讨因果关系 l周易有言,积善之家必有余庆,积恶之家必有余殃!包括启蒙书上也有,善恶终有报,不是不报,时辰未到 l牛顿也说过它可以用他的力学规律描述任何物体的任何运动,都是确定的,所以牛顿理论是确定论,其因果律是确定的因果律,因果一一对应,不可倒置;l量子力学中位置和动量不可以同时被确定的,但是其中之一是可以被精确地确定的,对于单个微观粒子无法判断其真实位置,但是服从统计规律,所以量子力学的因果律是统计规律的因果律All rights reserved9南审数统学院南审数统学院变量间关系(续)变量间关系(续)证明因果关系三要素:n存在相关关系l两个变量统计相
6、关A 引起了 B的变化n存在适当的时间顺序l自变量在因变量之前发生n排除其他可能的原因 lB 不是由 A之外的其他原因引起l思考:冰淇淋消费量与车祸中儿童受伤数伪相关All rights reserved10南审数统学院南审数统学院变量间关系(续)变量间关系(续)关于变量间关系的四个问题n从数据来看,变量间有关系吗?n如果有关系,关系有多强?n是偶然的吗?n是因果关系吗?思考:如何看待吸烟与健康的关系?All rights reserved11南审数统学院南审数统学院变量间关系(续)变量间关系(续)工作偏好合计工作社会生活性别男235女325合计5510工作偏好合计工作社会生活性别男145女4
7、15合计5510工作偏好合计工作社会生活性别男055女505合计5510例子:性别与工作偏好All rights reserved12南审数统学院南审数统学院预测n自变量与因变量lY与X:两条腿比一条腿有劲l闪电和打雷l爆米花销售和垃圾袋使用l发电量和热天数l广告时间和用水量l变量间关系(续)变量间关系(续)All rights reserved13南审数统学院南审数统学院不同类型变量的关系 思考:引例中分别属于?自变量因变量分类型顺序型数值型 分类型 数值型 顺序型变量间关系(续)变量间关系(续)All rights reserved14南审数统学院南审数统学院列联表(contingency
8、 table)n由两个以上的变量交叉分类的频数分布表l行变量的类别用 r 表示,ri 表示第 i 个类别l列变量的类别用 c 表示,cj 表示第 j 个类别l每种组合的观察频数用 fij 表示l表中列出了行变量和列变量的所有可能的组合,所以称为列联表l一个 r 行 c 列的列联表称为 r c 列联表分类变量间的关系分类变量间的关系All rights reserved15南审数统学院南审数统学院列联表(contingency table)n由两个以上的变量交叉分类的频数分布表n行变量的类别用 r 表示,ri 表示第 i 个类别n列变量的类别用 c 表示,cj 表示第 j 个类别n每种组合的观察
9、频数用 fij 表示n表中列出了行变量和列变量的所有可能的组合,所以称为列联表n一个 r 行 c 列的列联表称为 r c 列联表分类变量间的关系(续)分类变量间的关系(续)All rights reserved16南审数统学院南审数统学院二维列联表:nc2c1合计r2f22f21i=2r1合计f12j=2j=1f11i=1列(cj)列(cj)行(ri)fij 表示第 i 行第 j 列的观察频数分类变量间的关系(续)分类变量间的关系(续)All rights reserved17南审数统学院南审数统学院三维列联表 观点:赞成观点:不赞成 低收入中等收入高收入低收入中等收入高收入男20105581
10、0女25157279分类变量间的关系(续)分类变量间的关系(续)All rights reserved18南审数统学院南审数统学院分类变量间的关系(续)分类变量间的关系(续)例析n广告公司想要了解观众的所得收入与电视节目收视是否相关,其零假设为:H0:电视节目的选择与收入无关 H1:收入与选择电视节目有关n该公司抽取500户为样本,先用收入将样本区分成高、中、低三类,再以收看电视的种类分成运动、电影、新闻三类All rights reserved19南审数统学院南审数统学院n所得资料列联表分类变量间的关系(续)分类变量间的关系(续)All rights reserved20南审数统学院南审数统
11、学院分类变量间的关系(续)分类变量间的关系(续)n图示法All rights reserved21南审数统学院南审数统学院IncomeSport Movie NewsTotalLow1437037250Medium906743200High17132050Total250150100500Type of ShowIncomeSport Movie NewsTotalLow1257550250Medium1006040200High25151050Total250150100500Type of Show250*250/500=125150*50/500=15分类变量间的关系(续)分类变量间的关
12、系(续)All rights reserved22南审数统学院南审数统学院174.2110)1020(75)7570(125)125143(22224)13)(13()1C)(1R(v自由度)(2f205.Critical value=9.4949.9174.2124,05.2n数值法:有没有关系?分类变量间的关系(续)分类变量间的关系(续)All rights reserved23南审数统学院南审数统学院分类变量间的关系(续)分类变量间的关系(续)相关的强度n主要是对分类(也可对顺序数据)之间相关程度的测度n列联表相关测量的统计量主要有l 相关系数l列联相关系数lV 相关系数All righ
13、ts reserved24南审数统学院南审数统学院分类变量间的关系(续)分类变量间的关系(续)相关系数(correlation coefficient)n测度22列联表中数据相关程度n对于22 列联表,系数的值在01之间n 相关系数计算公式为即样本容量为实际频数的总个数,)(式中:nricjijeijeijfn11222All rights reserved25南审数统学院南审数统学院分类变量间的关系(续)分类变量间的关系(续)n思路:简化的 22 列联表为例因素Y因素 X合计x1x2y1aba+by2cdc+d合计a+cb+dnAll rights reserved26南审数统学院南审数统学
14、院分类变量间的关系(续)分类变量间的关系(续)l列联表中每个单元格的期望频数分别为l将各期望频数代入 的计算公式得ndcdbendbbaendccaencabae)()()()(22122111)()()()()()()()(2222222122112212112112dbcadcbabcadneedeeceebeeaAll rights reserved27南审数统学院南审数统学院分类变量间的关系(续)分类变量间的关系(续)l将入 相关系数的计算公式得若ad 等于 bc,=0,表明变量X 与 Y 之间独立;若 b=0,c=0,或a=0,d=0,意味着各观察频数全部落在对角线上,此时|=1,表
15、明变量X 与 Y 之间完全相关l列联表中变量的位置可以互换,的符号没有实际意义,故取绝对值即可)()()(2dbcadcbabcadnAll rights reserved28南审数统学院南审数统学院分类变量间的关系(续)分类变量间的关系(续)C相关系数(coefficient of contingency)n用于测度大于22列联表中数据的相关程度n计算公式为lC 的取值范围是 0C1lC=0表明列联表中的两个变量独立lC 的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大l根据不同行和列的列联表计算的列联系数不便于比较nC22All rights reserved29南审数统学院
16、南审数统学院分类变量间的关系(续)分类变量间的关系(续)V 相关系数(V correlation coefficient)n计算公式为lV 的取值范围是 0V1lV=0表明列联表中的两个变量独立lV=1表明列联表中的两个变量完全相关l不同行和列的列联表计算的列联系数不便于比较l当列联表中有一维为2,min(r-1),(c-1)=1,此时V=中较小的一个表示取式中:)1(),1()1(),1(min)1(),1(min2crcrcrnVAll rights reserved30南审数统学院南审数统学院分类变量间的关系(续)分类变量间的关系(续)、C、V 的比较n同一个列联表,、C、V 的结果会不
17、同n不同的列联表,、C、V 的结果也不同n在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数All rights reserved31南审数统学院南审数统学院分类变量间的关系(续)分类变量间的关系(续)值近似值 Sig.200.527Cramer 的 V.200.527相依系数.196.527用软件求解:SPSS需原始数据格式All rights reserved32南审数统学院南审数统学院分类变量间的关系(续)分类变量间的关系(续)n列联分析的一个局限lSimpsons ParadoxAssociation of two variable
18、s without the third leads to a specific conclusion.Association of two variables with the third variable leads to the opposite conclusionsAll rights reserved33南审数统学院南审数统学院分类变量间的关系(续)分类变量间的关系(续)All rights reserved34南审数统学院南审数统学院缘由n顺序变量比分类数据信息含量多l父亲的教育程度是否与儿女的教育程度l经济地位与能力高低l社会阶层与幸福感l.顺序变量间的关系顺序变量间的关系All
19、 rights reserved35南审数统学院南审数统学院顺序变量间的关系(续)顺序变量间的关系(续)政党身份合计强弱中立兴趣不感兴趣20353287非常感兴42232590有点感兴384243123合计100100100300n例:1956年调查,政党身份与选举兴趣 All rights reserved36南审数统学院南审数统学院顺序变量间的关系(续)顺序变量间的关系(续)n图示法All rights reserved37南审数统学院南审数统学院顺序变量间的关系(续)顺序变量间的关系(续)n数值法(Gamma系数)值渐进标准误近似值 近似值 Sig.按标量标定.200.018Cramer
20、 的 V.141.018相依系数.196.018按顺序Kendalls tau-b.137.0512.696.007Kendalls tau-c.136.0502.696.007.205.0752.696.007All rights reserved38南审数统学院南审数统学院顺序变量间的关系(续)顺序变量间的关系(续)将数字作为排序(秩)nHDI与人均GDPAll rights reserved39南审数统学院南审数统学院顺序变量间的关系(续)顺序变量间的关系(续)200150100500人人均均国国内内生生产产总总值值排排序序人人文文发发展展排排序序尼 日 尔阿富汗塞拉利昂莫桑比克埃塞俄比
21、亚塞内加尔印 度南 非纳米比亚叙 利 亚中 国波黑巴西利比亚阿根廷卡塔尔韩国中国香港德国英国美国日本瑞士法国澳大利亚挪威All rights reserved40南审数统学院南审数统学院顺序变量间的关系(续)顺序变量间的关系(续)Spearman秩相关系数n将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度l等级相关系数的计算公式l其中di为两变量每一对样本的等级之差,n为样本容量l等级相关系数与相关系数一样,取值-1到+1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关)1n(nd61r22isAll rights reserved41南审数统学院南审数统学院顺序变量间的关系(续)顺序变量间的关系(续)HDI人均GNPSpearman 的 rhoHDI相关系数1.000.951*Sig.(双侧).000N182182人均GNP相关系数.951*1.000Sig.(双侧).000.N182182*.在置信度(双测)为 0.01 时,相关性是显著的。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。