1、生物统计学线性相关与回归线性相关与回归计量资料单变量的统计描述与统计推断。试问:为何说是单变量?因为每种类型只牵涉一个变量。许多现象之间(即变量之间)都有相互联系在这些有关系的现象中,它们之间联系的程度和性质也各不相同。有的现象之间因果不清,只是伴随关系。相关与回归就是用于研究和解释两个变量之间相互关系的。十九世纪英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,并做成散点图。历史背景:儿子身高(Y,英寸)与
2、父亲身高(X,英寸)存在线性关系:即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。33.73 0.516YXRegression 释义小插曲F.Galton Galton(1822-1911)是一位人类学家,著名生物学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。尽管他的数学不是很好,但在人类学和优生学研究中萌发的统计学思想,对生物统计的发展产生了深远影响,如“回归”、“双变量正态分布”的概念等。他没有子女,但一生写了9部书,发表了近200篇论文。1860年
3、当选英国皇家学会会员,1909年被封为爵士,1910年获得英国皇家学会Copley奖。Karl Pearson Karl Pearson (英,18571936)是Francis Galton 的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。本章内容n 第一节 线性相关n 第二节 线性回归n 第三节 相关与回归的关系n 第四节 等级相关(自学)第一节 线性相关n 线性相关描述了什么问题?n 线性相关分析的具体步骤是什么?n 线性相关分析对资料有什么要求?n 如何对这些要求进行检查或检验?n 仅用样本线性相关系数能否说明相关
4、程度?n 总体相关系数非常接近1,能否说明Y=X?例:考察身高与体重的伴随关系 体重体重身高散点图散点图问题:通过散点图可以得出什么结论?线性相关的概念l 图中不是每个身材较高的对象必有较重的体重,但大多数对象的体重Y与其身高X的变化呈一种伴随增大或减小的直线变化趋势,这种现象称为直线相关。l刻画两个随机变量之间线性相关程度称为线性相关(linear correlation)线性相关的类型 X和Y伴随同时上升或伴随下降称为线性正相关(Linear Positive Correlation)X和Y无任何直线伴随变化趋势,则称为零相关(零线性相关)。X与Y的反方向伴随直线变化趋势称为线性负相关(l
5、inear negative correlation)正相关 负相关 称零相关 完全正相关 完全负相关线性相关系数n 线性相关系数(linear correlation coeffiecient),简称相关系数。或 Pearson相关系数 n 相关系数是描述两个变量之间线性相关的程度和相关方向的统计指标。样本相关系数用 r 表示,总体相关系数用表示。相关系数的特点:1 r 1r0为正相关r0为负相关r0为零相关或无相关|r|0.4 为低度线性相关;0.4|r|0.7为中度线性相关;0.7|r|1.0为高度线性相关。相关系数的计算公式lxx(x 的离均差平方和)lyy(y 的离均差平方和)lxy
6、(x和y的离均差乘积和,简称乘积和)22()()()()XYXX YYlXXYYrllXXYYnXXlXX22)(nYYlYY22)(nYXXYlXY)(实例分析 健康调查发现男青年身高与他的前臂长有关;于是设想,通过测量男青年的身高,可以预测其前臂长,以便更好对男青年的发育情况进行评价。因此随机抽取了11名男青年组成样本,分别测量每个人的身高和前臂长。问男青年的身高与前臂长之间的相关系数是多少?是正相关还是负相关?分析问题:总体-样本、目的、变量、关系 编号身高(cm)前臂长(cm)(X)(Y)1 170 472 173 423 160 444 155 415 173 476 188 507
7、 178 478 183 469 180 4910 165 4311 166 44合计189150011名男青年身高与前臂长的测量结果(cm)XYX2Y2 7990 289002209 7266 299291764 7040 256001936 6355 240251681 8131 299292209 9400 353442500 8366 316842209 8418 334892116 8820 324002401 7095 272251849 3174 2856121168618532608122810分析步骤一、绘制散点图二、计算xyyyxxlllyx,N=11 X=1891 Y=5
8、00 X2=89599 Y2=22810 XY=85185rXXYYXXYYX YXYnXXnYYn()()()2().22222身高(身高(cm)前臂长前臂长(cm)男青年身高与前臂长的测量结果(cm)的散点图计算结果r 的值说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。2286185 1891 500/11(895991891/11)(22810500/11)0.8009rn上例中的相关系数 r 等于0.8009,说明了11例样本中男青年的身高与前臂长之间存在相关关系。但是,这11例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。n 因为,总体相关系数
9、()为零时,由于抽样误差,从总体抽出的11例,其 r 可能不等于零。n 这就要对 r 进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。目的:是判断两变量的总体是否有相关关系t检验:样本相关系数r与总体相关系数的比较 2102 nrrSrtr2 n 查表法:直接查相关系数界值表得到相应的概率P。相关系数的假设检验 资料相关系数的假设检验步骤一、建立假设,确立检验水准二、选择并计算检验统计量三、计算P值,做出统计推断相关系数的假设检验也可以采用查表法,以相关系数r和自由度 v=n-2查r界值表11,做出统计推断结论。本例查表法P0.002,结论为拒绝H0,接受H1
10、,与t检验结论一致。1.作散点图:分析要两变量之间有无相关关系可先作散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再计算相关系数和作假设检验;2.正态性:相关系数的计算要求两个变量必须服从正态分布,如果资料不服从正态分布,应先通过变量变换,使得两个变量正态化,再根据变换值计算相关系数;相关分析应注意的问题 3.作假设检验:依据公式计算出的相关系数仅是样本相关系,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关关系及相关的密切程度,必须作假设检验。当检验拒绝了无效假设时,才可以认为两个事物之间存在着相关关系,然后再根据计算出的相关
11、系数大小来判断根相关关系的密切程度;4.相关关系:相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。5.在确实存在相关关系的前提下(?),如果 r 的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r 绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。6.一般说来,当样本量较大,并对 r 进行假设检验,有
12、统计学意义时,r 的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r 的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。从上面的分析可以看出男青年身高与前臂长有相关关系n 如果知道了一位男青年的身高n 能推断出其前臂长吗?n 能预测男青年的前臂长可能在什么范围内?n 这要用直线回归的方法来解决。n直线回归方程(总体)是描述什么?n 直线回归分析对资料有什么要求?n 直线回归分析的具体基本步骤是什么?n 在直线回归中,Y 是否一定为随机变量?n 在直线回归中,X 是否一定为随机变量?n 在直线回归中,预测值 的意义是什么?n
13、 在直线回归中,回归系数b的意义是什么?第二节 线性回归分析 n 知道了两个变量之间有线性相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。n 实际上,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为线性回归方程,这种关系为线性回归。n直线回归就是用来描述一个变量如何依赖于另一个变量。n其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。直线回归是分析直线回归是
14、分析成对观测数据成对观测数据中两变量间中两变量间线性线性 依存关系依存关系的方法。的方法。n其任务就是要找出一个变量随另一个变量变化其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做的直线方程,我们把这个直线方程叫做线性回线性回归方程。归方程。u “回归回归”是一个借用已久因而相沿成习的统计是一个借用已久因而相沿成习的统计学学 术语。术语。直线回归的概念直线回归的概念直线回归的概念n 直线回归是分析成对观测数据中两变量间线性依存关系的方法。n 其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做线性回归方程。n“回归”是一个借用已久因而相沿成习的统
15、计学术语。直线回归模型例号X(自变量)Y(应变量)1X1Y12X2Y2.nXnYn1、资料数据格式 2、变 量Y (应变量,结果变量):一般是难测(或不可测)的变量,(要求呈正态分布的随机变量)X (自变量,原因变量):一般是可测(或易测)的变量(可是随机变量或人为给定的量)33.730.516YX 儿子身高(Y,英寸)与父亲身高(X,英寸)存在 线性关系:3、直线回归方程的一般形式为:a 为常数项,又称截距;b 为斜率,又称回归系数,表示自变量X增 加(或减少)一个单位,应变量Y平均改变的单位数。bXaY 回归分析按回归变量个数分按回归形式分一元回归多元回归线形回归非线性回归回归的类型线性回
16、归方程建立的思路Xxy|bXaY样本总体最小二乘法 Y与X之间为线性关系 选出一条最能反映Y与X之间关系规律的直线 y 回归方程原理图最小二乘法最小二乘法一般而言,所求的a和b应能使每个样本观测点(X i,Y i)与回归直线之间的偏差尽可能小,即使观察值与拟合值的误差平方和Q达到最小。回归直线的有关性质直线通过均点 各点到该回归线纵向距离平方和较到其它任何直线者为小。2)YY()Y,X(X XY bXaY 为来自为来自的一个样本的一个样本对于X 各个取值,相应Y的总体均数直线回归分析的步骤 n 将原始数据在坐标图上绘散点图n 根据样本数据求得估计值 a、bn 即得样本回归方程,并作回归线n对回
17、归方程作假设检验,并对方程的拟合效果作出评价 bXaY 例 有人研究了温度对蛙的心率的影响,得到了表中 所示的资料,试进行回归分析。对象温度(X)心率(Y)XY X2Y21 2 5 10 4 252 4 11 44 16 1213 6 11 66 36 1214 8 14 112 64 196510 22 220 100 484612 23 276 144 529714 32 448 1961024816 29 464 256 841918 32 576 32410241020 34 680 40011561122 33 726 4841089合计132246362220246610图 回归直
18、线、回归系数、残差示意图05101520253035400510152025温 度()蛙心率(分/次)例3的解题步骤1.作散点图:2.计算回归系数与常数项 132X 20242X12X 246Y26610Y 22.363Y 3622XY/6 7 0/4 4 01.5 2 3x yx xbll22.3631.523124.087aYbX222/2024132/11440 xxlXXn222/6610246/111180.54yylYYn/3622132246/11670 xylXYXYna)直线回归方程的建立4.087 1.523yx本例是以最小二乘法原理得出以下的回归方程:b)回归直线的描绘
19、根据求得的回归方程,可以在自变量 X 的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过(0,a),()。这两点可以用来核对图线绘制是否正确。,XY图回归直线、回归系数、残差示意图05101520253035400510152025=4.087+1.523X残差残差1个单位个单位b个单位个单位ieyy温 度()蛙心率(分/次)Y=4.087+1.523X 是否一定能说明温度与蛙的心率之间存在回归关系?与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本
20、的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用表示。回归方程的假设检验方差分析(自学)t 检验(常用)方 法:t 检验常采用基本思想:是利用样本回归系数 b与总体回归系数进行比较来判断回归方程是否成立。bsbt0 XXXYblSS.22)(2.nSSnyySXY剩回归方程的假设检验剩余标准差:表示固定了X(即扣除了温度的影响)后,Y(蛙的心率)方面仍有变异,是由X 以外的其它因素(如生长环境、个体差异等)引起的。XYS.回归系数假设检验-t 检验一、建立假设,确立检验水准是否试问所建直线回归方程试问所建直
21、线回归方程 成立?成立?二、选择并计算检验统计量三、计算P值,做出统计推断查t值表,得P0.01,按a=0.05水准,拒绝H0,接受H1。可认为温度与蛙的心率之间总体直线关系存在,并且可用样本直线回归方程估计。线性回归的应用和注意事项 n 描述两变量之间的依存关系:通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。n 利用回归方程进行预测:把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。例如,已知某男青年的身高,代入回归方程,再用区间估计的方法,即可知道男青年的前臂长的范围。n 利用回归方程进行统计控制:空气质量与汽车数量1.应用:1)实际意义 进
22、行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加荒谬。2)LINE 性 变量是否符合建立线性模型的假定条件(线性、独立性、正态率、方差齐性,简写为LINE),可考察残差图来分析变量是否满足LINE假定.2.应注意的问题3)利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系然后再进行回归分析。4)变量范围 回归分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量原来的回归关系。即回归直线方程一般不能外延。X的
23、取值范围为222,计算估计值时最好在222之间。两变量间的直线关系不一定是因果关系,也可能是伴随关系,即两个变量的变化可能同受另一个因素的影响。当两变量间有线性关系存在时,不一定都表明两变量间确有内在的联系。6)决定系数(coefficient of deter mination)即相关系数的平方,用 表示,是反映回归模型 拟合效果的指标.5)相关关系2r第三节 相关与回归的区别与联系 1)意义:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。2)应用:研究
24、两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。1.区 别3)研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。4)相关系数 r 与回归系数 b:r 与b 的绝对值反映的意义不同。r 的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b 的绝对值越大,回归直线越陡,说明当X 变化一个单位时,Y 的平均变化就越大。反之也是一样。在同一组数据,相关系数 r 与回归系数b的符号一致。同一组数据,r 与b 的假设检验是等价的,即 tr=tb。因 r 的假设检验可直接查表,较为简便,故可代替b的假设检验。2.联 系