1、第七章第七章 线性回归与相关线性回归与相关医学统计学(李琳琳)7 相关分析与回归分析1统计学的两个主要内容参数估计和假设检验lt检验 l秩和检验l卡方检验指标变量之间关系相关分析回归分析医学统计学(李琳琳)7 相关分析与回归分析2学习目标学习目标 了解线性回归分析和相关分析的用途。熟悉线性回归分析和相关分析的基本步骤。掌握相关系数和回归系数的定义,简单相关分析和回归分析的适用条件。医学统计学(李琳琳)7 相关分析与回归分析3 在医药科学研究中常常要分析两个变量间的关系,在医药科学研究中常常要分析两个变量间的关系,如血药浓度和时间、年龄和血压、药片的硬度和如血药浓度和时间、年龄和血压、药片的硬度
2、和药片的消溶速度等。药片的消溶速度等。一般来说,变量之间的关系可分为确定性和不确一般来说,变量之间的关系可分为确定性和不确定性两大类。定性两大类。医学统计学(李琳琳)7 相关分析与回归分析4R1R1R2R1R2R3确定性的关系:两变量间的函数关系两变量间的函数关系 22113.14 13.14()cRSm 222223.14 1.57.07()cmRS 222333.14212.56()cRSm 2医学统计学(李琳琳)7 相关分析与回归分析5显然,运动员体重越大,他能举起的重量也越大,显然,运动员体重越大,他能举起的重量也越大,但举重成绩和运动员体重到底是怎样的关系,除但举重成绩和运动员体重到
3、底是怎样的关系,除了运动员体重外,生理因素、心理因素也会影响了运动员体重外,生理因素、心理因素也会影响到运动员的成绩,怎样建立这些因素对举重成绩到运动员的成绩,怎样建立这些因素对举重成绩的模型。的模型。(举重成绩的比较)(举重成绩的比较)举重举重是一种一般人都能看懂的运动,它共分是一种一般人都能看懂的运动,它共分九个重量级,有两种主要的比赛方法:抓举九个重量级,有两种主要的比赛方法:抓举和挺举。和挺举。表中给出了九个重量级的世界纪表中给出了九个重量级的世界纪录。录。255200110以上以上237.518511022118090207.517082.5195157.575180141.567.
4、5161.513060151120.55614110952挺举(公斤)挺举(公斤)抓举(公斤)抓举(公斤)成绩成绩重量级(上限体重量级(上限体重)重)医学统计学(李琳琳)7 相关分析与回归分析6确定性关系与随机关系确定性关系与随机关系l确定性的函数关系确定性的函数关系:两变量间的函数关系。l随机性的关联关系随机性的关联关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。圆的周长与半径的关系:圆的周长与半径的关系:C2 R 速度、时间与路程的关系:速度、时间与路程的关系:LST 青少年身高与年龄的关系;青少年身高与年龄的关系;体重与体表面积的关系;体重与体表面积的关系;医学统计学(李
5、琳琳)7 相关分析与回归分析7l线性相关分析线性相关分析(linear correlation analysis)或简单相关分析(simple correlation analysis)则是研究2个随机变量间是否有线性联系、联系程度及方向的统计方法。医学统计学(李琳琳)7 相关分析与回归分析8第一节第一节 直线相关直线相关医学统计学(李琳琳)7 相关分析与回归分析91.直线相关直线相关(linear correlation)描述具有线性关系的两个随机变量间相关方向和密切程度的一种统计分析方法。2.相关系数相关系数(correlation coefficient)3.描述具有线性关系的两变量间,
6、相关关系的密切程度(大小)和相关方向的指标,总体相关系数用 表示,样本相关系数用r表示。一、直线相关的概念一、直线相关的概念医学统计学(李琳琳)7 相关分析与回归分析10散点图能直观地看出两变量间的关系,因此研究散点图能直观地看出两变量间的关系,因此研究两变量的关系应先绘出散点图,而后再确定两者两变量的关系应先绘出散点图,而后再确定两者的量化关系。的量化关系。图9-1 常见的散点图 医学统计学(李琳琳)7 相关分析与回归分析11医学统计学(李琳琳)7 相关分析与回归分析12相关系数的方向示意图相关系数的方向示意图体重(kg),X肺活量Y(L)40424446485052545658602.22
7、.42.62.83.03.23.43.6r0r0医学统计学(李琳琳)7 相关分析与回归分析13体重(kg),X肺活量Y(L)40424446485052545658602.22.42.62.83.03.23.43.6相关系数的大小示意图相关系数的大小示意图r=1 0 r 0.5600.9070.560,则,则P P0.050.05,拒绝,拒绝H H0 0,即认即认为变量为变量X X与与Y Y间的线性相关关系有统计学意义。间的线性相关关系有统计学意义。r医学统计学(李琳琳)7 相关分析与回归分析23P391医学统计学(李琳琳)7 相关分析与回归分析24(2)t检验H0:=0 H1:0 0.051
8、3215765.7215)9070.0(1907.02122nrrtr查查t界值表,界值表,按按0.05水准,拒水准,拒绝绝H0,接受,接受H1,可认为凝血时间的长短与凝血酶浓度呈负相,可认为凝血时间的长短与凝血酶浓度呈负相关。关。,05.0,160.213,05.0Pttr医学统计学(李琳琳)7 相关分析与回归分析25线性相关分析的应用(一)当两变量有线性趋势时,才能进行线性相关分析。一般应首先利用散点图观察并判断两变量间的关系,根据变量间可能的关系,选择不同的相关分析方法。(二)相关分析适用于双变量正态分布的资料,否则需进行变量变换或采用其它计算方法,如秩相关。医学统计学(李琳琳)7 相关
9、分析与回归分析26(三)相关分析适用于两变量均为随机取值的资料,当一个变量的数值人为选定时不能做相关分析。如研究不同温度下兔肺动脉张力,人为选定四个温度16,24,30,37,获得如下资料。医学统计学(李琳琳)7 相关分析与回归分析27(四)异常点的存在对相关分析往往有影响,要特别注意。图 9-3 剔除异常值前后的散点图 医学统计学(李琳琳)7 相关分析与回归分析28(五)分层资料盲目合并容易引起假象。左图显示:合并前,两组数据无相关关系,但合并后呈正相关。右图显示:合并前,两组数据分别呈正相关,但合并后无相关关系。医学统计学(李琳琳)7 相关分析与回归分析29 相关关系不等于因果关系;相关关
10、系不等于因果关系;相关分析要有实际意义,两个变量的选择相关分析要有实际意义,两个变量的选择 一定要结合专业背景,不能把毫无关联的两一定要结合专业背景,不能把毫无关联的两种现象勉强作相关分析。种现象勉强作相关分析。注意相关关系成立的数据范围;注意相关关系成立的数据范围;小小 结结小小 结结医学统计学(李琳琳)7 相关分析与回归分析30 案例案例 有研究者欲研究某药口服量与血药浓度关系,把口服药物设定为1,2.5,5,7.5,10,15,20,30等档次,每档各取3只动物(共24只)进行试验,于服药后1 h抽血检验血药浓度。在SPSS中作散点图,计算得口服药物量与血药浓度的Pearson相关系数=
11、0.979,经假设检验PF时,则P,拒绝H0;F,不拒绝H0 医学统计学(李琳琳)7 相关分析与回归分析61例例7-1 l对例7-1中数据,试检验Y对x的线性回归方程的统计学意义。(=0.05)l查F分布表,得临界值F0.05(1,8)=5.32,因FF,则P0.05,拒绝H0,认为方程有统计学意义。7742.88/227.7746874.8495227.7746874.8495101.16242,874.8495664.6104698.7201101.16242,664.6104,698.720122残差回归残差回归MSMSFSSllSSlllxxxyyyxxxy医学统计学(李琳琳)7 相关
12、分析与回归分析62方差分析表方差分析表医学统计学(李琳琳)7 相关分析与回归分析63决定系数决定系数l描述回归拟合效果l取值01之间,取值说明在Y的总变异中回归关系能解释的比例。l本例:5231.01010.162428737.84952总回归SSSSR说明说明SAH患者脑脊液患者脑脊液IL-6含量含量52.31%的变异的变异与血清与血清IL-6有关。有关。医学统计学(李琳琳)7 相关分析与回归分析64四、线性回归分析的前提条件四、线性回归分析的前提条件l回归模型的基本假设1.线性(linear)2.独立(independent)3.正态 (normal)4.等方差(equal varianc
13、e)医学统计学(李琳琳)7 相关分析与回归分析65线性(线性(linear)指反应变量Y的总体平均值与自变量X呈线性关系。独立(独立(independent)指任意两个观察值互相独立。正态正态 (normal)指X取某值时,对应的应变量Y服从正态分布。等方差(等方差(equal variance)是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。医学统计学(李琳琳)7 相关分析与回归分析66直线回归方程的应用直线回归方程的应用l(一)定量描述两变量之间的依存关系。(一)定量描述两变量之间的依存关系。l(二)利用回归方程进行预测。(二)利用回归方程进行预测。l(三)利用回归方程进行统
14、计控制。(三)利用回归方程进行统计控制。医学统计学(李琳琳)7 相关分析与回归分析67五、回归分析的注意事项l1.回归分析中,自变量可以是随机变量或确定性的量,但因变量必须是随机变量且应服从正态分布。l2.回归方程的适用范围是有限的。使用回归方程计算估计值时,一般不可把估计的范围扩大到建立方程时自变量的取值范围之外。医学统计学(李琳琳)7 相关分析与回归分析68六、相关与回归的区别与联系l1.相关与回归的区别。相关与回归的区别。相关系数的计算只适用于两个变量都服从正态分布的资料,表示两个变量之间的关系是双向的;而回归分析中,因变量是随机变量,自变量可以是随机变量也可以是给定的量。回归反映两个变
15、量之间的单向关系。医学统计学(李琳琳)7 相关分析与回归分析692.相关与回归的联系l(1)方向一致:对一组数据若能同时计算相关系数)方向一致:对一组数据若能同时计算相关系数和回归系数和回归系数,它们的符号一致。它们的符号一致。l(2)假设检验等价:对同一样本,相关系数和回归)假设检验等价:对同一样本,相关系数和回归系数的假设检验得到的值相等,即系数的假设检验得到的值相等,即 。l(3)r2恰好是回归平方和在总离差平方和中所占比重。恰好是回归平方和在总离差平方和中所占比重。相关系数相关系数r的绝对值越大,回归效果越好,即相关和的绝对值越大,回归效果越好,即相关和回归可以互相解释。回归可以互相解释。brtt医学统计学(李琳琳)7 相关分析与回归分析70p 变量间的依存关系(1)函数关系:变量保持着严格的依存关系,呈现出一一对应的特征。(2)相关关系:变量保持着不确定的依存关系,即“若即若离”也。p 相关分析:借助于相关系数衡量变量间关系的紧密程度。p 回归分析:用函数表达式来表达各变量之间的相互关系。医学统计学(李琳琳)7 相关分析与回归分析71医学统计学(李琳琳)7 相关分析与回归分析72