1、 医学统计学医学统计学 simple regression线性回归与相关 simple regression线性回归与相关变量间的关系:(1)相关关系:两个变量存在共同变化、彼此关联的趋势 相关分析(1)依存关系:因变量(dependent variable)Y随自变量(independent variable)X变化而变化。回归分析一、线性回归的概念一、线性回归的概念 线性回归方程(线性回归方程(linear regression equation)第一节第一节 线性回归线性回归YabX Francis Galton X-自变量(independent variable);Y-应变量(dep
2、endent variable);-给定X 时Y 的估计值;a-截距(intercept)或常数项(constant term);b-回归系数(regression coefficient)。Y simple regression回归方程参数的计算回归方程参数的计算 最小二乘法原则最小二乘法原则(least square method):使各散点到:使各散点到直线的纵向距离的平方和最小。即使直线的纵向距离的平方和最小。即使 最小。最小。(YY)2 222XYXXXYXYl(XX)(YY)nbl(XX)XXn aYbX 表示X与Y 的离均差积和;表示X的离均差平方和;和 分别为两个变量的均值。X
3、YlXXlXY simple regression 例例11-1 11-1 研究饮水氟含量与成人骨研究饮水氟含量与成人骨X X线改变指数线改变指数间的关系,得到了表间的关系,得到了表11-111-1中所示的资料,试进行中所示的资料,试进行回归分析。回归分析。二、回归方程的估计 表11-1 饮水氟含量(mg/L)与骨X线改变指数调查对象调查对象饮水氟含量饮水氟含量(X)骨骨X线改变线改变指数(指数(Y)XY X2Y210.240.400.100.060.1620.800.560.450.640.3131.001.911.911.003.6541.800.861.553.240.7453.125.
4、2516.389.7327.5664.103.4013.9416.8111.5675.6058.38326.9331.363408.22810.2770.33722.29105.474946.31910.81116.301257.20116.8613525.69合计合计37.74257.392340.75285.1721924.20(1 1)绘制散点图:)绘制散点图:由散点图可见,饮水氟含量与骨由散点图可见,饮水氟含量与骨X线改变指数之线改变指数之间存在着直线趋势,可以考虑建立二者之间的线间存在着直线趋势,可以考虑建立二者之间的线性回归方程。性回归方程。simple regression(2)
5、计算回归系数与常数项 37 74X.2285 17X.4 19X.257 39Y.221924 20Y.28 60Y.2340 75XY.本例:simple regression 22237 74257 392340 751261 4399 94037 74126 91285 179XYXXXY.XY.l.nb.l.X.Xn 28 609 9404 1913 049aYbX.代入公式得:则回归方程为:13 0499 94Y.X simple regression 按上述回归方程,在按上述回归方程,在 X 实测值的范围内,任取两个实测值的范围内,任取两个相距较远的点相距较远的点 和和 ,连接,连
6、接A、B B两点两点即得到回归直线。即得到回归直线。11A(X,Y)22B(X,Y)(3)作回归直线 simple regression三、线性回归的假设检验三、线性回归的假设检验(一一)方差分析方差分析 回归方程检验的基本思想:回归方程检验的基本思想:如果如果 X 与与Y 之间无线性回归关系,则之间无线性回归关系,则 与与 都只包含随机因素对都只包含随机因素对Y Y 的影响,因此其均的影响,因此其均方应近似相等,如果两者差别较大,并超出能够方应近似相等,如果两者差别较大,并超出能够用随机波动解释的程度,则认为回归方程具有统用随机波动解释的程度,则认为回归方程具有统计学意义。计学意义。SS回回
7、SS残残差差回归分析中总变异的分解回归分析中总变异的分解)()()(iiiiiyyyyyyyyy回归模型的方差分析回归模型的方差分析因变量y的总变异 回归变异MS回:回归变异又称回归均方。指的是由于y对x的回归所解释的y的变异,用符号MS回表示。其含义也被解释为是x通过回归关系对y的变异产生的贡献。将因变量y与自变量x关联起来进行回归后,回归模型为我们提供了通过给定x估计y的平均水平的途径。因此,y中由于x的作用导致的回归变异就可以被分离出来。niniiinyySS1212)(总回归变异计算方法回归变异计算方法 回归离均差平方和,简称回归平方和 回归均方 本例 )(111niniiniiiin
8、yxyxbSS回回回回回vyyvSSMSi/2残差变异计算方法残差变异计算方法 残差变异MS剩余:残差变异又称残差均方。它指的是由除x以外所有其它因素导致的y的变异,因此,其含义是y的变异中不能由x解释的部分。它在性质上显然属于随机变异。计算方法 回总残残残残SSSSvyyvSSMSii/2总变异与回归变异和残差变异的关系总变异与回归变异和残差变异的关系 总变异中的离均差平方和自由度都可以被分解为上述两个部分。根据离均差平方和和自由度的可加性,有 残回总SSSSSS残回总vvvSSMS 回回归归回回归归回回归归SSMS 残差残差残差残差残差残差MSFMS 回回归归残差残差SSSSSS 总总回回
9、归归残残差差222(Y)SS(YY)Yn 总总22XYXYXXXXlSSblb ll回回归归SSSSSS 总总残残差差回回归归=1n 总总=1 回回=2n 残残Hypothesis test 对对例例11-1数据建立的回归方程进行假设检验:数据建立的回归方程进行假设检验:(1 1)建立假设检验)建立假设检验0=0H:1:0H 0.05 Hypothesis test(2)计算统计量222257 3921924 214563 139(Y).SSY.n 总总221261 4312538 06126 91XYXXl.SS.l.回回归归2025 07SSSSSS.总总残残差差回回归归12538 06
10、143 342025 077MSSS/./F.MSSS/./回回归归回回归归回回归归残差残差残差残差残差残差Hypothesis test(3)确定P 值,得出统计结论 查 F 界值表 ,拒绝 ,可以认为饮水氟含量与成人骨X线改变指数之间存在线性回归关系。0 01(1 7)12 25.,F.0 01(1 7).,FF 0 01P.0HHypothesis test上面结果可以归纳成表11-2方差分析表的形式。表11-2 方差分析表变异来源变异来源 SS MS F P总变异总变异14563.13 8回归回归12538.06 112538.06 43.34 0.01残差残差 2025.07 7 2
11、89.30Hypothesis test(二)t 检验 0bbtS 2n Y XbXXSSl Y XSSSMS 残差残差残差残差残差残差 为样本回归系数的标准误,反映样本回归系数的抽样误差;为剩余标准差,表示应变量Y 值对于回归直线的离散程度。bSY XS Hypothesis test0=0H:10H:0.05 例例11-1数据建立回归方程后,进行数据建立回归方程后,进行t 检验,过程如检验,过程如下下:(1)建立假设检验建立假设检验(2)计算统计量20250717017Y X.S.17 011 510126 91b.S.9 9406 581 51|.|t.927 Hypothesis te
12、st(3)确定P 值,作结论 查 t 界值表,拒绝 ,结论与方差分析相同。可以看出,统计量 与 之间存在确定的数量关系,即有 ,本例 。./()t.0 01 2 73 4990 01P.0HFtFt 43 346 58.Hypothesis test一、线性相关的概念一、线性相关的概念 两个变量之间存在的线性相关关系称为线性相两个变量之间存在的线性相关关系称为线性相关或简单相关。关或简单相关。用于分析双变量正态分布资料。用于分析双变量正态分布资料。第二节第二节 线性相关线性相关Karl Pearson 图11-2 11名男青年身高与前臂长散点图 linear correlation 图11-3
13、 线性相关性质示意图 二、相关系数及其计算二、相关系数及其计算 相关系数相关系数(correlation coefficient):又称):又称PearsonPearson积差相关系数(积差相关系数(coefficient of coefficient of product moment correlationproduct moment correlation),是说明具有线),是说明具有线性相关关系的两个数值变量间相关的密切程度与性相关关系的两个数值变量间相关的密切程度与相关方向的统计量。相关方向的统计量。相关系数相关系数r没有度量衡单位,其数值为没有度量衡单位,其数值为 。表示正相关;表
14、示正相关;表示负相关;表示负相关;表示表示无相关,即无直线关系。当无相关,即无直线关系。当 时称为完全相时称为完全相关。关。相关系数的绝对值愈接近相关系数的绝对值愈接近1,表示相关愈密切;相,表示相关愈密切;相关系数愈接近关系数愈接近0,表示相关愈不密切。,表示相关愈不密切。11r 0r 0r 0r 1|r|linear correlation 22XYXXYYl(XX)(YY)rll(XX)(YY)XY(X)(Y)l(XX)(YY)XYn 222XX(X)l(XX)Xn 222YY(Y)l(YY)Yn 相关系数的计算公式:相关系数的计算公式:linear correlation 例例11-2
15、 从男青年总体中随机抽取从男青年总体中随机抽取1111名男青年组成名男青年组成样本,分别测量每个男青年的身高和前臂长,测样本,分别测量每个男青年的身高和前臂长,测量结果如表量结果如表11-3所示,试计算身高与前臂长之间所示,试计算身高与前臂长之间的相关系数。的相关系数。表表11-3 11名男青年身高与前臂长的测量名男青年身高与前臂长的测量结果结果(cm)编号编号 身高身高 X前臂长前臂长 YXY11704779902890022092173427266299291764316044704025600193641554163552402516815173478131299292209618850
16、9400353442500717847836631684220981834684183348921169180498820324002401 10165437095272251849 11166447304275561936合计合计 1891 500 86185 326081 228102X2Y本例:=1891X 2=326081X=500Y 2=22810Y=86185XY 11n 222()18913260811000.90911XXXlXn 222()5002281082.72711YYYlYn ()()1891 50086185230.45511XYXYlXYn 230.4550.80
17、091000.90982.727r linear correlation 三、相关系数的假设检验 1.t 检验法:根据 r 作总体相关系数 是否为零的假设检验。2012rtrn 2n 2.根据计算出的 r 值,直接查 r 界值表得到P 值,若 ,则可以认为两变量之间存在线性相关关系。2/,rr 对例对例11-2计算得到的计算得到的 r 值进行假设检验:值进行假设检验:(1)建立检验假设建立检验假设 ,即身高与前臂长之间不存在线性相关系即身高与前臂长之间不存在线性相关系 ,即身高与前臂长之间存在线性相关关系即身高与前臂长之间存在线性相关关系(2)计算统计量计算统计量0:0H 1:0H 0.05
18、20 800904 01310 800911 2|.|t.(.)1129 linear correlation(3)确定 P 值,作出结论 查 t 界值表,得 ,拒绝 ,接受 ,可以认为男青年身高与前臂长之间存在正相关关系。或查 r 界值表 ,结论相同。0.005/2,93.690t 0.005/2,9tt 0.005P 0H1H0 005 2 90 776./,r.0.005/2,9rr 0.005P linear correlation 一、线性回归分析的应用1.线性回归方程可应用于以下三个方面:分析两个变量之间是否存在线性依存关系;利用回归方程由自变量 X 对应变量Y 进行估计,必要时可
19、以作区间估计;第三节 线性回归与相关应用的注意事项 利用回归方程进行统计控制,即利用回归方程进行逆运算,通过控制自变量 X 取值来限定应变量Y在一定范围内波动。2.作回归分析时,如果两个有内在联系的变量之间存在因果关系,那么应该以原因变量为X,以结果变量为Y;如果变量之间因果关系难以确定,则应以易于测定或变异较小者为X。3.在回归分析中,自变量X 既可以是随机变量(称为型回归模型,两个变量都服从正态分布),也可以是给定的量(称为 I 型回归模型,在 X 取值固定时Y 服从正态分布)。如果Y不服从正态分布,在进行回归分析前,应先进行变量的变换以使应变量符合回归分析的要求。4.使用回归方程估计Y
20、值时,尽量不要把估计的范围扩大到建立方程时的自变量的取值范围之外,由于超出样本取值范围,其线性关系是否成立难以判断,外推要慎重。如例11-1中,X 的取值范围为0.2410.81,计算估计值时X 的取值最好在0.2410.81之间。二、线性相关分析的应用 1.相关分析理论上适用于两个变量都服从正态分布的情形,如果资料不服从正态分布,应先通过变量变换,使之近似正态化后计算相关系数。如果不能正态化,或针对有序数据则可以计算Spearman或Kendall相关系数进行分析(参考SPSS软件说明)。2.相关系数相关系数 r 值究竟多大有实际意义,需值究竟多大有实际意义,需要根据具体问题而定。实际经验而
21、言,要根据具体问题而定。实际经验而言,时,表示相关性较差;时,表示相关性较差;时,表示中度相关;时,表示中度相关;表示表示 时,表示有很高的相关性。时,表示有很高的相关性。0 3r.0 30 6.r.0 60 8.r.0 8r.3.相关系数可以描述两个变量间相互关系的密切程度和方向。然而,不能因为两变量间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。医学中很多变量的数量变化可能由于相同的因子调控引起。三、线性回归与相关的区别 1.相关系数的计算只适用于两个数值变量都服从正态分布的情形,而在回归分析中,应变量是随机变量,自变量既可
22、以是随机变量(型回归模型),也可以是给定的量(I 型回归模型)。2.线性相关表示两个变量之间的相互关系是双向的,线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。四、线性回归与相关的联系 1.相关系数 r 与回归方程中的 b 正负号相同,r 和 b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增大,Y 也增大;符号为负,变化方向相反。2.对同一样本可以得出 r 与 b 互相转化的公式,两种假设检验完全等价。3.相关与回归可以互相解释。相关与回归可以互相解释。r 的平方称为决定系的平方称为决定系数数(coefficient of determination),可表
23、示为,可表示为:2222XYXYXXXX YYYYSSll/lRrlllSS 回回归归总总 表示回归平方和在总平方和中所占的比重,即 其值越接近1,回归效果越好。决定系数和相关系数有确定的关系,例如 r=0.5,有 =0.25,说明一个变量的变异有25%可以由另一变量所解释。2R2R 1.1.线性回归方程常用于分析两个变量之间是否存线性回归方程常用于分析两个变量之间是否存在线性依存关系。在线性依存关系。2.2.相关系数可以描述两个变量间相互关系的密切相关系数可以描述两个变量间相互关系的密切程度和方向。程度和方向。3.3.相关系数的计算适用于两个数值变量都服从正相关系数的计算适用于两个数值变量都
24、服从正态分布的情形,在回归分析中,应变量是随机变态分布的情形,在回归分析中,应变量是随机变量,自变量既可以是随机变量量,自变量既可以是随机变量(型回归模型型回归模型),也可以是给定的量(也可以是给定的量(型回归模型型回归模型)。小 结 4.线性相关表示两个变量之间的相互关系是双线性相关表示两个变量之间的相互关系是双向的,线性回归则反映两个变量之间单向的依向的,线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。存关系,更适合分析因果关系的数量变化。5.对同一资料进行相关与回归分析,相关系数对同一资料进行相关与回归分析,相关系数r 与回归方程中的与回归方程中的b 正负号相同,正负号相同,r 和和b 为正,说为正,说明明X 与与Y 的数量变化的方向是一致的,的数量变化的方向是一致的,X 增大,增大,Y 也增大;反之亦然。也增大;反之亦然。(钱 聪)