1、直线相关和回归分析 Linear Correlation and regression Analysis,Medical statistics 医学统计学,Page 2,相关分析:主要内容,相关和直线相关的概念 直线相关的图示 直线相关系数的计算 直线相关系数的假设检验和区间估计 等级相关,Page 3,问题的提出,人的体重往往随着身高的增加而增加。二者之间是否存在某种关联?如果存在,可否用身高来推测体重的多少? 儿童所能发出的最长音调往往和年龄有关。是否可以建立年龄和音调长度的数量关系? 人的肺活量往往随着胸围的增加而增加。是否可以建立胸围和肺活量的数量关系? 举重运动员所能举起的最大重量是
2、否与他的体重有关?,Page 4,当两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。 若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。,Page 5,直线相关的图示,Page 6,直线相关系数的概念,用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(correlation coefficient),又称为积差相关系数(co
3、efficient of product-moment correlation),Pearson相关系数 。 总体相关系数用希腊字母表示,而样本相关系数用r表示,取值范围均为-1,1。,Page 7,直线相关系数的计算,相关系数没有单位,其值介于【-1,1】之间,Page 8,以下资料选自Galton的一项研究,目的是探讨成年时身高是否与两岁时的身高(单位:英寸)有关。,Page 9,绘制散点图,Y 成年后身高(单位:英寸),X 2岁时的身高(单位:英寸),30,32,34,36,38,40,63,65,67,69,71,Page 10,Page 11,Page 12,Page 13,相关系数
4、的假设检验,H0:0,两变量间无直线相关的关系; H1:0。,Page 14,H0:0,两变量间无直线相关的关系; H1:0,两变量间有直线相关的关系; =0.05 =8-2=6,t0.001/2,6=2.959 以自由度为6查附表2的t界值表,得P0.001,按=0.05的水准拒绝H0,接受H1,认为2岁时的身高和成年身高之间存在正相关。,Page 15,总体相关系数的区间估计,从相关系数不等于0的总体中抽样,样本相关系数的分布是偏态的。,Page 16,相关系数的抽样分布( = - 0.8),Page 17,相关系数的抽样分布( = 0),Page 18,相关系数的抽样分布( =0.8),
5、Page 19,R.A. Fisher(1921) 的 z 变换,z 近似服从均数为 , 标准差为 的正态分布。,Page 20,相关系数的可信区间估计,将 r 变换为 z ; 根据 z 服从正态分布,估计 z 的可信区间; 再将 z 变换回 r 。,Page 21,相关系数的可信区间估计,Fishers 变换 r z 正态近似 Fishers 反变换 的95CI z的95CI,Page 22,Page 23,某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)。计算8名儿童的尿肌酐含量与年龄的相关系数(严格地讲,直线相关分析要求资料服从双变量正态分布) 8名正常儿童的年龄(岁)与
6、尿肌酐含量(mmol/24h),年龄,尿肌酐含量,Page 24,计算得,Page 25,相关系数的假设检验,H0:0,两变量间无直线相关的关系; H1:0,两变量间有直线相关的关系; =0.05 =8-2=6 以自由度为6查附表2的t界值表,得P0.01,按=0.05的水准拒绝H0,接受H1,认为两变量之间存在正相关。,Page 26,相关系数的可信区间估计,Page 27,秩相关,秩相关(rank correlation )或称等级相关 对原变量不作要求,属于非参数统计方法。 适用于:非正态分布、方差不齐、开口资料、等级资料的双变量直线相关分析。 计算公式:-1rs1,Page 28,Sp
7、earman秩相关步骤,将各变量X,Y分别编秩RX, RY; 按公式计算RX与RY Spearman相关系数rS ; 样本的秩相关系数rS 是总体秩相关系数s的估计值,检验s是否为0。 当n50,可查rS 界值表, 当n50,可用公式计算检验统计量u,查u界值表,Page 29,某省1995年到1999年居民死因构成与WYPLL构成,Page 30,检验步骤,H0:rs=0,即死因构成和WYPLL构成之间无直线相关关系 H1:rs0,即死因构成和WYPLL构成之间有直线相关关系 a0.05,本例n=18,查附表14的rs界值表,得P0.01。按a=0.05水准拒绝H0,接受H1,可认为当地居民
8、死因的构成和各种死因导致的潜在工作损失年数WYPLL的构成存在正相关关系。,Page 31,相同秩较多时 rs 的校正,公式中Tx(或TY)(t 3t)/12,t为X(或Y)中相同秩的个数。显然当TxTY0时,公式(9-27)与公式(9-25)相等。,(9-27),对X与Y分别排秩时,若相同秩较多,宜用公式(9-27)计算校正rs,Page 32,血小板数与出血症状的等级相关分析,Page 33,H 0:S0,血小板数与出血症状无相关关系; H 1: S0,血小板数与出血症状有相关关系。 = 0.05。,Page 34,(9-18),PiX QiY,注意:对Rs还有一种简便的算法,就是将Pi、
9、Qi (无论Pi、Qi中是否存在相同秩)直接代入公式(9-18)中的X、Y,即用秩直接作积差相关计算,得到的Rs就无须校正。,Page 35,假设检验,本例 n = 12, 查界值表,得: rs(0.05/2,12)=0.587 现 rs =-0.501,故 P 0.05。 可以认为,血小板数与出血症状无等级相关关系。,Page 36,直线回归分析:主要内容,引言 直线回归的定义 直线回归方程的求解 回归系数的t检验 回归问题的方差分析 直线回归系数和回归方程的解释 与直线回归有关的区间估计 相关与回归的区别和联系 正确应用,Page 37,引言,对于2岁时的身高和成年后身高间的关系 即便具有
10、相同的2岁身高,成年后的身高也不一定相同;,Page 38,直线回归的定义,宏观上来讲,他们呈直线关系,但并不能用 来描述。所以我们用 “hat”表示估计值,给定x时y的条件均数,Page 39,Y 因变量,响应变量 (dependent variable, response variable) X 自变量,解释变量 (independent variable, explanatory variable) b 回归系数 (regression coefficient, slope) a 截距 (intercept),Page 40,直线回归方程的求解,Page 41,直线回归方程的求解,最小二
11、乘法 (Least Square Method),Page 42,直线回归方程的求解,2岁身高和成年身高之间关系,Page 43,直线回归方程,Page 44,回归系数和回归方程的意义及性质,b 的意义 a 的意义 和 的意义 的意义,Page 45,b的含义,b的涵义:两岁身高每高1英寸,成年后的身高平均高0.9286英寸。,Page 46,a 的意义,a 截距(intercept, constant) X=0 时,Y的估计值 a的单位与Y值相同 当X可能取0时,a才有实际意义。,Page 47,估计值 的意义,X=39, = 71.3929 即两岁身高为39英寸时,其成年后身高均数的估计值
12、为71.3929英寸 X=35, = 67.6786 即两岁身高为35英寸时,其成年后身高均数的估计值为67.6786英寸 给定X时,Y的均数的估计值。 当 时,,Page 48,估计值与残差,Page 49,图7.2 2岁身高X与成年后身高Y的散点图,X 2岁时身高,30,32,34,36,38,40,63,65,67,69,71,Y 成年后身高(单位:英寸),Page 50,估计值与残差的平方和,Page 51,残差平方和 (residual sum of squares).SS剩 综合表示点距直线的距离。 在所有的直线中,回归直线的残差平方和是最小的。(最小二乘),的意义,Page 52
13、,剩余(残差)标准差 SY|X,SY|X 度量了实际散点远离回归直线的离散程度,反映了模型的可靠性。越小模型越好。,SY|X为Y的剩余标准差扣除X的影响后Y的变异程度。,Y的剩余标准差扣除X的影响(即回归所能解释的部分)后Y本身的变异程度,Page 53,Page 54,针对回归方程的检验:F检验 针对回归系数b的检验:t检验,Page 55,X,回归方程的假设检验方差分析: 因变量总变异的分解,Page 56,Y的总变异分解,Page 57,Y的总变异分解,总n1 回1 剩余n2,Page 58,SS总 ,Y的离均差平方和(total sum of squares),未考虑与的回归关系时的总
14、变异。 SS回 ,为回归平方和(regression sum of squares),由于与的直线关系而使变异减小的部分,即总变异中,可以用解释的部分。SS回越大,回归效果越好。 SS剩 ,为剩余平方和(residual sum of squares),对的线性影响之外的一切因素对的变异,即总变异中,无法用解释的部分。SS剩越小,回归效果越好。,Y的总变异分解及几个平方和的意义,Page 59,回归方程的方差分析,Page 60,方差分析表,Page 61,SS剩 =7.143 SS回 = SS总-SS剩= 67.50-7.14= 60.36 或者:,Page 62,H0 : 2岁身高和成年身
15、高无直线回归关系; H1: 2岁身高和成年身高有直线回归关系; =0.05。,F=50.70,今1=1,2=6,查 F界值表,得P0.0001,按 =0.05水准拒绝H0,接受H1,故可认为2岁和成年身高之间有线性回归关系。,Page 63,回归系数的假设检验,回归系数也有抽样误差! b0是由于抽样误差引起,其总体回归系数 仍=0;作直线回归系数的t检验 存在回归关系,即0,估计总体回归系数总体回归系数95%的可信区间,Page 64,直线回归系数的t检验,公式 ,n2,t 检验,Page 65,回归系数的标准误差Sb,Sb为回归系数的标准误差,直线方程剩余标准差,Page 66,回归系数的标
16、准误差Sb,Page 67,直线回归系数的t检验,H0:总体回归系数0; H1:总体回归系数0; =0.05。 =8-2=6,t0.001/2,6=2.959 按=6查t界值表,得P0.001。按 =0.05水准拒绝H0,接受H1。认为成年身高和2岁时的身高间存在直线回归关系。,Page 68,直线回归中三种假设检验间的关系,在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。 tr=tb=7.12=F1/2=50.701/2,Page 69,总体回归系数 的可信区间估计,根据 t 分布原理估计:,Page 70,本例中已计算得sb=0.1304 (0.928
17、6-2.4470.1304, 0.9286+2.4470.1304) =( 0.6095,1.2477) 含义 用(0.6095, 1.2477)来估计两岁身高与成年身高间的直线回归系数,可信度为95。,Page 71,与直线回归有关的区间估计,估计值 的可信区间估计 个体值Y的容许区间估计,Page 72,当X=38时,根据方程 估计得 当X=36时,根据上述方程 估计得 我们将上述的估计值 称为给定X时Y的平均值,也成为Y的条件均数。,Page 73,的可信区间估计,样本 总体 Y的总平均 给定X时Y的平均 (Y的条件均数),根据 t 分布原理:,Page 74,标准误不仅与 误差有关,而
18、且与回归系数b的误差有关,Page 75,X=38时,求 的95%可信区间,=34,lXX=70, =1.0911 当X=38 时, =70.4644,t0.005/2,6=2.447 70.46442.4470.6488=(68.877,72.052) 即身高为38英寸的两岁儿童,估计其成年后平均身高为70.4644英寸,95可信区间为(68.877,72.052) (英寸)。,Page 76,X=36时,求 的95%可信区间,=34,lXX=70, =1.0911 当X=36 时, =68.6072,t0.005/2,6=2.447 68.60722.4470.4657=(67.468,6
19、9.747) 即身高为36英寸的两岁儿童,估计其成年后平均身高为68.6072英寸,95可信区间为(67.468,69.747) (英寸)。,Page 77,X=34时,求 的95%可信区间,=34,lXX=70, =1.0911 当X=34 时, =66.75,t0.005/2,6=2.447 66.752.4470.3858=(65.806,67.694) 即身高为36英寸的两岁儿童,估计其成年后平均身高为66.75英寸,95可信区间为(65.806,67.694) (英寸)。,Page 78,Y的个体容许区间估计,给定 X 时 Y 的估计值是 Y 的均数的一个估计。 给定X 时 Y 值的
20、个体变异区间是 Y 值的可能范围。 Y的100(1- )%容许限:,Page 79,当X=38 时 70.46442.4471.2694=(67.3582,73.5706) 即所有身高为38英寸的两岁儿童,估计其成年后有95的个体身高在(67.36,73.57) 之间。,Page 80,当X=36 时 68.60722.4471.1863=(65.7043,71.5102) 即所有身高为36英寸的两岁儿童,估计其成年后有95的个体身高在(65.70,71.51) 之间。,Page 81,当X=34 时 66.752.4471.1573=(63.9181,69.5819) 即所有身高为34英寸的
21、两岁儿童,估计其成年后有95的个体身高在(63.92,69.58) 之间。,Page 82,剩余标准差、条件标准误、条件标准差,抽样误差,抽样误差个体变异,Page 83,Page 84,估计值、95%可信区间和95%个体区间,Page 85,直线回归方程的应用,预测 控制,Page 86,预测,例:回归方程为归 ,计算当x=12时,预测值95%的可信区间和相应个体值95%的区间,Page 87,Page 88,控制,利用回归方程进行逆运算,即要求应变量y在一定范围内波动时,可以通过控制自变量X的取值来实现。 例:根据血糖与胰岛素的资料建立直线回归方程为 ,剩余标准差 ,n=20。问欲将一名糖
22、尿病病人的血糖水平控制在正常范围的上界120mg/100ml内,该病人血中胰岛素应保持在什么水平上。,Page 89,Page 90,直线回归与直线相关的区别与联系,联系 均表示线性关系; 符号相同:共变方向一致; 假设检验结果相同:是否存在共变关系; 二者间可以相互换算 用回归解释相关,Page 91,直线回归与直线相关的区别与联系,联系,Page 92,不能用X来解释的部分 即与X无关的部分(随机误差),份额的大小可以用相关系数的平方来衡量 (决定系数),Page 93,直线回归与直线相关的区别与联系,区别 r 没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关; 相关表示相互关系;回归表示依存关系; 对资料的要求不同:,Page 94,直线回归与直线相关的区别与联系,区别 对资料的要求不同: 当X和Y都是随机的,可以进行相关和回归分析; 当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析; I 型回归:X是精确控制的; II型回归:X是随机的。 由X推算Y: 由Y推算X:,