1、医学统计学:双变量回归与相关前言大量的医学科研与实践中,经常会遇到对两个变量之间关系的研究。例如:糖尿病病人的血糖与胰岛素水平的关系;某人群年龄与收缩压的关系;儿童身高与体重的关系;动物实验中动物进食量与增加体重的关系等。常用回归与相关分析,属双变量分析范畴(bivariate analysis)。第一节第一节 直线回归直线回归oLinear Regression一、直线回归概念两变量关系o确定性关系是指两变量间的关系是函数关系。已知一个变量的值,另一个变量的值可以通过这种函数关系精确计算出来。o非确定性关系是指两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。Ya bX 直线回归概念
2、示意图XXY的条件均数时:给定YXXY直线回归方程总体样本“Y hat”表示估计值,给定x时y的条件均数的估计值。Ya bX XXY直线回归方程o Y 应变量,响应变量 (dependent variable,response variable)o X 自变量,解释变量 (independent variable,explanatory variable)o b 回归系数 (regression coefficient,slope)o a 截距 (intercept,constant)YabX截距a o几何意义a 0:回归线与纵轴交点在原点上方。a 0:回归线与纵轴交点在原点下方。a=0:回归
3、线通过原点。o统计学意义a 表示自变量X取值为0时相应Y条件均数的估计值。oa的单位与Y值相同o当X可能取0时,a才有实际意义。回归系数b的几何意义0YabX b0YabX bXY0YabX b回归系数b的统计学意义ob表示自变量X变化一个单位时应变量Y的平均改变量。o17岁儿童以年龄(岁)估计体重(kg)的回归方程:o糖尿病患者以胰岛素水平(mU/L)估计血糖水平(mmol/L)的回归方程:XY27XY68.084.22直线回归分析的应用条件(LINE)o线性(linear)o独立(independent)o给定X时,Y正态分布(normal)o等方差(equal variance)直线回归
4、应用条件LINE示意图给定X时,Y是正态分布、不等方差示意图小插曲:关于F.GaltonGalton(1822-1911)是一位人类学家,著名生是一位人类学家,著名生物学家达尔文的表兄弟,早年学医,曾在剑物学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。尽管他的数学不是很好,但在桥大学念书。尽管他的数学不是很好,但在人类学和优生学研究中萌发的统计学思想,人类学和优生学研究中萌发的统计学思想,对生物统计的发展产生了深远影响,如对生物统计的发展产生了深远影响,如“回回归归”、“双变量正态分布双变量正态分布”的概念等。他的概念等。他没有子女,但一生写了没有子女,但一生写了9 9部书,发表了近部书,发
5、表了近200200篇论文。篇论文。1860年当选英国皇家学会会员,年当选英国皇家学会会员,1909年被封为爵士,年被封为爵士,1910年获得英国皇家学年获得英国皇家学会会Copley奖。奖。小插曲:为什么叫”回归“?“回归”这个词是由英国统计学家F.Galton创立的。他在研究父子身高(1078对数据)关系时发现,高个子的父亲常生高个子的儿子,但儿子身高超过父亲的概率要小于低于父亲的概率;同样矮个子的父亲常生矮个子的儿子,但儿子身高比父亲更矮的概率要小于比父亲高的概率。也就是说不可能无限制的一代比一代高,或一代比一代矮。后代的高度有向平均高度回归的趋势;离开均值越远,所受到回归的压力也越大。“
6、回归”这个词就由此而来。小插曲:为什么叫”回归“?F.Galton K.Pearson二、直线回归方程的求法数据格式:序号 变量1(年龄)变量2(尿肌酐)1 13 3.54 2 11 3.01 3 9 3.09 4 6 2.48 5 8 2.56 6 10 3.36 7 12 3.18 8 7 2.65重要提示o根据原始数据,首先绘制散点图,观察散点图中点子的分布情况,只有当点子分布呈直线趋势时,才进行直线回归分析。o例9-1的散点图见图9-1。年龄(岁)141210864尿肌酐含量(mmmol/24h)3.63.43.23.02.82.62.4直线回归方程的求解:最小二乘原理YabXYX i
7、iYY直线回归方程的求解XXXYllnXXnYXXYXXYYXXb/)()(222XbYaniiiniiibXaYYYYYQ12122)()(最小二乘法(Least Square Method)三、直线回归中的统计推断(一)回归方程(回归系数)的假设检验o回归系数也有抽样误差!总体总体0总体总体 0样本样本b0两变量有直线关系两变量无直线关系?回归方程(回归系数)的假设检验oH0:=0,即两变量无直线关系H1:0,即两变量有直线关系=0.05o检验方法nF检验nt检验n用同一份资料相关系数的假设检验代替,手工计算时最为简便。o统计结论1.方差分析:应变量总变异的分解X P(X,Y)YY)(YY
8、 )(YYY)(YY YYYYY-=-YY+-Y的总变异分解iiiY YY Y-=-iY Y+-niiininiiiYYYYYY122112)()()(Y的总变异分解o未引进回归时的总变异:(sum of squares of total)o引进回归以后的变异(剩余):(sum of squares for residuals)o回归的贡献,回归平方和:(sum of squares for regression)2)(YY 2)(YY 2)(YYY的总变异分解 体重举重Y的总变异分解 222 YYYYYY 剩回总SSSSSS 剩回总 总n1 回1 剩余n2 回归方程的方差分析SS/SS/MS
9、FMS回归回归回归剩余剩余剩余XXXXXYXYlbllblSS22/回.2 2Y XbXXY XsslYYsn0 2bbbtns,2.回归系数的t检验直线回归中三种假设检验间的关系o在直线回归中,回归系数的t检验与方差分析结果等价。tb=4.579=F1/2=20.971/2FtbFtb2(二)总体回归系数 的可信区间总体样本根据 t 分布原理估计可信区间:bnstb2,2/XXYYa bX 总体总体样本样本b总体回归系数 的可信区间o本例中已计算得sb=0.0304(0.1392-2.4470.0304,0.1392+2.4470.0304)=(0.0648,0.2136)o含义n用(0.0
10、648,0.2136)来估计正常儿童年龄与尿肌酐含量间的回归系数,可信度为95。(三)利用回归方程进行估计和预测复习可信区间和预测区间(容许区间)o均数的可信区间:均数界值标准误 o个体的容许区间(参考值范围):均数界值标准差 1.总体均数 的可信区间估计 XY 样本 总体Y Y的总平均给定X X时Y Y的平均 (Y的条件均数)XYYY 22.2,2/2,2/)()(1XXXXnstYstYXYnYno根据 t t 分布原理:X=12时,求 的95%可信区间o =9.5,lXX=42,=0.1970o当X=12 时,=1.6617+0.1392 123.33213.33212.4470.103
11、1=(3.080,3.584)o即年龄为12岁的正常儿童,估计其平均尿肌酐含量为3.3321(mmol/24h),95可信区间为(3.380,3.584)(mmol/24h)。XYXXYs.Y1031.042)5.912(811970.02YS2.个体Y值的预测区间 o给定 X 时 Y 的估计值是 Y 的均数的一个估计。o给定X 时 Y 值的容许区间是 Y 的参考值范围。o Y的100(1-)%预测区间:22.2,2/2,2/)()(11XXXXnstYstYXYnYn个体Y值的预测区间3.33212.4470.2223=(2.788,3.876)o即年龄为12岁的正常儿童,估计有95其尿肌酐
12、含量在(2.788,3.876)(mmol/24h)。2223.042)5.912(8111970.02YS可信区间与预测区间示意图第二节第二节 直线相关直线相关oLinear Correlation一、直线相关的概念o对两变量关系的研究,有时并不要求由X估计Y,或者先不考虑这个问题,而关心的是两个变量间是否确有直线相关关系,如两个变量间有相关关系,那么相关的方向和相关的程度如何?可采用相关分析。o相关分析的任务:n两变量间有无相关关系?n两变量间如有相关关系,相关的方向?相关的程度?o相关分析时,两变量不区分自变量和应变量。直线相关的概念o当两个数值变量之间出现如下情况:当一个变量增大,另一
13、个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。o若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。相关的方向r=0r=0r-1r1完全正相关完全负相关零相关零相关0r1-1r0:正相关r0:负相关r=0:零相关o相关的密切程度:样本含量n足够大时,r绝对值越接近1。相关越密切。010.40.7低度相关低度相关中度相关中度相关高度相关高度相关三、相关系数的统计推断(一)相关系数的假设检验H0:0,两变量间
14、无直线相关关系H1:0,两变量间有直线相关关系方法:1.t检验:2.查表法:按自由度(n2)查r界值表得P值。20,212rrrtnsrn回归系数与相关系数的假设检验rbtt 结果等价(二)总体相关系数的可信区间o从相关系数不等于0的总体中抽样,样本相关系数的分布是偏态的。R.A.Fisher(1921)的 z 变换1111ln2122zzeerrrz z 近似服从均数为 ,标准差为 的正态分布。)1/()1(ln21rr3/1n相关系数的可信区间估计o将 r 变换为 z;o根据 z 服从正态分布,估计 z 的可信区间;o再将 z 变换回 r。312/2/nuzsuzz直线回归与相关分析的正确
15、应用o根据分析目的选择变量及统计方法o定性分析相关分析;o定量分析回归分析。o进行回归相关分析前应绘制散点图o结果的解释及正确应用oP值越小,不能认为两变量关系越密切。o回归用于预测时,可内插,避免外延。o相关属关联,而非因果。Correlation measures association.But association is not the same as causation.直线回归与直线相关的区别与联系o联系o均表示线性关系;o正负号一致;o假设检验等价;o用回归解释相关22rSSSSR总回直线回归与直线相关的区别与联系o区别n相关表示相互关系;回归表示依存关系;n对资料的要求不同:o
16、当X和Y都是随机的,可以进行相关和回归分析;o当Y是随机的(X是精确控制的),理论上只能作回归而不能作相关分析;oI型回归:X是精确控制的;oII型回归:X是随机的。o由X推算Y:o由Y推算X:nr与b的计算公式、取值范围和单位不同。YbaXXbaYYXYXXYXY.秩相关oSpearman秩相关的资料类型o将各变量X,Y分别编秩P,Q;o计算P与Q的Pearson相关;o所得结果即为Spearman秩相关rs。ors的统计学意义同的统计学意义同r。o当n50时,查“rs界值表”。o当n50时,用 t 检验。Summaryo两变量区分自变量和应变量直线回归o两变量不区分自变量和应变量相关n双变量正态分布资料Pearson直线相关n其它类型资料Spearman秩相关o回归与相关分析的步骤n散点图n直线回归方程/相关系数的计算n直线回归方程/相关系数的假设检验n区间估计(optional)o利用计算器统计功能键求回归方程/相关系数计算器操作SHARP5120SHARP5100CASIO1.设置双变量统计状态清零MODE 1SET UP 4 22ndF CASTAT2ndF CAMODE 3 1SHIFT AC=2.输入数据X1,Y1 DATAX1(x,y)Y1DataX1,Y1 DT3.取结果2ndF STAT共3页2ndF 相应键 SHIFT A SHIFT BSHIFT r