1、直线回归分析Linear Regression AnalysisPage 2直线回归分析:主要内容引言直线回归的定义直线回归方程的求解回归系数的t检验回归问题的方差分析直线回归系数和回归方程的解释与直线回归有关的区间估计相关与回归的区别和联系正确应用Page 3引言 对于2岁时的身高和成年后身高间的关系 即便具有相同的2岁身高,成年后的身高也不一定相同;2岁身高X与成年后身高Y的散点图Y 成年后的身高(英寸)X 两岁时的身高(英寸)3032343638406365676971Page 4引言 对于女大学生的体重和肺活量间的关系 即便具有相同的体重,肺活量也不一定相同;Y 肺活量(L)X 体重(
2、kg)40602.04.03.02.53.5504555女大学生体重(X)与肺活量(Y)的散点图Page 5折衷的解释2岁身高影响成年的身高,但并非确定地决定它(determine it exactly);女学生的体重虽然影响了肺活量;但并非确定地决定它;因此,虽然它们之间有数量关系,但并非确定性的数量关系。是一种非确定性关系;一种宏观的关系!Page 6所谓确定性关系是指两变量间的关系是函数关系。已知一个变量的值,另一个变量的值可以通过这种函数关系精确计算出来。非确定性关系是指两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。Page 7直线回归的定义宏观上来讲,他们呈直线关系,但并
3、不能用来描述。所以我们用“hat”表示估计值,给定x时y的条件均数YabXYabXPage 8 Y 因变量,响应变量 (dependent variable,response variable)X 自变量,解释变量 (independent variable,explanatory variable)b 回归系数 (regression coefficient,slope)a 截距 (intercept)YabXPage 9不同斜率时回归直线的表现0YabX b0YabX bXY0YabX bPage 10小插曲:为什么叫”回归“?F.Galton K.PearsonPage 11直线回归方程
4、的求解两岁时的身高(英寸)39 30 32 34 35 36 36 30成年身高(英寸)71 63 63 67 68 68 70 64=34=66.757067.565XXYYXYXYlllPage 12直线回归方程的求解:最小二乘原理Y 成年后身高(单位:英寸)X X 2 2岁时的身高(单位:英寸)岁时的身高(单位:英寸)3032343638406365676971YabXiiYYPage 13直线回归方程的求解XXXYllnXXnYXXYXXYYXXb/)()(222XbYaniiiniiibXaYYYYYQ12122)()(最小二乘法(Least Square Method)Page 1
5、4直线回归方程的求解2岁身高和成年身高之间关系650.928670XYXXlbl66.750.9286 3435.1776aYbXPage 15直线回归方程35.17760.9286YXPage 16直线回归系数的t检验回归系数也有抽样误差!检验方法针对回归系数b的检验:t检验针对回归方程的检验:F检验Page 17直线回归系数的t检验总体回归系数=0,则回归关系不存在。H0:总体回归系数为0,=0;H1:总体回归系数不为0,0;=0.05。Page 18.2 2Y XbXXY XsslYYsn0 2bbbtns,直线回归系数的t检验Y的剩余标准差扣除X的影响(即回归所能解释的部分)后Y本身的
6、变异程度Page 19直线回归系数的t检验 名词辨析:Y的变异 Y本身的变异 Y 体重增加量(g)X 进食量(g)600 650 700 750 800 850 900 950120140160180200154.42gSY22.63iiYY0SY.X12.39Page 20直线回归系数的t检验H0:总体回归系数0;H1:总体回归系数0;=0.05。=8-2=6按=6查t界值表,得P0.01。按=0.05水准拒绝H0,接受H1。认为成年身高和2岁时的身高间存在直线回归关系。67.51.091182Y Xs1.09110.130470bs 0.92867.120.1304bt Page 21回归
7、系数与相关系数的假设检验rbtt 结果等价Page 22回归方程的方差分析:因变量总变异的分解X P(X,Y)YY)(YY )(YYY)(YY YYYYY-=-YY+-Page 23iiiY YY Y-=-iYY+-212121niiniiiniiYYYYYYPage 24Y的总变异分解未引进回归时的总变异:(sum of squares about the mean of Y)引进回归以后的变异(剩余):(sum of squares about regression)回归的贡献,回归平方和:(sum of squares due to regression)2)(YY 2)(YY 2)(Y
8、YPage 25Y的总变异分解 222 YYYYYY 剩回总SSSSSS 剩回总 总n1 回1 剩余n2 总总回回SSSSr 2Page 26Y的总变异可以用回归来解释的部分即与X有关的部分不能用X来解释的部分即与X无关的部分(随机误差)份额的大小可以用相关系数的平方来衡量(决定系数)Page 27回归方程的方差分析SS/SS/MSFMS回归回归回归剩余剩余剩余Page 28H0:2岁身高和成年身高无直线回归关系;H1:2岁身高和成年身高有直线回归关系;=0.05。SS总=67.5000SS剩=60.3571SS回=SS总-SS剩 =67.50-60.36=7.14列方差分析表Page 29方
9、差分析表 F=50.70,今1=1,2=6,查 F界值表,得P0.0001,按=0.05水准拒绝H0,接受H1,故可认为2岁和成年身高之间有线性回归关系。变异来源SSvMSFP总变异67.50007回 归60.3571160.357150.700.0001剩 余7.142961.1905Page 30直线回归中三种假设检验间的关系在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。tr=tb=7.12=F1/2=50.701/2Fttbr Page 31回归系数和回归方程的意义及性质回归系数和回归方程的意义及性质b 的意义a 的意义 和 的意义 的意义bXaY
10、 YY21 niiiYY YPage 32b的含义 b的涵义:两岁身高每高1英寸,成年后的身高平均高0.9286英寸。35.17760.9286YXPage 33a 的意义bXaY a 截距(intercept,constant)X=0 时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。Page 34估计值 的意义X=39,=71.3929 即两岁身高为39英寸时,其成年后身高均数的估计值为71.3929英寸X=35,=67.6786 即两岁身高为35英寸时,其成年后身高均数的估计值为67.6786英寸给定X时,Y的均数的估计值。当 时,YYXX YY YPage 35编号2岁(
11、英寸)X成年(英寸)Y估计值残差1397171.3929-0.39292306363.0357-0.03573326364.8929-1.89294346766.75000.25005356867.67860.32146366868.6071-0.60717367068.60711.39298306463.03570.9643合计272534534.00000.0000估计值与残差YYYPage 36图 2岁身高X与成年后身高Y的散点图X 2岁时身高3032343638406365676971XY 成年后身高(单位:英寸)Page 37残差平方和(residual sum of squares
12、).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘)的意义 2)(YYPage 38与直线回归有关的区间估计回归系数的可信区间估计估计值 的可信区间估计个体Y值的容许区间估计YPage 39复习 可信区间 容许区间均数的可信区间:均数界值标准误 个体的容许区间(参考值范围):均数界值标准差 Page 40总体回归系数 的可信区间估计根据 t 分布原理估计:2 0 nsbtbb,bnstb2,Page 41本例中已计算得sb=0.1304(0.9286-2.4470.1304,0.9286-2.4470.1304)=(0.6095,1.2477)含义用(0.60
13、95,1.2477)来估计两岁身高与成年身高间的直线回归系数,可信度为95。Page 42 的可信区间估计 Y 样本 总体Y Y的总平均给定X X时Y Y的平均 (Y的条件均数)YYY 22.2,2,)()(1XXXXnstYstYXYnYn 根据 t t 分布原理:Page 43X=38时,求 的95%可信区间 =34,lXX=77159.67,=12.3921当X=34 时,=70.464470.46442.4470.4688=(68.88,70.05)即身高为34英寸的两岁儿童,估计其成年后平均身高为70.4644英寸,95可信区间为(68.88,70.05)(g)。Y XXYs.Y21
14、(3834)1.09110.6488870YsPage 44Y的容许区间估计 给定 X 时 Y 的估计值是 Y 的均数的一个估计。给定X 时 Y 值的容许区间是 Y 值的可能范围。Y的100(1-)%容许限:22.2,2,)()(11XXXXnstYstYXYnYn Page 4570.46442.4471.2694=(67.3583,73.5705)即所有身高为34英寸的两岁儿童,估计其成年后有95的个体身高在(67.36,73.57)之间。21(3834)1.0911 11.2694870YsPage 46剩余标准差、条件标准误、条件标准差 22.2,2,)()(1XXXXnstYstYX
15、YnYn 22.2,2,)()(11XXXXnstYstYXYnYn 抽样误差抽样误差个体变异Page 472岁身高(英寸)成年身高(英寸)(英寸)的95%可信区间Y的95%容许区间下限上限下限上限306463.0357 61.448264.623259.9296 66.1419306363.0357 61.448264.623259.9296 66.1419326364.8929 63.753466.032361.9901 67.7957346766.7500 65.806167.693963.9182 69.5818356867.6786 66.682268.675064.8289 70.
16、5283366868.6071 67.467769.746665.7044 71.5099367068.6071 67.467769.746665.7044 71.5099397171.3929 69.539073.246768.1425 74.6432YYPage 48估计值、95%可信区间和95%容许区间成年后身高英寸X 2岁时的身高(单位:英寸)30 32 34 36 38 58 60 62 64 66 68 70 72 74 76 3 1 3 3 3 5 3 7 3 9 Page 49两条回归直线的比较两条回归直线的比较 在实际工作中,有时需要对两条回归直线进行在实际工作中,有时需要对
17、两条回归直线进行比较,以推断相应的两总体回归直线是否平比较,以推断相应的两总体回归直线是否平行行?是否重叠是否重叠?即检验 1=2和和 1=2 Page 501.两回归系数的比较两回归系数的比较 H0:1 2 H1:1 2 =0.05检验统计量检验统计量t=,-4 两回归系数之差两回归系数之差b1-b2的标准误的标准误 2121bbsbb21nn 22112111)(2XXXXwXYbbllssPage 51 ,分别指两样本自变量的离均差平方和分别指两样本自变量的离均差平方和 合并剩余均方合并剩余均方)2()2()()()2()2()2()2(21222211212212221nnYYYYnn
18、nsnssXYXYwXY11XXl22XXlPage 52例例 某医院分别测定正常成年男子某医院分别测定正常成年男子12人和正人和正常成年女子常成年女子12人的心率人的心率(X,次次/分分)与心脏左与心脏左室电机械收缩时间室电机械收缩时间QS(Y,毫秒毫秒)的数据见表,的数据见表,试对两个回归方程进行比较。试对两个回归方程进行比较。Page 53作散点图,以判断两变量间是否有线性趋势作散点图,以判断两变量间是否有线性趋势 5060708090100300350400450心率(次/分)收缩时间(毫秒)5060708090300350400450100心率(次/分)收缩时间(毫秒)Page 54
19、分别对男子和女子建立回归方程,并进行假设检验分别对男子和女子建立回归方程,并进行假设检验 男子:男子:t=5.941,=10,P0.001女子:女子:t=7.317,=10,P0.50,按按 =0.05水准,不拒绝水准,不拒绝H0,可认为两总体回归系,可认为两总体回归系数相等,即两条直线平行。数相等,即两条直线平行。1783.72)212()212()212(1258.77)212(2307.672wXYs3714.09167.133816667.85811783.7221bbs2526.03714.0)7561.1(6623.1tPage 562.两样本截距的比较两样本截距的比较 斜率相等,
20、说明两条回归线平行。斜率相等,说明两条回归线平行。若需进一步了解这两条回归线是否重合,还须若需进一步了解这两条回归线是否重合,还须检验两条回归线的截距是否相等。如果斜率检验两条回归线的截距是否相等。如果斜率不等,则没有必要对截距进行检验。不等,则没有必要对截距进行检验。Page 57合并的离均差平方和合并的离均差平方和2211XXXXCXXlll2211YYYYCYYlll2211YXYXCXYlll合并剩余标准差为:合并剩余标准差为:)3(/)()(2122nnlllscXXcXYcYYCXY合并回归系数为两个回归系数的加权平均:合并回归系数为两个回归系数的加权平均:CXXCXYXXXXXX
21、XXCllllblblb2211221121Page 58两截距的假设检验统计量为:两截距的假设检验统计量为:cXXcXYclXXnnsXXbYYt221212212111)(自由度为:自由度为:321nnPage 59例例(上例续上例续)比较两回归线的截距是否相等?比较两回归线的截距是否相等?建立假设:建立假设:H0:两总体截距相等;:两总体截距相等;H1:两总体截距不等。:两总体截距不等。=0.10Page 60(lXX)c=858.6667+1338.9167 =2197.5834(lXY)c=-1427.3333+(2351.25)=-3778.5833(lYY)c=3044.9167
22、+4900.25 =7945.1667则:则:7194.15834.21975833.3778Cb9605.68312125834.21975833.37781667.794522cXYsPage 617457.15834.2197)4167.713333.70(1211219605.68)4167.713333.70()7194.1(25.3740833.3822t按 自 由 度按 自 由 度 =1 2+1 2-3=2 1 查查 t 界 值 表,得界 值 表,得t0.10,21=1.721,P0.10,按,按 0.10水准,拒绝水准,拒绝H0,可认为两总体回归线的截距不等。可认为两总体回归线
23、的截距不等。Page 62过定点的直线回归过定点的直线回归 例例 在用荧光光度法测定全血硒的研究中,分在用荧光光度法测定全血硒的研究中,分别取不同硒含量的标准液,消化后测定其荧别取不同硒含量的标准液,消化后测定其荧光强度,试作标准直线。光强度,试作标准直线。含硒量含硒量(g)X荧光强度荧光强度Y0.0000.000.0254.360.0509.310.10017.130.15025.030.20036.22Page 63xy223.176078.0若作类似于上节的直线回归得若作类似于上节的直线回归得若要以硒含量去估计荧光强度的话,有一样若要以硒含量去估计荧光强度的话,有一样本,其硒含量为本,其
24、硒含量为0,理论上荧光强度为,理论上荧光强度为0,但,但用回归方程去估计为用回归方程去估计为-0.078,不切合实际。,不切合实际。Page 64医学研究中应用直线回归,经常会遇到这种特医学研究中应用直线回归,经常会遇到这种特殊情况,即所求回归直线除了要根据若干对殊情况,即所求回归直线除了要根据若干对观察值进行最佳拟合外,还要求所拟合的直观察值进行最佳拟合外,还要求所拟合的直线必须经过某一定点线必须经过某一定点(X0,Y0)。这在应用光电。这在应用光电比色分析、荧光分析、火焰光度测定以及同比色分析、荧光分析、火焰光度测定以及同位素测定等实验方法来绘制标准直线时常会位素测定等实验方法来绘制标准直
25、线时常会遇到。遇到。Page 65设有设有n对观察值及定点对观察值及定点(X0,Y0),求经过此定点,求经过此定点并拟合此并拟合此n对对(X,Y)值的直线回归方程为:值的直线回归方程为:-Y0=b(X-X0)方程中只有一个待定参数方程中只有一个待定参数b。由最小二乘法。由最小二乘法可得回归系数可得回归系数b的计算公式为:的计算公式为:Y2000)()(XXYYXXb剩余平方和为:剩余平方和为:20200202)()()()(XXYYXXYYYYPage 66剩余标准差为:剩余标准差为:1)(2nYYsXY回归系数标准误回归系数标准误sb为:为:20)(XXssXYb回归系数的检验统计量为:回归
26、系数的检验统计量为:bsbt =n n-1-1 Page 67-1001020304000.050.10.150.20.25含硒量荧光强度01020304000.050.10.150.20.25含硒量荧光强度XY68.175xy223.176078.0Page 68直线回归与直线相关的区别与联系联系均表示线性关系;符号相同:共变方向一致;假设检验结果相同:是否存在共变关系;二者间可以相互换算用回归解释相关总回SSSSrbbrllrblllrllbyxxyxxyyyyxxxyxxxy 2.,Page 69直线回归与直线相关的区别与联系区别r 没有单位,b有单位;所以,相关系数与单位无关,回归系数
27、与单位有关;相关表示相互关系;回归表示依存关系;对资料的要求不同:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析;I型回归:X是精确控制的;II型回归:X是随机的。由X推算Y:由Y推算X:YbaXXbaYYXYXXYXY.Page 70直线相关和回归分析的正确应用1.相关和回归要有实际意义,谨防多个变量间的相关性所带来的虚假关系Page 71鹳带来孩子?Texas鹳的数目和孩子数目的相关系数为0.8250;鹳的数目和妇女数目的相关系数为0.9145;多个变量间的相关带来的假性相关Page 72直线相关和回归分析的正确应用2.充分利用散点
28、图,判断:线性趋势离群值 对资料本身的要求:双变量正态分布 同质性 Page 73散点图的作用飞行员的着陆操作评分(Y)与焦虑程度(X)0XYrPage 74例例 Anscomebe(1973)给出了下表中两个变量给出了下表中两个变量x与与y的的四组数据,其中第一、二、三组的四组数据,其中第一、二、三组的x值相同。请对值相同。请对这四组数据分别作直线回归分析,并加讨论。这四组数据分别作直线回归分析,并加讨论。Page 75四组数据的回归方程均为四组数据的回归方程均为 F=18.0 p=0.00220.50X3.00YPage 76Page 77024681012051015xyPage 780
29、2468101214051015xyPage 790246810121405101520 xyPage 80我国19401988年间不同月份的男性婴儿死亡率()的季节性分析 男性婴儿死亡率()月份Page 81事故发生数与时间的关系170事故数时间(月)0102030405060708090 100 110 120 130 140 150 160400500600700800900100011001200Page 82散点图的作用识别离群值;PQ离群值对相关和回归分析的影响Page 83直线相关和回归分析的正确应用3.当样本含量较大时,统计学检验的作用减小;4.回归关系可以内插,不宜外延;5.
30、应用条件(LINE):线性(linear)独立(independent)给定X时,Y正态分布(normal)等方差(equal variance)Page 84二元正态分布二元正态分布的密度函数为:222211112222221111222211212)1(21exp)1(21),(xxxxxxfPage 85二元正态分布曲面(11=1,22=1,12=0)Page 86二元正态分布曲面(11=1,22=1,12=0)Page 87二元正态分布曲面(11=2,22=4,12=0.75)Page 88二元正态分布曲面(11=2,22=4,12=0.75)Page 89二元正态分布曲面(11=2,22=4,12=0.75)Page 90二元正态分布曲面剖面(11=1,22=1/2,12=0.75)Page 91排除间杂性(a)(b)样本甲观察点 样本乙观察点样本的间杂性对相关和回归的误导Page 92给定X时,Y是正态分布、等方差示意图Page 93给定X时,Y是正态分布、不等方差示意图Page 94男性年龄与血糖的关系 (方差随自变量的增加而增加)glucoseage2030405060708036912Page 9526名病人的胃液pH值及尿亚硝酸盐浓度的散点图 (方差随自变量的增加而增加)尿中亚硝酸盐的浓度尿中亚硝酸盐的浓度胃液的胃液的pHpH值值 Page 96