1、第十二章 线性回归第一节 线性回归模型的建立方法第二节 回归模型的检验与评估第三节 回归方程的应用n类别:n1.自变量数目: 一元回归(一个自变量) 多元回归(多个自变量)n2.变量间关系: 线性回归(直线关系) 非线性回归 注意:回归分析中只能有一个因变量 第一节第一节 线性回归模型的建立方法线性回归模型的建立方法1、用一定模型来表述变量相关关系的方法称为回归分析。2、从广义上说,相关分析包括回归分析。但二者有区别:回归分析是以数学方式表示变量间的关系,而相关分析则是检验或度量这些关系的密切程度,两者相辅相成。一、回归分析与相关分析的关系一、回归分析与相关分析的关系相关与回归是从不同角度对变
2、量间关系的分析:是两个变量之间的,没有主从之分;是两个变量之间的,是自变量对因变量的影响关系。相关关系用来表示,而回归关系用来表示,这种数学模型称为回归方程。二、回归分析的内容二、回归分析的内容1、建立回归方程2、检验方程的有效性3、利用方程进行预测三、回归模型与回归系数三、回归模型与回归系数1.用来表达变量之间规律的数学模型称为回归模型。2.回归模型的分类(1)线性回归模型、非线性回归模型(2)简单回归模型、多重回归模型(3)一元线性回归是指只有一个自变量的线性回归(linear regression),对具有线性关系的两个变量,回归的目的首先是找出因变量(一般记为Y)关于自变量(一般记为X
3、)的定量关系。3 3、一元线性回归方程、一元线性回归方程 回归方程有两个:以X为自变量预测因变量时,方程为: 以Y为自变量预测因变量时,方程为 :XYXYaXbYXYXYaYbXbXaY该直线在该直线在Y轴的轴的截距截距该直线的该直线的斜率斜率对应于对应于X的的Y变量的估计值变量的估计值四、一元线性回归模型建立方法四、一元线性回归模型建立方法 例12-1:下表中10对数据是为确定某心理量与物理量之间的关系而做的实验结果(表中物理量是取对数后的值)。假设两者呈线性关系,试以这10对数据结果建立该心理量与物理量的回归方程。被试ABCDEFGHIJ心理量(X) 1133456789物理量(Y) 02
4、15426257解:将N对数据按奇偶顺序分为两组,然后分别代入设定的回归方程求和,计算b和a第一组(奇数组) 1=a+0b 3=a+1b 4=a+4b 6=a+6b 8=a+5b 22=5a+16b (一)平均数方法(一)平均数方法第二组(偶数组) 1=a+2b 3=a+5b 5=a+2b 7=a+2b 9=a+7b 25=5a+18bXY5 .14 .0与联立,成二元一次方程组:22=5a+16b 25=5a+18b解得a=-0.4,b=1.5,代入设定的方程答:该心理量与物理量的回归方程为XY5 .14 .0(二)最小二乘法1、定义:所谓最小二乘法,就是如果散点图中每一点沿Y轴方向到直线的
5、距离的平方和最小,就是使误差的平方和最小,则在所有直线中这条直线的代表性是最好的,它的表达式就是所要求的回归方程。 2.最小二乘法的原理 设方程 每一点到直线沿Y轴方向的距离平方和为: 求回归方程就是求当该公式达到最小时a和b的值,而要是公式为最小,只需分别对a和b求偏导数,并令其等于零。即bXaYNNXbaYYYiiii12120022biiaiiXbaYXbaY 经整理,并省略X与Y字母下面的下标,上面 两式分别写成: 两边同除以N,得 YXbXaYXbaNX2XbYaXXYYXXb2 例12-2:根据例12-1中的数据,使用最小二乘法求回归方程。 代入公式 得b=0.81 再代入公式 得
6、a=1.95 则,回归方程为:XXYYXXb27 , 4, 4 . 3YXXbYaXY81. 095. 1五、回归系数与相关系数的关系五、回归系数与相关系数的关系2)()(XXYYXXbYX2222YYXXXXYYYYXX22XXYYrXYSSr2)()(XXYYXXbYXXYSSr2)()(YYYYXXbXYYXSSrbbYXXYr同理1.线性关系假设2.正态性假设3.独立性假设 X1,Y1与X2,Y2独立,依次类推 误差项独立4.误差等分散性假设 误差项总和等于0六、线性回归的基本假设六、线性回归的基本假设1、线性关系假设2、正态性假设3、独立性假设4、误差等分散性假设第二节第二节 回归模
7、型的检验与估计回归模型的检验与估计一、回归模型的有效性检验1、回归模型的有效性检验,就是对求得的回归方程进行显著性检验,看是否真实地反映了变量间的线性关系。2、方法 线性回归模型的有效性检验通常使用方差分析的思想和方法进行。根据方差分析的原理,在回归的方差分析中总变异被分解为自变量的变异和误差的变异。其分析过程也是从总平方和的分解到自由度的分解,再到均方,最后是进行自变量对误差影响程度进行比较。 即:总平方和 = 误差平方和 + 回归平方和回归平方和的公式推导如下: TSS所有Y值的总平方和; BSS由回归直线表示的线性关系解释的 那部分离差平方和; eSS回归直线无法解释的那个离差平方和。
8、回归方程效果的好坏取决于回归平方和在总平方和中所占的比例,即 tRSSSS以例12-1的回归方程为例,检验其方程效果。XY81. 095. 11)建立假设H0:方程效果不显著,即自变量X与因变量Y之间没有显著的线性关系。H1:方程效果显著,即自变量X与因变量Y之间存在着显著的线性关系。2 2)方差分析)方差分析 求平方和1 .709 .22029122NYYSST755.316 .11616481.02222NXXbSSR345.38755.311 .70eSS 求均方 求F值 3)比较与决策 当分子自由度为1,分母自由度为8时, 。因为, F5.32,p2.31,p0.05,关系显著。拒绝虚
9、无假设,接受研究假设,表明两个变量之间存在显著的线性关系。57. 2315. 081. 00yxbSEbt8210df 31. 2205. 08t三、决定系数三、决定系数n在回归方程的方差分析中曾指出,回归平方和对总平方和的贡献越大,说明回归方程越显著,因而回归平方和在总平方和中所占的比例是评价回归效果的一个指标。n这个比例越大回归效果越好,若这个比例达到1,则表明此时Y的变异完全由X的变异来解释,没有误差。若为0,则说明Y的变异与X无关,回归方程无效。SSSSYYYYrTR222相关系数的平方等于回归平方和在总平方和中所占的比例。r2叫做决定系数。第三节第三节 回归方程的应用回归方程的应用一
10、、用样本回归方程进行预测或估计 例12-5:下表是20名工作人员的智商和某一次技术考试成绩,根据这个结果求出考试成绩对智商的回归方程。如果另有一名工作人员智商为120,试估计一下若让他也参加技术考试,将会得多少分?被试12345678910智商(X)899712687119101130115108105考试(Y)55748760715490736770被试11121314151617181920智商(X)8412197101 9211012811199120考试(Y)53825860678085737190 1)计算X、Y变量的平均数 2)代入公式计算b,a回归方程为:当x =120时,代入回
11、归方程计算,得:107X71Y73.02XXYYXXbYX11. 710773. 071XbYa11. 773. 0,73. 011. 7或XYXY5 .8011. 712073. 0Y二、真值的预测区间二、真值的预测区间n预测是将已知变量值作为自变量代入相应的回归方程而推算出另一个变量的估计值及置信区间统计方法。预测的标准误:XXXXssipYpYNYX2211)0(XXXXstYipNYXp22211预测区间:预测区间:。为由度分布的临界值,并且自果为小样本,则为正态分布的临界值;如为;如果为大样本,则时,变量分布的临界值为显著水平为等符号同前;代表预测点值;式中:2nt,22ttXsYX
12、npYXp例12-6:当X=97时Y的真值进行估计。 计算预测置信区间查t表,有 ,则置信区间为: 1 1)计算预测标准误)计算预测标准误XXXXssipYYNYXp221103478201127.610797227. 622NYYsYX6.5101.2t18205.0)(36.7704.505 . 6101. 27 .63,即三、回归分析与相关分析的综合运用三、回归分析与相关分析的综合运用1、具体步骤 第一步:将成对资料绘制散点图,从散点图中点子的分布形状判断X和Y是否有线性关系。 第二步:建立回归模型。 第三步:回归方程显著性检验。 第四步:计算回归估计标准误差。 第五步:根据建立的回归模
13、型进行预测,估计真值预测区间。 2 2、注意事项、注意事项一种模型只要在当初抽取样本的同一范围内应用才有效。进行回归与相关分析时,不要认为某一变量发生的变化一定是由另一变量(或另几个变量)的变化所引起的,回归分析并不能准确地确定因果关系。若变量之间不存在相关关系,不要刻意去寻求两变量间的某种关系,并且用回归与相关来分析,这样做毫无意义。 多重线性回归第一节第一节 多重线性回归的概念多重线性回归的概念 多重线性回归是研究一个应变量与多个自变量之间线性依存关系的统计方法,是一元直线回归分析的推广。ppXbXbXbbY 22110式中b0是常数项,bi(i1,2,m)称为偏回归系数。(1)b0是常数
14、项,是各自变量都等于0时,应变量的估计值。有时,人们称它为本底值。(2)b1,b2,bp是偏回归系数,其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位,应变量平均变化的单位数。mmXbXbXbbY 22110与直线回归一样,建立多重回归方程常用最小二乘法(least square method)原理求bi(i1,2,m),再求b0,即求出使估计值 与观测值y之间差异的平方和 达到最小的一组解作为bi的估计值。Y2)( YYppXbXbXbbY 22110多重线性回归模型的前提条件多重线性回归模型的前提条件1. 线性(linear)2. 独立(independent)3. 正
15、态(normal)4. 等方差性(equal variance)例1 同样身高的20名健康男子的收缩压(kPa)、年龄(岁)和体重之间的多元线性回归方程。编号 收缩压 年龄 体重 y x1 x2 1 15.60 50 76.0 2 18.80 20 91.5 3 16.53 20 85.5 4 16.80 30 82.5 5 15.60 30 79.0 6 16.67 50 80.5 7 16.40 60 79.0 8 16.67 50 79.0 9 17.60 40 85.0 10 16.40 50 76.5表1 20名健康男子的收缩压、年龄和体重测定值n20,X1=44.05, X2=82
16、.80,Y=17.82Y=356.35, X1=881, X2=1656.0, X12=41467, X22=137953.5, Y2=6408.2049,X1Y=15788.50,X2Y=29653.27,X1X2=72669.595.26582088141467211l30.277200 .16568815 .7266912l70.836200 .16565 .137953222l28.912035.35688150.157881yl49.1472035.3560 .165627.296532ylmymmmmmymmymmlblblbllblblbllblblbl 221122222121
17、11212111mmXbXbXbyb 221101944. 0,0546. 049.14770.83630.27728.9130.27795.2658212121bbbbbb解方程得:6815. 080.821944. 005.440546. 082.170b1944. 0,0546. 049.14770.83630.27728.9130.27795.2658212121bbbbbb解方程得:6815. 080.821944. 005.440546. 082.170b211944. 00546. 06815. 0XXY由样本计算得到得偏回归系数bi是总体偏回归系数i的估计值,即使总体偏回归系数
18、等于0,但由于抽样误差,仍可使样本偏回归系数bi不等于0,因此仍要作假设检验,以判断其是否有统计学意义。假设检验假设检验 imimiiiXXXY.22111假设检验包括方程的假设检验和每个偏回归系数的假设检验。(一)多元回归方程的假设检验1. 建立假设和确定检验水准: H0:1=2=3=m0 H1:1、2、3、m不全为0 =0.05总 = n-1 回归=m 剩余=n-m-1 误差误差回归回归误差回归SSSSMSFMSSS误差 = SS总 - SS回归mymyylblblbyySS 22112回归误差回归总SSSSYYYYYYSS222)()()(总 = 20-119 回归=2 剩余=20-2-
19、117 31.1117/2829.252/6559.33MS误差误差回归回归误差回归SSSSMSFSS误差 = SS总 - SS回归25.28296559.3349.1471944. 028.910546. 02211yylblbSS回归9388.582035.3562049.6408)(2222nyyYYSS 总n20,X1=44.05, X2=82.80,Y=17.82Y=356.35, X1=881, X2=1656.0, X12=41467, X22=137953.5, Y2=6408.2049,X1Y=15788.50,X2Y=29653.27,X1X2=72669.531.1117
20、/2829.252/6559.33MS误差误差回归回归误差回归SSSSMSF查F界值表得:F0.05(2,17)3.59,FF0.05(2,17),P0.05,因此在=0.05水平上,拒绝H0,可以认为收缩压与年龄和体重之间有回归关系,所建立的回归方程有意义。(二)回归系数的假设检验(二)回归系数的假设检验1. 建立假设和确定检验水准: H0:i=0 H1:i0 =0.052. 计算统计量tibisbt 265. 20241. 00546. 0111bsbt531. 40429. 01944. 0222bsbt查t界值表得:t0.05(17)2.110,t1 t0.05(17),P0.05,因
21、此在=0.05水平上,拒绝H0,可以认为收缩压与年龄之间有线性回归关系。查t界值表得:t0.05(17)2.110,t2 t0.05(17),P0.05,因此在=0.05水平上,拒绝H0,可以认为收缩压与体重之间有线性回归关系。265. 21t531. 42t因为m个自变量都具有各自的计量单位以及不同的变异度,所以不能直接用偏回归系数的数值大小来反映方程中各个自变量对应变量Y的贡献大小。为此,可计算标准化回归系数。missbSSlbbyiiiiii, 2 , 1 总标准化回归系数标准化回归系数1944. 0,0546. 021bb7323. 03677. 0222111yyssbbssbb95
22、.26582088141467211l70.836200 .16565 .137953222l9388.58总SS8298.1112095.26581111nls6360. 612070.8361222nls7613. 11209388.581nSSsy总复相关系数复相关系数总回归SSSSyyyyR227556. 09388.586559.33总回归SSSSRR2称为决定系数,可定量评价y的总变异能被自变量解释的比重。偏相关系数偏相关系数扣除其他变量的影响后,变量y与x的相关,称为y与x的偏相关系数。如:r12.3在一个有统计学意义的方程中,可能某些自变量对应变量影响较大,而另一些影响很弱甚至
23、完全没有意义。为使回归方程中仅包含有意义的自变量,有必要对偏回归系数作检验和进行自变量筛选。自变量筛选的常用方法1. 所有可能自变量子集选择;2. 向前选择法;3. 向后剔除法;4. 逐步选择法自变量筛选的原则:残差均方缩小或调整决定系数(Ra2)增大。 多重线性回归的注意事项:多重线性回归的注意事项:1. 自变量必须是相互独立的;2. 自变量的联合作用;3. 样本含量;4. 正确看待选入和未选入的自变量。 多重共线性问题及对策:多重共线性指的是自变量间存在着近似的线性关系,即某个自变量可以近似地用其他自变量的线性函数来描述。对策:1. 增大样本量;2. 采用多种自变量筛选方法相结合的方式;3. 因子分析和主成分分析;4. 通径分析;5. 岭回归分析;6. 从专业和实际角度,去除次要的、缺失值较多、测量误差较大的共线性因子。