医学统计学课件:直线回归(预防医学).ppt

上传人(卖家):罗嗣辉 文档编号:2089179 上传时间:2022-02-14 格式:PPT 页数:37 大小:568KB
下载 相关 举报
医学统计学课件:直线回归(预防医学).ppt_第1页
第1页 / 共37页
医学统计学课件:直线回归(预防医学).ppt_第2页
第2页 / 共37页
医学统计学课件:直线回归(预防医学).ppt_第3页
第3页 / 共37页
医学统计学课件:直线回归(预防医学).ppt_第4页
第4页 / 共37页
医学统计学课件:直线回归(预防医学).ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

1、线性回归线性回归(linear regression)一、线性回归的概念一、线性回归的概念寻找两变量(寻找两变量(X,Y)的数量比例依从关系,)的数量比例依从关系,建立线性回归方程,以确定当建立线性回归方程,以确定当X为某一定为某一定值时值时Y的变动范围,此法称回归分析。的变动范围,此法称回归分析。其中其中:X表示独立变量或称自变量表示独立变量或称自变量(independent variable), X为固定的为固定的, 没有误差或误差很小;没有误差或误差很小;Y表示依存变量或称应变量表示依存变量或称应变量(dependent variable), 因因X的变化而随机变动的的变化而随机变动的,

2、 存在随机误存在随机误差。差。 二、简单线性回归方程的建立二、简单线性回归方程的建立 (一一)线性回归方程线性回归方程:bxay 表示由表示由X推算推算Y的估计值;的估计值;a:回归直线在回归直线在Y轴上的截距轴上的截距(intercept)即即X0时的时的y的估的估计值;计值;B:回归系数回归系数(regression coefficient)即直线的斜率即直线的斜率(slope),它表示当它表示当X每增加每增加(或减少或减少)一个单位时一个单位时, 随之增加随之增加(或或减少减少 )b个单位。个单位。y y (二)建立最适回归方程的条件:(二)建立最适回归方程的条件:1 1、直线上方各点离

3、回归线的距离(以平行、直线上方各点离回归线的距离(以平行Y Y轴计算)之和与直线下方各点离回归线的距轴计算)之和与直线下方各点离回归线的距离之和绝对值相等离之和绝对值相等, , 但方向相反。但方向相反。 2 2、此直线是使得误差平方和、此直线是使得误差平方和 为为最小值的直线最小值的直线, ,即应变量的实际观察值即应变量的实际观察值Y Y与理论与理论值值 之差的平方和取最小值。之差的平方和取最小值。 2)(yy y 最小二乘法最小二乘法(least square method)xxxyllb/xbyanxxxxlxx/222nyxxyyyxxlxy/使每个实测点到回归方程纵向距离的平方使每个实

4、测点到回归方程纵向距离的平方和,即和,即 最小的方法,称最小二乘法。最小的方法,称最小二乘法。2)(yy (三)直线回归方程的计算(三)直线回归方程的计算(1)(1)根据原始数据绘制散点图根据原始数据绘制散点图, , 若散点图呈直线若散点图呈直线趋势趋势, ,再进行进一步计算。再进行进一步计算。(2)(2)计算计算XX、XX2 2、YY、YY2 2、XYXY。(3)(3)计算计算x x、y y、l lxxxx、l lxyxy。(4)(4)计算回归系数计算回归系数b b和截距和截距a a。(5)(5)列出回归方程。列出回归方程。(6)(6)画直线(回归直线必定通过点画直线(回归直线必定通过点 )

5、。)。),(yx例例2 用分光光度计测物质含量用分光光度计测物质含量, 其光密度读数其光密度读数与物质含量有关与物质含量有关, 现有丙酮酸钠含量现有丙酮酸钠含量(mol/L)与光与光密度读数密度读数, 要求标准曲线。要求标准曲线。 表表4 4 丙酮酸钠含量与光密度读数丙酮酸钠含量与光密度读数 表表1 某大学一年级女生体重与肺活量某大学一年级女生体重与肺活量序序 号号 体体 重重 ( kg) 肺肺 活活量量 ( L) 1 42 2.55 2 42 2.20 3 46 2.75 4 46 2.40 5 46 2.80 6 50 2.81 7 50 3.41 8 50 3.10 9 50 3.46

6、10 52 2.85 11 58 3.50 12 58 3.00 三、线性回归方程的假设检验三、线性回归方程的假设检验(一)回归系数的显著性检验(一)回归系数的显著性检验 目的:目的:样本是否来自总体回归系数样本是否来自总体回归系数=0的总的总体体 1.平方和与自由度的分解平方和与自由度的分解 2.线性回归方程的显著性检验线性回归方程的显著性检验(1)方差分析法)方差分析法(2)t检验检验yy yyy yyyxypo图图5 5 应变量应变量Y Y的平方和划分示意图的平方和划分示意图第一段第一段 ,表示,表示P P点与回归直线的点与回归直线的纵向距离,即实际值与估计值之差。纵向距离,即实际值与估

7、计值之差。第二段第二段 ,表示估计值与均数之差。,表示估计值与均数之差。第三段第三段 ,表示应变量,表示应变量Y Y的均数。的均数。yyyyy) ()(yyyyyy Y Y的离均差平方和,即总平方的离均差平方和,即总平方和和(total sum of square),用用SSSS总总表示表示, , 说明未考虑说明未考虑X X与与Y Y的回归关系时的回归关系时Y Y的变异。的变异。总总= = 回回+ + 剩剩=N-1=N-12 yy222yyyyyy 22yyyyyyyyyyyyyy2220yyyy 回归值回归值 与平均数与平均数 之差之差的平方和的平方和, ,回归平方和回归平方和(regres

8、sion sum of square), 用用SSSS回回表示。表示。Y Y的这部分变的这部分变异是可以通过控制异是可以通过控制X X的值而避免的。或者的值而避免的。或者说作了回归后能使总平方和减少的部分说作了回归后能使总平方和减少的部分, , 所以该值越大所以该值越大, ,说明回归效果越好。说明回归效果越好。回回= =自由变量的个数自由变量的个数=1=1 Ms Ms回回SSSS回回/回回 2 yyy y 所有观察点距回归直线的剩余所有观察点距回归直线的剩余的平方和的平方和, , 它是除了它是除了X X对对Y Y的线性影响之外的的线性影响之外的一切因素对一切因素对Y Y变异的作用变异的作用,

9、, 称它为剩余平方称它为剩余平方和和( (或残差平方和或残差平方和) )(residual sum of square), , 用用SSSS剩剩表示表示, , 也就是在总平方和中也就是在总平方和中无法用无法用x x 解释的部分解释的部分. .在散点图中,各实测在散点图中,各实测点与回归直线越近,其值越小点与回归直线越近,其值越小, ,说明直线回说明直线回归的估计误差越小。归的估计误差越小。剩剩=N-2=N-2 Ms Ms剩剩SSSS剩剩/ /剩剩2 yy方差分析法方差分析法基本思想:将基本思想:将SSSS总总分解为分解为SSSS回回与与SSSS剩剩两个部分。两个部分。直线回归方程的显著性检验的

10、无效直线回归方程的显著性检验的无效假设是假设是H H0 0:0 (0 (为总体回归系为总体回归系数数) ) 公式:公式:F FMSMS回回/MS/MS剩剩 表表6 6 回归显著性检验方差分析表回归显著性检验方差分析表变变异异来来源源 自自由由度度 平平方方和和 均均方方 F F 值值 P P值值 回回归归 1 1 剩剩余余 N N- -2 2 总总变变异异 N N- -1 1 22 xxb1/22 xxb2 yy2yy 2/2Nyy22 xxb 2/2Nyy表表5 5 回归显著性检验方差分析表回归显著性检验方差分析表 回归系数回归系数b的的t检验检验1 1、标准估计误差(剩余标准差)、标准估计

11、误差(剩余标准差) 指当指当X X对对Y Y的影响被扣除后,的影响被扣除后,Y Y仍有仍有剩余变异,其变异的程度可用剩余变异,其变异的程度可用S Sy,xy,x来衡来衡量,故用量,故用S Sy,xy,x来反映来反映Y Y的剩余变异的剩余变异, ,即即 的变异的变异: : 2/2,nyySxyy 表表7 7 残差的计算表残差的计算表x x y y 1 1 1 1. .0 0 1 1. .1 12 2 - -0 0. .1 12 2 0 0. .0 01 14 44 4 2 2 2 2. .1 1 2 2. .0 09 9 0 0. .0 01 1 0 0. .0 00 00 01 1 3 3 3

12、 3. .2 2 3 3. .0 06 6 0 0. .1 14 4 0 0. .0 01 19 96 6 4 4 4 4. .2 2 4 4. .0 03 3 0 0. .1 17 7 0 0. .0 02 28 89 9 5 5 4 4. .8 8 5 5. .0 00 0 - -0 0. .2 20 0 0 0. .0 04 40 00 0 合合计计 0 0 0 0. .1 10 03 30 0 yy2) (yy y 检验假设:检验假设:H H0 0: : =0=0H H1 1: : 00公式:公式:2,/xxSSxybbbbSbSbt/02 2、回归系数、回归系数b b的的t t检验检

13、验四、直线回归的区间估计四、直线回归的区间估计(1 1)总体回归系数)总体回归系数的估计的估计(2 2) 的估计:的估计: 是总体是总体X X为某定值时为某定值时 的均数,其标准误为:的均数,其标准误为: 的的1-1-的可信区间为:的可信区间为:YYY22/1xxxxnSSxyYYynSty2, bStb,(3) (3) 个体个体Y Y值的容许区间:即值的容许区间:即X X为某定为某定值时,个体值时,个体Y Y值的波动范围,其标准值的波动范围,其标准差为差为S SY Y: 个体个体Y Y值的值的1-1-的可信区间为:的可信区间为:22/11xxxxnSSxyYYnSty2,1、试估计例、试估计

14、例2的总体回归系数的总体回归系数的可信区间。的可信区间。 bt0.05,(n-2)sb2、试估计、试估计X=3.5时,时, 的的95%的可信区间。的可信区间。3、试估计、试估计X=3.5时,个体时,个体Y值的值的95%容许区间。容许区间。 Y22)2( ,05. 0/1xxxxnStyxyn22)2( ,05. 0/11xxxxnStyxyn例:例:五、直线回归方程的应用五、直线回归方程的应用(1)描述两变量之间的依存关系。)描述两变量之间的依存关系。(2)利用回归方程进行预测)利用回归方程进行预测(forecast)。把预报。把预报因子(自变量因子(自变量X)代入回归方程对预报量)代入回归方

15、程对预报量(应变量(应变量Y进行估计,其波动范围可按求进行估计,其波动范围可按求个体个体Y值容许区间方法计算)值容许区间方法计算)(3)利用回归方程进行统计控制)利用回归方程进行统计控制(statistical control)。利用回归方程进行逆估计,如要。利用回归方程进行逆估计,如要求应变量求应变量Y在一定范围内波动,可以通过在一定范围内波动,可以通过控制自变量控制自变量X的取值来实现。的取值来实现。做回归分析要有实际意义,必须对两种做回归分析要有实际意义,必须对两种现象的内在联系有所认识。现象的内在联系有所认识。在进行直线回归分析之前,应绘制散点在进行直线回归分析之前,应绘制散点图,观察

16、点的分布有否直线趋势,再决图,观察点的分布有否直线趋势,再决定是否行回归分析。定是否行回归分析。直线回归方程的适用范围一般以自变量直线回归方程的适用范围一般以自变量的取值范围为限,在此范围内求出的估的取值范围为限,在此范围内求出的估计值。计值。六、应用直线回归方程的注意事项六、应用直线回归方程的注意事项 第五节第五节 线性相关与回归线性相关与回归的区别与联系的区别与联系 1. 1. 区别区别(1)(1)在资料要求上在资料要求上: : 回归要求应变量回归要求应变量Y Y是随机是随机变量变量, , 服从正态分布服从正态分布, , 自变量自变量X X是固定的非随机是固定的非随机变量。而相关则要求双变

17、量正态分布。变量。而相关则要求双变量正态分布。(2) (2) 在意义上在意义上: : 回归反映两变量间的依存关回归反映两变量间的依存关系系, , 相关反映两变量间的相互关系。相关反映两变量间的相互关系。(3)(3)在应用上在应用上: : 说明两变量间依存变化的数说明两变量间依存变化的数量关系用回归量关系用回归, ,说明变量之间有无关系说明变量之间有无关系, ,以及关系以及关系的性质和程度用相关。的性质和程度用相关。2. 2. 联系联系 (1)(1)同一资料的同一资料的r r、b b正负号相同正负号相同: : 如如r r为正为正, , 说明说明x x增大增大( (或减小或减小), y), y也增

18、大也增大( ( 或减小或减小); b); b为正为正, , 说明说明x x增加增加( (或减少或减少) )一个单位一个单位, y, y平均增加平均增加( (或减或减少少)b)b个单位。个单位。(2)r(2)r和和b b的假设检验是等价的的假设检验是等价的, , 即对同一样本即对同一样本, , 两者的两者的t t值相等值相等, t, tr rt tb b。 由于由于r r的假设检验可直的假设检验可直接查表接查表, , 较为简单较为简单, , 而而b b的假设检验较繁琐的假设检验较繁琐, , 故故可用可用r r 的假设检验代替的假设检验代替b b的假设检验。的假设检验。(3)r(3)r与与b b可

19、以互相解释。可以互相解释。1 1、下列(、下列( )式可出现负值)式可出现负值 a.a. b. b. c. c. d. d.nyylyy/)(222yylyy2xxlxxyyxxlxy实习题实习题2 2、直线回归分析中,、直线回归分析中,X X的影响被扣除后,的影响被扣除后,Y Y方面的变异可用指标(方面的变异可用指标( )表示。)表示。 a.a. b. b. c. c. d. d. 2/2,nyySxy2,/xxSSxyb22/1xxxxnSSxyY22/11xxxxnSSxyY3 3、r rr r0.05(n-2)0.05(n-2)时,可认为两变量时,可认为两变量X X与与Y Y间()间(

20、) a.a.有一定关系有一定关系 b.b.有正相关关系有正相关关系 c.c.一定没有直线关系一定没有直线关系 d.d.有直线关系有直线关系4 4、已知、已知r=1r=1时,则一定有(时,则一定有( )a.b=1 b.a=1 c.sa.b=1 b.a=1 c.sy,xy,x=0 d.s=0 d.sy,xy,x=s=sy y5 5、用最小二乘法确定直线回归方程的原则是各观、用最小二乘法确定直线回归方程的原则是各观察点(察点( )a.a.距直线的纵向距离相等距直线的纵向距离相等b.b.距直线的纵向距离的平方和最小距直线的纵向距离的平方和最小c.c.与直线的垂直距离相等与直线的垂直距离相等d.d.与直

21、线的垂直距离的平方和最小与直线的垂直距离的平方和最小6 6、回归系数的假设检验(、回归系数的假设检验( )a.a.只能用只能用r r的检验代替的检验代替b.b.只能用只能用t t检验检验c.c.只能用只能用F F检验检验d.d.三者均可三者均可7 7、某地方病研究所调查了、某地方病研究所调查了8 8名正常儿童的尿名正常儿童的尿肌酐含量(肌酐含量(mmol/24hmmol/24h)如下表。计算)如下表。计算8 8名儿童名儿童的尿肌酐含量与其年龄的相关系数并检验。的尿肌酐含量与其年龄的相关系数并检验。8 8、估计尿肌酐含量(、估计尿肌酐含量(Y Y)对其年龄()对其年龄(X X)的回)的回归方程并检验其是否成立。归方程并检验其是否成立。编编 号号 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 年年 龄龄 X 1 13 3 1 11 1 9 9 6 6 8 8 1 10 0 1 12 2 7 7 尿尿 肌肌 酐酐 含含 量量Y Y 3 3. .5 54 4 3 3. .0 01 1 3 3. .0 09 9 2 2. .4 48 8 2 2. .5 56 6 3 3. .3 36 6 3 3. .1 18 8 2 2. .6 65 5

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(医学统计学课件:直线回归(预防医学).ppt)为本站会员(罗嗣辉)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|