1、 第十一章简 单 线 性 回 归h本章内容v线性回归;v线性回归的应用v 残差分析;v非线性回归。hv双变量计量资料:每个个体有两个变量值;v总体:无限和有限对变量值;v样本:从总体随机抽取的n对变量值;(X1,Y1),(X2,Y2),(X3,Y3),(Xn,Yn)v目的:研究X和Y的数量关系;v方法:回归h“回归”一词的来由v“回归”一词最早由Golton在一项有关父亲与儿子身高的研究中提出,他发现儿子身高(y,英寸)和父亲(x,英寸)身高存在线性关系:vY=33.73+0.516X身材高大的父亲 儿子的身高 人群的平均身高身材矮小的父亲回归回归h 后来人们借助“回归”一词来描述通过自变量的
2、数值预测反应变量的平均水平。“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”和“回归系数”等统计学概念。例如:研究糖尿病病人血糖和其胰岛素水平的关系,研究儿童体重和年龄的关系。hv 容易测得的指标(如身高、体重、肺活量)v 相对难测的指标v(如心室血输出量、用药剂量、体循环总血量)v通过对产妇的尿雌三醇含量的检测来估计腹中胎儿体重,以便采取必要的措施降低生产过程的难产风险。估计为了通过可测或易测的变量对未知或难测或不可测量的状态进行估计,可以借助回归分析。h第一节 简单线性回归h左图的相关系数就没有右图的大,相关系数反映了散点的疏密。h 左图中当X每增加一个单位时
3、,Y平均增加的较多,而在右图中当X增加一个单位时Y平均增加的少。即左图中X的变动对Y值得影响要比右图中大,这一信息是相关分析所无法传达的,需要回归分析来研究。hv在上一章中,对14名4060岁的健康妇女的体重(X)与基础代谢(Y)数据计算了相关系数(),定量地描述了变量X与Y间的线性关联性。现在试用回归分析的方法,从预测的角度来描述基础代谢(Y)如何依存体重(X)的变化而变化的规律性。v(1)如果我们知道了一名健康妇女的基础代谢,能推断出 体重是多少吗?(2)体重可能在什么范围内呢?(3)基础代谢(X)每增加1单位,体重(Y)变化多少呢?上面的相关关系分析不能提供给我们需要的答案。这些要用线性
4、回归的方法来解决。964.0rhv(1 1)当我们知道了两个变量之间有直线相关关当我们知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫关系,它们之间的关系式叫函数方程函数方程。v(2 2)但在实际生活当中,由于其它因素的干扰,)但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,许多双变量之间的关系并不是严格
5、的函数关系,不能用函数方程反映,为了区别于两变量间的函不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为数方程,我们称这种关系式为线性回归方程线性回归方程,这,这种关系为线性回归种关系为线性回归.h一、线性回归的概念及其统计描述v目的:研究应变量Y和自变量X的数量依存关系,建立一个方程式,从而可由X变量的大小推算出Y变量的估计值。v特点:特点:统计关系。统计关系。X X和和Y Y的均数的关系,不同的均数的关系,不同于一般数学上于一般数学上X X和和Y Y的函数关系。的函数关系。h 反应变量(Y)依赖于另一自变量(X)简单线性回归模型表述为:YX:为第i个个体的反应变量值:为其
6、自变量值:为回归直线的截距参数:为回归直线的斜率参数XXY|hYa bX :是由自变量X推算应变量Y的估计值 (读作Y hat)a:是回归直线在Y轴上的截距,即X=0时的Y值;b:为样本的回归系数,即回归直线的斜率,表示 当X变动一个单位时,Y平均变动b个单位。Y由样本数据建立的有关Y依X变化的回归方程:h280033003800430048005300580030354045505560657075体重(kg)基础代谢(KJ/day)图12-1 14例中老年健康妇女的基础代谢与体重的回归直线 hv(1)在实际应用中,线性回归中的自变量还可以是能够精确测量和严密控制的量,但因变量Y必须是随机变
7、化的。v例如某研究者应用单向环状免疫扩散法,在固定IgG浓度下测得琼脂免疫板上沉淀环直径的数据见表12-1,以此研究沉淀环直径(Y)如何依存IgG浓度(X)的变化规律。数据的散点图见图12-2,散点的分布具有线性趋势,我们称为I型回归。v(2)前述健康妇女的体重(X)与基础代谢(Y)两者都是随机变化的,那里Y 关于X的回归称为II型回归。h123454.05.56.27.78.5IgG浓度(IU/ml)X沉淀环直径(mm)Y表12-1 不同IgG浓度下的沉淀环直径数据h二、二、线性回归模型的适用条件线性回归模型的适用条件h线性(linear)v指反应变量Y的总体平均值与自变量X呈线性关系。v解
8、决办法:绘制散点图或残差图。观察散点的形态来判断线性假设是否成立。h独立(independent)v(2)每个个体观察值之间相互独立独立,如果该条 件不满足,名义上有n个个体的资料,实际 上提供的信息却没有这么多,导致回归估 计值不够准确和精确;v解决办法:利用专业知识。h正态性(nomal)v线性模型的误差项服从正态分布,如果该条件不成立,在正态分布假设下对总体回归系数的假设检验和置信区间估计的结论均无意义。v解决办法:残差的直方图、正态概率图来考察这一条件是否成立。h方差相等(equal variance)v指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。v如果这一条件不满足,
9、回归参数的估计有偏性,置信区间估计及检验的结论均无效。v解决办法:采用散点图或残差的散点图判断等方差性。hv样本回归方程 是对两变量总体间线性关系的一个估计。根据散点图我们可以假定:对于X各个取值,相应Y的总体均数yIx在一条直线上,表示为。XXY|Ya bX 若把上述线性回归模型的适用条件的四个关键英语单词的首写字母连在一起,恰好为“LINE”,便于记忆。模型的线性、正态性以及方差齐性可用图11-3表示。h 线性回归模型的适用条件示意图h三、回归参数的估计(一)回归参数估计的最小二乘法原则;(一)回归参数估计的最小二乘法原则;(二二)回归参数的估计方法回归参数的估计方法 h(一)回归参数估计
10、的最小二乘法原则;(一)回归参数估计的最小二乘法原则;h 要使 是 最适合的直线,必须满足下列条件:v(1)直线上方各点离回归线的距离(以平行于Y轴计算)之和与直线下方各点离回归线的距离之和绝对值相等,但方向相反,因此:YabXhv(2)此直线是使得误差平方和 为最小值的直线,即因变量的实际观察值y与理论值 之差的平方和取最小值。2 yyyhy每一个x值实际的y值估计的 值误差 yy0yy2yy误差平方和为最小值最小二乘法理论上误差越小越好误差越小越好hh(二)回归参数的估计方法例12-1 计算例11-1的基础代谢(Y)关于体重(X)的线性回归方程。1 由样本数据计算如下统计量:n1i2in1
11、iiiXXYYXXbn1i2n1ii2in1in1iin1iiiinXXnYXYXbXbYah4229.61)()(121niiniiiXXYYXXb7864.1106142.7774229.61149.63232XbYaXY42.6179.1106得回归方程为:h四、总体回归系数 的统计推断v 建立了样本回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还必须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 0。v 我们知道,即使X、Y的总体回归系数为零,由于抽样误差的存在,样本回归系数b也不一定为零。因此需作总体回归系数是否为零的假设检验,可用方差分析或 t 检验。hh
12、v 无论X如何取值,总体Y总在一条水平线上,即=0,总体直线回归方程不成立。然而在一次随机抽样中,如果所得样本为实心圆点所示,则会得到一个并不等于0的回归系数。和0相差多大可以认为具有统计学意义,可用方差分析和t检验来回答这一问题。hv1.方差分析 F=MS组间/MS组内v2.t检验 回归系数的假设检验vH0:=0 H1:0v=0.05v选择合适的假设检验方法,计算统计量v计算概率值Pv做出推论:统计学结论和专业结论当变量Y服从正态分布时,回归系数的统计学检验可用t检验,也可用方差分析bbstbh1.方差分析v理解回归中方差分析的基本思想,需要对应变量Y的离均差平方和做分解。hY的离均差,总变
13、异残差hv任意点p(X,Y)离过 的水平线的距离可分成两段:v第一段长度为 ,是p点与回归直线的纵向距离,即前述的实测值Y与其估计值之差,称为残差(residual)。v第二段长度为(),是估计值与均数之差。它的大小与回归系数b有关,越大,也越大;反之亦然。YYYYY bYY hv 为Y的离均差平方和,反映在回归之前,Y的变异;v 为回归之后残差平方和。v 正是回归的贡献,记为 ,称为回归平方和。反映在Y的总变异中由于X与Y的直线关系而使Y的总变异减少的部分,即在Y的总变异中可以用X解释的部分,越大,说明回归效果越好。222)()()(YYYYYY残回总SSSSSS经数学推导可得下式:经数学推
14、导可得下式:总SS残SS残总SSSS回SS回SSh1 n总1回2 n残残回总残回MSMSF 回回回SSMS残残残SSMS求得F值后查F界值表(附表3.1)得到P值,并按水准作出总体回归系数是否为零的结论,即推断X与Y的总体回归方程是否成立。H0:=0,H1:0 hv例12-2 试对例11-1资料的样本回归方程作假设检验(用方差分析)。h检验步骤:vH0:=0 即基础代谢与体重之间无线性回归关系vH1:0 即基础代谢与体重之间有线性回归关系v=0.050121.4645447)(2YYSS总一、建立假设检验,确定检验水准二、计算检验统计量2962.327219)(2YYSS残7159.43182
15、272962.3272190121.4645447残总回SSSSSS361.1582747.272687159.4318227残回MSMSFhv三、查表,得P值,v已知1=回=1,2=残=n2=12,查F界值表得F=4.75,今求得F=158.3614.75,则P0.05v四、做统计推断v按=0.05水准拒绝H0,差异有统计学意义。可认为体重与基础代谢之间有线性回归关系。h变异来源P回归4318227.7214318227.72158.360.05残差327219.301227268.27总变异4645447.0113F表12-2 线性回归的方差分析表SSdfMShbbSbt0XXXYblSS
16、2)(XXlXX2nSSSXY残(二二)t 检验检验h :样本回归系数b的标准误n1i2i,XXxybSS2nYYSn1i2iix,ybShv v由 ,查t界值表得 ,今求得 tb=12.5842.179,则P0.05,按=0.05水准拒绝H0,差异有统计学意义。结论同前。v例12-3 试对例11-1资料的样本回归方程作假设检验(用t 检验)。1311.1652142962.3272192nSSSXY残8810.45771.11441311.165XXXYblSS584.12881.44229.61bbSbt12179.212,2/05.0th(三)总体回归系数 的置信区间v类似总体均数的置信
17、区间,参数 的置信区间为:b2n,Stb2n,t相应于自由度为n-2的t分布双侧尾部面积为1-的t界值。h(四四)决定系数决定系数v意义:取值在0到1之间,且无单位。它反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系所能解释的比例。v例如:在实际应用中,通过用决定系数来反映回归的实际效果。如例12-1,=0.930,说明4060岁健康妇女的体重信息大约可以解释自身基础代谢信息量的93%,还有剩余的7%的信息则通过体重以外的其它因素来解释。说明用体重来预测基础代谢量的实际效果较佳。总回SSSSR 22R2Rhv对于简单回归,可以证明,回归平方和与总离均差平方和之比恰好等于相关系数的平方。
18、但是,对于下一章要学的多重回归,这一性质并不成立。h第二节 线性回归的应用利用回归方程进行估计和预测h1.1.预测(预测(forecastforecast)(给定(给定X X值,估计值,估计Y Y)2.2.控制控制 (给定(给定Y Y值范围,求值范围,求X X值范围)值范围)第二节 线性回归的应用利用回归方程进行估计和预测h一、统计预测一、统计预测v利用回归方程进行统计预测(prediction)是回归分析最重要的应用。所谓预测就是将预报因子(自变量X)代入回归方程对预报量进行估计。v(一一)Y Y 的总体均数的置信区间的总体均数的置信区间v(二二)个体个体Y Y 值的预测区间值的预测区间h(
19、一一)Y的总体均数的置信区间的总体均数的置信区间给定给定X=Xp时,时,Y的总体均数的总体均数 的点估计值为的点估计值为;Y的总体均数的点估计值因样本而异,存在抽样误差,反映其抽样误差大小的标准误:成正比与回归的剩余标准差的标准误,XYYpSS Y p(1)当同时考虑X的所有可能取值时,Y的总体均数的点估计值就是根据样本算得的回归直线:pXY|h(2)给定某一X值时可以算出所对应的总体均数的置信区间,当同时考虑X的所有可能取值所对应的总体均数的置信区间时,其1-置信区间的上下限连起来形成一个弧形区带,称为回归直线的1-置信带。在直角坐标系表示一条中间窄、两端宽的带子。h1-置信带的意义:在满足
20、线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内,置信度为1-h表示可能的总体回归线,它们均落在虚线所确定的置信带内。上下两侧弧形虚线为总体回归线的1-置信区带。h二、个体Y值的预测区间v总体中,当Xp为某一固定值时,个体Y 值围绕着对应于Xp值的 波动,v所谓预测就是把预报因子(自变量X)代入回归方程对总体中预报量(应变量Y)的个体值进行估计。pYh准差为:准差为:(1)个体个体Y值的值的1-预测区间为:预测区间为:(2)对应于所有X值的Y的预测区间,以相应的X为横坐标,Y为纵坐标,将预测区间的上下限分别连起来形成的两条弧形线间的区域,称为Y值的预测带。见图12-6
21、中离回归直线较远的虚线带。可见,在相同置信度下,个体值预测带的曲线要比回归线置信带的曲线离回归直线更远。hh可信区间与预测区间的区别:v给定X=X0时,相应的Y的均数的可信区间与其个体Y值的预测区间的含义是不同的。v可信区间可信区间:表示在固定的X0处,如果反复抽样100次,可算出100个相应的总体均数的可信区间,平均有100X(1-)可信区间包含总体均数;v预测区间预测区间:表示一个预测值的取值范围,即预测100个个体值中平均有100X(1-)个个体值在求出的范围内。h二、统计控制二、统计控制v 统计控制(statistical control)是利用回归方程进行逆估计,即若要求因变量Y在一
22、定数值范围内变化,可以通过控制自变量X的取值来实现。h第三节 残差分析v残差定义:v观测值与估计值(回归模型拟合值)之差。意义:(1)反映模型与数据拟合优劣的信息。(2)识别异常点。iiiYYe符号表示:h对于例12-1,第一点的残差为:同样可以算出各点的残差,将各点的残差减去其均数,除以其标准差,可得标准化残差。构成的散点图,这类散点图统称标准化残差图。如:1e=4175.64220.784=-45.184 h图12-7 基础代谢依体重数据回归的标准化残差图h离群点的判断v1.当标准化残差图中散点的分布,绝大部分在2倍标准差之间,在以0参考线的上下随机且均匀地散布时,可以认为模型与数据拟合得
23、较好;v2.一般认为在3标准差以外区域出现的点所对应的原始数据为离群点;v3.在2标准差以外、3标准差以内区域出现的点所对应的原始数据可能为离群点。h图a、b中散点的分布呈扩张或收缩的喇叭型,表明误差的方差随着Y 的增大而增大或减小,表明误差不满足方差齐性;abcdef图c中散点呈弯曲的点带形状,显示存在非线性关系;图d中散点呈线性趋势的点带形状,表明可能漏掉了另外的自变量 图e显示在3倍标准差以外有一个离群点,而在2倍标准差和3倍标准差之间有三个可疑值 图f显示模型恰当h第四节 非线性回归v 在医学科研实践中,两个连续型变量间并非都呈现线性关系。v 如:药物在体内的浓度与时间的关系、细菌在溶
24、液中繁殖数量与时间的关系、放射性同位素随时间而衰减的关系等都属于非线性关系。v一、通过自变量的变换实现线性化h图12-9 1995年中国022岁居民身高均数随年龄的变化情况h非线性关系的回归模型的建立:v非线性回归(non-linear regression)v或称曲线拟合(curve fitting)h一、非线性回归分析的基本策略一、非线性回归分析的基本策略v首先绘制两个变量的散点图,观察点的分布趋势,根据分布趋势的形状,可选择如下不同的分析过程:v1.曲线直线化(linearization)当散点分布的形状接近某些常见的函数曲线时,我们可以尝试采取变量变换的方法,使变换后的两个变量之间呈直
25、线关系(通过散点图判断)。求出直线回归方程后,再将方程中的变量还原,便得到曲线回归方程。v2.非线性回归 当不能通过变量变换的方法使曲线直线化或直接进行曲线拟合时,需利用非线性最小二乘估计的原则,采用迭代计算方法获得非线性回归方程。h曲线直线化的一般步骤为:v1.绘制原始数据Y与X的散点图,观察散点分布形态 类似于何种常用函数类型;v2.按照所选定的函数进行适宜的变量变换,得到X 与Y;v3.绘制变换后数据Y与 X的散点图,观察散点分布 形态是否呈直线趋势,从而确定曲线类型,否则 重复1、2步直至满足散点分布呈直线趋势;v4.作Y关于X的线性回归方程并进行假设检验;v5.根据第2步的变量变换式
26、进行反变换,得到原始 数据Y与X的曲线方程。h例12-6v某研究者测得某女童19月的身高数据,如表12-4所示。试用合适的回归模型描述该月龄段女童的身高随时间变化的规律。时间(月)123456789身高(cm)545761636466676869表12-4 某女童19月的身高数据h4045505560657075012345678910时间(月)身高(cm)404550556065707500.20.40.60.811.21.41.61.822.22.4ln时间(月)身高(cm)图12-10 某女童19月的身高与时间的散点图 图12-11 身高与取对数的时间的散点图hhv分别拟合三种不同的回归
27、模型的结果,发现:在所拟合的三种模型中,以X对数函数回归的效果最佳。v因为该模型拟合的残差均方最小,多重平方相关系数最大。hhh直线相关和回归应用注意的事项:h1、根据分析目的选择变量及统计方法v直线相关用于说明两变量之间直线关系的方向和密切程度,X和Y没有主次之分;v直线回归更进一步地用于定量刻画应变量Y队自变量X在数值上的依存关系。根据专业要求定应变量,可以把易于精确测量的变量作为X,另一个随机变量作为Y,如用身高估计体表面积。h2、进行相关、回归分析前应作散点图v直线相关分析要求X、Y服从双变量正态分布。直线回归要求至少对于每个X相应的Y要服从正态分布,x可以是服从正态分布的随机变量也可
28、以是能精确测量和严格控制的非随机变量。v散点图可以考察数据是否满足这一分布条件较为直观的方法。hv如果图中发现有明显偏离主体数据的观测,称为异常点。对异常点的识别和处理要从专业知识和现有数据量方面来考虑。只有认真核对原始数据并检查其产生过程是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔出或采用其他估计方法。h3 用残差图考察数据是否符合模型假设条件v对于线性回归模型通常采用最小二乘法来估计回归系数,并在此基础上作进一步判断h直线回归与相关的区别与联系直线回归与相关的区别与联系v区别:区别:1.资料:资料:2.回归回归 Y正态随机变量,正态随机变量,X为选定变量;为选定
29、变量;3.X、Y服从双变量正态分布。服从双变量正态分布。相关相关4.2.应用应用:5.回归回归 由一个变量值推算另一个变量值由一个变量值推算另一个变量值6.相关相关 只反映两变量间互依关系只反映两变量间互依关系 3.回归系数有单位回归系数有单位,相关系数无单位相关系数无单位hv方向一致:r与b 的正负号一致v假设检验等价:tb=trv用回归解释相关:决定系数联系:联系:hSPSS回归分析h1直线回归分析v数据文件:例11-1v数据格式:1个自变量“X”,一个 应变量“Y”v过程:将两组拆分,分别作回归分析vAnalyzevRegressionvlinearvdependent:YvIndependent:X(自变量)hSpend more time with your family and friends,eat your favorite foods,visit the places you love.hThank you!h
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。