1、10 简单线性回归分析,线性相关分析 linear correlation analysis,相关(correlation)和回归(regression)分析 :研究两个或多个变量间相互关系的统计方法。,简单线性回归分析 simple linear regression analysis,:研究两个变量间的数量依存关系的统计方法。,Francis Galton,英国生物学家统计学家 生物统计学的创始人 英美数理统计学派最早的代表人物 创立和发展的“相关”与“回归” 用统计方法研究遗传和进化的第一人。,F. Galton和英国统计学家 K. Pearson对上千个家庭的身高等作了测量,发现一个有
2、趣的现象:,Galton将这种趋向于种族稳定的现象称之“回归”。,儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:,糖尿病人:血糖胰岛素 儿童:年龄体重;体表面积体重 父亲身高子女身高 收入水平受教育程度 体重身高及胸围 商品销售额广告费支出 。,“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究:,描述变量间的关联; 分析影响因素:从影响Y 的诸多变量X 中找出有统计学意义的,并定量描述某个X 对Y 影响的大小。 预测和控制: 预测:根据一个或几个X 取值预测 变量Y 的上下限。 控制:预把 Y 限制在某取值范围,须控制
3、X的上下限。,回归分析:从一组样本数据出发,拟合变量间的回归方程,并作假设检验;从而更精确的解释变量间的关系。,医学应用:,注意:什么是回归关系? 指一个变量的取值不能由另一个变量唯一确定。,回归分析,1个因变量Y,1个自变量X,2个以上自变量X,Y是数值变量,Y是分类型变量,常用的回归分析中分类:,10.1 概 述 。 10.2 简单线性回归模型 。,如何定量地描述两者的关系 线性回归的前提条件 回归方程有统计学意义吗? 回归方程的解释 回归方程的统计应用,10.1 概 述,例10.1 为研究大气污染一氧化氮(NO)的浓度是否受到汽车流量等因素的影响,选择24个工业水平相近的一个交通点,统计
4、单位时间过往的汽车数(千辆),同时检测空气中一氧化氮(NO)的浓度(10-6),数据如下表。,问: 考虑NO浓度和车流量的关系,问之间是否存在数量依存关系?,1. 线性回归分析 linear regression analysis,:研究一个变量和另外一些变量间线性数量关系的统计分析方法。,1. 基本概念,简单线性回归 simple linear regression,多重线性回归 muptiple linear regression,:涉及多个变量(自变量、解释变量)时称。,:模型中只包含两个有“依存关系”的变量,一个变量随另一个变量的变化而变化,且呈直线变化趋势,叫。,分类,2. 简单线性
5、回归的两个变量:,因变量dependent variable或反应变量 response variable: 是按某种规律变化的随机变量,是被估计的被预测的变量。用“Y”表示。,解释变量explanatory variable或自变量 independent variable 或预测因子 predictor :可看作影响因素,是能独立自由变化的变量,是“Y”所依存的变量,常用“X”表示,可是随机变量,也可是人为控制或选择的变量。,若 Y 随X1、X2、Xm的改变而改变:,线性回归的分类:,I 型回归 :因变量(Y)是随机变化的,但自变量(X)可以不随机 ,当它是能够精确测量和严密控制的量时,叫
6、Y 关于X 的I型回归。,II型回归 :因变量(Y)和自变量(X)都是随机变化的,叫Y 关于X 的II型回归。,表12-1 不同IgG浓度下的沉淀环数据,10.2 简单线性回归模型,例: 只考虑NO浓度和车流量的关系,问之间是否存在数量依存关系?,线性回归分析的步骤:,1. 绘制散点图,2. 简单线性回归方程: 通常,研究者只能获得一定数量的样本数据,用样本数据,先拟合有关Y依从X变化的样本回归方程。,称 为Y 的预测值;其意义为固定 x时,Y 的总体均数 YX 的点估计值。 a:常数项(constant),x =0时回归直线在Y 轴上的截距 ( intercept ),即x 取值为0时,Y的
7、平均估计值。 b :回归系数(regression coefficient),回归线的斜率(slope),它描述了Y的取值中,由自变量x所决定的部分,即可以由x直接估计的部分。,b样本回归系数( regression coefficient ),b 的统计学意义:x 每增加(或减少)一个单位,y 平均改变了个b 单位; b越大,表示 y 随 x 增减变化的趋势越陡。,b 0, 表明Y与X呈同向线性变化趋势 b =0, 表明Y与X无线性回归关系,但可能有其它关系 b 0, 表明Y与X呈反向线性变化趋势, YX= +X,总体回归方程:, 总体回归系数:X 每增加(减少)一个单位,Y 平均改变了个
8、单位; 越大表示Y 随 X 增减变化趋势越陡。, 0, 表明Y与X呈同向线性变化趋势 =0, 表明Y与X无线性回归关系,但可能有其它关系 0, 表明Y与X呈反向线性变化趋势,让所有点的 的平方和最小,用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的纵向距离)平方和达到最小。,回归参数的估计:最小二乘估计 (least square estimation),回归方程:,用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小。即:使下列的SSE达到最小值。,以NO浓度为Y,以车流量为X,作线性回归分析。,解:由样本数据了解计算统计量,带入下公式,求出回归系数b,作
9、回归直线图,带入下公式,求出回归截矩a,最小二乘法原则下的回归方程为:,3.回归方程有统计学意义吗? 总体回归方程和系数的统计推断:,就总体而言,这种回归关系是否存在?即总体回归方程是否成立?, YX= +X,假设检验,回归模型的假设检验(model test):,回归系数的假设检验:,目的:检验求得的回归方程在总体中是否成立; 方法:单因素方差分析。,目的:即检验总体回归体系数是否为0(=0); 方法:t 检验。,(1) 回归模型的假设检验方差分析,SS总= SS回归+ SS残差,v总= v回归+ v残差,变异的分解:,问:所求得的回归方程在总体中是否成立?,均方:MS=SS/v,回归均方:
10、MS回归=SS回归/v回归 残差均方: MS残差=SS残差/v残差,检验统计量:,查F界值表(P572),确定单侧临界值Fa(v回归, v残差), 求概率值 P,下结论,1. 建立假设,确定检验水准 H0 :总体回归方程不成立, 即总体中自变量X对因变量Y没有贡献; H1 :总体回归方程成立, 即总体中自变量X对;因变时Y有贡献。 =0.05 (单侧),查F 界值表(P572):a =0.05,v回归=1、 v残差=n-2=22,得:F(k-1, n-k)= F(1,22) =4.30,3. 确定P值,作出推断结论: 由于F=41.3764.30,则P0.05,故拒绝H0,接受H1,可认为在a
11、 =0.05 的显著水平上,NO浓度与车流量之间的回归方程具有统计学意义。,2. 计算检验统计量F值:,决定系数:回归平方和与总平方和之比。 0R21 反映了自变量X对回归效果的贡献,即Y的总变异中回归关系所能解释的百分比(variance account formula,VAF); 反映了回归模型的拟合效果,可作为反应拟合优度(goodness of fit)的指标。,上例题:SS总=0.0812, SS回归=0.0530 R2= SS回归/ SS总=0.0530/0.0812=0.6527=65.27% 解释: 说明空气中NO浓度总变异的65.27%与车流量有关。,(2) 回归系数的假设检
12、验 t 检验,=0,说明Y与X之间并不存在线性关系 0,说明Y与X之间存在线性关系,即:对于X 的任何值,总体均数 YX 没有任何改变,故建立Y与的直线回归方程就没有任何意义了,故是否为0,涉及到所建立的回归方程是否有意义的问题。然而从=0的总体抽得样本,计算出的回归系数b很可能不为零,需要对是否等于0进行假设检验t检验,t 检验:,检验过程:,注意:,1.在简单线性回归模型中,对回归模型的方差分析等价于对回归系数的t 检验,即有:,2.对于服从双变量正态分布的同样一组资料,同时作相关分析和回归分析,则相关系数的 t检验与回归系数数的t 检验等价,即有:,4. 总体回归系数的区间估计:,已知b
13、为回归系数的样本估计值,Sb为样本回归系数的标准误, 则总体回归系数的双侧1-置信区间为:,上例题中b=0.1584,Sb=0.0246,v=22,查t 界值表得:t0.05/2,22=2.074;则其总体回归系数的双侧95置信区间为:,b t/2,v Sb,0.1584 2.074 0.0246=(0.1074,0.2095),【电脑实现】SPSS,1. 数据录入,2. 作散点图:,3. 读散点图,作线性趋势判断:,4.线性回归分析:,5. 结果及结果输出:,回归分析结果:,1. 当车流量为0时,空气中NO浓度的预测值是 - 0.135,(显然这只是个理论值,因为此值不可能为负) 2.车流量
14、每增加一个单位,空气中NO深度的预测值增加0.158。 3.确定系数R2=65.27%,说明空气中NO浓度总变异的65.27%与车流量有关,说明车流量在空气污染中影响还是很大的。,线性回归分析的步骤:,5. 简单线性回归适用条件:,仅适用于1个因变量 x和1个应变量 y。 要求数据满足线性、独立性、正态性、方差齐性的要求。 注意样本中的极端值,必要时可剔除或进行变量变换。,简单线性回归 (simple linar regression),前题条件:,line,normal 正态性,equal variance 等方差性,反应变量Y 的总体平均值与自变量X呈线性关系,在一定范围内任意给定值,则对
15、应的随机变量服从正态分布,在一定范围内,对应于不同X值,Y总体变异程度相同,linear 线性,图12-3 线性回归模型的适用条件示意图,6. 回归方程的统计应用:,定量描述两变量之间的依存关系。 利用回归方程进行统计预测。 利用回归方程进行统计控制。,(1) 统计预测:将X值作预报因子,固定总体中X为某定值Xi时, 估计个体Y值的容许区间,即Y值的波动范围。,统计应用预测:当车流量为1300辆,求空气中一氧化氮95%的容许区间。,答:,已知回归方程,X=1.300时:,故空气中NO的98%容许区间为:,回归方程应用预测,个体预测值和其95%参考值区间的保存,个体 Y 预测值的区间估计:批当固
16、定x某定值时,个体 y 值的参考值范围的波动范围。,95%个体Y 预测值区间:表示95%的数据点所落入的范围。,个体容许区间,例:当车流量为1300辆,求空气中一氧化氮95%的置信区间。,答:,已知回归方程,X=1.300时:,故空气中NO的95%置信区间为:,总体回归线的置信区间:对回归线的总体进行置信区间的估计,该区间估计范围在散点图上表现为一个二维空间的弧形区带,称(confidence band)。,95%回归线的置信区间:两条弧形曲线所形成的区域包含真实总体回归线的置信度是95%。,均数的置信区间,均数的置信区间和个体容许区间的不同:,个体容许区间,均数的置信区间,(2)统计控制:该
17、城市为降低空气中NO的含量,拟对车流量进行适当的控制,根据空气污染指数分级,要求空气中氮氧化合物含量不超过0.1000.15010-6 。,已知回归方程,答:,故该城市单位时间内车流量应控制在1500辆以内,最多不超过1800辆,否则会导致轻度污染的发生。,简单线性回归分析的注意事项: 1. 要注意线性回归实际意义: 不能将回归模型的分析结果随意延伸到因果关系 2. 绘制散点图观察两变量的关系以及找出异常点; 3. 注意自变量和因变量的变化范围。,2. 均数置信区间:当X值为某定值,并给定置信度1- ,考察Y的总体均数的分布时,可估计Y的总体均数 YX的1-置信区间。,小 结,简单线性回归是指
18、只包含一个自变量,且呈线性变化趋势的回归模型,用于描述因变量的总体均数与自变量之间的线性关系,即两变量间的依存变化关系。 简单线性回归的基本步骤: 绘制散点图, 在最小二乘法原则下建立线性回归方程,即估计回归系数与截距; 对回归方程或回归系数进行假设检验; 列出回归方程,绘制回归直线; 统计解释及应用。,线性回归模型的适用条件为:线性、独立、正态和等方差,简称LINE。 决定系数反映了回归平方和在总平方和中所占的比例,常用来反映回归的实际效果。 线性回归常用于统计预测和统计控制。 当两变量变化趋势为非线性时,可考虑拟合非线性回归议程,常用的曲线类型包括指数曲线,多项式曲线、双典线和logist
19、ic曲线等。 注意线性相关与线性回归的区别与联系。,回归分析,1个因变量Y,1个自变量X,2个以上自变量X,Y是数值变量,Y是分类型变量,常用的回归分析中分类:,该方法是作什么用的? 应用该方法资料需要满足什么条件? 怎么去实现该方法?正确调用统计分析程序 对输出的结果怎么从统计、专业层面去解释?,针对某一特定统计学方法学习的重点:,相关分析是用来描述两变量的相关关系,当两变量满足双变量正态分布时,可以计算Pearson积差相关系数,如果有任何一个变量不满足正态分布或为等级资料,需计算Spearman秩相关系数。 回归分析是用来刻画两变量的依存关系,它要求资料满足LINE(线性、独立、正态和等
20、方差),二者之间既有联系又有区别。,案例辨析一:年龄与身高预测研究,某地调查了418岁男孩与女孩身高,数据见下表,试描述男孩与女孩身高与年龄间的关系,并预测10.5岁、16.5岁、19岁与20岁男孩与女孩的身高。,表10-5 男孩身高对年龄的简单线性回归分析结果,采用SPSS对身高与年龄进行回归分析,结果如下表所示。,表12-6 女孩身高对年龄的简单线性回归分析结果,经拟合简单线性回归模型,t 检验结果提示回归方程有非常显著的统计学意义。结果提示,拟合效果非常好,故可认为: (1)男孩与女孩的平均身高随年龄线性递增,年龄每增长1岁,男孩与女孩身高分别平均增加5.27,4.53,男孩生长速度快于
21、女孩的生长速度。 (2)依照回归方程预测该地男孩10.5、16.5、19和20岁的平均身高依次为139.12、170.77、183.96和189.23,该地女孩10.5、16.5、19和20岁的平均身高依次为136.04、163.24、174.58和179.11.,针对以上分析结果,请考虑: (1)分析过程是否符合回归分析的基本规范? (2)回归模型能反映数据的变化规律吗? (3)拟合结果和依据回归方程而进行的预测有问题吗? (4)男孩生长速度快于女孩生长速度的推断是否有依据?,案例辨析 :未绘制散点图,盲目进行简单线性回归分析;若实际资料反映两变量之间呈现某种曲线变化趋势,用简单线性回归方程
22、去描述其变化规律就是不妥当的。 正确做法: 分析策略:作散点图,选择曲线类型,合理选择模型,统计预测。,(1)作散点图,由图可见,随着年龄的增加,身高也增加,但呈曲线变化趋势,1516岁后,增加趋势逐渐趋于平缓。因此适合于拟合曲线回归方程。 (2)选择曲线类型,进行统计分析,几种曲线方程拟合结果如下。,结果摘要: (1)模型参数估计 Dependent Variable: 男孩身高,The independent variable is 年龄,(3)选择合理的模型,列出回归方程。 (4)统计预测。,案例辨析二:贫血患者的血清转铁蛋白的研究,为研究某种新药治疗贫血患者的效果,将20名贫血患者随机
23、分成两组,一组用新药,另一组用常规药物治疗,测得血红蛋白增加量(g/L)见表6-1。问新药与常规药治疗贫血患者后的血红蛋白增加量有无差别?,,t=4.137。,王医生认为可以作线性回归分析。在该数据中涉及了两个变量,一是观察效应变量(连续性),即血红蛋白增加量,将之作为回归分析中的因变量;另外一个变量为处理因素(二分类变量),即影响因素,将之作为自变量,其中新药组=1,常规药组=0。数据转换为双变量资料形式,经分析得回归方程, ,t=4.137。,请考虑: (1)王医生的分析方法对不对? (2)回归分析能代行两样本均数t检验的任务吗? (3)通过这个案例的实践,你得到哪些启发?,答案: 王医生的分析方法是对的; 回归分析能代行两样本均数t检验的任务。,思考题:,1. 应用直线回归和相关分析时应注意哪些问题? 2. 简述线性回归分析与线性相关的区别与联系。 3. 举例说明如何利用回归方程进行统计预测和控制。 4. 回归分析时怎样确定因变量与自变量?,THANK YOU!,