医学精品课件:10-简单线性回归分析(一附院).ppt

上传人(卖家):罗嗣辉 文档编号:5253846 上传时间:2023-02-26 格式:PPT 页数:84 大小:3.79MB
下载 相关 举报
医学精品课件:10-简单线性回归分析(一附院).ppt_第1页
第1页 / 共84页
医学精品课件:10-简单线性回归分析(一附院).ppt_第2页
第2页 / 共84页
医学精品课件:10-简单线性回归分析(一附院).ppt_第3页
第3页 / 共84页
医学精品课件:10-简单线性回归分析(一附院).ppt_第4页
第4页 / 共84页
医学精品课件:10-简单线性回归分析(一附院).ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

1、1010 简单线性回归分析简单线性回归分析卢洁卢洁 副教授副教授 郑州大学公共卫生学院郑州大学公共卫生学院 卫生统计卫生统计统计统计描述描述抽样分布抽样分布参数估计:参数估计:点估计、区间估计点估计、区间估计定量资料定量资料算术均数、算术均数、中位数等中位数等集中趋势:集中趋势:离散趋势:离散趋势:极差、极差、四分位数间距、方差、四分位数间距、方差、标准差、变异系数标准差、变异系数定性资料:频率型指标、强度型指标、比定性资料:频率型指标、强度型指标、比 统计表和统计图统计表和统计图统计统计推断推断变量变量概率分布:正态分布概率分布:正态分布假设假设检验检验差异性差异性检验检验非参数检验非参数检

2、验秩和秩和参数检验:参数检验:t 检验、检验、方差分析等方差分析等定性资料定性资料实验设计实验设计分组数分组数定量资料定量资料实验设计:三要素、四原则、实验设计方案、样本含量估算实验设计:三要素、四原则、实验设计方案、样本含量估算知识框架:知识框架:多重线性回归、多重线性回归、logistic回归、生存分析回归、生存分析简单相关分析和简单相关分析和简单回归分析简单回归分析相关和相关和回归回归 该方法是作什么用的?该方法是作什么用的?应用该方法资料需要满足什么条件?应用该方法资料需要满足什么条件?怎么去实现该方法?怎么去实现该方法?正确调用统计分析程序正确调用统计分析程序 对输出的结果怎么从统计

3、、专业层面去解释?对输出的结果怎么从统计、专业层面去解释?针对针对某一特定统计学方法某一特定统计学方法学习的重点:学习的重点:两变量间关联研究两变量间关联研究是否有联系,联系是否有联系,联系程度、方向如何?程度、方向如何?简单相关分析简单相关分析常数常数 定量描述其定量描述其依存关系依存关系 简单回归分析简单回归分析关联性关联性(association)依存性依存性(relationship)数学模型:数学模型:Y=f(x)Francis Galtonu英国生物学家统计学家英国生物学家统计学家u生物统计学的创始人生物统计学的创始人u英美数理统计学派最早的英美数理统计学派最早的代表人物代表人物u

4、创立和发展的创立和发展的“相关相关”与与“回归回归”u用统计方法研究遗传和进用统计方法研究遗传和进化的第一人。化的第一人。F.Galton和英国统计学家和英国统计学家 K.Pearson对上千个家对上千个家庭的身高等作了测量,发现一个有趣的现象:庭的身高等作了测量,发现一个有趣的现象:Galton将这种将这种趋向于种族稳定的现象称之趋向于种族稳定的现象称之“回归回归”。儿子身高儿子身高(Y,英寸,英寸)与父亲身高与父亲身高(X,英寸,英寸)存在线性存在线性关系:关系:33.730.516YX 糖尿病人血糖与其胰岛素水平的关系,糖尿病人血糖与其胰岛素水平的关系,儿童年龄与体重的关系、儿童年龄与体

5、重的关系、父亲身高与子女身高之间的关系、父亲身高与子女身高之间的关系、收入水平与受教育程度之间的关系、收入水平与受教育程度之间的关系、体重与身高及胸围之间的关系、体重与身高及胸围之间的关系、体表面积与体重之间的关系、体表面积与体重之间的关系、商品销售额与广告费支出之间的关系商品销售额与广告费支出之间的关系 等。等。“回归回归”已成为表示变量之间某种数量依存关系已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出的统计学术语,相关并且衍生出“回归方程回归方程”“”“回归回归系数系数”等统计学概念。如研究:等统计学概念。如研究:u描述变量间的关联;描述变量间的关联;u分析影响因素:从影响

6、分析影响因素:从影响Y 的诸多变量的诸多变量X 中找出有统计学中找出有统计学意义的,并定量描述某个意义的,并定量描述某个X 对对Y 影响的大小。影响的大小。u预测和控制:预测和控制:预测:根据一个或几个预测:根据一个或几个X 取值预测取值预测 变量变量Y 的上下限。的上下限。控制:预把控制:预把 Y 限制在某取值范围,须控制限制在某取值范围,须控制X的上下限。的上下限。回归分析:回归分析:从一组样本数据出发,拟合变量间的回归方从一组样本数据出发,拟合变量间的回归方程,并作假设检验;从而更精确的解释变量间的关系。程,并作假设检验;从而更精确的解释变量间的关系。医学应用:医学应用:简单线性回归分析

7、简单线性回归分析10.1 10.1 概概 述述 。10.2 10.2 简单线性回归模型简单线性回归模型 。如何定量地描述两者的关系如何定量地描述两者的关系线性回归的前提条件线性回归的前提条件回归方程有统计学意义吗?回归方程有统计学意义吗?回归方程的解释回归方程的解释回归方程的统计应用回归方程的统计应用10.1 10.1 概概 述述例例10.1 为研究大气污染一氧化氮(为研究大气污染一氧化氮(NO)的浓度)的浓度是否受到汽车流量、气候状况等因素的影响,是否受到汽车流量、气候状况等因素的影响,选择选择24个工业水平相近的一个交通点,统计单个工业水平相近的一个交通点,统计单位时间过往的位时间过往的汽

8、车数汽车数(千辆),同时在低空相(千辆),同时在低空相同高度测定了该时间段同高度测定了该时间段平均气温平均气温()、空气)、空气湿度湿度()、()、风速风速(m/s)以及空气中)以及空气中一氧化氮一氧化氮(NO)的浓度)的浓度(10-6),数据如下表。),数据如下表。1.线性回归分析线性回归分析 linear regression analysis:研究一个变量和另外一些变量间线性数量关系的:研究一个变量和另外一些变量间线性数量关系的统计分析方法。统计分析方法。1.基本概念基本概念简单线性回归简单线性回归 simple linear regression多重线性回归多重线性回归 muptipl

9、e linear regression:涉及多个变量(自变量、解释变量)时称:涉及多个变量(自变量、解释变量)时称。:模型中只包含两个有:模型中只包含两个有“依存关系依存关系”的变量,一的变量,一个变量随另一个变量的变化而变化,且呈直线变个变量随另一个变量的变化而变化,且呈直线变化趋势,叫化趋势,叫。分分类类2.2.简单线性回归的两个变量:简单线性回归的两个变量:因变量因变量dependent variable或或反应变量反应变量 response variable:是按某种规律变化的随机变量,是被估计的被预测的是按某种规律变化的随机变量,是被估计的被预测的变量。用变量。用“Y”表示。表示。解

10、释变量解释变量explanatory variable或或自变量自变量 independent variable 或或预测因子预测因子 predictor :可看作影响因素,是能独立自由变化的变量,是:可看作影响因素,是能独立自由变化的变量,是“Y”所依存的变量,常用所依存的变量,常用“X”表示,可是随机变量,表示,可是随机变量,也可是人为控制或选择的变量。也可是人为控制或选择的变量。若若 Y 随随X1、X2、Xm的改变而改变的改变而改变:10.2 10.2 简单线性回归模型简单线性回归模型例:例:只考虑只考虑NO浓浓度和车流量的度和车流量的关系,问之间关系,问之间是否存在数量是否存在数量依存

11、关系?依存关系?(一)绘制散点图(一)绘制散点图Ya bx 线性回归分析的步骤线性回归分析的步骤:绘制绘制散点图散点图:1.线性趋势?线性趋势?2.异常值或强影响点?异常值或强影响点?估计回归系数估计回归系数b和常数项和常数项a回归方程和回归系数回归方程和回归系数 的假设检验的假设检验参数估计参数估计:总体回归系数:总体回归系数的区间估计的区间估计回归方程的统计应用回归方程的统计应用n方程:方差分析方程:方差分析n回归系数:回归系数:t 检验法检验法预测和控制、影响因素分析预测和控制、影响因素分析XbYa21)()(XXYYXXbiniii最小二乘估计最小二乘估计 Y X=+X 散点图显示车流

12、量与空气中散点图显示车流量与空气中NO浓度有线性趋势关浓度有线性趋势关系,因此考虑拟合系,因此考虑拟合线性回归方程线性回归方程(linear regression model),即有:),即有:回归直线的截距参数回归直线的截距参数(intercept)回归直线的斜率参数回归直线的斜率参数(slope)又称回归系数又称回归系数(regression coefficient)(二)简单线性回归方程(二)简单线性回归方程总体回归系数总体回归系数(regression coefficient)的统计学意义:的统计学意义:X每增加(或减少)一个单位,每增加(或减少)一个单位,Y 平平均改变了个均改变了个

13、 单位;单位;越大,表示越大,表示Y 随随X 增减变化的增减变化的趋势越陡。趋势越陡。n 0,表明表明Y与与X呈同向线性变化趋势呈同向线性变化趋势n=0,表明表明Y与与X无线性回归关系,但可能有其它关系无线性回归关系,但可能有其它关系n 0,表明表明Y与与X呈反向线性变化趋势呈反向线性变化趋势 通常情况下,研究者只能获得一定数量的样本数据,通常情况下,研究者只能获得一定数量的样本数据,用用样本数据样本数据建立的有关建立的有关Y依从依从X变化的线性表达式称为变化的线性表达式称为回归方程(回归方程(regression equation),记为:),记为:Ya bx 称称 为为Y 的预测值;其意义

14、为固定的预测值;其意义为固定 X时,时,Y 的总体均数的总体均数 Y X 的点估计值。的点估计值。a与与b分别为回归模型参数分别为回归模型参数和和的估计值,的估计值,b称为称为样本回归系数。样本回归系数。以样本数据,可算出以样本数据,可算出和和的估计值的估计值a 和和 b。后在。后在直角坐标系以直角坐标系以X为横坐标,为横坐标,为纵坐标作图,图形为纵坐标作图,图形是一条直线,斜率为是一条直线,斜率为b,截距为,截距为a。YYYYa bx iiYY让所有点的让所有点的 的平方和最小的平方和最小iiYYv用最小二乘法拟合直线,选择用最小二乘法拟合直线,选择a和和b使其使其残差残差(样本点到(样本点

15、到直线的纵向距离直线的纵向距离)平方和平方和达到最小。达到最小。(三)回归参数的估计:(三)回归参数的估计:最小二乘估计最小二乘估计least square estimation回归参数的估计方法:回归参数的估计方法:),.,2,1(,)()(21niLLXXYYXXbxxxyiniii()XbYa()Ya bx 回归方程:回归方程:22()(-)iiiiSSEyyy a bx 用最小二乘法拟合直线,选择用最小二乘法拟合直线,选择a和和b使其残差(样使其残差(样本点到直线的垂直距离本点到直线的垂直距离)平方和达到最小。即平方和达到最小。即:使下列的使下列的SSE达到最小值。达到最小值。以以NO

16、浓度浓度为为Y,以车流量以车流量为为X,作线性,作线性回归分析。回归分析。解:解:由样本数据了解计算统计量,带入下公式,求出由样本数据了解计算统计量,带入下公式,求出回归系数回归系数b1584.0)()(21XXYYXXbiniii1353.0XbYaXY1584.01353.0作回归直线图作回归直线图带入下公式,求出回归截矩带入下公式,求出回归截矩a最小二乘法原则下的回归方程为:最小二乘法原则下的回归方程为:10.2.4 回归方程有统计学意义吗?回归方程有统计学意义吗?总体回归系数总体回归系数的统计推断:的统计推断:i样 本样 本Ya bx 样本回归方程样本回归方程就总体而言,这种回归关系是

17、否存在?就总体而言,这种回归关系是否存在?即总体回归方程是否成立?即总体回归方程是否成立?Y X=+X假设检验假设检验回归模型的假设检验回归模型的假设检验(model test):):回归系数的假设检验:回归系数的假设检验:目的:检验求得的回归方程在总体中是目的:检验求得的回归方程在总体中是否成立;否成立;方法:单因素方差分析。方法:单因素方差分析。目的:目的:即检验总体回归体系数即检验总体回归体系数是否是否为为0(=0););方法:方法:t 检验。检验。1.回归模型的假设检验回归模型的假设检验方差分析方差分析 YYYYYY变异的分解:变异的分解:变异的种类变异的种类 产生原因产生原因解释解释

18、SS总总:Y的离均差平方和的离均差平方和 没有利用没有利用X的信息的信息时,时,Y 观察值的变异观察值的变异 反映因变量反映因变量Y的总变异的总变异SS回归回归:(回归平方和)(回归平方和)当自变量当自变量X引入引入 模型后所引起的变模型后所引起的变异异反映在反映在Y的总变异中,的总变异中,可可用用Y与与X的线性关系解释的的线性关系解释的那部分变异那部分变异。SS回归回归越大,越大,说明回归效果越好。说明回归效果越好。SS残差残差:(残差平方和)(残差平方和)总变异中无法用总变异中无法用X和和Y的回归关系解释的回归关系解释的那部分变异的那部分变异反应自变量反应自变量X以外因素对以外因素对Y的变

19、异的影响的变异的影响。表示考虑。表示考虑回归之后,回归之后,Y的随机误差。的随机误差。问:所求得的回归方程在总体中是否成立?问:所求得的回归方程在总体中是否成立?均方:均方:MS=SS/v回归均方:回归均方:MS回归回归=SS回归回归/v回归回归残差均方:残差均方:MS残差残差=SS残差残差/v残差残差2nSSSSSSSSMSMSF残差回归残差残差回归回归残差回归检验统计量:检验统计量:查查F界值表界值表(P572),确定单侧临界值),确定单侧临界值Fa a v回归回归,v残差残差,求概率值求概率值 P,下结论,下结论1.建立假设,确定检验水准建立假设,确定检验水准 H0:总体回归方程不成立,

20、总体回归方程不成立,即总体中自变量即总体中自变量X对因变量对因变量Y没有贡献;没有贡献;H1:总体回归方程成立,总体回归方程成立,即总体中自变量即总体中自变量X对;因变时对;因变时Y有贡献。有贡献。a a=0.05(单侧)(单侧)查查F 界值表(界值表(P572):):a=0.05,v回归回归=1、v残差残差=n-2=22得:得:F(k-1,n-k)=F(1,22)=4.303.确定确定P值,作出推断结论:值,作出推断结论:由于由于F=41.3764.30,则,则P0.05,故拒绝,故拒绝H0,接受,接受H1,可认为在可认为在a a=0.05 的显著水平上,的显著水平上,NO浓度与车流量之间浓

21、度与车流量之间的回归方程具有统计学意义。的回归方程具有统计学意义。2.计算检验统计量计算检验统计量F值:值:决定系数:回归平方和与总平方和之比。决定系数:回归平方和与总平方和之比。u0R21u反映了自变量反映了自变量X对回归效果的贡献,即对回归效果的贡献,即Y的总变异的总变异中回归关系所能解释的百分比(中回归关系所能解释的百分比(variance account formula,VAF););u反映了回归模型的拟合效果,可作为反应拟合优反映了回归模型的拟合效果,可作为反应拟合优度(度(goodness of fit)的指标)的指标。2R1SSSSSSSS 回归残差总总上例题:上例题:SS总总=

22、0.0812,SS回归回归=0.0530 R2=SS回归回归/SS总总=0.0530/0.0812=0.6527=65.27%解释:解释:说明空气中说明空气中NO浓度总变异的浓度总变异的65.27%与车流量与车流量有关。有关。2.回归系数的假设检验回归系数的假设检验 t 检验检验 =0,说明,说明Y与与X之间并不存在线性关系之间并不存在线性关系 0,说明,说明Y与与X之间存在线性关系之间存在线性关系由总体回归方程由总体回归方程 Y X=+x 当当=0=0时,时,Y X=即:对于即:对于X X 的任何值,总体均数的任何值,总体均数 Y X 没有任何改变,没有任何改变,故建立故建立Y Y与与的直线

23、回归方程就没有任何意义了的直线回归方程就没有任何意义了故故 是否为是否为0,涉及到所建立的回归方程是否有意义的问,涉及到所建立的回归方程是否有意义的问题。然而题。然而从从=0的总体抽得样本,计算出的回归系数的总体抽得样本,计算出的回归系数b很很可能不为零可能不为零,需要对,需要对 是否等于是否等于0进行假设检验进行假设检验t检验检验t 检验:检验:22,2XXnSSXXSSXYb残差bbSbt02 n检验过程:检验过程:注意:注意:1.在简单线性回归模型中,在简单线性回归模型中,对回归模型的方对回归模型的方差分析差分析等价于等价于对回归系数的对回归系数的t 检验检验,即有:,即有:2.对于服从

24、双变量正态分布的同样一组资料,对于服从双变量正态分布的同样一组资料,同时作同时作相关分析和回归分析,则相关分析和回归分析,则相关系数的相关系数的 t检验与检验与回归系数数的回归系数数的t 检验检验等价,即有:等价,即有:Ft brtt(五)总体回归系数(五)总体回归系数的区间估计:的区间估计:已知已知b为回归系数的样本估计值,为回归系数的样本估计值,Sb为样本回为样本回归系数的标准误,归系数的标准误,则总则总体回归系数体回归系数的双侧的双侧1-1-置信区间为:置信区间为:上例题中上例题中b=0.1584,Sb=0.0246,v=22,查查t 界值表界值表得:得:t0.05/2,22=2.074

25、;则其总体回归系数;则其总体回归系数的双侧的双侧95置信置信区间为:区间为:b t/2,v Sb0.1584 2.074 0.0246=(0.1074,0.2095)22,2XXnSSXXSSXYb残差【电脑实现电脑实现】SPSS 1.数据录入数据录入 2.作散点图:作散点图:3.读散点图,作线性趋势判断:读散点图,作线性趋势判断:4.线性回归分析线性回归分析:5.结果及结果输出:结果及结果输出:回归分析结果:回归分析结果:车流量158.0135.0 y1.当车流量为当车流量为0时,空气中时,空气中NO浓度的预测值是浓度的预测值是-0.135,(显然这只是个理论值,因为此值不可能为负)(显然这

26、只是个理论值,因为此值不可能为负)2.车流量每增加一个单位,空气中车流量每增加一个单位,空气中NO深度的预测值增加深度的预测值增加0.158。3.确定系数确定系数R2=65.27%,说明空气中,说明空气中NO浓度总变异的浓度总变异的65.27%与车流量有关,说明车流量在空气污染中影响还与车流量有关,说明车流量在空气污染中影响还是很大的。是很大的。10.2.3 简单线性回归适用条件简单线性回归适用条件u仅适用于仅适用于1个因变量个因变量 x和和1个应变量个应变量 y。u要求数据满足要求数据满足线性线性、独立性独立性、正态性正态性、方方差齐性差齐性的要求。的要求。u注意样本中的极端值,必要时可剔除

27、或进注意样本中的极端值,必要时可剔除或进行变量变换。行变量变换。简单线性回归简单线性回归(simple linar regression)前题条件:前题条件:l i n enormal正态性正态性equal variance等方差性等方差性反应变量反应变量Y 的的总体平均值总体平均值与自变量与自变量X呈呈线性关系线性关系在一定范围内任在一定范围内任意给定值,则意给定值,则对应的随机变量对应的随机变量服从正态分布服从正态分布在一定范围内,在一定范围内,对应于不同对应于不同X值,值,Y总体变异程度总体变异程度相同相同linear线性线性independent独立性独立性指任意两指任意两个观察值个观

28、察值互相独立互相独立 3X1Y2Y3YYX2X1X Y X=+XiN(+Xi,2)图图12-3线性回归模型的适用条件示意图线性回归模型的适用条件示意图10.2.6 回归方程的统计应用:回归方程的统计应用:u定量描述两变量之间的依存关系。定量描述两变量之间的依存关系。u利用回归方程进行统计预测。利用回归方程进行统计预测。u利用回归方程进行统计控制。利用回归方程进行统计控制。10.2.6.1 统计预测统计预测:将:将X值作值作预报因子预报因子,固定总体中,固定总体中X为为某定值某定值Xi时,时,估计估计个体个体Y值的容许区间值的容许区间,即,即Y值的波动值的波动范围。范围。YnStY2,2/a22

29、11XXXXnSSiY,Y统计应用统计应用预测:预测:当车流量为当车流量为1300辆,求空气中一氧辆,求空气中一氧化氮化氮95%的容许区间。的容许区间。答答:XY1584.01353.0已知回归方程已知回归方程0707.03.11584.01353.0YX=1.300时时:故空气中故空气中NO的的98%容许区间容许区间为为:62101467.00000.01124.24035.13.124110358.0074.20707.0回归方程应用回归方程应用预测预测个体预测值个体预测值和和其其95%参考值区间参考值区间的保存的保存个体个体 Y 预测值的区间估计预测值的区间估计:批当固定批当固定x某定值

30、时,个某定值时,个体体 y 值的参考值范围的波动范围。值的参考值范围的波动范围。95%个体个体Y 预测值区间预测值区间:表示:表示95%的数据点所落入的范围。的数据点所落入的范围。YnStY2,2/a个体容许区间个体容许区间例例:当车流量为:当车流量为1300辆,求空气中一氧化氮辆,求空气中一氧化氮95%的置的置信区间。信区间。答答:XY1584.01353.0已知回归方程已知回归方程0707.03.11584.01353.0YX=1.300时时:故空气中故空气中NO的的95%置信区间置信区间为为:621008675.005465.01124.24035.13.12410358.0074.20

31、707.0总体回归线的置信区间总体回归线的置信区间:对回归线的总体进行置信区对回归线的总体进行置信区间的估计,该区间估计范围在散点图上表现为一个二维间的估计,该区间估计范围在散点图上表现为一个二维空间的弧形区带,称空间的弧形区带,称(confidence band)。)。95%回归线的置信区间回归线的置信区间:两条弧形曲线所形成的区域包含:两条弧形曲线所形成的区域包含真实总体回归线的置信度是真实总体回归线的置信度是95%。均数的置信区间均数的置信区间均数的置信区间均数的置信区间和和个体容许区间个体容许区间的不同:的不同:个体容许区间个体容许区间均数的置信区间均数的置信区间 统计应用统计应用控制

32、控制:该城市为降低空气中:该城市为降低空气中NO的含量,拟的含量,拟对车流量进行适当的控制,根据空气污染指数分级,要对车流量进行适当的控制,根据空气污染指数分级,要求空气中氮氧化合物含量不超过求空气中氮氧化合物含量不超过0.1000.15010-6。XY1584.01353.0已知回归方程已知回归方程答答:千辆时当千辆时当801.11584.0/135.0150.010150.0485.11584.0/135.0100.010100.0162161,XY,XY故该城市单位时间内车流量应控制在故该城市单位时间内车流量应控制在1500辆以内,辆以内,最多不超过最多不超过1800辆,否则会导致轻度污

33、染的发生。辆,否则会导致轻度污染的发生。简单线性回归分析的注意事项:简单线性回归分析的注意事项:1.要注意线性回归实际意义:要注意线性回归实际意义:不能将回归模型的分析结果随意延伸到因果关系不能将回归模型的分析结果随意延伸到因果关系2.绘制散点图观察两变量的关系以及找出异常点;绘制散点图观察两变量的关系以及找出异常点;3.注意自变量和因变量的变化范围。注意自变量和因变量的变化范围。2.均数置信区间均数置信区间:当:当X值为某定值,并给定置信度值为某定值,并给定置信度1-,考察考察Y的总体均数的分布时,可估计的总体均数的分布时,可估计Y的总体均数的总体均数 Y X的的1-置信区间。置信区间。Yn

34、StY2,2/a221XXXXnSSiY,Y小小 结结简单线性回归是指只包含一个自变量,且呈线性变化简单线性回归是指只包含一个自变量,且呈线性变化趋势的回归模型,用于描述因变量的总体均数与自变趋势的回归模型,用于描述因变量的总体均数与自变量之间的线性关系,即两变量间的依存变化关系。量之间的线性关系,即两变量间的依存变化关系。简单线性回归的基本步骤:简单线性回归的基本步骤:绘制散点图,绘制散点图,在最小二乘法原则下建立线性回归方程,即估计在最小二乘法原则下建立线性回归方程,即估计回归系数与截距;回归系数与截距;对回归方程或回归系数进行假设检验;对回归方程或回归系数进行假设检验;列出回归方程,绘制

35、回归直线;列出回归方程,绘制回归直线;统计解释及应用统计解释及应用。线性回归模型的适用条件为:线性、独立、正态和线性回归模型的适用条件为:线性、独立、正态和等方差,简称等方差,简称LINE。决定系数反映了回归平方和在总平方和中所占的比决定系数反映了回归平方和在总平方和中所占的比例,常用来反映回归的实际效果。例,常用来反映回归的实际效果。线性回归常用于统计预测和统计控制。线性回归常用于统计预测和统计控制。当两变量变化趋势为非线性时,可考虑拟合非线性当两变量变化趋势为非线性时,可考虑拟合非线性回归议程,常用的曲线类型包括指数曲线,多项式回归议程,常用的曲线类型包括指数曲线,多项式曲线、双典线和曲线

36、、双典线和logistic曲线等。曲线等。注意线性相关与线性回归的区别与联系。注意线性相关与线性回归的区别与联系。相关分析相关分析是用来描述两变量的相关关系,当两变是用来描述两变量的相关关系,当两变量满足双变量正态分布时,可以计算量满足双变量正态分布时,可以计算Pearson积差相积差相关系数,如果有任何一个变量不满足正态分布或为等关系数,如果有任何一个变量不满足正态分布或为等级资料,需计算级资料,需计算Spearman秩相关系数。秩相关系数。回归分析回归分析是用来刻画两变量的依存关系,它要求是用来刻画两变量的依存关系,它要求资料满足资料满足LINE(线性、独立、正态和等方差),二(线性、独立

37、、正态和等方差),二者之间既有联系又有区别。者之间既有联系又有区别。案例辨析一:案例辨析一:年龄与身高预测研究年龄与身高预测研究 某地调查了某地调查了418岁男孩与女孩身高,数据见下表,岁男孩与女孩身高,数据见下表,试描述男孩与女孩身高与年龄间的关系,并预测试描述男孩与女孩身高与年龄间的关系,并预测10.5岁、岁、16.5岁、岁、19岁与岁与20岁男孩与女孩的身高。岁男孩与女孩的身高。表表10-5 男孩身高对年龄的简单线性回归分析结果男孩身高对年龄的简单线性回归分析结果%5.98990.98,2RF估计值估计值标准误标准误tPconstant83.73631.882444.48390.0000

38、age5.27480.167631.47980.0000采用采用SPSS对身高与年龄进行回归分析,结果对身高与年龄进行回归分析,结果如下表所示。如下表所示。估计值估计值标准误标准误tPconstant88.43263.280026.96110.0000age4.53400.292015.52900.0000表表12-6 女孩身高对年龄的简单线性回归分析结果女孩身高对年龄的简单线性回归分析结果%1.94,15.2412RF 经拟合简单线性回归模型,经拟合简单线性回归模型,t 检验结果提示回归方检验结果提示回归方程有非常显著的统计学意义。结果提示,拟合效果非常程有非常显著的统计学意义。结果提示,拟

39、合效果非常好,故可认为:好,故可认为:(1)男孩与女孩的平均身高随年龄线性递增,年龄每)男孩与女孩的平均身高随年龄线性递增,年龄每增长增长1岁,男孩与女孩身高分别平均增加岁,男孩与女孩身高分别平均增加5.27,4.53,男孩生长速度快于女孩的生长速度。男孩生长速度快于女孩的生长速度。(2)依照回归方程预测该地男孩)依照回归方程预测该地男孩10.5、16.5、19和和20岁的平均身高依次为岁的平均身高依次为139.12、170.77、183.96和和189.23,该地女孩该地女孩10.5、16.5、19和和20岁的平均身高依次为岁的平均身高依次为136.04、163.24、174.58和和179

40、.11.针对以上分析结果,请考虑针对以上分析结果,请考虑:(1)分析过程是否符合回归分析的基本规范?)分析过程是否符合回归分析的基本规范?(2)回归模型能反映数据的变化规律吗?)回归模型能反映数据的变化规律吗?(3)拟合结果和依据回归方程而进行的预测有问题吗?)拟合结果和依据回归方程而进行的预测有问题吗?(4)男孩生长速度快于女孩生长速度的推断是否有依据?)男孩生长速度快于女孩生长速度的推断是否有依据?案例辨析案例辨析:未绘制散点图,盲目进行简单线性回:未绘制散点图,盲目进行简单线性回归分析;若实际资料反映两变量之间呈现某种曲归分析;若实际资料反映两变量之间呈现某种曲线变化趋势,用简单线性回归

41、方程去描述其变化线变化趋势,用简单线性回归方程去描述其变化规律就是不妥当的。规律就是不妥当的。正确做法:正确做法:分析策略:作散点图,选择曲线类型,分析策略:作散点图,选择曲线类型,合理选择模型,统计预测。合理选择模型,统计预测。(1 1)作散点图)作散点图 由图可见,随着年龄的增加,身高也增加,但由图可见,随着年龄的增加,身高也增加,但呈曲线变化趋势,呈曲线变化趋势,1516岁后,增加趋势逐渐趋岁后,增加趋势逐渐趋于平缓。因此适合于拟合曲线回归方程。于平缓。因此适合于拟合曲线回归方程。(2)选择曲线类型,进行统计分析,几种曲线方)选择曲线类型,进行统计分析,几种曲线方程拟合结果如下。程拟合结

42、果如下。结果摘要:结果摘要:(1)模型参数估计)模型参数估计Dependent Variable:男孩身高男孩身高The independent variable is 年龄年龄(3)选择合理的模型,列出回归方程。)选择合理的模型,列出回归方程。(4)统计预测。)统计预测。案例辨析二:案例辨析二:贫血患者的血清转铁蛋白的研究贫血患者的血清转铁蛋白的研究为研究某种新药治疗贫血患者的效果,将为研究某种新药治疗贫血患者的效果,将20名贫血患名贫血患者随机分成两组,一组用新药,另一组用常规药物治者随机分成两组,一组用新药,另一组用常规药物治疗,测得血红蛋白增加量(疗,测得血红蛋白增加量(g/L)见表)

43、见表6-1。问新药与。问新药与常规药治疗贫血患者后的血红蛋白增加量有无差别?常规药治疗贫血患者后的血红蛋白增加量有无差别?99.27新药X21.20常规药X,t=4.137。王医生认为可以作线性回归分析。在该数据中涉及了王医生认为可以作线性回归分析。在该数据中涉及了两个变量,一是观察效应变量两个变量,一是观察效应变量(连续性连续性),即血红蛋白增加,即血红蛋白增加量,将之作为回归分析中的因变量;另外一个变量为处理量,将之作为回归分析中的因变量;另外一个变量为处理因素(二分类变量),即影响因素,将之作为自变量,其因素(二分类变量),即影响因素,将之作为自变量,其中新药组中新药组=1,常规药组,常

44、规药组=0。数据转换为双变量资料形式,。数据转换为双变量资料形式,经分析得回归方程,经分析得回归方程,t=4.137。XY78.721.20请考虑:请考虑:(1)王医生的分析方法对不对?)王医生的分析方法对不对?(2)回归分析能代行两样本均数)回归分析能代行两样本均数t检验的任务吗?检验的任务吗?(3)通过这个案例的实践,你得到哪些启发?)通过这个案例的实践,你得到哪些启发?答案:答案:王医生的分析方法是对的;王医生的分析方法是对的;回归分析能代行两样本均数回归分析能代行两样本均数t检验的任务。检验的任务。思考题:思考题:1.应用直线回归和相关分析时应注意哪些问题?应用直线回归和相关分析时应注意哪些问题?2.简述线性回归分析与线性相关的区别与联系。简述线性回归分析与线性相关的区别与联系。3.举例说明如何利用回归方程进行统计预测和控举例说明如何利用回归方程进行统计预测和控制。制。4.回归分析时怎样确定因变量与自变量?回归分析时怎样确定因变量与自变量?THANK YOU!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(医学精品课件:10-简单线性回归分析(一附院).ppt)为本站会员(罗嗣辉)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|