1、2023-5-5 相关与回归分析概述相关与回归分析概述 一元线性回归一元线性回归 多元线性回归多元线性回归 非线性回归非线性回归主要内容:主要内容:2023-5-5 从高尔顿开始说起从高尔顿开始说起 高尔顿是生物统计学派的高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨奠基人,他的表哥达尔文的巨著著物种起源物种起源问世以后,触问世以后,触动他用统计方法研究智力遗传动他用统计方法研究智力遗传进化问题,第一次将概率统计进化问题,第一次将概率统计原理等数学方法用于生物科学,原理等数学方法用于生物科学,明确提出明确提出“生物统计学生物统计学”的名的名词词.现在统计学上的现在统计学上的“相关相关”和和“
2、回归回归”的概念也是高尔顿的概念也是高尔顿第一次使用的。第一次使用的。Francis Galton 1822.02.161911.01.17England2023-5-5高个子父母的子女,高个子父母的子女,其身高有低于其父母其身高有低于其父母身高的趋势,而矮个身高的趋势,而矮个子父母的子女,其身子父母的子女,其身高有高于其父母的趋高有高于其父母的趋势,势,即有即有“回归回归”到到平均数去的趋势。平均数去的趋势。2023-5-5第一节第一节 相关与回归分析概述相关与回归分析概述2023-5-51.1.变量间的关系变量间的关系确定性关系或函数关系确定性关系或函数关系 y=f(x)人的身高和体重人的
3、身高和体重家庭的收入和消费家庭的收入和消费商品的广告费和销售额商品的广告费和销售额粮食的施肥量和产量粮食的施肥量和产量股票的时间和价格股票的时间和价格学生的期中和期末考试成绩学生的期中和期末考试成绩,不确不确定性定性关系关系x可控变量可控变量Y随机变量随机变量不确定性关系不确定性关系一、一、确定性关系与相关关系确定性关系与相关关系2023-5-5不相关不相关负线性相关负线性相关正线性相关正线性相关非线性相关非线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关2相关关系的图示相关关系的图示2023-5-51.1.从一组样本数据出发,确定变量之间的数学关系式从一组样本数据出发,确定变
4、量之间的数学关系式2.2.对这些关系式的可信程度进行各种统计检验,并从影响对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著哪些不显著3.3.利用所求的关系式,根据一个或几个变量的取值来预测利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制或控制另一个特定变量的取值,并给出这种预测或控制的精确程度的精确程度二、二、什么是回归分析什么是回归分析2023-5-5(x,y)采集样本信息采集样本信息(xi,yi)回归分析回归分析散点图散点图回归方程回归方
5、程回归方程的显著性检验回归方程的显著性检验对现实进行预测与控制对现实进行预测与控制三、回归分析的流程三、回归分析的流程2023-5-5【例例1.1】本人从本人从“雪林山庄雪林山庄甜雨的开心乐园甜雨的开心乐园”中收集了中收集了一组儿童成长记录数据(一组儿童成长记录数据(0-7岁),包括月龄、身高和体重的岁),包括月龄、身高和体重的观测数据。据此绘制散点图,并进行相关性分析。观测数据。据此绘制散点图,并进行相关性分析。2023-5-54060801001200510152025身高体重二元分布密度等高线图2023-5-5第二节第二节 一元线性回归分析一元线性回归分析2023-5-5问题:问题:如何
6、描述如何描述 y 与与 x 的线性相关关系?的线性相关关系?散点图大致如下散点图大致如下1122(,),(,),(,),nnx yxyxy 若可控变量若可控变量x与随机变量与随机变量 y之间有线性相关关系,其之间有线性相关关系,其 n 对对观测值记为观测值记为一、一元线性回归模型一、一元线性回归模型xyxy2023-5-52(0,),1,2,iiiiidiyabxNin显然:显然:),bxa(Ny2ii y 称为称为因变量(响应变量)因变量(响应变量),x 称为称为自变量(预报变量)自变量(预报变量),称为称为随机扰动随机扰动,a,b 称为待估计的称为待估计的回归参数回归参数,下标,下标 i
7、表表示第示第 i 个观测值。个观测值。描述变量描述变量 y 与与 x 的线性相关关系的的线性相关关系的一元线性回归模型一元线性回归模型为为2023-5-51.理论回归方程理论回归方程(|)E y xabxY=二、回归方程二、回归方程xyo对于给定的对于给定的x,y 的均值的均值 是关于是关于 x 的函数,称为理的函数,称为理论回归函数,从而有论回归函数,从而有 y 关于关于 x 的理论回归方程的理论回归方程(|)E y x2023-5-52.经验回归方程经验回归方程 将将a 和和b 的估计量的估计量 代入理论回归方程,可得代入理论回归方程,可得经验经验回归方程回归方程,a byabx记记 ,称
8、之为,称之为残差,残差,残差可视为扰动残差可视为扰动 的估计的估计iiieyyi2023-5-5(xi,yi)(xn,yn)(x1,y1)(x2,y2)ei=yi-yiyabx三、一元线性回归图示三、一元线性回归图示2023-5-5二元函数二元函数 的最小值点的最小值点 称为称为a,b的最小二乘估计的最小二乘估计(,)Q a b(,)a bniiiniibxaybaQ1212)(),(记记n1iii0)bxa(y(2aQn1iiii0 x)bxa(y2bQn1iiin1i2iyxb)x(axnynbxnna,1,111niiniiynyxnx其中其中四、四、a,b 的最小二乘估计的最小二乘估计
9、2023-5-5)xnx(nxxnxnnD22i2i0)(12niixxn所以方程组有解所以方程组有解,解得解得xxxyllbxbya其中其中22211()nnxxiiiilxxxnx11()()nnxyiiiiiilxxyyx ynx y即最小二乘估计所得经验回归方程为即最小二乘估计所得经验回归方程为()yabxyb xx2023-5-5编号编号xiyi编号编号xiyi编号编号xiyi编号编号xiyi1277103626898112861081625594225799.57285103.512269100172699932559382861031324696.5182971094278105
10、927210414255921925795.553061101028510315253942025091例例2.1 钢的强度和硬度都是反映钢质量的指标。现在炼钢的强度和硬度都是反映钢质量的指标。现在炼20炉中炉中碳钢,它们的抗拉强度碳钢,它们的抗拉强度Y与硬度与硬度x的的20对实验值如下表。经计对实验值如下表。经计算得算得 (1)试绘出散点图试绘出散点图 (2)求求Y对对x的经验回归直线方程的经验回归直线方程270.3,100.05,5386.2,1696.2,628.95xxxyyyxylll2023-5-5q 散点图与回归方程散点图与回归方程240250260270280290300310
11、9095100105110115硬度抗拉强度 y=0.3149*x+14.932023-5-52,xxbN bl证明略证明略五、估计量五、估计量 的分布的分布,a b221,()xxxaN anl2023-5-5 上面讨论了如何根据实验数据求得线性回归方程,然而,上面讨论了如何根据实验数据求得线性回归方程,然而,实际上,对于变量和的任意对观测值,只要不全相等,则实际上,对于变量和的任意对观测值,只要不全相等,则无无论变量论变量 和和 之间是否存在线性相关关系,都可根据上面之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程介绍的方法求得一个线性回归方程。显然,这样写出的线性。显
12、然,这样写出的线性方程当且仅当变量方程当且仅当变量 和和 之间存在线性相关关系时才是有之间存在线性相关关系时才是有意义的;若不存在线性相关关系,则这样写出的线性方程就意义的;若不存在线性相关关系,则这样写出的线性方程就毫无意义了。为了使求得的线性回归方程真正有意义,毫无意义了。为了使求得的线性回归方程真正有意义,就就需要进行回归方程的显著性检验。需要进行回归方程的显著性检验。xyxy六、回归方程的显著性检验六、回归方程的显著性检验 2023-5-5 因变量因变量 y 的取值是不同的,的取值是不同的,y 取值的这种波动称为变差取值的这种波动称为变差。变差来源于两个方面:由于自变量变差来源于两个方
13、面:由于自变量 x 的取值不同造成的;的取值不同造成的;除除 x 以外的其他因素以外的其他因素(如如x 对对 y的非线性影响、测量误差的非线性影响、测量误差等等)的影响的影响 对一个具体的观测值来说,变差的大小可以通过该实际对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差观测值与其均值之差 来表示来表示1离差平方和分解离差平方和分解2023-5-5xyyabxyy yyyy),(iiyx离差分解图离差分解图xy(1)离离差平方和分解示意图差平方和分解示意图2023-5-5两端平方后求和有两端平方后求和有 yyyyyy从图上看有从图上看有 SST =SSR +SSE 自由度自由
14、度(df)n-1 =1 +n-2222111nnniiiiiiiyyyyyy总变差平方和总变差平方和(SST 或或 lyy)回归平方和回归平方和(SSR)残差平方和残差平方和(SSE 或或 Qe)(2)三个平方和的关系三个平方和的关系2023-5-5 总平方和总平方和(SST)反映因变量的反映因变量的 n 个观察值与其均值的总离差个观察值与其均值的总离差 回归平方和回归平方和(SSR)反映自变量反映自变量 x 的变化对因变量的变化对因变量 y 取值变化的影响,取值变化的影响,或者说,是由于或者说,是由于 x 与与 y 之间的线性关系引起的之间的线性关系引起的 y 的取值变化,也称为可解释的平方
15、和的取值变化,也称为可解释的平方和 残差平方和残差平方和(SSE)反映除反映除 x 以外的其他因素对以外的其他因素对 y 取值的影响,也称取值的影响,也称为不可解释的平方和或剩余平方和为不可解释的平方和或剩余平方和(3)三个平方和的意义三个平方和的意义2023-5-5回归平方和占总离差平方和的比例回归平方和占总离差平方和的比例2221122111nniiiiiRnnTiiiiyyyySSrSSyyyy 反映回归直线的拟合程度反映回归直线的拟合程度 取值范围在取值范围在 0,1 之间之间 r2 1,说明回归方程拟合的越好;,说明回归方程拟合的越好;r20,说明回归方程拟合的越差说明回归方程拟合的
16、越差 判定系数等于相关系数的平方,即判定系数等于相关系数的平方,即r2(r)22判定系数判定系数 r2(1)定义定义(2)判定系数的意义判定系数的意义2023-5-5 提出假设提出假设 H0:b=0 H1:b 0 3线性关系的检验(线性关系的检验(F 检验)检验)(1)检验的步骤检验的步骤定理定理2.1 对于一元线性回归,有对于一元线性回归,有22 (2);ESSn202 (1);RSSH成成立立时时,ERSSSS和和相相互互独独立立。2023-5-52102111(1,2),22niiRnEiiiyySSFFnHSSnyyn成立时 计算检验统计量计算检验统计量F 确定显著性水平确定显著性水平
17、,并根据分子自由度,并根据分子自由度1和分母自由度和分母自由度n-2找出临界值找出临界值F (1,n-2)作出决策:作出决策:若若F F ,拒绝拒绝H0;若若Ft,拒绝,拒绝H0l 若若 t t,接受,接受H0八、相关系数的显著性检验(八、相关系数的显著性检验(t 检验)检验)检验的步骤为检验的步骤为 提出假设:提出假设:H0:;H1:02023-5-5 根据自变量根据自变量 x 的取值估计或预测因变量的取值估计或预测因变量 y 的取值的取值九、利用回归方程进行预测九、利用回归方程进行预测 对对于自变量于自变量 x 的一个给定值的一个给定值 x0,根据回归方程得到因,根据回归方程得到因变量变量
18、 y 的一个估计值的一个估计值1.点估计点估计2023-5-52.区间估计区间估计 点估计不能给出估计的精度,点估计值与实际值之间是点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计有误差的,因此需要进行区间估计.区间估计有两种类型:区间估计有两种类型:置信区间估计置信区间估计和和预测区间估计预测区间估计2023-5-520*02211(2)niixxytnnxx其中:其中:为估计标准误差为估计标准误差*(2)ESSn 利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 x 的一个给定值的一个给定值 x0,求出因变量,求出因变量 y 的平均值的平均值E(y
19、0)的估计区间的估计区间,这一估计区,这一估计区间称为间称为置信区间置信区间 E(y0)在在1-置信水平下的置信区间为置信水平下的置信区间为(1)置信区间估计(置信区间估计(y 的平均值的置信区间估计的平均值的置信区间估计)2023-5-520*02211(2)1niixxytnnxx注意!注意!利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 x 的一个给定值的一个给定值 x0,求出因变量,求出因变量 y 的个别值的个别值 y0 的估计区间,这一区间称的估计区间,这一区间称为为预测区间预测区间 y0在在1-置信水平下的预测区间为置信水平下的预测区间为(2)预测区间估计(预测区间估
20、计(y 的个别值的预测区间估计的个别值的预测区间估计)2023-5-5(3)置信区间、预测区间、回归方程的图示置信区间、预测区间、回归方程的图示x0yabxyx x预测上限预测上限置信上限置信上限预测下限预测下限置信下限置信下限 y2023-5-5例例2.1 钢的强度和硬度都是反映钢质量的指标。现在炼钢的强度和硬度都是反映钢质量的指标。现在炼20炉中碳炉中碳钢,测得抗拉强度钢,测得抗拉强度Y与硬度与硬度x的的20对实验值。对于前面的回归对实验值。对于前面的回归分析,试作出回归预测图,并求分析,试作出回归预测图,并求 x0=280处的处的95%预测区间预测区间 x0=280处的处的95%预测区间
21、预测区间2280 270.310.3149*280 14.9282 2.101 2.29511205386.298.1182,108.08222023-5-5240250260270280290300310859095100105110115120(x均值,y均值)硬度抗拉强度2023-5-5第三节第三节 多元线性回归分析多元线性回归分析2023-5-51.一个因变量与两个及两个以上自变量之间的回归一个因变量与两个及两个以上自变量之间的回归2.描述因变量描述因变量 y 如何依赖于自变量如何依赖于自变量 x1,x2,xp 和误和误 差项差项 的方程称为的方程称为多元线性回归模型多元线性回归模型3
22、.涉及涉及 p 个自变量的多元线性回归模型可表示为个自变量的多元线性回归模型可表示为 b b0,b b1,b b2,b bp是参数是参数 是被称为误差项的随机变量,说明了包含在是被称为误差项的随机变量,说明了包含在y里面但不里面但不 能被能被p个自变量的线性关系所解释的变异性个自变量的线性关系所解释的变异性01122bbbbiiippiiyxxx一、回归模型一、回归模型2023-5-5对于对于 n 组实际观察数据组实际观察数据(yi;xi1,,xi2,xip),(i=1,2,n),多元线性回归模型可表示为多元线性回归模型可表示为y1=b b b b1 1 x11 b b x12 b bpx1p
23、 1 1y2=b b b b1 1 x21 b b x22 b bpx2p yn=b b b b1 1 xn1 b b xn2 b bpxnp n2023-5-51.自变量自变量 x1,x2,xp是可控变量,不是随机变量;是可控变量,不是随机变量;2.随机误差项随机误差项的期望值为的期望值为0,且方差,且方差2 都相同;都相同;3.误差项误差项是一个服从正态分布的随机变量,是一个服从正态分布的随机变量,即即N(0,2),且相互独立,且相互独立二、基本假定二、基本假定2023-5-5 描述描述 y 的平均值或期望值如何依赖于的平均值或期望值如何依赖于 x1,x1,xp的的方程称为多元线性回归方程
24、,多元线性回归方程的形式为方程称为多元线性回归方程,多元线性回归方程的形式为 b b1 1,b b,b bp称为称为偏回归系数偏回归系数 b bi 表示假定其他变量不变,当表示假定其他变量不变,当 xi 每变动一个单位时,每变动一个单位时,y的平均变动值的平均变动值三、回归方程三、回归方程E(y)=b b0+b b1 x1+b b2 x2+b bp xp2023-5-5二元线性回归模型二元线性回归模型(观察到的观察到的y)回归面回归面 ix1yx2四、四、多元线性回归方方程的直观解释多元线性回归方方程的直观解释2023-5-52201211(,)()nnpiiiiiQyybb bb最最小小2.
25、根据最小二乘法的要求,可得求解根据最小二乘法的要求,可得求解各回归参数的标准方各回归参数的标准方程如下程如下),2,1(00000piQQiiibbbbbb1.使因变量的观察值与估计值之间的差的平方和达到最小使因变量的观察值与估计值之间的差的平方和达到最小来求得来求得 。即。即五、五、参数的最小二乘法参数的最小二乘法2023-5-5整理得整理得1111221121122222112201 1ppyppyppppppyppllllllllllllyxxbbbbbbbbbbbb或矩阵形式或矩阵形式120111211112100ppyppppppyxxxyllllllllbbb2023-5-5其中其
26、中11,1,2,nikikxxipn解得解得11niiyyn1()(),1,2,nijjikiikjjkllxxxxi jp1()(),1,2,niykiikklxxyyip1111121112pypppppypllllllllbb 01 1ppyxxbbb2023-5-51.定义定义六、多重判定系数六、多重判定系数 R2回归平方和占总离差平方和的比例回归平方和占总离差平方和的比例 2221122111nniiiiRnnTiiiiyyyySSRSSyyyy 反映了回归平面的拟合程度,取值范围在反映了回归平面的拟合程度,取值范围在 0,1 之间。之间。若若 R2 1,说明回归方程拟合的越好;,说
27、明回归方程拟合的越好;若若R20,说明回,说明回归方程拟合的越差。等于多重(复)相关系数的平方,即归方程拟合的越差。等于多重(复)相关系数的平方,即R2=(R)22023-5-51.由于增加自变量将影响到因变量中被估计的回归方程所由于增加自变量将影响到因变量中被估计的回归方程所 解释的变异性的数量,为避免高估这一影响,需要用自解释的变异性的数量,为避免高估这一影响,需要用自 变量的数目去修正变量的数目去修正R2 的值的值2.用用n表示观察值的数目,表示观察值的数目,p表示自变量的数目,表示自变量的数目,修正的多修正的多 重判定系数重判定系数的计算公式可表示为的计算公式可表示为111122pnn
28、RR修七、七、修正的多重判定系数修正的多重判定系数 R22023-5-5八、线性关系的检验八、线性关系的检验1.回归方程的显著性检验回归方程的显著性检验 检验因变量与所有的自变量和之间是否存在一个显著的线检验因变量与所有的自变量和之间是否存在一个显著的线性关系,也被称为性关系,也被称为总体的显著性检验。总体的显著性检验。检验方法是将回归离差平方和检验方法是将回归离差平方和(SSR)同剩余离差平方和同剩余离差平方和(SSE)加以比较,应用加以比较,应用 F 检验检验来分析二者之间的差别是否显来分析二者之间的差别是否显著著 如果是显著的,因变量与自变量之间存在线性关系如果是显著的,因变量与自变量之
29、间存在线性关系 如果不显著,因变量与自变量之间不存在线性关系如果不显著,因变量与自变量之间不存在线性关系2023-5-5(1)提出假设提出假设H0:b b1 b b2b bp=0 表示表示线性关系不显著线性关系不显著H1:b b1,b b2,b bp至少有一个不等于至少有一个不等于0(2)计算检验统计量计算检验统计量F(3)确定显著性水平确定显著性水平 和分子自由度和分子自由度p、分母自由度、分母自由度n-p-1,找出找出临界值临界值F (p,n-p-1)(4)作出决策:作出决策:若若F F ,拒绝,拒绝H0;若若FF,接受,接受H0 2121(,1)11niiRnEiiyypSSpFF p
30、npSSnpyynp 2023-5-52.回归系数的显著性检验回归系数的显著性检验 如果如果F 检验已经表明了回归模型总体上是显著的,那么回检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量归系数的检验就是用来确定每一个单个的自变量 xi 对因变量对因变量 y 的影响是否显著。对每一个自变量都要单独进行检验,应的影响是否显著。对每一个自变量都要单独进行检验,应用用t 检验检验 在多元线性回归中,回归方程的显著性检验不再等价于回在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验归系数的显著性检验2023-5-5(1)提出假设提出假设H0:b
31、bi =0 (自变量自变量 xi 与与 因变量因变量 y 没有线性关系没有线性关系)H1:b bi 0 (自变量自变量 xi 与与 因变量因变量 y有线性关系有线性关系)(3)确定显著性水平确定显著性水平,并进行决策,并进行决策 tt,拒绝,拒绝H0;t t,接受,接受H0(2)计算检验的统计量计算检验的统计量 t(1)1iEiitt npSScnpb b 2023-5-5其中其中cii 为矩阵为矩阵的主对角线上的第的主对角线上的第 i+1个元素个元素11211121112111112121111nnniiipiiinnnniiiiiipiiiinnnnipipiipiipiiiinxxxxx
32、x xx xCxx xx xx 2023-5-5 因变量因变量 y 与与 x 之间不是线性关系之间不是线性关系 可通过变量代换转换成线性关系可通过变量代换转换成线性关系 用最小二乘法求出参数的估计值用最小二乘法求出参数的估计值 并非所有的非线性模型都可以化为线性模型并非所有的非线性模型都可以化为线性模型 对于不能化为线性模型的非线性模型,应直接用对于不能化为线性模型的非线性模型,应直接用非线性最小二乘法处理非线性最小二乘法处理第四节第四节 非线性回归分析非线性回归分析2023-5-5线性化方法线性化方法两端取对数得:两端取对数得:lny=ln +b b x令:令:y=lny,则有,则有y=ln
33、 +b b x基本形式:基本形式:图像图像b b b b 非线性模型的线性化处理非线性模型的线性化处理q 指数函数指数函数2023-5-5线性化方法线性化方法两端取对数得:两端取对数得:lny=ln +b b/x令:令:y=lny,x=1/x,则有,则有y=ln +b b x基本形式:基本形式:图像图像q 负指数函数负指数函数b b b b 2023-5-5线性化方法线性化方法两端取对数得:两端取对数得:lg y=lg +b b lg x令:令:y=lgy,x=lg x,则则y=lg +b b x基本形式:基本形式:图像图像0b 1b 1b=1-1b 0 b-1 b=-1 q 幂函数幂函数2023-5-5线性化方法线性化方法令:令:y=1/y,x=1/x,则有则有y=+b b x基本形式:基本形式:图像图像b 0q 双曲线函数双曲线函数2023-5-5线性化方法线性化方法x=lgx,则有则有y=+b b x基本形式:基本形式:图像图像b 0b 0 q 对数函数对数函数2023-5-5线性化方法线性化方法令:令:y=1/y,x=e-x,则有则有y=+b b x基本形式:基本形式:图像图像q S 型曲线型曲线2023-5-5q 多项式曲线多项式曲线