相关与回归课件.ppt

上传人(卖家):晟晟文业 文档编号:4673352 上传时间:2022-12-31 格式:PPT 页数:34 大小:275.53KB
下载 相关 举报
相关与回归课件.ppt_第1页
第1页 / 共34页
相关与回归课件.ppt_第2页
第2页 / 共34页
相关与回归课件.ppt_第3页
第3页 / 共34页
相关与回归课件.ppt_第4页
第4页 / 共34页
相关与回归课件.ppt_第5页
第5页 / 共34页
点击查看更多>>
资源描述

1、 相关与回归 相关与回归是双变量分析相关与回归是双变量分析 直线相关与回归直线相关与回归(最简单的相关与回归)(最简单的相关与回归)一、直线回归一、直线回归 直线回归直线回归(linear regreSSion)是用直线回归方是用直线回归方程表示两个数量变量间依存关系的统计分析方程表示两个数量变量间依存关系的统计分析方法,属双变量分析的范畴。用一个直线方程来法,属双变量分析的范畴。用一个直线方程来定量地描述它们之间的数量依存关系,这就是定量地描述它们之间的数量依存关系,这就是直线回归分析。直线回归分析。直线回归分析中两个变量的地位不同,其中直线回归分析中两个变量的地位不同,其中一个变量是依赖另

2、一个变量而变化的,因此分一个变量是依赖另一个变量而变化的,因此分别称为别称为因变量因变量(dependent variable)和和自变量自变量(independent variable),习惯上分别用,习惯上分别用y和和x来来表示。其中表示。其中x可以是规律变化的或人为选定的可以是规律变化的或人为选定的一些数值一些数值(非随机变量非随机变量),也可以是随机变量,也可以是随机变量,前者称为前者称为I型回归,后者称为型回归,后者称为II型回归。型回归。二、直线回归分析的应用条件二、直线回归分析的应用条件 1.两变量的变化趋势呈直线趋势两变量的变化趋势呈直线趋势(linear);2.因 变 量因

3、变 量 y 属 于 正 态 随 机 变 量属 于 正 态 随 机 变 量(n o r m a l distribution);3.对于对于I型要求对于每个选定的型要求对于每个选定的X,y都有一个正都有一个正态分布的总体,并且这些总体的方差都相等态分布的总体,并且这些总体的方差都相等(equal variance);对于;对于II型回归,要求型回归,要求x、y服服从双变量正态分布。从双变量正态分布。三、直线回归分析的一般步骤 1.将n个观察单位的变量对(x,y)在直角坐标系中绘制散点图,若呈直线趋势,则可拟合直线回归方程。2.求回归方程的回归系数和截矩。3.写出回归方程 ,画出回归直线。4.对回

4、归方程进行假设检验。bXaY 四、直线回归方程及其求法(一)方程的形式及意义:直线回归方程的一般形式为 其中b称为回归系数(coefficient of regression),含义为当含义为当x每变化每变化1个单位时,个单位时,因变量因变量Y平均变化的单数平均变化的单数;a称为截矩(intercept),为回归直线或其延长线与y轴交点的纵坐标。bXaY (二)直线回归方程的求法:方程中的a 和b是两个待定常数,根据样本实测(x,y)计算a 和b的过程就是求回归方程的过程。为使方程能较好地反映各点的分布规律,应该使各实测点到回归直线的纵向距离纵向距离的平方和最小,这就是最小二乘法(least

5、square method)原理。To find a straight line to best fit the points.Residual:Fitness of the regression line:Principle of least squares:To find a straight line that minimizes the sum of squared residuals.Calculate the regression equation of the height of son Y on the height of father X.1.先求 b:式中lxy为X、Y的离

6、均差积和,lxx为X的离均差平方和;2.再求a:XXXYllXXYYXXb2)()(nXXlXX22)(nYXXYlXY)(XbYa 五、直线回归方程的假设检验 回归系数的检验亦即是回归关系的检验,又称回归方程的检验,其目的是检验求得的回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。即使即使X、Y的总体回归系数的总体回归系数为零,为零,由于抽样误差的原因,其样本回归系数由于抽样误差的原因,其样本回归系数b也不一定为零,因此,需作也不一定为零,因此,需作是否为零的是否为零的假设检验假设检验 (一)方差分析 其基本思想是将应变量Y的总变异SS总分解为SS回归和SS剩余,然后利用F检

7、验来判断回归方程是否成立。SS总即 ,为Y的离均差平方和(total sum of squares),反映未考虑X与Y的回归关系时Y的变异。2)(YY P(X,Y)(YY)(YY)(YY应变量Y的平方和划分示意图 XYX Y 称为剩余或残差称为剩余或残差 与回归系数的大小有关 上式用符号表示为:SS总=SS回+SS剩 SS回即 ,为回归平方和(regression sum of squares),它反映在它反映在Y的总变异的总变异SS总总中由中由于于X与与Y的直线关系而使的直线关系而使Y变异减小的部分,也变异减小的部分,也就是在总平方和中可以用就是在总平方和中可以用X解释的部分解释的部分。SS

8、回越大,说明回归效果越好,即SS总中可用X与Y线性关系解释的变异越多。222)()()(YYYYYY2)(YY SS剩即 ,为剩余平方和(residual sum of squares),它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和SS总中无法用X解释的部分。2)(YY 方差分析时的步骤与一般假设检验相同。统计量F的计算。剩回剩剩回回MSMSSSSSF/XXXYXYllblSS2回nYYYYSS222)()(总总=回+剩 总=n-1,回=1,剩=n-2 (二)t检验 其基本思想是利用样本回归系数b与总体均数回归系数进行比较来判断回归方程是否成立,实际应用中因为回归系数

9、实际应用中因为回归系数b的的检验过程较为复杂检验过程较为复杂,而相关系数而相关系数r的检验过的检验过程简单并与之等价程简单并与之等价,故一般用相关系数故一般用相关系数r的的检验来代替回归系数检验来代替回归系数b的检验。的检验。统计量t的计算公式为2,0nSbtbXXXYblSS.22)(2.nSSnYYSXY剩Sb为样本回归系数的标准误;SY.X为剩余标准差(residual standard deviation),它是指扣除了X对Y的线性影响后,Y的变异,可用以说明估计值 的精确性。Y说明:两种检验方法是等价的,说明:两种检验方法是等价的,F=t2 六、直线回归的区间估计根据参数估计原理,回

10、归系数b是总体回归系数的点估计,正像样本均数不一定恰好等于总体均数一样,需要对总体回归系数进行区间估计。),()2()2(bnbnStbStb (二)的区间估计 指总体中自变量X为某一定值X0时,的总体均数。对 的估计可计算可信区间:YYY),()2()2(YnYnStYStY220.)()(1XXXXnSSXYY (三)个体Y值的容许区间 总体中,X为一定值时,个体Y值的波动范围),()2()2(YnYnStYStY220.)()(11XXXXnSSXYY 七、直线回归方程的应用(一)定量描述两变量之间的依存关系 对回归系数b进行假设检验时,若 ,可认为两变量间存在直线回归关系,则直线回归方

11、程即为两个变量间依存关系的定量表达式。P (二)利用回归方程进行预测 把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。(三)利用回归方程进行统计控制 规定Y值的变化,通过控制X的范围来实现统计控制的目标,所以统计控制是利用回归方程进行的逆估计。某市环境监测站在某交通点连续测定30天,每天定时采样3次,发现大气中NO2浓度Y(mg/m3)与当时的汽车流量X(辆/小时)呈直线关系,根据90对观测数据求得回归方程 ,剩余标准差 。若NO2最大容许浓度为0.15mg/m3,则汽车流量应如何控制?设=0.05。XY000133.0064866.003252

12、2.0 xys =0.05,=90-2=88,查表得单侧t0.05(88)=1.6624。由于本例未给出每小时汽车流量的均数及 ,且样本含量较大,故以 代替 ,计算个体Y值单侧95%容许区间的上限:032522.0 xysxxlxysys010801.0000133.0032522.06624.1000133.0064866.06624.1xxsYYxyu15.0Y解得X=1209,即只要把汽车流量控制在1209辆/小时以下,那么就有95%可能使NO2不超过最大容许浓度0.15mg/m3。(四)应用直线回归的注意事项 1.作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视

13、事物现象间的内在联系和规律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途。(四)应用直线回归的注意事项 2直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严密控制的值。若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性。(四)应用直线回归的注意事项 3进行回归分析时,应先绘制散点图(scatter plot)。若提示有直线趋势存在时,可作直线回归分析;一般说,不满足线性条件的情形下去计算回归方程会毫无意义,最好采用非线性回归方程的方法进行分析。(四)应用直线回归的注

14、意事项 4绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。5回归直线不要外延。00000000a.二元正态b.y的标准差随x递增c.y关于x的回归是非线性的d.非线性,且方差不等yyyyyyyyyyyyxxxxxxx线性相关于回归的联系与区别1、区别:、区别:(1)资料要求上,回归要求)资料要求上,回归要求Y服从正态分布,服从正态分布,X是可以精确测量的;相关要求是可以精确测量的;相关要求X与与Y服从正态服从正态分布。分布。(2)在应用上,说明两变量依存变化的数量关)在应用上,说明两变量依存变化的数量关系用回归,说明变量间的相关关系用相关。系用回归,说明变量间的相关关系用相关。2、联系、联系(1)r与与b的符号相同。的符号相同。(2)r与与b的假设检验等价。的假设检验等价。(3)用相关解释回归。)用相关解释回归。r2 称为决定系数,用回称为决定系数,用回归可以解释的部分。归可以解释的部分。r2=ss回回/ss总总

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(相关与回归课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|