课件:相关与回归分析.pptx

上传人(卖家):三亚风情 文档编号:3390861 上传时间:2022-08-26 格式:PPTX 页数:105 大小:1.04MB
下载 相关 举报
课件:相关与回归分析.pptx_第1页
第1页 / 共105页
课件:相关与回归分析.pptx_第2页
第2页 / 共105页
课件:相关与回归分析.pptx_第3页
第3页 / 共105页
课件:相关与回归分析.pptx_第4页
第4页 / 共105页
课件:相关与回归分析.pptx_第5页
第5页 / 共105页
点击查看更多>>
资源描述

1、统计学第七章 相关与回归分析本章内容 相关分析 简单线性回归分析 多元线性相关与回归分析要点与要求 掌握有关相关与回归分析的基本概念;掌握相关系数的计算与检验的方法,理解标准的一元线性回归模型,能够对模型进行估计和检验并利用模型进行预测。相关分析函数关系函数关系q概念:当一个或几个变量取一定的值时,另概念:当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。系为确定性的函数关系。q函数关系的特点函数关系的特点q是一一对应的确定关系是一一对应的确定关系设有两个变量设有两个变量 x 和和 y,变量,变量 y 随变量随

2、变量 x 一起变一起变化,并完全依赖于化,并完全依赖于 x,当变量,当变量 x 取某个数值时,取某个数值时,y 依确定的关系取相应的值,则称依确定的关系取相应的值,则称 y 是是 x 的函的函数,记为数,记为 y=f(x),其中,其中 x 称为自变量,称为自变量,y 称为称为因变量因变量q各观测点落在一条线上各观测点落在一条线上1.函数关系与相关关系函数关系与相关关系相关分析相关分析函数关系函数关系1.函数关系与相关关系函数关系与相关关系相关分析函数关系函数关系q函数关系的例子函数关系的例子q某种商品的销售额某种商品的销售额(y)与销售量与销售量(x)之间的关系可之间的关系可表示为表示为 y=

3、p x(p 为单价为单价)q圆的面积圆的面积(S)与半径之间的关系可表示为与半径之间的关系可表示为 S=r2q企业的原材料消耗额企业的原材料消耗额(y)与产量与产量(x1)、单位产量、单位产量消耗消耗(x2)、原材料价格、原材料价格(x3)之间的关系可表示为之间的关系可表示为 y=x1 x2 x31.函数关系与相关关系函数关系与相关关系相关分析相关关系相关关系q 概念:概念:当一个或几个相互联系的变量取一当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。确定,但它仍按某种规律在一定的范围内变化

4、。q 现象之间客观存在的不严格、不确定的的数量现象之间客观存在的不严格、不确定的的数量依存关系。依存关系。1.函数关系与相关关系函数关系与相关关系相关分析相关关系相关关系q 相关关系的特点:相关关系的特点:q变量间关系不能用函数关系精确表达变量间关系不能用函数关系精确表达q一个变量的取值不能由另一个变量唯一确定一个变量的取值不能由另一个变量唯一确定q当变量当变量 x 取某个值时,变量取某个值时,变量 y 的取值可能有几的取值可能有几个个q各观测点分布在直线周围各观测点分布在直线周围 1.函数关系与相关关系函数关系与相关关系相关分析相关分析相关关系相关关系1.函数关系与相关关系函数关系与相关关系

5、相关分析相关关系相关关系q相关关系的例子相关关系的例子q商品的消费量商品的消费量(y)与居民收入与居民收入(x)之间的关系之间的关系q商品的消费量商品的消费量(y)与物价与物价(x)之间的关系之间的关系q商品销售额商品销售额(y)与广告费支出与广告费支出(x)之间的关系之间的关系q粮食亩产量粮食亩产量(y)与施肥量与施肥量(x1)、降雨量、降雨量(x2)、温度、温度(x3)之间的关系之间的关系q收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系q父亲身高父亲身高(y)与子女身高与子女身高(x)之间的关系之间的关系1.函数关系与相关关系函数关系与相关关系相关分析客观现象的相

6、关关系按不同的标志加以区分客观现象的相关关系按不同的标志加以区分q 按相关的程度分为:按相关的程度分为:完全相关,不完全相关和不相关。完全相关,不完全相关和不相关。q 按相关形式分以:按相关形式分以:线性相关和非线性相关。线性相关和非线性相关。q 按相关的方向分为:按相关的方向分为:正相关和负相关正相关和负相关q 按相关关系涉及的变量多少分为:按相关关系涉及的变量多少分为:单相关、复相关和偏相关。单相关、复相关和偏相关。2.相关关系的种类相关关系的种类相关分析相关关系相关关系2.相关关系的种类相关关系的种类(1)(2)(3)(4)图中,(1)、(2)为线性相关,(3)、(4)为非线性相关 正相

7、关:正相关:p两个相关现象间,当一个变量的数值增加两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。(或减少),即同方向变化。p例如收入与消费的关系。例如收入与消费的关系。负相关:负相关:p当一个变量的数值增加(或减少)时,而另当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。变化,即反方向变化。p例如物价与消费的关系。例如物价与消费的关系。相关分析相关分析相关关系相关关系2.相关关系的种类相关关系的种类 单相关单相

8、关:两个变量之间的相关。两个变量之间的相关。复相关复相关:所研究的是一个变量对两个或两个以上所研究的是一个变量对两个或两个以上其他变量的相关关系时。其他变量的相关关系时。例如,某种商品的需求与其价格水平以及收入水平之间例如,某种商品的需求与其价格水平以及收入水平之间的相关关系便是一种复相关。的相关关系便是一种复相关。偏相关偏相关:在某一现象与多种现象相关的场合,假:在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。系称为偏相关。例如,在假定人们的收入水平不变的条件下,某种商品例如,在假定人们的收入水平不变的条

9、件下,某种商品的需求与其价格水平的关系就是一种偏相关。的需求与其价格水平的关系就是一种偏相关。涉及涉及“消费物价收入消费物价收入”相关分析相关分析相关关系相关关系相关关系的种类相关关系的种类相关表相关表:将将自变量自变量 x 的的数值按照从小到大的顺序,并数值按照从小到大的顺序,并配合因变量配合因变量y的数值一一对应而平行排列的表。的数值一一对应而平行排列的表。例:为了研究分析某种劳务产品完成量与其单位产例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调查品成本之间的关系,调查30个同类服务公司得到的原个同类服务公司得到的原始数据如表。始数据如表。相关分析相关分析3.相关表与相关

10、图相关表与相关图完成量(小时)203020204030408080504030208050单位成本(元/小时)181616151615151414151516181414完成量(小时)205020305020504020804020508030单位成本(元/小时)161618161518151416141516141515完成量(小时)2020 20 20 2020 20 20 2030 30 3030 3040单位成本(元/小时)1516 16 16 1618 18 18 1815 15 1516 1614完成量(小时)40 40 404050 5050 50 505080 80 80 80

11、80单位成本(元/小时)15 15 151614 1415 15 151614 14 14 1415整理后有整理后有相关图相关图:又称散点图。将:又称散点图。将x x置于横轴上,置于横轴上,y y置于纵轴上,置于纵轴上,将(将(x,yx,y)绘于坐标图上。绘于坐标图上。用来反映两变量之间相关用来反映两变量之间相关关系的图形。关系的图形。例:研究广告费与销售收入之间的关系,数据如下:例:研究广告费与销售收入之间的关系,数据如下:相关分析相关分析3.相关表与相关图相关表与相关图广告费广告费(万元万元)3033334056586572808090年销售收入年销售收入(百万元百万元)121212131

12、4142022262630简单相关系数:在线性条件下说明两个变量之间相关简单相关系数:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标,简称相关系数。关系密切程度的统计分析指标,简称相关系数。若相关系数是根据总体全部数据计算的,称为总体相若相关系数是根据总体全部数据计算的,称为总体相关系数,记为关系数,记为 若是根据样本数据计算的,则称为样本相关系数,记若是根据样本数据计算的,则称为样本相关系数,记为为 r r相关回归相关回归4.相关系数及其检验相关系数及其检验相关系数的定义相关系数的定义 总体相关系数的定义式是:式中,Cov(X,Y)是变量X和Y的协方差;Var(X)和Var(Y)

13、分别是变量X和Y的方差。总体相关系数是反映两变量之间线性相关程度的一种特征值。,Cov X YVar X Var Yyxxyr2相关分析相关分析相关系数及其检验相关系数及其检验样本相关系数的定义公式实质样本相关系数的定义公式实质 相关系数的取值介于与之间,即相关系数的取值介于与之间,即r r的取值的取值范围是范围是 -1,1-1,1 在大多数情况下,在大多数情况下,|,即与的样本,即与的样本观测值之间存在着一定的线性关系,当时,观测值之间存在着一定的线性关系,当时,与为正相关,当时,与为负相关。与为正相关,当时,与为负相关。|的数值愈接近于的数值愈接近于1 1,表示,表示x x与与y y直线相

14、关程度愈高;直线相关程度愈高;|的数值愈接近于的数值愈接近于0 0,表示,表示x x与与y y直线相关程度愈低。直线相关程度愈低。相关分析相关分析相关系数及其检验相关系数及其检验相关系数的特点相关系数的特点 通常判断的标准是通常判断的标准是:|0.30.3称为微弱相关,称为微弱相关,0.3|0.3|0.50.5称为低度相关,称为低度相关,0.0.|0.80.8称为显著相关称为显著相关 ,0.8|0.8|1 1称为高度相关或强相关。称为高度相关或强相关。相关分析相关分析相关系数及其检验相关系数及其检验相关系数的特点相关系数的特点 如果如果|=1|=1,则表明与完全线性相关,则表明与完全线性相关当

15、当=1=1时,称为完全正相关时,称为完全正相关当当=-1=-1时,称为完全负相关时,称为完全负相关 是对变量之间线性相关关系的度量。是对变量之间线性相关关系的度量。=0=0只是表明两个变量之间不存在线性关系,它并不意只是表明两个变量之间不存在线性关系,它并不意味着与之间不存在其他类型的关系。味着与之间不存在其他类型的关系。相关分析相关分析相关系数及其检验相关系数及其检验相关系数的特点相关系数的特点相关关系的测度相关系数取值及其意义22)()()(yyxxyyxxr yxnxyyyxx1)(222)(1)(xnxxx222)(1)(ynyyy计算相关系数计算相关系数的的“积差法积差法”yyLxx

16、LxyLr xyLnxyxy 22xLnxxx 22yLnyyy 相关分析相关分析相关系数及其检验相关系数及其检验相关系数的计算相关系数的计算例:下表是有关例:下表是有关1515个地区某种食物需求量和地区人口增加量个地区某种食物需求量和地区人口增加量的资料。的资料。yxxynLxy2261362664785115151937928663342362610676141522)(xxnLxx222613950391522)(yynLyy81346481346428663341519379yyxxxyLLLr9950.0其他计算公式:yxnynxnxy22)()()(yyxxyyxxrnyyxxny

17、yxx/)()(/)(22yxyxxynyynxxnyyxx2)(2)()(n 确定显著性水平确定显著性水平,并作出决策,并作出决策 若若 t t tt,拒绝,拒绝H H0 0 若若 t t ttt,拒绝,拒绝H H0 0;t t tt=2.201,拒绝,拒绝H0,表明,表明人口增加与人口增加与粮食需求之间有线性关系粮食需求之间有线性关系qq 对前例的回归系数进行显著性检验对前例的回归系数进行显著性检验(=0.05)回归系数的显著性检验回归系数的显著性检验20.53010.530136.060.01476.4215/10676143626/15t(Excel输出的结果)022122111()(

18、)niiYYnniiiiXXSSSnXXnXX121()YniiSSXX1111.8677890.051872tS00039.80478.418049tS回归系数的显著性检验回归系数的显著性检验1.回归系数的P检验前三步与t检验相同,但t值计算出来后,并不与t-分布的临界值进行对比,而是直接计算自由度为n-2的t统计量大于或小于根据样本观测值计算的 的概率,即p值,然后将其与给定的显著水平对比。q 如果p小于,则拒绝原假设,反之,则接受原假设。回归系数的显著性检验回归系数的显著性检验p p检验的检验步骤:检验的检验步骤:1t对上述粮食需求的回归系数进行p检验。1.提出假设;2.计算检验的统计量

19、t值,并查表求得取此t值的概率(自由度为n-2);3.与确定的临界值比较,进而做出判断。回归系数的显著性检验回归系数的显著性检验p p检验的例子:检验的例子:概念:检验自变量和因变量之间的线性关概念:检验自变量和因变量之间的线性关系是否显著。系是否显著。具体方法:将回归平方和具体方法:将回归平方和(SSR)(SSR)同残差平方同残差平方和和(SSE)(SSE)加以比较,应用加以比较,应用F F检验来分析二者检验来分析二者之间的差别是否显著之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系如果不显著,两个变量之间不

20、存在线性关系回归方程的显著性检验回归方程的显著性检验线性关系检验线性关系检验4.一元线性回归模的检验一元线性回归模的检验22/1/11,2/(2)/(2)YYSSRFFnSSEnYYn1.提出假设H0:线性关系不显著回归方程的显著性检验回归方程的显著性检验检验步骤检验步骤均方回归,记均方回归,记为为MSR均方残差,记均方残差,记为为MSE(续前例)Excel 输出的方差分析表方差分析方差分析dfdfSSSSMSMSF FSignificance FSignificance F回归分析回归分析1 1 53692.5753692.5753692.5753692.57 1296.5261296.52

21、62.08E-142.08E-14残差残差1313 538.3642538.364241.4126341.41263总计总计1414 54230.9354230.93 平方和平方和均方均方回归方程的显著性检验方差分析表概念:根据自变量概念:根据自变量 X X的取值估计或预测因的取值估计或预测因变量变量 Y Y的取值的取值估计或预测的类型估计或预测的类型点估计点估计Y Y 的平均值的点估计的平均值的点估计Y Y 的个别值的点估计的个别值的点估计区间估计区间估计Y Y 的平均值的的平均值的置信区间置信区间估计估计Y Y 的个别值的的个别值的预测区间预测区间估计估计简单线性回归分析简单线性回归分析5

22、.一元线性回归模型预测一元线性回归模型预测对于自变量对于自变量X X 的一个给定值的一个给定值X X0 0 ,根据回归,根据回归方程得到因变量方程得到因变量 Y Y 的一个估计值的一个估计值点估计值点估计值在点估计条件下,平均值的点估计和个在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估别值的的点估计是一样的,但在区间估计中则不同计中则不同.一元线性回归模型的检验一元线性回归模型的检验点预测点预测Y Y的平均值的点估计的平均值的点估计利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量X X的一的一个给定值个给定值X X0 0 ,求出因变量,求出因变量Y Y的平均值

23、的的平均值的一个估计值一个估计值E(YE(Y0 0),就是平均值的点估,就是平均值的点估计。计。一元线性回归模型的检验一元线性回归模型的检验点预测点预测0010YX 0010110100110010 E YEXEYXXE YXXXXXX 20100122202020220 1 iYVar YVar YXXVarXXVarnXXnXXXXnXX2020010201,XXYNXnXX故:故:0002YYE Yt nS实际上,实际上,2未知,由抽样分布定理,有:未知,由抽样分布定理,有:得得0的预测区间为:的预测区间为:002YE Yt nS0010YX 000000E eE YYE YE Y 00

24、000202220202201 1 1Var eVar YYVar YVar YXXnXXXXnXX000eYY由于由于Y0和和0都服从正态分布,故都服从正态分布,故e0也服从正态分布,也服从正态分布,其期望与方差分别为:其期望与方差分别为:0000000,1eeeE eYYN从而:从而:0002eYYt nS由于方差未知,根据抽样分布定理,有:由于方差未知,根据抽样分布定理,有:002eYt nS因此,因此,Y0的预测区间为:的预测区间为:根据回归方程,可以给出自变量的某一根据回归方程,可以给出自变量的某一数值来估计或预测因变量平均可能值。数值来估计或预测因变量平均可能值。例如,前例中当人口

25、增长量为例如,前例中当人口增长量为400400千人千人时,该食品的年需求量为:时,该食品的年需求量为:一元线性回归模型的检验一元线性回归模型的检验点预测点预测6305.2344005301.05905.22Y(十吨十吨)预测误差:在点估计中,y的预测值与真值之间必然存在一定的误差。在实际的回归模型预测中,发生预测误差的原因可以概括为以下四点:模型本身中的误差因素所造成的误差;回归系数的估计值同其真值不 一致所造成的误差;自变量X的设定值同其实际值的偏离所造成的误差;未来时期总体回归系数发生变化所造成的误差。点估计不能给出估计的精度,点估计值与点估计不能给出估计的精度,点估计值与实际值之间是有误

26、差的,因此需要进行区实际值之间是有误差的,因此需要进行区间估计。间估计。对于自变量对于自变量 X X 的一个给定值的一个给定值 X X0 0,根据回,根据回归方程得到因变量归方程得到因变量 Y Y 的一个估计区间的一个估计区间区间估计有两种类型区间估计有两种类型均均值区间估计值区间估计个个值区间估计值区间估计 一元线性回归模型的检验一元线性回归模型的检验区间预测区间预测0YY Y 的平均值的置信区间估计的平均值的置信区间估计利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 X X 的一个的一个给定值给定值 X X0 0 ,求出因变量,求出因变量 Y Y的平均值的平均值E(YE(Y0

27、 0)的的估计区间估计区间 ,这一估计区间称为置信区间,这一估计区间称为置信区间E(YE(Y0 0)在在1-1-置信水平下的置信区间为置信水平下的置信区间为一元线性回归模型的检验一元线性回归模型的检验区间预测区间预测2002211(2)YniiXXYtnSnXXY Y的特定值的预测区间估计的特定值的预测区间估计指对给定的指对给定的X X的一个值,的一个值,Y Y的一个特定值或个别的一个特定值或个别值的预测区间。值的预测区间。这种区间估计的区间为:这种区间估计的区间为:一元线性回归模型的检验一元线性回归模型的检验区间预测区间预测2002211(2)1YniiXXYtnSnXX置信水平置信水平 (

28、1-(1-)区间宽度随置信水平的增大而增大区间宽度随置信水平的增大而增大数据的离散程度数据的离散程度 (s)(s)区间宽度随离散程度的增大而增大区间宽度随离散程度的增大而增大样本容量样本容量区间宽度随样本容量的增大而减小区间宽度随样本容量的增大而减小用于预测的用于预测的 X Xp p与与 X X的差异程度的差异程度区间宽度随区间宽度随 X Xp p与与 X X 的差异程度的增大而增大的差异程度的增大而增大一元线性回归模型的检验一元线性回归模型的检验区间预测区间预测影响区间宽度的因素影响区间宽度的因素置信区间、预测区间、回归方程预测上限预测上限预测下限预测下限XY10 例:某快递服务公司的人事经

29、理为了制订对雇员实行按工作时间计酬的分配方案,随机抽取10名雇员一个月的业务记录,计算了他们平均每天投递行驶距离与工作时间的资料,列表并制成散点图分别如下:雇员编号雇员编号行驶距离(公里)行驶距离(公里)工作时间(小时)工作时间(小时)1 11001009.39.32 250504.84.83 31001008.98.94 41001006.56.55 550504.24.26 680806.26.27 775757.47.48 865656 69 990907.67.6101090906.16.1 要求:确定工作时间对行驶距离的一元线性回归方程,并对该模型的拟合优度进行评价;对该模型的回归系

30、数进行检验,和模型整体进行F检验(=0.05)预测当给定X=60公里时,Y的平均值的区间估计和特定值的区间估计。SUMMARY OUTPUTSUMMARY OUTPUT回归统计回归统计Multiple RMultiple R0.8149060.814906R SquareR Square0.6640710.664071Adjusted R SquareAdjusted R Square0.622080.62208标准误差标准误差1.0017921.001792观测值观测值1010 方差分析方差分析dfdfSSSSMSMSF FSignificaSignificance Fnce F回归分析回归

31、分析1 115.871315.871315.871315.871315.814515.81458 80.004080.00408残差残差8 88.0286968.0286961.0035871.003587总计总计9 923.923.9CoefficientsCoefficients标准误差标准误差t Statt StatP-P-valuevalueLower 95%Lower 95%Upper Upper 95%95%下限下限 95.0%95.0%上限上限 95.0%95.0%InterceptIntercept1.2739131.2739131.4007451.4007450.909454

32、0.9094540.389680.389687 7-1.95621-1.95621 4.5040364.504036-1.95621-1.95621 4.5040364.504036X Variable X Variable 1 10.0678260.0678260.0170560.0170563.9767553.976755 0.004080.00408 0.0284960.028496 0.1071560.107156 0.0284960.028496 0.1071560.107156 给定X0=60,Y的点估计值为:=5.338 对于=0.05,t/2(10-2)=2.306 故Y均值的置信区间为:即:当投递距离为60公里时,有95%的把握估计所有雇员的平均工作时间在4.56.1小时之内。20215.338 2.306 15.338 0.773XXnXX 0Y

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(课件:相关与回归分析.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|