1、12 345一、相关关系的概念一、相关关系的概念p变量之间的依存关系变量之间的依存关系p两种类型:函数关系和相关关系两种类型:函数关系和相关关系 出租汽车费用与行驶里程:出租汽车费用与行驶里程:总费用总费用=行驶里程行驶里程 每公里单价每公里单价 家庭收入与恩格尔系数:家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。家庭收入高,则恩格尔系数低。相关关系相关关系(非确定性关系)(非确定性关系)6函数关系函数关系相关关系相关关系7p函数关系与相关关系的区别和联系:函数关系与相关关系的区别和联系:区别:区别:8 联系联系:9按涉及变量的多少分为按涉及变量的多少分为按照表现形式不同分为按照表现形式不
2、同分为按照变化方向不同分为按照变化方向不同分为二、相关分析的种类二、相关分析的种类偏相关偏相关单相关单相关复相关复相关直线相关直线相关曲线相关曲线相关正相关正相关负相关负相关10完全相关完全相关不相关不相关不完全相关不完全相关真实相关真实相关虚假相关虚假相关11三、相关分析的概念及内容三、相关分析的概念及内容 相关关系是研究两个或两个以上变量之相关关系是研究两个或两个以上变量之间的相关方向和相关密切程度的统计分析方间的相关方向和相关密切程度的统计分析方法。法。u所涉及的变量是随机变量,是所涉及的变量是随机变量,是对等对等关系关系12u主要内容:主要内容:1.1.确定变量之间有无相关关系以及相关
3、关系表确定变量之间有无相关关系以及相关关系表现形式现形式l定性分析,确定相关关系是前提定性分析,确定相关关系是前提2.2.确定变量之间相关的密切程度确定变量之间相关的密切程度l通过编制相关表、绘制相关图或计算相关系通过编制相关表、绘制相关图或计算相关系数进行数进行133.3.建立合适的数学模型建立合适的数学模型l建立线性方程或曲线方程建立线性方程或曲线方程4.4.测定变量估计值的可靠程度测定变量估计值的可靠程度l计算估计值,测定估计标准误差计算估计值,测定估计标准误差1415一、相关表与相关图一、相关表与相关图 相关表:用表格形式反映变量之间相关关系相关表:用表格形式反映变量之间相关关系的统计
4、表,有简单相关表和分组相关表。的统计表,有简单相关表和分组相关表。(*)相关图:又叫散点图,将两个变量间对应的相关图:又叫散点图,将两个变量间对应的数值在直角坐标系中描绘出来,用于反映两变数值在直角坐标系中描绘出来,用于反映两变量之间相关关系的图形。量之间相关关系的图形。(*)16 适用于所观察的样本单位数适用于所观察的样本单位数较多标志变异又较复杂,需要较多标志变异又较复杂,需要分组的情况,有单变量分组相分组的情况,有单变量分组相关表和双变量分组相关表关表和双变量分组相关表17企业编号企业编号月产量(千吨)月产量(千吨)X生产费用(万元)生产费用(万元)Y123456781.22.03.13
5、.85.06.17.28.0628680110115132135160八个八个同类工业企业的月产量与生产费用同类工业企业的月产量与生产费用18平均每昼平均每昼夜产量夜产量(吨吨)固定资产原值固定资产原值(百万元百万元)35404045455050555560606565706006501 1550600123500550213450500151740045022435040003003502222354312020个同类工业企业固定资产原值与平均每昼夜产量个同类工业企业固定资产原值与平均每昼夜产量19正正 相相 关关负负 相相 关关曲线相关曲线相关不不 相相 关关xyxyxyxy 又称又称,用
6、直角坐标系的,用直角坐标系的x x轴代表自变轴代表自变量,量,y y轴轴代表因变量,将两个变量间相对应的代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。相关点分布状况的图形。20212222222)(yynxxnyxxynnyynxxnyyxxryxxy的标准差、分别为与表示协方差,yxyxxy222相关系数相关系数r的取值的取值范围:范围:r0 为为正相关正相关,r 0 为为负相关负相关;|r|=0 表示不存在表示不存在关系;关系;|r|1 表示表示完全完全相关相关;0|r|0.3为弱相关为弱相关 0.3|r|
7、0,SSE0,则则r r2 211yyyy 44(三)估计标准误差(三)估计标准误差 估计值估计值 与实际观测值与实际观测值y y之间存在一定的离差,之间存在一定的离差,称为估计误差。它可以说明回归方程估计或推算结果称为估计误差。它可以说明回归方程估计或推算结果的准确程度的准确程度.这数值愈小,说明估计值的代表性愈这数值愈小,说明估计值的代表性愈高,离散程度愈小。高,离散程度愈小。2)(2nyySyx22nxybyaySyxy 45亿元,且知解:已知457.227961.0,5142.626175,37887,625,1622nxybyaySbayxyynyx46u估计标准误差与可决系数的关系
8、:估计标准误差与可决系数的关系:含义:含义:r r值越大,值越大,S Syxyx越小,说明相关程度越高,越小,说明相关程度越高,回归线的代表性越好。当回归线的代表性越好。当r=1r=1,则则S Syxyx=0=0,说明两变量说明两变量完全相关,反之,亦然。当完全相关,反之,亦然。当r=0r=0,则,则S Syxyx=y y,此时相,此时相关点关点x x值无论如何变化,估计值不变,回归直线和值无论如何变化,估计值不变,回归直线和y y数数列的平均线是同一直线,说明变量间完全不相关列的平均线是同一直线,说明变量间完全不相关.2222)(,)(yyxnyynSyy22221)()(1yyxSyyyy
9、r47对所建立的回归方程,应进行显著性检验,对所建立的回归方程,应进行显著性检验,包括对整个回归方程的显著性检验和对回归包括对整个回归方程的显著性检验和对回归系数的显著性检验。一般说来,通过显著性系数的显著性检验。一般说来,通过显著性检验,说明起回归方程是可信的,就可以进检验,说明起回归方程是可信的,就可以进行预测。行预测。48四、一元线性回归方程的预测四、一元线性回归方程的预测1.点估计:根据给定的自变量值,代入回归方程求点估计:根据给定的自变量值,代入回归方程求得相应的估计值得相应的估计值2.区间估计:根据给定的自变量值,求出区间估计:根据给定的自变量值,求出 y 的平均的平均值的置信区间
10、值的置信区间.222020nxybyayZySZyyx490 xbxayyxxy7961.05142.6如前例:若若 x=80(十万吨)十万吨),则:则:亿元1738.57807961.05142.6y50ybxayx0 x若给定的若给定的 x=80(十万吨)(十万吨),y y 的的置信度为置信度为95%95%亿元)(8157.41738.57457.296.11738.5720yxSZy51 一元线性回归分析研究的是一个因变量和一一元线性回归分析研究的是一个因变量和一个自变量之间的关系个自变量之间的关系.而在对客观现象的分析而在对客观现象的分析中中,因变量受多个自变量的影响因变量受多个自变量
11、的影响,这种分析叫多这种分析叫多元回归分析元回归分析.在线性条件下在线性条件下,研究两个或两个以研究两个或两个以上自变量和因变量之间的数量关系称为多元线上自变量和因变量之间的数量关系称为多元线性回归分析性回归分析.其原理和一元线性回归分析相同其原理和一元线性回归分析相同,只是变量多了只是变量多了,计算更复杂计算更复杂,可以借助现成的软可以借助现成的软件如件如ExcelExcel等来完成等来完成.本节由同学自学完成本节由同学自学完成.52在实际问题中在实际问题中,有些回归方程的因变量与自有些回归方程的因变量与自变量之间并不是线性关系变量之间并不是线性关系,而是某种曲线关系而是某种曲线关系,因此需要配合适当的曲线方程因此需要配合适当的曲线方程,这种分析方法这种分析方法叫非线性回归分析叫非线性回归分析.有双曲线型、幂函数型、有双曲线型、幂函数型、指数函数型、对数函数型等形式。通常情况指数函数型、对数函数型等形式。通常情况下,可将其转化为线性方程,然后求解。本下,可将其转化为线性方程,然后求解。本节内容由同学自学完成。节内容由同学自学完成。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。