1、12(一)双变量相关关系的含义(一)双变量相关关系的含义3函数关系函数关系相关关系相关关系现象之间确定性的数量依存关系现象之间非确定性的数量依存关系(二)双变量相关关系的种类4相关关系的种类相关方向正相关和负相关相关形式线性相关和非线性相关相关程度完全相关、不完全相关和不相关 【例7-1】歌乐音响设备商店于2014年79三个月份中,连续10周使用了周末电视广告来提高商店的销售额。商店经理想调查这段时间内播出的广告次数和店内销售额之间是否存在某种关系。问题:如果该经理将这项工作交给你,你该怎样做呢?5(一)(一)相关表相关表法法 1.1.编制编制原始数据表原始数据表如下如下表表 7-1 7-1
2、立体声音响设备商店的原始数据立体声音响设备商店的原始数据 6周次广告次数下一周销售额(百元)1 2 3 4 5 6 7 8 91011251341534250574154543863485946 2 2.将原始数据表编制成相关表将原始数据表编制成相关表 表表7-2 7-2 立体声音响设备商店的广告次数与销售额相关表7广告次数销售额(百元)1 1 2 2 3 3 4 4 5 5384146504854545963(二)相关图法(二)相关图法 8图图7-1 立体声音响设备商店数据散点图立体声音响设备商店数据散点图(三)相关系数法(三)相关系数法 相关系数相关系数是用以是用以衡量两变量间线性相关关系
3、情衡量两变量间线性相关关系情况下,相关方向和密切程度的相对数。况下,相关方向和密切程度的相对数。91.1.相关系数相关系数的计算的计算 样本相关系数的定义公式样本相关系数的定义公式10yxxyxysssr(7.1)1121ixxxsn21iyyysn样本数据的简捷公式样本数据的简捷公式12)2.7(2222 yynxxnyxxynr总体数据的相关系数总体数据的相关系数)3.7(yxxy7-27-2 根据表根据表7-27-2相关数据,利用样本数据计算相相关数据,利用样本数据计算相关系数。关系数。13 2222yynxxnyxxynr22510-265761030-1101051030-16291
4、093.09548.10639902.相关系数的应用a.相关系数的取值范围 的取值在-1和1之间,即 b.正负相关的判断 当 0时为正相关;当 0时为负相关。14r1rrrc.相关密切程度的判断 当 时,相关关系越密切,当 说明X与Y之间完全相关,即函数关系;当 时,相关关系越不密切,当 =0,说明X与Y之间不存在直线相关关系,但也许存在非线性相关关系。151r0 xyrr1r在做具体判断时,有几个数量标准:在做具体判断时,有几个数量标准:,称为微弱相关。一般情况下,将其视为没有线性相关关系;0.3 ,称为低度相关;0.5 ,称为显著相关;0.8 ,称为高度相关。163.0r5.0r8.0r1
5、r 计算结果表明,歌乐立体音响设备商店在过去10周内,周末所做的广告次数与下一周的销售额之间存在着高度线性正相关关系。1718 只涉及两个变量(一个自变量和一个因变量)之只涉及两个变量(一个自变量和一个因变量)之间关系的回归分析称为间关系的回归分析称为简单简单回归分析回归分析。两个变量之间的关系大约呈一条直线的简单回归两个变量之间的关系大约呈一条直线的简单回归分析称为分析称为简单线性回归简单线性回归分析分析。19 用回归分析可以预测运行一条商业航空线的成本吗?如果可以,那么哪些变量与这一成本有关呢?2021飞机运行成本飞机型号飞行距离乘客数量乘客数量行李或货物重量天气状况 为了为了减少自变量个
6、数,我们做如下假定:减少自变量个数,我们做如下假定:飞机飞机类别类别波音波音737飞机飞机 飞行飞行距离距离500公里公里 航线航线可比,而且在每年的相同季节可比,而且在每年的相同季节 在在这种条件下,可以用这种条件下,可以用乘客数乘客数来预测飞行的成来预测飞行的成本吗?本吗?22 表表7-3是是每年相同季节波音每年相同季节波音737飞机在飞机在12条条500公里公里的不同航线不同乘客数时的飞行成本。我们用这些数的不同航线不同乘客数时的飞行成本。我们用这些数据以乘客数作为自变量构造模型来预测成本。据以乘客数作为自变量构造模型来预测成本。2324(7.4)25xy10:因变量(随机变量):因变量
7、(随机变量)y:自变量(给定变量):自变量(给定变量)x:参数:参数 10、:误差项(随机变量),含义为说明在:误差项(随机变量),含义为说明在 中不能中不能被被 和和 之间线性关系解释的变异性。之间线性关系解释的变异性。yxy 在有关 假设中,有一个假设就是的期望值或均值等于0,即 26 0E(7.5)如果简单线性回归模型满足了这个条件,那如果简单线性回归模型满足了这个条件,那么就意味着么就意味着 的均值或期望值就是一个线性函数。的均值或期望值就是一个线性函数。y 描述描述 的均值与的均值与 的关系如何的方程称为的关系如何的方程称为回归方程回归方程。yx 在简单线性回归中 1.回归方程的图形
8、是一条直线(如图7.3所示);27 xyE10(7.6)283.:斜率(回归系数);292.:的截距;的截距;0y1 的含义:当自变量的含义:当自变量 给定一个具体变动值时,因给定一个具体变动值时,因变量变量 平均平均变化的量。变化的量。1xy3031 估计回归方程估计回归方程 就是用样本统计量作为参数的估计值所建立的回归方程。32xbby10(7.7):的估计值的估计值y y:的估计值的估计值 0b0:的估计值的估计值 1b133 最小最小平方平方法,法,也称最小二乘法最小二乘法,是将回归模型的方差之和最小化,以得到一系列方程,从这些方程中解出模型中需要的参数的一种方法。34(一)画散点图,
9、以初步观察成本与乘客数量之间是否呈回归直线。35(二)建立估计回归方程36122110,ixbbyii(7.8)最小平方法运用样本数据求出最小平方法运用样本数据求出 和和 的的值,使值,使得因变量的实际观察值得因变量的实际观察值 与其估计值与其估计值 之差的平方之差的平方和最小,即和最小,即0b1biyiy min2iiyy(7.9)(三)估计回归方程斜率和截距的计算公式37bxxnyxyxnbaxnxyxyxbiiiiii10.710.7221221 xbyb10(7.11)38390407.09307376412690.56930220.4462122221 xxnyxyxnbiiii40
10、570.1129300407.012690.56110nxbnyxbyb41 (四)将(四)将 和和 的计算结果代入式的计算结果代入式(7.8)有:有:1b0biixy0407.0570.1 计算结果表明,在其他条件相同情况下,计算结果表明,在其他条件相同情况下,12条条航线上波音航线上波音737飞机各条航线每次飞行时每增加飞机各条航线每次飞行时每增加1名名乘客,将会使飞行成本平均增加乘客,将会使飞行成本平均增加40.70元。元。结论:结论:42千元419.4700407.0570.1iy*Y=4.48千元二者差千元二者差0.061千元或千元或61元。元。测定系数估计标准误差43(一)测定系数
11、 回归直线与各观测数据的接近程度称为回回归直线与各观测数据的接近程度称为回归直线的归直线的拟合优度拟合优度。度量回归直线的拟合优度最常用的指标是度量回归直线的拟合优度最常用的指标是测定系数测定系数,(又称,(又称可决系数可决系数、判定系数判定系数)。该指标是建立在对总离差平方和进行分解该指标是建立在对总离差平方和进行分解的基础之上的。的基础之上的。4445xyyxy10yy yyyy),(iiyx离差分解图两端平方后求和有两端平方后求和有46总离差平方和(SST)回归平方和(SSR)残差平方和(SSE)22222)()(1)()(yyyyyyyySSTSSRRiiiii(7.12)(7.13)
12、(7.14)R R2 2的取值范围是的取值范围是00,11。R R2 2越接近于越接近于1 1,表明回归平方和占总离差平,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。归直线的拟合程度就越好。在在一元线性回归中,相关系数一元线性回归中,相关系数r r的平方等于的平方等于判定系数,符号与自变量判定系数,符号与自变量x x的系数一致。因此可以的系数一致。因此可以根据回归结果求出相关系数。根据回归结果求出相关系数。471.1.残差残差 残差残差是因变量的观察值y和因变量的估计值 之间的偏差。48iy iiyy
13、例如,上面的例子,705ixi,元061.0419.448.455 yy(7.15)49 残差平方的总和称为残差平方的总和称为误差平方和误差平方和(SSE)。)。502iiyySSE(7.16)SSE的值是用估计回归方程估计样本中因变量的值是用估计回归方程估计样本中因变量的值时所产生误差的一种测度。的值时所产生误差的一种测度。因变量的值与其均值之间离差的平方和称为总离差平方和总离差平方和(SST)。512yySSTi(7.17)因变量的值与其估计值之间离差的平方和称为回归平方和回归平方和(SSR)。522iiyySSR(7.18)表7-6 计算表 53由表7-6计算结果可知,SSE=0.314
14、34,SSR=2.79775,SST=3.11209,则 54899.011209.379775.22SSTSSRR 这就是说,在一条商业航线上一架波音这就是说,在一条商业航线上一架波音737飞机飞机飞行成本的方差中有飞行成本的方差中有89.9%可以被乘客数目说明或预可以被乘客数目说明或预测,换句话说,飞行成本测,换句话说,飞行成本Y的方差中不能由的方差中不能由X或回归或回归方程解释的有方程解释的有10.1%。55 估计标准误估计标准误:是对各观测数据在回归直线周围分散程度的一个度量值,它是对误差项的标准差的估计。估计估计标准误反映了用估计的回归方程拟合因变量标准误反映了用估计的回归方程拟合因
15、变量Y Y时平均误差的大小。时平均误差的大小。各观测数据越靠近回归直线,各观测数据越靠近回归直线,s sy y 就越小,回归直线对各观就越小,回归直线对各观测数据的代表性就越好。测数据的代表性就越好。与与R R2 2不同的是,估计标准误是一个有单位的平均数。不同的是,估计标准误是一个有单位的平均数。56MSEnSSEnyysiiy22)(2(7.19)在飞行成本的案例中:sse=0.31414 n=1257千元1773.01031434.02nSSEsy【统计分析】计算结果表明,在12条商业航线上,每架波音737飞机在飞行500公里和其他条件相同情况下,其飞行成本与它们的平均飞行成本平均相差117.3元。计算结果表明,波音计算结果表明,波音737飞机在相同季节飞机在相同季节12条航条航线上,乘客数量与运行成本之间存在线性高度的正线上,乘客数量与运行成本之间存在线性高度的正相关关系。相关关系。58
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。