第9章方差分析及回归分析课件.ppt

上传人(卖家):三亚风情 文档编号:2986273 上传时间:2022-06-19 格式:PPT 页数:138 大小:2.32MB
下载 相关 举报
第9章方差分析及回归分析课件.ppt_第1页
第1页 / 共138页
第9章方差分析及回归分析课件.ppt_第2页
第2页 / 共138页
第9章方差分析及回归分析课件.ppt_第3页
第3页 / 共138页
第9章方差分析及回归分析课件.ppt_第4页
第4页 / 共138页
第9章方差分析及回归分析课件.ppt_第5页
第5页 / 共138页
点击查看更多>>
资源描述

1、1第九章第九章 方差分析和回归分析方差分析和回归分析单因素方差分析单因素方差分析 一元线性回归一元线性回归 回归诊断回归诊断 2n方差分析方差分析(Analysis of variance, 简称简称: ANOVA),是由英国统计学家费歇尔是由英国统计学家费歇尔(Fisher)在在20世纪世纪20年代提出的年代提出的,可用可用于推断两个或两个以上总体均值是否于推断两个或两个以上总体均值是否有差异的显著性检验有差异的显著性检验.39.1 单因素方差分析单因素方差分析例例1.1 为了比较三种不同类型日光灯管的寿命为了比较三种不同类型日光灯管的寿命(小时小时), 现将从每种类型日光灯管中抽取现将从每

2、种类型日光灯管中抽取 8个个, 总共总共 24 个日光灯管进行老化试验个日光灯管进行老化试验,根据根据下面经老化试验后测算得出的各个日光灯下面经老化试验后测算得出的各个日光灯管的寿命管的寿命(小时小时),试判断三种不同类型日光试判断三种不同类型日光灯管的寿命是不是有存在差异灯管的寿命是不是有存在差异.4日光灯管的寿命日光灯管的寿命(小时小时)类型寿命(小时)类型I5290 6210 5740 5000 5930 6120 6080 5310类型II5840 5500 5980 6250 6470 5990 5470 5840类型.III7130 6660 6340 6470 7580 6560

3、 7290 6730引起日光灯管寿命不同的原因有二个方面引起日光灯管寿命不同的原因有二个方面: n其一其一, 由于日光灯类型不同由于日光灯类型不同,而引起寿命不同而引起寿命不同.n其二其二,同一种类型日光灯管同一种类型日光灯管,由于其它随机因由于其它随机因素的影响素的影响, 也使其寿命不同也使其寿命不同.5n在方差分析中在方差分析中, 通常把研究对象的特征值通常把研究对象的特征值, 即所考察的试验结果即所考察的试验结果( 例如日光灯管的寿命例如日光灯管的寿命)称为称为 试验指标试验指标.n对试验指标产生影响的原因称为对试验指标产生影响的原因称为 因素因素, “日日光灯管类型光灯管类型” 即为即

4、为因素因素.n因素中各个不同状态称为因素中各个不同状态称为 水平水平, 如日光灯管如日光灯管三个不同的类型三个不同的类型, 即为三个即为三个水平水平. 6n单因素方差分析单因素方差分析 仅考虑有一个因素仅考虑有一个因素A对试对试验指标的影响验指标的影响. 假如因素假如因素 A有有r 个水平个水平, 分别分别在第在第 i 水平下进行了水平下进行了 多次独立观测多次独立观测, 所得到所得到的试验指标的数据的试验指标的数据 122111112122221222212:,:,:,rnnrrrrrnANXXXANXXXANXXX 72(0,),1,2,1,2,ijiijijijiXNjnir各独立, 各

5、个总体相互独立各个总体相互独立. 因此因此, 可写成如下的可写成如下的 数数学模型学模型:8n 方差分析的目的就是要比较因素方差分析的目的就是要比较因素A 的的r 个水平下试验指标理论均值的差异个水平下试验指标理论均值的差异, 问问题可归结为比较这题可归结为比较这r个总体的均值差异个总体的均值差异.9检验假设检验假设111 rriiiiinnnn记总平均, 其中,1,2,.,iiiAir水平 的效应1 122.0rrnnn此时有012112:.:,.,rrHH 不全相等不全相等.1021 122(0,),1,2,1,2,.0ijiijijijirrXNjn irnnn模型为:各独立假设等价于假

6、设等价于012112:0:,rrHH 不全为零不全为零.11n为给出上面的检验,主要采用的方法是平为给出上面的检验,主要采用的方法是平方和分解。即方和分解。即n假设数据总的差异用总离差平方和假设数据总的差异用总离差平方和 分解分解为二个部分为二个部分:n 一部分是由于因素一部分是由于因素 A引起的差异引起的差异, 即效应平即效应平方和方和 ;n另一部分则由随机误差所引起的差异另一部分则由随机误差所引起的差异, 即即误差平方和误差平方和 .TSSASSESS12211inrTijijSSXX定义:总偏差平方和22211rrAiiiiiiSSnXXn XnX效应平方和211inrEijiijSSX

7、X误差平方和221riiin XnX131TAESSSSSS性质:221111iinnrrTijijiiijijSSXXXXXX证明:证明: 221111112iiinnnrrrijiiijiiijijijXXXXXXXXAESSSS11110iinnrrijiiiijiijijXXXXXXXX1422121rTiiiE SSnn性质 :2211rAiiiE SSnr2EE SSnr152221111iinnrrTijijijijE SSEXXEXnX证明:2211()()inrijijE XnE X1111()()1()inrijijriiiE XE Xnnn222211() inriijn

8、n2221111iinnrrTijijijijE SEXXEXnX证明:2221111jjnnssTijijjijiE SEXXEXnX证明:1622222112rriiiiiinnnnn2211riiinn211()inrEijiijE SSEXX221(1)()riinnr17221()()1rATEiiiE SSE SSSSnr18202(2)(1)AEASSSSSSHr与相互独立,当为真时,.0(1)(1,).()AESSrHFF rnrSSnr从而,当为真时,定理定理9.1.122(1)()ESSnr;19ASS1AASSMSrAEMSMSESSEESSMSnrTSS方差来源平方和自

9、由度均方F因素Ar-1误差n-r总和n-1单因素试验方差分析表单因素试验方差分析表(1,).FF rnr当时,拒绝原假设20,TAESSSSSS 的计算公式:11111,1,2, ,iinnriijijjijiXXirXXnn记2211inrTijijSSXnX221rAiiiSSn XnXETASSSSSS21 例例1.2 设有设有5种治疗荨麻疹的药,要比较种治疗荨麻疹的药,要比较它们的疗效。假设将它们的疗效。假设将30个病人分成个病人分成5组,组,每组每组6人,令同组病人使用一种药,并记人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,录病人从使用药物开始到痊愈所需时间,得

10、到下面的记录:得到下面的记录:( =0.05)22药物类型药物类型治愈所需天数治愈所需天数x15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,623这里药物是因子,共有这里药物是因子,共有5 5个水平,这是个水平,这是一个单因素方差分析问题,要检验的一个单因素方差分析问题,要检验的假设是假设是“所有药物的效果都没有差所有药物的效果都没有差别别”。 0123451125:,.,HH 解:检验假设不全相等。24123455,6,30,rnnnnnn32451,5,5.17,6.17,5.7.543.336XXXXXX211104

11、7,inrijijX250.050(4,25)2.76FH。拒绝,认为疗效有显著差异。方差来源方差来源 平方和平方和 自由度自由度均方均方F因素因素A36.46749.117 3.90误差误差58.500252.334总和总和94.9672926未知参数的估计未知参数的估计221;(2)(3)(4)EiiiiiiSSnrXXXX()的估计的估计;的估计;的估计.容易证明,以上估计均为相应参数的无偏估计.2702201(,)(,)():,:ijijijijijHNNijHH 注意:如果拒绝原假设,只能说明均值不全相等。接下来的问题是它们中有没有部分是相等的?仍需要进一步的推断,比较和的差异。(1

12、)作的区间估计;(2)作的假设检验。28211(),()ijijijijE XXVar XXnn因为2ijEXXMS且与相互独立。2()()()()()(11)(11) ()ijijijijEijEijXXXXSSnrnnMSnnt nr故()1ij得的水平为的置信区间2()(11)ijEijXXtnrMSnn置信区间置信区间29213123531.2,(1,2,3,4,5)0.95iii 例1.求例中未知参数的点估计,并求,的置信度为的置信区间。222.33345.63337.5,5,4.3333,5.1667,6.16671.8667,0.6333,1.3,0.4666,0.5334Eii

13、SSXnr解:的估计; 的估计;的估计分别为:;的估计分别为:0.025(25)2.0595,(11)0.8819EijtMSnn查表得301312350.95(1.3504,4.983)(0.6837,4.3163)( 3.6497,0.0171),的置信度为的置信区间分别为:,131235说明 与 , 与,与的差异都显著。31假设检验假设检验01:,:,ijijHHij检验假设(11)ijijEijXXtMSnn给出检验统计量320200 ()().ijijijHtt nrWttnrtHH当成立时,拒绝域观测值得到的 落在拒绝域内,则拒绝原假设,反之,则接受原假设33例例1.4(1.4(续

14、续1.2)1.2)(1)(1)判断第一种、第二种药物的差异;判断第一种、第二种药物的差异; (2)(2)判断第一种、第三种药物的差异;判断第一种、第三种药物的差异; (3)(3)判断第三种、第五种药物的差异;判断第三种、第五种药物的差异;解:仅检验解:仅检验(1)(1),(2)(2)和和(3)(3)留作思考题留作思考题. .012112121212:,:,(11)EHHXXtMSnn(1)检验假设34121212120.025(11)0.88197.552.52.833(11)(25)2.0595,EijEMSnnxxxxtMSnnt由前面的计算知:查表得120.0250(25),.ttH拒绝

15、35在在Excel上实现方差分析上实现方差分析n先加载先加载数据分析数据分析 这个模块这个模块,方法如下方法如下:n在在excel工作表中点击主菜单中工作表中点击主菜单中 “工具工具” 点击下点击下拉式菜单中拉式菜单中“加载宏加载宏” 就会出现一个就会出现一个“加载宏加载宏” 的框的框. n 在在 “分析工具库分析工具库” 前的框内打勾点击前的框内打勾点击“确定确定”. 这时候再点击下拉式菜单会新出现这时候再点击下拉式菜单会新出现 “数据分析数据分析”. 然后就可以进行统计分析了然后就可以进行统计分析了.36以下面的例子来说明用以下面的例子来说明用Excel进行方差分进行方差分析的方法析的方法

16、:n保险公司某一险种在四个不同地区一保险公司某一险种在四个不同地区一年的索赔额情况记录如表所示年的索赔额情况记录如表所示. 试判试判断在四个不同地区索赔额有无显著的断在四个不同地区索赔额有无显著的差异差异?37保险索赔记录保险索赔记录地区地区索赔额索赔额(万元万元)A11.601.611.651.681.701.701.78A21.501.641.401.701.75A31.641.551.601.621.641.601.741.80A41.511.521.531.571.641.6038n在在Excel工作表中输入上面的数据点击主菜工作表中输入上面的数据点击主菜单中单中 “工具工具”点击下拉

17、式菜单中点击下拉式菜单中“数据分数据分析析” 就会出现一个就会出现一个“数据分析数据分析” 的框的框.n 点击菜单中点击菜单中“方差分析方差分析:单因素方差分析单因素方差分析”点击点击“确定确定”, 出现出现“方差分析方差分析:单因素方单因素方差分析差分析” 框框.39n在在“输入区域输入区域”中标定你已经输入的数据中标定你已经输入的数据的位置的位置(本例为本例为$B$3:$I$6),根据你输入数据根据你输入数据分组情况分组情况(是按行分或按列分是按行分或按列分,本例点击本例点击“行行”)确定分组确定分组.n选定方差分析中选定方差分析中F检验的显著水平选定输出检验的显著水平选定输出结果的位置点

18、击结果的位置点击“确定确定”.n 在你指定的区域中出现如下两张表在你指定的区域中出现如下两张表:40组组观测数观测数 求和求和平均平均方差方差行1行2行3行4758611.727.9913.199.371.6741.5981.6491.5620.00380.02100.00670.0026表一:摘要表一:摘要41方差方差来源来源平方和平方和 自由自由度度均方均方FP-valueF crit组间组间0.049230.01642.16590.1208 3.0491 组内组内0.1666220.0076总计总计0.215825表二:方差分析表表二:方差分析表42根据根据Excel给出的方差分析表给出

19、的方差分析表,假设假设H0的判别有的判别有二种方法二种方法:43212340.0076;1.674,1.598,1.649,1.562.方差估计:均值估计:110.025195(22)(1.6742.0740.0076 7)(1.606,1.742).EXtMSn的置信度为置信区间4412120.02595(22)(1 7 1 5)( 0.030, 0.182).EXXtMS 的置信度为置信区间0121121212120.025120.0250:,:,1.489(11)(22)2.074,(22),.EHHxxtMSnntttH查表得接受45方差分析的前提方差分析的前提进行方差分析必须具备三个

20、基本的条件:进行方差分析必须具备三个基本的条件:(1)独立性独立性.数据是来自数据是来自r个独立总体的简单个独立总体的简单随机样本;随机样本;(2)正态性正态性. r个独立总体均为正态总体;个独立总体均为正态总体;(3) 方差齐性方差齐性.r个独立总体的方差相等个独立总体的方差相等.如何判断这些条件是否成立?这些条件如何判断这些条件是否成立?这些条件对于方差分析的结论影响又是如何?对于方差分析的结论影响又是如何?46n方差分析和其它统计推断一样方差分析和其它统计推断一样, 样本的独立样本的独立性对方差分析是非常重要的性对方差分析是非常重要的, 在实际应用中在实际应用中会经常遇到非随机样本的情况

21、会经常遇到非随机样本的情况,n这时使用方差分析得出的结论不可靠这时使用方差分析得出的结论不可靠. 因此因此, 在安排试验或采集数据的过程中在安排试验或采集数据的过程中, 一定要注一定要注意样本的独立性问题意样本的独立性问题.47n在实际中在实际中, 没有一个总体真正服从正态分布的没有一个总体真正服从正态分布的, 而方差分析却依赖于正态性的假设而方差分析却依赖于正态性的假设. 不过由经不过由经验可知验可知, 方差分析方差分析F检验对正态性的假设并不检验对正态性的假设并不是非常敏感是非常敏感, n即即, 实际所得到的数据实际所得到的数据, 若没有异常值和偏性若没有异常值和偏性, 或者说或者说, 数

22、据显示的分布比较对称的话数据显示的分布比较对称的话, 即使即使样本容量比较小样本容量比较小(如每个水平下的样本容量仅如每个水平下的样本容量仅为为5左右左右), 方差分析的结果仍是值得信赖的方差分析的结果仍是值得信赖的.48n方差齐性对于方差分析是非常重要的方差齐性对于方差分析是非常重要的, 因此因此在方差分析之前往往要进行方差齐性的诊在方差分析之前往往要进行方差齐性的诊断断, 检验方差齐性假设通常采用检验方差齐性假设通常采用Barlett检验检验.n不过,也可采用如下的经验准则不过,也可采用如下的经验准则:当最大样当最大样本标准差不超过最小样本标准差的两倍时本标准差不超过最小样本标准差的两倍时

23、, 方差分析方差分析F检验结果近似正确检验结果近似正确.499.4 一元线性回归一元线性回归一、确定性关系:一、确定性关系: 当自变量给定一个值时,就确定应变量的当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的值与之对应。如:在自由落体中,物体下落的高度高度h h与下落时间与下落时间t t之间有函数关系:之间有函数关系: 21h =g t2变量与变量之间的关系变量与变量之间的关系 确定性关系相关性关系50二、相关性关系:二、相关性关系: 变量之间的关系并不确定,而是表现为具变量之间的关系并不确定,而是表现为具有随机性的一种有随机性的一种“趋势趋势”。即对自变量。即对

24、自变量x的同的同一值,在不同的观测中,因变量一值,在不同的观测中,因变量Y可以取不同可以取不同的值,而且取值是随机的,但对应的值,而且取值是随机的,但对应x在一定范在一定范围的不同值,对围的不同值,对Y进行观测时,可以观察到进行观测时,可以观察到Y随随x的变化而呈现有一定趋势的变化。的变化而呈现有一定趋势的变化。为统一记号,后面一律用为统一记号,后面一律用y表示因变量表示因变量.51n如:身高与体重,不存在这样的函数可以如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,由身高计算出体重,但从统计意义上来说,身高者,体也重。身高者,体也重。n如:父亲的身高与儿子的身高之间

25、也有一如:父亲的身高与儿子的身高之间也有一定联系定联系, 通常父亲高,儿子也高。通常父亲高,儿子也高。52我们以一个例子来建立回归模型我们以一个例子来建立回归模型n某户人家打算安装太阳能热水器某户人家打算安装太阳能热水器. 为了为了了解加热温度与燃气消耗的关系了解加热温度与燃气消耗的关系, 记录记录了了16个月燃气的消耗量个月燃气的消耗量, 数据见下表数据见下表.53 月份月份平均加热平均加热温度温度燃气用量燃气用量 月份月份平均加热平均加热温度温度燃气用量燃气用量Nov.246.3Jul.01.2Dec.5110.9Aug.11.2Jan.438.9Sep.62.1Feb.337.5Oct.

26、123.1Mar.265.3Nov.306.4Apr.134Dec.327.2May.41.7Jan.5211Jun.01.2Feb.306.95455n如果以加热温度作为横轴如果以加热温度作为横轴, 以消耗燃气以消耗燃气量作为纵轴量作为纵轴,得到散点图的形状大致呈得到散点图的形状大致呈线性线性.n如果假设中间有一条直线,这些点均如果假设中间有一条直线,这些点均匀地散布在直线的两侧匀地散布在直线的两侧. 表示除了温度表示除了温度外还有其它的因素影响燃气消耗量外还有其它的因素影响燃气消耗量.56n在回归分析时在回归分析时, 我们称我们称“燃气消耗量燃气消耗量”为响应变量记为为响应变量记为y,“加

27、热温度加热温度”为解释为解释变量记为变量记为x, 由所得数据计算相关系数由所得数据计算相关系数得得r=0.995,表明加热温度与燃气消耗之表明加热温度与燃气消耗之间有非常好的线性相关性间有非常好的线性相关性.12211()()()()niiinniiiixxyyrxxyy57加热温度加热温度x的变化是引起燃气消耗量的变化是引起燃气消耗量y 变化变化的主要因素的主要因素,还有其他一些因素对燃气消耗还有其他一些因素对燃气消耗量量y 也起着影响也起着影响, 但这些因素是次要的但这些因素是次要的.从数学形式来考虑从数学形式来考虑, 由于加热温度由于加热温度x 的变化的变化而引起燃气消耗量而引起燃气消耗

28、量y 变化的主要部分记为变化的主要部分记为 0 +1x,其中,其中0, 1是未知参数,是未知参数,另一部分是由其他随机因素引起的记为另一部分是由其他随机因素引起的记为, 即即y= 0 +1x +.58012201,1,2,., ,0,(,iiiiyxinN一元线性回归模型:,且相互独立,回归系数)未知.对从总体对从总体(x, y)中抽取的一个样本中抽取的一个样本(x1, y1), (x2, y2), , (xn, yn)一元线性回归模型一元线性回归模型:5901,在模型假定下在模型假定下yi(i=1,2,n)也是相互独立也是相互独立, 服从正态分布服从正态分布N(0 +1xi, 2) . 由所

29、得样本可由所得样本可给出未知参数给出未知参数0 ,1的点估计的点估计, 分别记为分别记为称为称为y关于关于x的一元线性回归方程的一元线性回归方程.01 yx601x2x3xixnx01 yx61012(1),(2)的估计;参数估计的估计;1(3)(4)线性假设的显著性检验;模型及参数检验回归系数的置信区间;01(5)( )(6).xxy回归函数的点估计和置信区间;应用的观察值的点预测和区间预测一元线性回归要解决的问题:一元线性回归要解决的问题:62201011,niiiQyx01102()0,niiiQyx 01112()0.niiiiQyx x 参数估计参数估计01010101,min,QQ

30、求估计使.630111201111(),()().nniiiinnniiiiiiinxyxxx y整理得正规方程系数行列式整理得正规方程系数行列式642211,.iixxiiiixyiiyyiiiyy xx SxxnnSxxyySyy记号:01011,/.xyxxyxSS 的最小二乘估计:011,.xxxyxySS将正规方程整理得:656620101212211,exp2niiniLyx 201011,niiiLyx对最大化等价于对最小化,即最小二乘估计. 在误差为正态分布假定下,在误差为正态分布假定下, 的最小二乘估的最小二乘估计等价于极大似然估计。计等价于极大似然估计。01,67n采用最大

31、似然估计给出参数 的估计与最小二乘法给出的估计完全一致。n采用最大似然估计给出误差 的估计如下:此估计不是 的无偏估计。2niiiyyn122101,268例例3.1 K.Pearson收集了大量父亲身高与儿子收集了大量父亲身高与儿子身高的资料。其中十对如下:身高的资料。其中十对如下:父亲身高父亲身高x(吋)(吋)60626465666768707274儿子身高儿子身高y(吋)(吋)63.665.26665.566.967.167.468.370.170求求y关于关于x的线性回归方程。的线性回归方程。69267.01,66.8,44794,44842.4,171.6,79.72.iiiiixx

32、xyyxxx ySS计算得:0101,35.9768,0.4646.的最小二乘估计:35.97680.4646 .67.01 0.4646(66.8).yxyx回归方程:或写成:70参数性质参数性质7111,xyxxxxiiiSSSxx y证明:因为/11101()()()xxiixxiiiiESxx E ySxxx211111xxiixxiiiSxx xSxx即为正态随机变量的线性组合,所以服从正即为正态随机变量的线性组合,所以服从正态分布。态分布。证明(证明(1)72222112()()niixxxxxxVarSS(2)类似可得。)类似可得。73(3)回归方程显著性检验)回归方程显著性检验

33、 采用最小二乘法估计参数采用最小二乘法估计参数 ,并不需要,并不需要事先知道事先知道y与与x之间一定具有相关关系。之间一定具有相关关系。因此因此(x)是否为是否为x的线性函数:的线性函数:一要根据专业知识和实践来判断,一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法二要根据实际观察得到的数据用假设检验方法来判断。来判断。01,740111:0,:0,HH即要检验假设(1 1)影响)影响y取值的,除了取值的,除了x,还有其他不可忽略的因素;,还有其他不可忽略的因素;(2 2)E(y)与与x的关系不是线性关系,而是其他关系;的关系不是线性关系,而是其他关系;(3 3)y与与x

34、不存在关系。不存在关系。若原假设被拒绝,说明回归效果是显著的,否则,若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明若接受原假设,说明y与与x不是线性关系,回归方程不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:无意义。回归效果不显著的原因可能有以下几种:750111:0,:0,HH对于假设可以从两个角度来看:12201 1213201231123:0,:,0,yyxxyxxxHH 一是作为整体看,检验 的回归方程是否显著。例如,假设 可能受到自变量 , 的影响,模型为,则回归方程显著性检验相当于要检验:不全为76201 121321230112,0,:0,:0

35、.,1,2,3iiiiyxxxHHiyxx 另一个是作为单个参数来看,检验回归系数是否显著。例如,在模型中,若不全为则要进一步检验回归系数:,即判断与 的关系是线性的?二次的?与 有关吗?010111:0,:0.yxHH在一元线性回归中回归方程的检验与回归系数的检验合为一体,变成检验的两种方法。77回归方程的检验回归方程的检验采用方差分析方法采用方差分析方法:2()TiSSyynyyy, 21,令令 描述描述 之间的总的差异大小,之间的总的差异大小,称称SST为总平方和。为总平方和。78222yyyyyyiiii将总平方和分解为两部分:将总平方和分解为两部分:可以证明:可以证明:SST=SSR

36、+SSE2()RiSSyy称为回归平方和称为回归平方和2()EiiSSyy称为残差平方和称为残差平方和2211,(2),TyyERxyxxSSSSSnsSSSS79222120221129.4.2(1)(2);(2);(3)(1),(1,2), (2).ERERxxxxSSnsSSSSSSHSSFnt nss定理在模型的假设下与 相互独立,与独立当为真时,从而或80810111:0,:0,HH即要检验假设8201 110111.(,.,),1,., ,:.0,:,.,0.ppiiipppYxxy xxinHH对于模型,观测值为检验假设:不全为( ,1)FFp np当比时,拒绝原假设。83采用t

37、检验回归系数的检验回归系数的检验84例例3.2 检验例检验例3.1中回归效果是否显著,取中回归效果是否显著,取=0.05=0.05。 20.025282.306.tnt查表得:010.4646171.614.12.306.0.186:0tH计算得,故拒绝,认为回归效果是显著的.210.4646171.60.186.xxSs由例1,例2知:,186. 02s85(4)回归系数回归系数 的置信区间的置信区间11() (2)xxSt ns由8610.950.1860.46462.3060.389, 0.541 .171.6例如例3.1中 的置信水平为的置信区间为:87回归参数估计和显著性检验的回归参

38、数估计和显著性检验的Excel实现实现 例例 3.3(续(续) 前面我们已经分析了加热温度前面我们已经分析了加热温度与燃气消耗量之间的关系与燃气消耗量之间的关系, 认为两者具有较认为两者具有较好的线性关系好的线性关系, 下面我们进一步建立燃气消下面我们进一步建立燃气消耗量耗量(响应变量响应变量)与加热温度与加热温度(解释变量解释变量)之间之间的回归方程的回归方程. 采用采用Excel中的中的“数据分析数据分析” 模块模块.88平均加热平均加热温度温度燃气用量燃气用量 接前行接前行 平均加热平均加热温度温度燃气用量燃气用量1246.3901.225110.91011.23438.91162.14

39、337.512123.15265.313306.4613414327.2741.7155211801.216306.9在在Excel的的A1:C17输入下标:输入下标: 89n在在Excel工作表中输入上面的数据工作表中输入上面的数据 点击主菜点击主菜单中单中“工具工具” 点击下拉式菜单中点击下拉式菜单中“数据分数据分析析” 就会出现一个就会出现一个“数据分析数据分析” 的框,点的框,点击菜单中击菜单中“回归回归” ,点击,点击“确定确定”, 出现出现“回归回归” 框框.90n在“Y值输入区域”中标定你已经输入的响应变量数据的位置(本例为$C$2:$C$17),n在“X值输入区域”中标定你已经

40、输入的解释变量数据的位置 (注意: 数据按“列”输入) (本例为$B$2:$B$17),“置信度”中输入你已经确定置信度的值选定输出结果的位置点击“确定”.n在指定位置输出相应的方差分析表和回归系数输出结果, 例3.3的输出结果如下所示,91 自自由由度度平方和平方和均方均方F值值P_值值 回归回归 1168.581168.581 1467.5511.415E-15显著!显著!误差误差 14 1.608 0.115总的总的 15170.189方差分析表方差分析表20.115s 92 Coef. 标准误差 t Stat P value Lower 95% Upper 95%Intercept 1

41、.089 0.139 7.841 1.729E- 06 0.791 1.387X 0.189 0.005 38.309 1.415E-15 0.178 0.20001.08910.189138.309xxSs1/2(2)(0.178,0.200)xxstnS与方差分析中与方差分析中P-值一致!值一致!93预测预测一般有两种意义. 94(5)E(y0)的点估计及置信区间的点估计及置信区间220001 001 0()1,()xxxxyxNxnS2002()1(2)xxxxytnsnS 故故 作为作为E(y0)的点估计,是无偏估计的点估计,是无偏估计.E(y0)的置信水平的置信水平为为1-的置信区间

42、为的置信区间为0 y950010yx0010 yx因此,根据观测结果,点预测为因此,根据观测结果,点预测为(6) y0的点预测及区间预测的点预测及区间预测96979899100Excel只能输出预测值,无法输出预测区间只能输出预测值,无法输出预测区间.预测区间计算如下:预测区间计算如下:上例中上例中x值置于值置于B2:B17,y值置于值置于C2:C17,在在Excel第第18行,行,B18,C18,D18,E18,F18,G18分别为分别为52.0342 22.313 299.723 4719.438 2.1450 x0 :( 18,2: 17,2: 17)yFORECAST BCCBB101

43、52.0342 22.313 299.723 4719.438 2.145:( 2: 17)xAVERAGE BB20:( 1818) 2xxBD:( 2: 17)*15xxSVAR BB0.025(14):.(0.975,14)tT INV000.115,()(1.776,2.292)(1.263,2.806).sE yy利用以上数据,注意到,得的置信度为95的置信区间:,的置信度为95的预测区间:102例例3.5 合金钢的强度合金钢的强度y与钢材中与钢材中碳的含量碳的含量x有密切关系。为了有密切关系。为了冶炼出符合要求强度的钢常常冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达通过控制

44、钢水中的碳含量来达到目的,为此需要了解到目的,为此需要了解y与与x之之间的关系。其中间的关系。其中x:碳含量:碳含量()() y:钢的强度(:钢的强度(kg/mm2)数据见右表:数据见右表:yxx240.50.030.000939.50.040.0016410.050.002541.50.070.0049430.090.0081420.10.01450.120.014447.50.150.0225530.170.0289560.20.04103(1)画出散点图;)画出散点图;(2)设)设(x)=0+1x, ,求求0,1的估计;的估计;(3 3)求误差方差的估计,画出残差图;)求误差方差的估计,

45、画出残差图;(4 4)检验回归系数)检验回归系数1是否为零(取是否为零(取=0.05)=0.05);(5 5)求回归系数)求回归系数1的的9595置信区间;置信区间;(6 6)求在)求在x=0.06=0.06点,回归函数的点估计和点,回归函数的点估计和9595置信置信区间;区间;(7 7)求在)求在x=0.06=0.06点,点,y的点预测和的点预测和9595区间预测。区间预测。 (8) (8) 模型还可以改进吗?模型还可以改进吗?104(1)合金钢的强度)合金钢的强度y与钢材中碳的含量与钢材中碳的含量x的散点图的散点图105方差分析dfSSMSFSignificance F回归1255.411

46、6255.4116 74.33289 2.54E-05残差827.488413.436051显著总计9282.9Coefficients标准误差t StatP-valueLower 95%Upper 95%Intercept 35.4506 1.24292 28.52222.47E-09显著32.5844 38.3168X Var. 192.6411 10.7452 8.621652.54E-05显著67.8627 117.4201060101,35.4506,92.6411的最小二乘估计:35.450692.6411 .44.992.6411(0.102).yxyx回归方程:或写成:223.

47、4362ESSsn的无偏估计值107108 0.0258.621782.306,tt拒绝原假设,认为合金钢强度与炭含量的回归效果显著。显著水平为0.050111(4):0,:0HH检验假设19567.8629, 117.4193(5)回归系数的置信水平的置信区间:.1090001060.0641.0091xyx( )当时,(0.06)39.303,42.715 .所以,的0.95的置信区间为:000.060.9536.407, 45.611 .xy(7)时, 的置信水平为的预测区间为:11020122: 11yxxExcelXBC(8)进一步从残差图中发现,模型应包含二次项,即分析,将 值输入

48、区域改为:.结果如下:方差分析dfSSMSFSignificance F回归分析2276.3151 138.1576 146.8669 1.92E-06残差76.584894 0.940699显著总计9282.9Coefficients标准误差t StatP-valueLower 95%Upper 95%Intercept40.644 1.27932 31.7699 7.91E-09 37.6188 43.6691X Var. 1-30.483 26.7175-1.14095 0.29142-93.66 32.6935X Var. 2550.475 116.776 4.71394 0.0021

49、7 274.344 826.606不显著1112022: 11YxExcelXCC(8)模型包含二次项后发现一次项不显著,修改为分析,将 值输入区域改为:.结果如下:方差分析dfSSMSFSignificance F回归分析1275.0905 275.0905 281.8022 1.61E-07残差87.809465 0.976183总计9282.9Coefficients标准误差t StatP-valueLower 95%Upper 95%Intercept 39.2774 0.45804 85.7509 3.82E-13 38.2212 40.3337X Var. 1420.223 25.

50、0327 16.7870 1.61E-07 362.497 477.948112n回归函数线性的诊断回归函数线性的诊断n误差方差齐性诊断误差方差齐性诊断n误差的独立性诊断误差的独立性诊断n误差的正态性诊断误差的正态性诊断9.6 回归诊断回归诊断113一、回归函数线性的诊断一、回归函数线性的诊断114115116117118119(2)模型修正)模型修正 120121模型修改后的预测值及残差模型修改后的预测值及残差122模型修改后的残差图模型修改后的残差图123二、误差方差齐性诊断二、误差方差齐性诊断124125126127(2)模型修正)模型修正n如果发现线性假设是不适合如果发现线性假设是不适

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第9章方差分析及回归分析课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|