1、统计学实验方差回归分析方差分析方差分析(Analysis of Variance,ANOVA)1928年由英国统计学家年由英国统计学家R.A.Fisher 首先提首先提出,为纪念出,为纪念Fisher,以,以F 命名,故方差分析命名,故方差分析又称为又称为 F检验检验。方差分析方差分析(ANOVA)检验多个总体均值是否相等检验多个总体均值是否相等研究研究一个或多个一个或多个分类型自变量分类型自变量对对一个一个数值型因变量数值型因变量的影响的影响 有单因素方差分析和双因素方差分析有单因素方差分析和双因素方差分析 单因素方差分析:涉及一个分类的自变量单因素方差分析:涉及一个分类的自变量 双因素方差
2、分析:涉及两个分类的自变量双因素方差分析:涉及两个分类的自变量无交互作用的双因素方差分析;无交互作用的双因素方差分析;有交互作用的双因素方差分析;有交互作用的双因素方差分析;方差分析检验假定方差分析检验假定 总体是服从正态分布的;总体是服从正态分布的;总体方差是相等的;总体方差是相等的;随机样本是独立的。随机样本是独立的。建立的假设组为:建立的假设组为:提出假设提出假设H0:1 2 k 自变量对因变量没有显著影响,没有系统误差自变量对因变量没有显著影响,没有系统误差 H1:1,2,,k 不全相等不全相等自变量对因变量有显著影响自变量对因变量有显著影响 注意:拒绝原假设,只表明至少有两个总体的均
3、值注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等不相等,并不意味着所有的均值都不相等 某企业需要一种零件,现有三个不同的地区的企业生产的某企业需要一种零件,现有三个不同的地区的企业生产的同种零件可供选择,为了比较这三个零件的强度是否相同,同种零件可供选择,为了比较这三个零件的强度是否相同,每个地区的企业抽出每个地区的企业抽出6 6件产品进行强度测试,其值如表所件产品进行强度测试,其值如表所示。假设每个企业零件的强度值服从正态分布,试检验这示。假设每个企业零件的强度值服从正态分布,试检验这三个地区企业的零件强度是否存在显著差异。三个地区企业的零件强度是否存在显著
4、差异。地地区区强强度度样样本本123111611089298103853100118994115106735831079761051161021、单击、单击分析分析(Analyze)比较均值(比较均值(Compare Means)单因素(单因素(One-Way ANOVA),打开对话框。,打开对话框。步骤:步骤:2、从左框中选择、从左框中选择因变量因变量”零件强零件强度度”进入进入因变量因变量框内,选择框内,选择“地地区区”进入进入因子因子框框内。内。点击确定。点击确定。可以得到方差分析表可以得到方差分析表 u 由于由于F统计量值的统计量值的P值明显小于显著性水平,故拒绝假设值明显小于显著性水
5、平,故拒绝假设H0,认为这三个,认为这三个地区的零件强度有显著差异。地区的零件强度有显著差异。u 如果需要对各地区间的零件强度进行进一步的比较和分析,可以通过按如果需要对各地区间的零件强度进行进一步的比较和分析,可以通过按纽纽选项选项Option选项,选项,contrast对比对比,Post Hoc两两比较两两比较去实现。去实现。3、单击、单击选项选项Option按纽,打开对话框如图所示,选按纽,打开对话框如图所示,选择输出项。主要有不同水平下样本方差的齐性检验,择输出项。主要有不同水平下样本方差的齐性检验,缺失值的处理方式及均值的图形。缺失值的处理方式及均值的图形。本例中选择本例中选择描述性
6、(描述性(Descriptive)进进行基本统计描述,以及行基本统计描述,以及方差同质检验方差同质检验(Homogeneity of variance test)进行进行不同水平间方差齐性的检验。不同水平间方差齐性的检验。在在缺失值(缺失值(Missing Value)栏中选择栏中选择系统默认项。系统默认项。完成所有选择后返回主对话框,然后单击完成所有选择后返回主对话框,然后单击OK,就,就可以得到三个地区零件强度分析表。可以得到三个地区零件强度分析表。基本统计描述基本统计描述 方差齐性检验方差齐性检验 P值大于值大于0.05,所以,所以因素变量的各水平因素变量的各水平间的方差是没有显间的方差
7、是没有显著差异的。著差异的。Levene检验是一种非参数检验检验是一种非参数检验方法,与方法,与F检验类似,但不依赖检验类似,但不依赖与正态性假设,比与正态性假设,比F检验更稳健。检验更稳健。4、如果需要将水平间两两比较,可以单击、如果需要将水平间两两比较,可以单击两两比较两两比较Post Hoc 按纽,打开多重比较对话框。如图所示:按纽,打开多重比较对话框。如图所示:如果满足在水平间方差相等的条件,常用如果满足在水平间方差相等的条件,常用LSD(最小显著性差异法),(最小显著性差异法),用用 t 检验完成各组均值间的配对比较。检验完成各组均值间的配对比较。当方差不等的情况下,可以选择当方差不
8、等的情况下,可以选择Tamhane s T2,用用t检验进行各组均值间检验进行各组均值间的配对比较。的配对比较。选择多重比较方式后,点击选择多重比较方式后,点击OK,得到输出结果。,得到输出结果。从表中可以看出,地区从表中可以看出,地区2与地区与地区3之间的差异是非常显著的,之间的差异是非常显著的,它们均值差的检验的尾概率为它们均值差的检验的尾概率为0.005,明显小于显著性水平,明显小于显著性水平0.05。例例2 。单因素方差分析的输出结果单因素方差分析的输出结果下表是某商品下表是某商品S在不同地区和不同时期的销售量(千在不同地区和不同时期的销售量(千件)表。已知数据服从正态分布,则要检验地
9、区因件)表。已知数据服从正态分布,则要检验地区因素及时间因素对销售量的影响是否显著。(素及时间因素对销售量的影响是否显著。(SY-23)地地区区时时期期1234516.514.213.42.46.221.87.19.41.54.833.610.87.21.74.943.78.98.62.34.657.612.67.52.85.2由于销售量受地区和时间两个因素的影响,这是一个双因由于销售量受地区和时间两个因素的影响,这是一个双因素方差分析的问题。素方差分析的问题。1、单击、单击分析分析(Analyze)一般线性模型(一般线性模型(General linear Model)单变量(单变量(Univ
10、ariate),打开主对话框。,打开主对话框。步骤:步骤:2、从左框中选择、从左框中选择因变量因变量“销售量销售量”进入进入因变量因变量框内,框内,选择选择“地区地区”和和“时期时期”进入进入固固定因子定因子框内。框内。点击确定。点击确定。3、单击、单击模型(模型(Model)按纽选择分析模型,得到对话框如图。按纽选择分析模型,得到对话框如图。全因子全因子选项为系统默选项为系统默认项,建立全模型,全认项,建立全模型,全模型中包括因素之间的模型中包括因素之间的交互作用。交互作用。如果选择分析两个因如果选择分析两个因素的交互作用,则必须素的交互作用,则必须在每种水平组合下,取在每种水平组合下,取得
11、两个以上的实验数据,得两个以上的实验数据,才能实现两个因素的交才能实现两个因素的交互作用的分析结果。互作用的分析结果。如果不考虑因素间的如果不考虑因素间的交互作用时,应当选择交互作用时,应当选择设定设定模型。模型。先从左边框中选择因先从左边框中选择因素变量进入素变量进入模型模型框中,框中,然后选择类型。然后选择类型。一般不考虑交互作用一般不考虑交互作用时,选择时,选择主效应主效应,考虑,考虑交互作用时,选择交互作用时,选择交互交互。本例中选择主效应。本例中选择主效应。平方和一般选取默认平方和一般选取默认项项类型类型。单击单击继续继续,返回主对,返回主对话框,点击话框,点击确定确定就可以就可以得
12、到相应的双因素方差得到相应的双因素方差分析表分析表.从表中数据可以看出,从表中数据可以看出,F值对应概率值对应概率P值都小于显著性水平值都小于显著性水平0.05,这说明地区和时期对销售量的影响都是显著的。这说明地区和时期对销售量的影响都是显著的。实验实验4:相关与回归分析:相关与回归分析相关分析相关分析回归分析回归分析 两个变量之间的相关关系称简单相关关系。有两两个变量之间的相关关系称简单相关关系。有两种方法可以反映简单相关关系:种方法可以反映简单相关关系:通过散点图直观地显示变量之间关系;通过散点图直观地显示变量之间关系;1.通过相关系数准确地反映两变量的关系程度。通过相关系数准确地反映两变
13、量的关系程度。首先打开数据首先打开数据SY-31;然后单击然后单击图形图形Graphs 散点散点Scatter,打开打开散点图散点图Scatter plot对话框,选择需要的散点图,图中的对话框,选择需要的散点图,图中的5个选项如下:个选项如下:3.如果只考虑两个变量,可选择如果只考虑两个变量,可选择简单的散点图简单的散点图Simple,然,然后点击后点击定义定义Define,打开,打开简单散点图简单散点图Simple Scatterplot对对话框话框,如左图所示。如左图所示。4.选择变量分别进入选择变量分别进入X轴和轴和Y轴,点击轴,点击OK后就可以得到右后就可以得到右边的散点图边的散点图
14、。具体操作如下:具体操作如下:1.打开数据库打开数据库SY-31后,单击后,单击分析分析Analyze 相关相关Correlate双双变量变量 Bivariate;如;如图所示。图所示。2、从左边的变量框中选择需要考察的两个变量进入、从左边的变量框中选择需要考察的两个变量进入 变量框内变量框内,选择相关系,选择相关系数的种类,选择检验方式,单击数的种类,选择检验方式,单击选项选项Options按纽。按纽。3.选择输出项和缺失值的处理方式。本例中选择输出基本统计选择输出项和缺失值的处理方式。本例中选择输出基本统计描述。描述。4.单击单击OK,可以得到相关分析的结果。见图所示。,可以得到相关分析的
15、结果。见图所示。从表中可以看到两个变量相关性分析的结果:相关系数是从表中可以看到两个变量相关性分析的结果:相关系数是0.996,相关程,相关程度非常高,且假设检验的度非常高,且假设检验的P值远远地小于值远远地小于0.05,可以认为人均国内生产总,可以认为人均国内生产总值与城镇居民消费额存在线性正相关关系。值与城镇居民消费额存在线性正相关关系。简单相关关系只反映两个变量之间的关系,但简单相关关系只反映两个变量之间的关系,但如果因变量受到多个因素的影响时,因变量与某如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其它相关一自变量之间的简单相关关系显然受到其它相关因素的影
16、响,不能真实地反映二者之间的关系,因素的影响,不能真实地反映二者之间的关系,所以需要考察在其它因素的影响剔除后二者之间所以需要考察在其它因素的影响剔除后二者之间的相关程度,即偏相关分析。的相关程度,即偏相关分析。年份年份火柴销售量火柴销售量(万件)(万件)煤气户数煤气户数(万户)(万户)卷烟销量卷烟销量(百箱)(百箱)蚊香销量蚊香销量(十万盒)(十万盒)打火石销量打火石销量(百万粒)(百万粒)6823.6925.6823.610.14.186924.125.7723.4213.312.437022.7425.8822.099.496.57117.8427.4321.4311.0925.7872
17、18.2729.9524.9614.4828.167320.2933.5328.3716.9724.267422.6137.3142.5720.1630.187526.7141.1645.1626.3917.087631.1945.7352.4627.047.397730.550.5945.323.083.887829.6358.8246.824.4610.537929.6965.2851.1133.8220.098029.2571.2553.2933.5721.228131.0573.3755.3639.5912.638232.2876.685448.4911.17求解火柴销售量与煤气户数的
18、偏相关系数具体操作如下:求解火柴销售量与煤气户数的偏相关系数具体操作如下:1、首先打开数据文件、首先打开数据文件SY-32,单击分析,单击分析Analyze 相关相关 Correlate偏相关偏相关 Partial,打开对话框,见图所示。,打开对话框,见图所示。2、从左边框内选择要、从左边框内选择要考察的两个变量进入变考察的两个变量进入变量框内,其它变量进入量框内,其它变量进入控制框内,如本例中考控制框内,如本例中考察煤气户数与火柴销量察煤气户数与火柴销量的偏相关系数进入变量的偏相关系数进入变量框内,其它(除年份外)框内,其它(除年份外)进入控制框内。进入控制框内。本例中选择简单相关系数。本例
19、中选择简单相关系数。从表中可以看出,火柴销量与煤气户数的简单相关系数为从表中可以看出,火柴销量与煤气户数的简单相关系数为0.826,自由度为自由度为13,检验的,检验的P值为;而偏相关系数为,自由度为值为;而偏相关系数为,自由度为10,检验,检验的的P值为,表示煤气户数对火柴销量的真实影响是显著的。值为,表示煤气户数对火柴销量的真实影响是显著的。表中的上半部分是简单相关系数表中的上半部分是简单相关系数,下半部分是偏相关系数。下半部分是偏相关系数。线性回归是统计分析方法中最常用的方法之一。如果所线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合研究
20、的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象影响是线性的,则可以使用线性回归的方法建立现象(因(因变量)与影响因素(自变量)之间的线性函数关系式。由变量)与影响因素(自变量)之间的线性函数关系式。由于多元线性回归的计算量比较大,所以有必要应用统计分于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。析软件实现。介绍介绍SPSS软件的线性回归分析的操作方法,包括求回归软件的线性回归分析的操作方法,包括求回归系数,给出回归模型的各项检验统计量值及相应的概率,系数,给出回归模型的各项检验统计量值及相应的概率,对输出结果的分析等相关内容。对输出
21、结果的分析等相关内容。1、线性回归的假设理论、线性回归的假设理论(1)正态性假设:即所研究的变量均服从正态分布;)正态性假设:即所研究的变量均服从正态分布;(2)等方差假设:即各变量总体的方差是相等的;)等方差假设:即各变量总体的方差是相等的;(3)独立性假设)独立性假设,即各变量之间是相互独立的;即各变量之间是相互独立的;(4)残差项无自相关性,即误差项之间互不相关)残差项无自相关性,即误差项之间互不相关;2、线性回归模型的检验项目、线性回归模型的检验项目(1)回归系数的检验()回归系数的检验(t检验)。检验)。(2)回归方程的检验()回归方程的检验(F检验)。检验)。(3)拟合程度判定(可
22、决系数)拟合程度判定(可决系数R2)。)。(4)D.W检验(残差项是否自相关)。检验(残差项是否自相关)。(5)共线性检验(多元线性回归)。)共线性检验(多元线性回归)。(6)残差图示分析(判断异方差性和残差序列自相关)。)残差图示分析(判断异方差性和残差序列自相关)。线性回归模型假设条件与模型的各种检验线性回归模型假设条件与模型的各种检验1、打开数据文件,单击、打开数据文件,单击分析分析Analyze 回归回归Regression 线性线性Linear,打开对话框如图所示。打开对话框如图所示。2、从左边框中、从左边框中选择因变量选择因变量Y,选,选择一个或多个自变择一个或多个自变量。从量。从
23、方法方法 框内框内下拉式菜单中选择下拉式菜单中选择回归分析方法。回归分析方法。统计量统计量Statistics,打开,打开线性回归:统计量线性回归:统计量对话框,可以选对话框,可以选择输出的统计量如图所示。择输出的统计量如图所示。估计(系统默认估计(系统默认):包括回归系包括回归系数,回归系数标准误、标准化数,回归系数标准误、标准化回归系数、回归系数检验统计回归系数、回归系数检验统计量(量(t值)及相应的检验统计量值)及相应的检验统计量概率的概率的P值(值(sig)。)。4、如果需要观察图形,可单击、如果需要观察图形,可单击绘制绘制Plots按纽,打开按纽,打开线性回归:图线性回归:图对话框,
24、如图所示。在此对话框中可以对话框,如图所示。在此对话框中可以选择所需要的图形。选择所需要的图形。在左上角的源变量框中,在左上角的源变量框中,选择选择Dependent 进入进入X(或(或Y)轴变量框,选择其它)轴变量框,选择其它变量进入变量进入Y(或(或X)轴变量)轴变量框,除因变量外,其客观框,除因变量外,其客观存在变量依次是:存在变量依次是:ZPRED:标准化预测值,标准化预测值,ZRESID:标准化残差,标准化残差,DRESID:剔剔除残差,除残差,ADJPRED:修正修正后预测值,后预测值,SRESID学生化学生化残差,残差,SDRESID:学生化剔学生化剔除残差。除残差。5、单击、单
25、击选项选项Options按纽,打开线性回归:选项对话框,按纽,打开线性回归:选项对话框,如图所示。可以从中选择模型拟合判断准则及缺失值如图所示。可以从中选择模型拟合判断准则及缺失值的处理方式。的处理方式。l步行方法标准(步行方法标准(Stepping Method Criteria)栏,设置变量引入或剔除模)栏,设置变量引入或剔除模型的判别标准。型的判别标准。l使用使用F的概率(的概率(Use probability of F):采用采用F检验的概率为判别依据。检验的概率为判别依据。l使用使用F值(值(Use F value):采用采用F值作值作为检验标准。为检验标准。lInclude con
26、stant in equation 回归方回归方程中包括常数项。程中包括常数项。l缺失值(缺失值(Missing Values):):缺失值缺失值的处理方式。的处理方式。6、如果要保存预测值等数据,可单击、如果要保存预测值等数据,可单击保存(保存(Save)按按纽打开对话框。纽打开对话框。选择需要保存的数据种选择需要保存的数据种类作为新变量存在数据类作为新变量存在数据编辑窗口。其中有预测编辑窗口。其中有预测值、残差,预测区间等。值、残差,预测区间等。7、当所有选择完成后,、当所有选择完成后,单击单击OK得到分析结果。得到分析结果。例例6 。rjxse2.1180.089lrl 检验假设检验假设
27、H0:线性关系不显著线性关系不显著*0:0H1、打开数据文件、打开数据文件SY-32,单击,单击分析分析 回归回归 线性线性,打打开线性对话框。开线性对话框。2、从左边框中选择因变量和自变量。从方法框内下拉、从左边框中选择因变量和自变量。从方法框内下拉式菜单中选择式菜单中选择逐步回归法逐步回归法。3、单击、单击统计量统计量,打开对话框,本例中选择,打开对话框,本例中选择估计、所有估计、所有与模型拟合及拟合效果有关的选择项、与模型拟合及拟合效果有关的选择项、D.W检验及奇异值检验及奇异值诊断,选择标准差为诊断,选择标准差为2,即置信度约为,即置信度约为95%。点击。点击继续继续。4、单击、单击绘
28、制绘制按纽,打开对话框。选择按纽,打开对话框。选择Dependent 进入进入X轴变量框,选择标准化残差轴变量框,选择标准化残差ZRESID变量进入变量进入Y(或(或X)轴变量框,绘制残差图轴变量框,绘制残差图。5、单击、单击选项选项按纽,打开对话框。选择默认项。按纽,打开对话框。选择默认项。6、点击确定,得到结果、点击确定,得到结果 。步骤:步骤:模型综合分析表模型综合分析表 模型综合分析表中,有模型的复相关系数模型综合分析表中,有模型的复相关系数R,样本决定系数,样本决定系数R2,修正,修正的可决系数,估计标准误,模型变化导致的可决系数及的可决系数,估计标准误,模型变化导致的可决系数及F值
29、的变化,值的变化,D.W检验值等。检验值等。由上表中知模型由上表中知模型3的修正的可决系数为的修正的可决系数为0.993,其模型的拟合程,其模型的拟合程度最好,度最好,DW值为值为2.066(在(在2附近),显然通过附近),显然通过DW检验,说明残差项不检验,说明残差项不存在一阶自相关。存在一阶自相关。序列序列相关相关检验检验方差分析表同时给出了方差分析表同时给出了3个模型的方差分析表。其中模型个模型的方差分析表。其中模型3的的F值最大,说明模型值最大,说明模型3的回归效果最显著。的回归效果最显著。表中的表中的Model栏中,模型栏中,模型1是先将卷烟销量作为自变量进入模型,模型是先将卷烟销量
30、作为自变量进入模型,模型2将将卷烟销量与打火石销量两个自变量进入模型,模型卷烟销量与打火石销量两个自变量进入模型,模型3是将卷烟、打火石和煤是将卷烟、打火石和煤气户数三个自变量进入模型。第四个自变量蚊香销量没有通过检验自动剔除。气户数三个自变量进入模型。第四个自变量蚊香销量没有通过检验自动剔除。回归系数表的输出结果可以看出,回归系数都通过检验,模型中自变量与回归系数表的输出结果可以看出,回归系数都通过检验,模型中自变量与因变量的偏相关系数都在因变量的偏相关系数都在0.7以上,说明进入模型的自变量对因变量的影响都以上,说明进入模型的自变量对因变量的影响都比较显著。比较显著。非标准化回非标准化回归
31、系数归系数标准化回标准化回归系数归系数由最后两列的容忍度由最后两列的容忍度Tolerance和方差膨胀因子和方差膨胀因子VIF的值来看,自变量之间的值来看,自变量之间不存在强烈的共线性。不存在强烈的共线性。共线性统计共线性统计 方差膨胀因子方差膨胀因子其值介于其值介于1之间,其值越大,自变量之间存在共之间,其值越大,自变量之间存在共线性的可能性越大。检验表明,线性的可能性越大。检验表明,VIF10,说明解释变量与其余,说明解释变量与其余解释变量之间存在严重的多重共线性解释变量之间存在严重的多重共线性容忍度容忍度介于介于0-10-1之间,其值越小,自变量与其他自变量之间的共线性越强。使用之间,其
32、值越小,自变量与其他自变量之间的共线性越强。使用容忍度作为共线性度量标准的条件比较严格,观测量一定要大致近似于正态分布容忍度作为共线性度量标准的条件比较严格,观测量一定要大致近似于正态分布。残差统计表中表示了预测值、残差、标准化预测值和标准化残差的特征残差统计表中表示了预测值、残差、标准化预测值和标准化残差的特征值。其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容值。其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。量。方差分析表同时给出了3个模型的方差分析表。有交互作用的双因素方差分析;05,这说明地区和时期对销售量的影响都是显著的。可通过One-Way ANOVA
33、对话框实现。W检验及奇异值诊断,选择标准差为2,即置信度约为95%。试利用方差分析方法,检验不同促销方式下的商品销售量是否存在显著性差异(试验前该类商品在五个分店内的月销售额基本处于同一水平)。由图中可以看出,残差图中的点分布是随机的,没有出现趋势性,所以回归模型是有效的。模型综合分析表中,有模型的复相关系数R,样本决定系数R2,修正的可决系数,估计标准误,模型变化导致的可决系数及F值的变化,D.7、当所有选择完成后,单击OK得到分析结果。用数据SY-32,考察火柴销售量与各影响因素之间的相关关系,建立火柴销售量对于相关因素煤气户数、卷烟销量、蚊香销量、打火石销量的线性回归模型,通过对模型的分
34、析,找出合适的线性回归方程。SPSS提供的相关分析功能有实验4:相关与回归分析1928年由英国统计学家R.试求火柴销售量与煤气户数的偏相关系数.2、从左框中选择因变量”零件强度”进入因变量框内,选择“地区”进入因子框内。1、打开数据文件,单击分析Analyze 回归Regression 线性Linear,打开对话框如图所示。本例中选择输出基本统计描述。(1)回归系数的检验(t检验)。曲线估计对数据的要求是:自变量与因变量均为数值型变量,模型残差呈正态分布;1、单击分析 回归 曲线估计,打开对话框,选择因变量和自变量。完成所有选择后返回主对话框,然后单击OK,就可以得到三个地区零件强度分析表。回
35、归分析研究的是自变量与因变量之间的非确定性的因果关系;步行方法标准(Stepping Method Criteria)栏,设置变量引入或剔除模型的判别标准。偏相关分析(Partial);2、线性回归模型的检验项目有交互作用的双因素方差分析;在左上角的源变量框中,选择Dependent 进入X(或Y)轴变量框,选择其它变量进入Y(或X)轴变量框,除因变量外,其客观存在变量依次是:ZPRED:标准化预测值,ZRESID:标准化残差,DRESID:剔除残差,ADJPRED:修正后预测值,SRESID学生化残差,SDRESID:学生化剔除残差。将变量rjxse送入自变量框中,将变量lrl送入因变量框;
36、3、单击选项Option按纽,打开对话框如图所示,选择输出项。4、如果需要观察图形,可单击绘制Plots按纽,打开线性回归:图对话框,如图所示。数据库SY-31中的变量X表示山东省人均国内生产总值,Y表示山东省城镇居民的消费额(资料来源:山东省2003年统计年鉴),现画出散点图来观察两个变量的关联程度。显示每个自变量进入方程后对R2和F值的影响主要有不同水平下样本方差的齐性检验,缺失值的处理方式及均值的图形。奇异值表(奇异值表(标准化残差值大于标准化残差值大于2)Casewise Diagnosticsa2.38129.6928.6950.9950-2.23331.0531.9832-.933
37、2Case Number1214Std.Residual万件PredictedValueResidualDependent Variable:万件a.奇异值表中依次是序号,标准化残差值,实际观测值、预奇异值表中依次是序号,标准化残差值,实际观测值、预测值及残差值。表中给出的两个个体数据的标准化残差测值及残差值。表中给出的两个个体数据的标准化残差(数据号为(数据号为12和和14)超出了)超出了2。由图中可以看出,残差图中的点分布是随机的,没有出现趋势性,所以由图中可以看出,残差图中的点分布是随机的,没有出现趋势性,所以回归模型是有效的。回归模型是有效的。最终得回归模型为:最终得回归模型为:421
38、243.0049.0254.042.17xxxy xbby102210 xbxbbyxbby10 xbbey10 xbbyln10332210 xbxbxbbyxbbey10 xbeby10 xbby/1010bxby xbbuy10/1/1这里以例题说明曲线拟合的具体操作方法。这里以例题说明曲线拟合的具体操作方法。全国全国1990年至年至2002年人均消费支出与教育支出的统年人均消费支出与教育支出的统计数据,试以人均消费性支出为解释变量,教育支计数据,试以人均消费性支出为解释变量,教育支出作为被解释变量,拟合用一条合适的函数曲线。出作为被解释变量,拟合用一条合适的函数曲线。年份年份人均消费性
39、支出(元)人均消费性支出(元)教育支出(元)教育支出(元)19901627.6438.2419911854.2247.9119922203.657.5619933138.5671.0019944442.09153.9819955565.68194.6219966544.73307.9519977188.71419.1919987911.94542.7819997493.31556.9320007997.37656.2820019463.071091.8520029396.451062.13首先根据上表建立数据首先根据上表建立数据SY-35,作出人均消费支出与,作出人均消费支出与教育支出的散点图
40、如下教育支出的散点图如下年人均消费性支出(元)1000080006000400020000教育支出(元)120010008006004002000由上面图形可以看出,两个变量的散点图为增长的曲线形式,故选择合适由上面图形可以看出,两个变量的散点图为增长的曲线形式,故选择合适的函数进行曲线估计。的函数进行曲线估计。具体操作如下:具体操作如下:1、单击、单击分析分析 回归回归 曲线估计曲线估计,打开对话框,选择因变量打开对话框,选择因变量和自变量。如图。和自变量。如图。2、选择估计曲、选择估计曲线:线:SPSS有多条有多条曲线形式供选择。曲线形式供选择。根据散点图,本根据散点图,本例中选择而例中选
41、择而二次二次项项,幂幂,和,和复合复合曲线曲线进行对比分进行对比分析。析。3、单击、单击保存保存按纽,打开对话框如图所示。按纽,打开对话框如图所示。本例中不作选择。本例中不作选择。4、所有选择完成后,单击、所有选择完成后,单击OK,得到输出结果:,得到输出结果:从上面的输出结果可以看出,比较各种估计模从上面的输出结果可以看出,比较各种估计模型的样本决定系数标准误,型的样本决定系数标准误,F值,拟合程度最好的值,拟合程度最好的复合函数曲线,并且其模型的回归系数的检验也通复合函数曲线,并且其模型的回归系数的检验也通过。故可以选择复合函数曲线作为拟合曲线,其回过。故可以选择复合函数曲线作为拟合曲线,其回归方程为:归方程为:xy995.20 感谢观看感谢观看