1、回顾一元线性回归模型:xy10mjjjmjjjxyxy1010方程组表示 niimiiniiixxyyyQ121112.0最小),.,2,1(0)(20)(2110mjxyyQyyQniijiijniiiYXXX1)(SSE:残差平方和:残差平方和 因变量y的观测值y1,y2,yn之间的波动或差异,是由两方面因素引起的:一是由于自变量x1,x2,xk的取值不同;另一个是受其它随机因素的影响而引起的。为了从y的总变差中把它们区分开来,就需要对回归模型进行方差分析,即将y的总的离差平方和Syy分解成两个部分:回归平方和U和剩余平方和Q。niiyyyyS12niiyyU12niiiyyQ12)1/(
2、)1(/)1/(/)1/(/22pnRpRpnSQpSUpnQpUFyyyy )1/(/2pnQCFkkkyyyySQSUR12niiniiniiiyyyyyyyyyySUR12121y y 偏相关系数是保持其他变量不变的条件下计算的两个变量间的相关系数。它的计算公式为:jjiiijkjjiiijcccr,),1(),1(,),1(),1(,2,1其中C=(XX)-1,Cij为矩阵C的元素。对偏相关系数的检验也可通过查表进行。12pnQe12nSyyy222211111RpnnRyea221yeaR将zj从小到大排列z(i)算出每个z(i)的发生频率(i-1/2)/n 根据频率查标准正态表得到
3、q(i)作q(i)和zj的散点图,此散点图趋于直线为好.两个随机变量之间的积矩相关系数 度量某个随机变量Y与一组随机变量(X1,X2,Xp)之间的线性联系的程度;因变量Y的观察值和预测值之间的简单相关系数;决定系数的平方根。变量之间相互相关;扣除其它变量影响情况下两变量之间的相关。编号数学成绩语文成绩智商得分1788395284761003617010045258755938210568978977988911089895120965617610737592114853611245436013677088147578961595971251688921131799921261881881024
4、05060708090100406080100120数学语文406080100120140406080100120数学智商406080100120140406080100语文智商)1)(1(2232132313123,12rrrrrr2)3(12)3(12)3,2(1213,12RRRr2),.3(12),.3(12),.3,2(1213,12pppRRRrp2,122qndfrqnrtqq自由度6 多元回归多元回归 对一个实际问题如预报土壤流失量,影响的因素包含降雨,土壤,地形,植被覆盖,水土保持措施等方面,可选择的用来预报土壤流失量的变量就更多。但并不是变量选择越多就越好,因为:kkkkC
5、V2)1/(/2pnQCFFkkk检验回归系数的自变量X1X2X3X4X5X6X7X8R2-0.141.99-1.27-0.035 1.121.241.473.990.715 32.73-1.733.38-7.34-1.991.651.61.532.41-0.151.89-1.27-0.341.21.185.330.697 33.89-1.933.17-7.23-2.041.751.493.72-0.161.74-1.2-0.321.276.010.679 34.96-1.932.92-6.97-1.811.824.36-0.151.31-1.055.40.614 40.05-1.712.14
6、-6.263.760.92-0.875.140.586 41.91.58-6.443.51-0.755.060.561 43.37-6.623.45612342jjtjjtjjtjjtjjtjjt自变量X1X2X3X4X5X6X7X8X23.8515.32相关系数-0.01 0.25 0.21-0.03 0.16-0.18-0.16 0.25 X80.0755.32自变量X1X3X4X5X6X7X20.3441 4.722偏相关-0.03 0.09-0.02 0.110.15-0.11X80.0755.39X6-0.067-3.06自变量X1X3X4X5X7X23.4964.793偏相关-0.
7、01 0.09 0.010.11-0.07X83.4965.53X6-0.068-3.09X5-0.233-1.861jjt步骤12345Constant107.6876.2356.3540.0844.74X410.378.999.299.189.12t-值9.1712.8515.0823.9122.84X56.54.9-2.6t-值5.994.45-1.58X75.210.78.7t-值2.596.57.85X611.88.5t-值5.138.27R282.3894.3396.0198.5598.31)2(122pnSSECpknSSEkpkk自变量的选择多元回归的关键7 多元回归实例计算多
8、元回归实例计算 EXCEL SPSS“X值输入区域”要求输入的多个自变量相邻。SPSS多元回归设置参与回归分析的变量。1)“Independent(s)”列表框:用于选入回归分析的自变量。将粮食产量、农作物总的播种面积、有效灌溉面积以及化肥施用量全部选入“Independent(s)”列表框。2)“Dependent”框:选入粮食产量,作为回归分析的因变量。3)“Method”下拉框:用于选择对自变量的选入方法,选择Stepwise(逐步回归法)。4)其它可采用默认选项。按钮“Statistics.”,回归分析结果的有关统计输出。按钮“Plot.”,回归分析结果的有关图形输出设置。按钮“Sav
9、e.”,回归分析结果的有关表格文件输出设置。按钮“Options.”,回归分析结果的有关设置。确认所有设置无误后,单击按钮“OK”,进行计算,等待输出结果。Statistics对话框对话框 Statistics对话框对话框 设置设置1)“Regression Coefficients”框:定义回归系数的输出情况。选择复选钮“Estimates”,输出回归系数及其检验结果;选择复选钮“Covariance Matrix”,输出各个自变量的相关系数阵和方差、协方差阵。2)对话框右侧也是一组5个复选钮。选择复选钮“Model fit”,显示模型拟合过程中进入、退出的变量的列表以及模型拟合情况;选择复
10、选钮“Descriptives”,输出例如均值、标准差等的一些变量描述;选择复选钮“Part and Partial correlations”,输出自变量之间的相关、部分相关和偏相关系数。3)其它可采用默认设置。Plots对话框 DEPENDEN:因变量 ZPRED:标准化预测值 ZRESID:标准化残差 DRESID:删除残差 ADJPRED:调整残差 SRESID:学生化残差 SDRESID:学生化删除残差“Standardized Residual Plots”框:选择绘制标准化残差图类型,可以选择直方图(Histogram)或正态概率图(Normal probability plot
11、);“Produces all partial plots”复选钮:选择是否绘制每一个自变量与应变量残差的散点图。Save对话框 Save对话框 设置 “Predicted value”框:有关预测值的输出选项。Residuals:有关残差的输出。Distances:有关距离的输出选项。Influence statistics:有关用来判断数据点影响强弱的统计量选项。Prediction intervals:选择是否给出均数和每个样品值的置信区间,默认95。Save to new file:选择是否将新变量存储到新的文件。单击按钮“File”会弹出一个保存文件对话框,要求用户给出文件名。Exp
12、ort model information to XML file:结果回归分析的有关结果输出为XML格式文件。单击按钮“Browse”,系统会弹出一个文件保存对话框。Options对话框Options对话框设置“Stepping Method Criteria”框主要用于多元回归分析,相对于一元回归分析,该项设置可以忽略(一元回归和多元回归共用一个菜单);“Include constant in equation”复选框:用于决定是否在模型中包括常数项;“Missing Values”框:包括3个单选钮组,用于选择对缺失值的处理方式,“Exclude cases listwise”表示删除所
13、有含缺失值的样本数据,“Exclude cases pairwise”表示如果计算过程涉及到某个含缺失值得变量,则暂时删除那些在该变量上有缺失值的样品,“Exclude with mean”表示利用变量均值代替相应变量的缺失值。结果输出1描述统计描述统计 Descriptive StatisticsDescriptive Statistics1389.33291019.1818131327.248159.6818314916.59883486.16791311742.3951375.927531142.3084120.2646331粮食产量(万吨)人均粮食占有量(公斤)农作物总的播种面积(千公
14、顷)有效灌溉面积(千公顷)化肥施用量(万吨)MeanStd.DeviationN结果输出2变量相关系数表变量相关系数表 CorrelationsCorrelations1.000.495.964.862.884.4951.000.429.356.205.964.4291.000.880.895.862.356.8801.000.896.884.205.895.8961.000.002.000.000.000.002.008.025.135.000.008.000.000.000.025.000.000.000.135.000.000.313131313131313131313131313131
15、31313131313131313131粮食产量(万吨)人均粮食占有量(公斤)农作物总的播种面积(千公顷)有效灌溉面积(千公顷)化肥施用量(万吨)粮食产量(万吨)人均粮食占有量(公斤)农作物总的播种面积(千公顷)有效灌溉面积(千公顷)化肥施用量(万吨)粮食产量(万吨)人均粮食占有量(公斤)农作物总的播种面积(千公顷)有效灌溉面积(千公顷)化肥施用量(万吨)Pearson CorrelationSig.(1-tailed)N粮食产量(万吨)人均粮食占有量(公斤)农作物总的播种面积(千公顷)有效灌溉面积(千公顷)化肥施用量(万吨)结果输出3变量进入变量进入/退出模型的情况退出模型的情况 Varia
16、bles Entered/RemovedVariables Entered/Removeda a农作物总的播种面积(千公顷).Stepwise(Criteria:Probability-of-F-to-enter=.100).Model1VariablesEnteredVariablesRemovedMethodDependent Variable:粮食产量(万吨)a.结果输出4回归方程拟和总结回归方程拟和总结 Model SummaryModel Summaryb b.964a.929.926276.36143Model1RR SquareAdjustedR SquareStd.Error
17、ofthe EstimatePredictors:(Constant),农作物总的播种面积(千公顷)a.Dependent Variable:粮食产量(万吨)b.结果输出5回归方程方差分解和检验回归方程方差分解和检验 A AN NO OV VA Ab b28947053128947053.20379.009.000a22148932976375.6373116194730RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors:(Constant),农作物总的播种面积(千公顷)a.Dependent Varia
18、ble:粮食产量(万吨)b.结果输出6 回归系数及其检验回归系数及其检验 C Co oe ef ff fi ic ci ie en nt ts sa a3.98886.761.046.964.282.014.96419.468.000.964.964.964(Constant)农作物总的播种面积(千公顷)Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Zero-orderPartialPartCorrelationsDependent Variable:粮食产量(万吨)a.结果输出7未进入模型
19、的变量检验结果未进入模型的变量检验结果 E Ex xc cl lu ud de ed d V Va ar ri ia ab bl le es sb b.100a1.903.067.338.816.063a.594.558.111.226.108a.971.340.180.199人均粮食占有量(公斤)有效灌溉面积(千公顷)化肥施用量(万吨)Model1Beta IntSig.PartialCorrelationToleranceCollinearityStatisticsPredictors in the Model:(Constant),农作物总的播种面积(千公顷)a.Dependent Va
20、riable:粮食产量(万吨)b.结果输出8残差的统计残差的统计 R Re es si id du ua al ls s S St ta at ti is st ti ic cs sa a69.82583859.81641389.3329982.2941431-360.243926.57831.00000271.7163631-1.3432.515.0001.00031-1.3043.353.000.98331Predicted ValueResidualStd.Predicted ValueStd.ResidualMinimumMaximumMeanStd.DeviationNDependent Variable:粮食产量(万吨)a.End多元回归分析多元回归分析作业布置作业布置