1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第四章 相关分析与回归分析n4.1 简单相关分析简单相关分析n4.2 回归分析回归分析n4.3 非线性回归非线性回归STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n4.1 4.1 简单相关分析简单相关分析n4.1.1 相关分析的基本概念相关分析的基本概念n4.1.2 用用INSIGHT模块作相关分析模块作相关分析n4.1.3 用用“分析家分析家”作相关分析作相关分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.1 相关分析的基本概念相关分析
2、的基本概念1.1.散点图散点图 散点图是描述变量之间关系的一种直观方法。我们用散点图是描述变量之间关系的一种直观方法。我们用坐标的横轴代表自变量坐标的横轴代表自变量X,纵轴代表因变量,纵轴代表因变量Y,每组数,每组数据据(xi,yi)在坐标系中用一个点表示,由这些点形成的散在坐标系中用一个点表示,由这些点形成的散点图描述了两个变量之间的大致关系,从中可以直观地点图描述了两个变量之间的大致关系,从中可以直观地看出变量之间的关系形态及关系强度。看出变量之间的关系形态及关系强度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图图4-1就是不同形态的散点图。就是不同形
3、态的散点图。(a)(b)(c)(d)就两个变量而言,如果变量之间的关系近似地表现为就两个变量而言,如果变量之间的关系近似地表现为一条直线,则称为线性相关,如图一条直线,则称为线性相关,如图4-1(a)和和(b);如果变;如果变量之间的关系近似地表现为一条曲线,则称为非线性相量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关;如图关或曲线相关;如图4-1(c);如果两个变量的观测点很;如果两个变量的观测点很分散,无任何规律,则表示变量之间没有相关关系,如分散,无任何规律,则表示变量之间没有相关关系,如图图4-l(d)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与
4、统计应用教程2.2.相关系数相关系数 相关系数是对变量之间关系密切程度的度量。若相关相关系数是对变量之间关系密切程度的度量。若相关系数是根据总体全部数据计算的,称为总体相关系数,系数是根据总体全部数据计算的,称为总体相关系数,记为记为;总体相关系数的计算公式为:;总体相关系数的计算公式为:其中其中COV(X,Y)为变量为变量X和和Y的协方差,的协方差,D(X)和和D(Y)分分别为别为X和和Y的方差。的方差。)()(),(YDXDYXCOVSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 若相关系数是根据样本数据计算的,则称为样本相关若相关系数是根据样本数据计算的
5、,则称为样本相关系数(简称为相关系数),记为系数(简称为相关系数),记为r。样本相关系数的计。样本相关系数的计算公式为:算公式为:一般情况下,总体相关系数一般情况下,总体相关系数是未知的,我们通常是是未知的,我们通常是将样本相关系数将样本相关系数r作为作为的近似估计值。的近似估计值。niiniiniiiyyxxyyxxr12121)()()(STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 相关系数相关系数r有如下性质:有如下性质:相关系数的取值范围:相关系数的取值范围:1 r 1,若,若0 r 1,表,表明明X与与Y之间存在正线性相关关系,若之间存在正线性相关
6、关系,若1 r 0,表明,表明X与与Y之间存在负线性相关关系。之间存在负线性相关关系。若若r=1,表明,表明X与与Y之间为完全正线性相关关系;之间为完全正线性相关关系;若若r=1,表明,表明X与与Y之间为完全负线性相关关系;若之间为完全负线性相关关系;若r=0,说明二者之间不存在线性相关关系。,说明二者之间不存在线性相关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 相关系数相关系数r有如下性质:有如下性质:当当1 r 1时,为说明两个变量之间的线性关系时,为说明两个变量之间的线性关系的密切程度,通常将相关程度分为以下几种情况:当的密切程度,通常将相关程
7、度分为以下几种情况:当|r|0.8时,可视为高度相关;时,可视为高度相关;0.5|r|0.8时,可视为时,可视为中度相关;中度相关;0.3|r|0.5时,视为低度相关;当时,视为低度相关;当|r|0.3时,说明两个变量之间的相关程度极弱,可视为不时,说明两个变量之间的相关程度极弱,可视为不相关。但这种解释必须建立在对相关系数进行显著性检相关。但这种解释必须建立在对相关系数进行显著性检验的基础之上。验的基础之上。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.相关系数的显著性检验相关系数的显著性检验 相关系数的显著性检验也就是检验总体相关系数是否相关系数的
8、显著性检验也就是检验总体相关系数是否显著为显著为0,通常采用费歇尔(,通常采用费歇尔(Fisher)提出的)提出的t分布检验,分布检验,该检验可以用于小样本,也可以用于大样本。检验的具该检验可以用于小样本,也可以用于大样本。检验的具体步骤如下:体步骤如下:1)提出假设:假设样本是从一个不相关的总体中抽出提出假设:假设样本是从一个不相关的总体中抽出的,即的,即H0:=0;H1:0STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 1)提出假设:假设样本是从一个不相关的总体中抽出提出假设:假设样本是从一个不相关的总体中抽出的,即的,即H0:=0;H1:0 2)由样本观
9、测值计算检验统计量:由样本观测值计算检验统计量:的观测值的观测值t0和衡量观测结果极端性的和衡量观测结果极端性的p值:值:p=P|t|t0|=2Pt|t0|3)进行决策:比较进行决策:比较p和检验水平和检验水平 作判断:作判断:p ,拒,拒绝原假设绝原假设H0;p ,不能拒绝原假设,不能拒绝原假设H0。)2(12|2ntrnrtSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.4.置信椭圆置信椭圆 可以生成两类置信椭圆:可以生成两类置信椭圆:均值置信椭圆:预测两变量均值的置信区域;均值置信椭圆:预测两变量均值的置信区域;预测值置信椭圆:预测两变量分布个别观测值
10、的预测值置信椭圆:预测两变量分布个别观测值的置信区域。置信区域。关于预测值置信椭圆的两点说明:关于预测值置信椭圆的两点说明:1)作为置信曲线,表示数据以设定的百分率(置信水作为置信曲线,表示数据以设定的百分率(置信水平)落入的椭圆区域;平)落入的椭圆区域;2)作为相关性指标。若两个变量不相关,椭圆应该为作为相关性指标。若两个变量不相关,椭圆应该为圆;两个相关的变量有拉长的椭圆,可以用椭圆长短轴圆;两个相关的变量有拉长的椭圆,可以用椭圆长短轴之比来衡量相关的程度。之比来衡量相关的程度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.2 用用INSIGHT模
11、块作相关分析模块作相关分析【例【例4-1】一家大型商业银行在多个地区设有分行,其】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的为弄清楚不良贷款形成的原因,因,希望利用银行业务的为弄清楚不良贷款形成的原
12、因,希望利用银行业务的有关数据做些定量分析,以便找出希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。表控制不良贷款的办法。表4-1就是该银行所属的就是该银行所属的25家分家分行行2002年的有关业务数据。年的有关业务数据。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表4-1 某商业银行2002年的主要业务数据银行想知道,不良贷款是否与贷款余额、应收贷款、贷银行想知道,不良贷款是否与贷款余额、应收贷款、贷款项目的多少、固定资产投资等因素有关款项目的多少、固定资产投资等因素有关?如果有,是如果有,是一种什么样的关系一种什么样的关系?关系强度如
13、何关系强度如何?分行编号不良贷款(亿元)x1各项贷款余额(亿元)x2本年累计应收贷款(亿元)x3贷款项目个数(个)x4本年固定资产投资额(亿元)x510.967.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.557.8199.716.51963.2206.8139.47.22864.32111.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1STATSTATSTATSTATSA
14、SSAS软件与统计应用教程软件与统计应用教程 设表设表4-1中数据已经存放在数据集中数据已经存放在数据集Mylib.bldk中。中。1.1.制作散点图制作散点图 首先制作变量之间的散点图,以便判断变量之间的相首先制作变量之间的散点图,以便判断变量之间的相关性。步骤如下:关性。步骤如下:1)在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk;2)选择菜单选择菜单“Analyze(分析)(分析)”“Scatter Plot(Y X)(散点图)(散点图)”;3)在打开的在打开的“Scatter Plot(Y X)”对话框中选定对话框中选定Y变量:变量:Y;选定;选定X变量:变
15、量:x1、x2、x3、x4;4)单击单击“OK”按钮,得到变量的分析结果。按钮,得到变量的分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从各散点图中可以看从各散点图中可以看出,不良贷款出,不良贷款(Y)与贷款与贷款余额余额(x1)、应收贷款、应收贷款(x2)、贷款项目多少贷款项目多少(x3)、固定、固定资产投资额资产投资额(x4)之间都具之间都具有一定的线性关系。但有一定的线性关系。但从各散点的分布情况看,从各散点的分布情况看,与贷款余额与贷款余额(x1)的线性关的线性关系比较密切,而与固定系比较密切,而与固定资产投资额资产投资额(x4)之间的关之
16、间的关系最不密切。系最不密切。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.相关系数计算相关系数计算 1)在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk;2)选择菜单选择菜单“Analyze(分析)(分析)”“Multivariate(Y X)(多变量)(多变量)”;3)在打开的在打开的“Multivariate(Y X)”对话框中选定对话框中选定Y变变量:量:Y;选定;选定X变量:变量:x1、x2、x3、x4;4)单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计
17、应用教程软件与统计应用教程结果显示各变量的统计量和相关(系数)矩阵,从相关结果显示各变量的统计量和相关(系数)矩阵,从相关矩阵中可以看出,在不良贷款矩阵中可以看出,在不良贷款Y与其他几个变量的关系与其他几个变量的关系中,与贷款余额中,与贷款余额(x1)的相关系数最大,而与固定资产投的相关系数最大,而与固定资产投资额资额(x4)的相关系数最小。的相关系数最小。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5)为了检验各总体变量的相关系数是否为零,选择菜为了检验各总体变量的相关系数是否为零,选择菜单:单:“Tables”“CORR p-values”,得到相关系
18、数为零,得到相关系数为零的原假设的的原假设的p值,如图值,如图4-6所示。所示。基于这些基于这些p值,拒绝原假设,即不良贷款与其他几个值,拒绝原假设,即不良贷款与其他几个变量之间均存在着显著的正相关关系。变量之间均存在着显著的正相关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.置信椭圆置信椭圆 继续上述步骤。继续上述步骤。6)选择菜单:选择菜单:“Curves”“Scatter Plot Cont Ellipse”“Prediction:95”,得到不良贷款与其他,得到不良贷款与其他几个变量的散点图及预测值的置信椭圆,如图所示。几个变量的散点图及
19、预测值的置信椭圆,如图所示。变量变量Y和和x1间散点图上的这个椭圆被拉得很长,表明变间散点图上的这个椭圆被拉得很长,表明变量量Y和和x1之间有很强的相关性。之间有很强的相关性。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.3 用用“分析家分析家”作相关分析作相关分析【例【例4-2】通常用来评价商业中心经营好坏的一个综合】通常用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内指标是单位面积的营业额,它是单位时间内(通常为一通常为一年年)的营业额与经营面积的比值。对单位面积营业额的的营业额与经营面积的比值。对单位面积营业额的影响因素的
20、指标有单位小时车流量、日人流量、居民年影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分。这几个指标中车流量和人流量是通程度的满意度评分。这几个指标中车流量和人流量是通过同时对几个商业中心进行实地观测而得到的。而居民过同时对几个商业中心进行实地观测而得到的。而居民年平均消费额、消费者对商场的环境、设施及商品的丰年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均富程度的满意度评分是通过随机采访顾客而得到的平均值数据。表值数据。表4-2为从某市
21、随机抽取的为从某市随机抽取的20个商业中心有关个商业中心有关指标的数据,试据此说明变量间的相关程度。指标的数据,试据此说明变量间的相关程度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表4-2 20个商业中心有关指标的数据设表设表4-2数据已保存在数据集数据已保存在数据集Mylib.jyzk中。中。商业中心编号单位面积年营业额(万元/平方米)Y每小时机动车流量(万辆)x1日人流量 (万人)x2居民年消费额(万元)x3对商场环境满意度x4对商场设施满意度x5对商场商品丰富程度满意度x612.50.513.901.9479623.20.264.242.86746
22、32.50.724.541.6388743.41.236.981.926101051.80.694.210.7184760.90.362.910.62565152.61.045.531.301079162.71.185.981.28879171.40.611.271.48671183.21.055.772.167109192.91.065.711.74699202.50.584.111.85796STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.相关分析的设置相关分析的设置 在在“分析家分析家”中作相关分析的步骤如下:中作相关分析的步骤如下:1)在在“分析
23、家分析家”中打开数据集中打开数据集Mylib.jyzk;2)选择主菜单选择主菜单“Statistics”“Descriptive(描述性统(描述性统计)计)”“Correlations(相关)(相关)”,打开,打开“Correlations”对话框,按图对话框,按图4-8 设置分析变量及内容。设置分析变量及内容。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.结果分析结果分析 显示结果首先给出各个变量的描述性统计量,包括观显示结果首先给出各个变量的描述性统计量,包括观测总数、各变量的均值及标准差等。然后给出变量的相测总数、各变量的均值及标准差等。然后给出
24、变量的相关系数矩阵(分析变量中任两者之间的相关系数),以关系数矩阵(分析变量中任两者之间的相关系数),以及原假设为及原假设为H0:Rho=0(即(即H0:=0)的检验结果)的检验结果(仅给出(仅给出p值),如图值),如图4-9所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从相关系数的取值来看,单位面积营业额(从相关系数的取值来看,单位面积营业额(Y)与居)与居民年消费额(民年消费额(x3)、日人流量()、日人流量(x2)接近高度相关;单)接近高度相关;单位面积营业额(位面积营业额(Y)与每小时机动车流量()与每小时机动车流量(x1)、对商)、对商
25、场环境的满意度(场环境的满意度(x4)、对商场设施的满意度()、对商场设施的满意度(x5)为)为低度相关;单位面积营业额(低度相关;单位面积营业额(Y)与商场商品丰富程度)与商场商品丰富程度满意度(满意度(x6)则属于中度相关。)则属于中度相关。从相关系数的假设检验结果来看,单位面积营业额从相关系数的假设检验结果来看,单位面积营业额(Y)与居民年消费额与居民年消费额(x3)、日人流量、日人流量(x2)、商场商品的丰富程、商场商品的丰富程度满意度度满意度(x6)、对商场设施的满意度、对商场设施的满意度(x5)的相关系数显著的相关系数显著不为不为0(p 10即可认为模型有很强的共线问即可认为模型有
26、很强的共线问题。题。iiicVar2)(i)(iVarSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程8.8.利用回归方程进行预测利用回归方程进行预测(1)点预测点预测 假设通过检验的假设通过检验的“最优最优”回归方程为回归方程为当自变量的一组新观测值当自变量的一组新观测值x0=(x01,x02,x0k)对应的对应的因变量的预测值为因变量的预测值为kkXXY.110kkxxy010100.STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)区间预测区间预测 区间预测分为均值的预测区间和个体的预测区间。区间预测分为均值的预测区间和
27、个体的预测区间。若将若将 理解为理解为E(y0)的预测值,则在给定的显著水平的预测值,则在给定的显著水平 下,下,E(y0)的置信区间为的置信区间为其中,其中,n为观测次数,为观测次数,k为自为自变量个数。变量个数。若将若将 理解为个体值理解为个体值y0的预测值,则在给定的显著水的预测值,则在给定的显著水平平 下,下,y0的置信区间为的置信区间为0 y)(,)(0102001020 xXXxstyxXXxstyniiiknyys12)1/()()(1,)(1(0102001020 xXXxstyxXXxsty0 ySTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程
28、4.2.2 用用INSIGHT模块作回归分析模块作回归分析【例【例4-3】根据例】根据例4-1的数据集的数据集Mylib.bldk,建立不良贷,建立不良贷款的预测公式。款的预测公式。1.1.一元线性回归一元线性回归 建立不良贷款对贷款余额的回归方程。建立不良贷款对贷款余额的回归方程。(1)分析分析 1)在在INSIGHT模块中打开数据集模块中打开数据集Mylib.bldk。选择菜。选择菜单单“Analyze”“Fit(Y X)”,打开,打开“Fit(Y X)”对话框;对话框;2)在在“Fit(Y X)”对话框中,将对话框中,将Y设为响应变量,将设为响应变量,将x1设为自变量;设为自变量;3)单
29、击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 显示的结果分为若干张表:显示的结果分为若干张表:第一张表提供关于拟合模型的一般信息,第一张表提供关于拟合模型的一般信息,Y=x1表示表示这个分析是以这个分析是以Y为响应变量,为响应变量,x1为自变量的线性模型;为自变量的线性模型;第二张表给出回归方程:第二张表给出回归方程:第三张表是带有回归直线的散点图,给出了回归的图第三张表是带有回归直线的散点图,给出了回归的图形表示,如图;形表示,如图;10379.08295.0 xYSTATSTATSTATSTATSAS
30、SAS软件与统计应用教程软件与统计应用教程 图的下面是参数回归拟合表(图图的下面是参数回归拟合表(图4-14)。其中判定系)。其中判定系数数R-Square(R2)为模型平方和占总平方和的比例,反)为模型平方和占总平方和的比例,反映了回归方程能够解释的信息占总信息的比例;映了回归方程能够解释的信息占总信息的比例;第四张表提供拟合的汇总度量(图第四张表提供拟合的汇总度量(图4-15):):Mean of Response(响应变量的均值)是变量(响应变量的均值)是变量Y的平均值,的平均值,Root MSE(均方残差平方根)是对各观测点在直线周围分散(均方残差平方根)是对各观测点在直线周围分散程度
31、的一个度量值,为随机误差程度的一个度量值,为随机误差的标准差(也是实测的标准差(也是实测值值Y的标准差)的标准差)的无偏估计。的无偏估计。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第五张方差分析表(图第五张方差分析表(图4-16)包含对回归方程的显著)包含对回归方程的显著检验:检验:对一元线性回归,第六张对一元线性回归,第六张型检验表提供与方差分析表型检验表提供与方差分析表一样的检验,如图一样的检验,如图4-17;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第七张参数估计表给出了回归直线截距和斜率的估计值第七张参数估计
32、表给出了回归直线截距和斜率的估计值及其显著性检验等内容。在这个例子里,截距的及其显著性检验等内容。在这个例子里,截距的p值值 =0.05,表示模型还有改进的余地,可以考虑拟合截,表示模型还有改进的余地,可以考虑拟合截距为距为0的回归直线。斜率的的回归直线。斜率的t检验检验p值值.150.05,应接受原假设,认为残差为正态,应接受原假设,认为残差为正态性分布。性分布。所以,模型所以,模型 是合适的,用其对不良贷款进行是合适的,用其对不良贷款进行预测会更符合实际。预测会更符合实际。1 0.0331 xY STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.多元线
33、性回归多元线性回归【例【例4-4】引入数据集】引入数据集Mylib.BLDK中的所有中的所有4个自变量个自变量对不良贷款建立多元线性回归。对不良贷款建立多元线性回归。(1)分析步骤分析步骤 在在INSIGHT模块中打开数据集模块中打开数据集Mylib.BLDK。1)选择菜单选择菜单“Analyze”“Fit(Y X)(拟合)(拟合)”,打开,打开“Fit(Y X)”对话框;对话框;2)在在“Fit(Y X)”对话框中,选择变量对话框中,选择变量Y,单击,单击“Y”按按钮,将钮,将Y设为响应变量;选择变量设为响应变量;选择变量x1、x2、x3、x4,单击,单击“X”按钮,将按钮,将x1、x2、x
34、3、x4设为自变量;设为自变量;3)单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在显示的结果中可以看到,多元回归分析的输出类似在显示的结果中可以看到,多元回归分析的输出类似于一元线性回归的输出,同样分为七张表:于一元线性回归的输出,同样分为七张表:第一张表提供关于拟合模型的一般信息;第一张表提供关于拟合模型的一般信息;第二张表给出模型方程第二张表给出模型方程(即回归方程即回归方程),如图,如图4-26。可知回归方程为:可知回归方程为:43210292.00145.01480.00400.00216.1
35、xxxxYSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第三张模型拟合汇总表(图第三张模型拟合汇总表(图4-27)表明)表明R-Square为为0.7976,比一元线性回归模型有一定提高,但不足以说,比一元线性回归模型有一定提高,但不足以说明模型优于一元回归模型,因为在模型中增加自变量总明模型优于一元回归模型,因为在模型中增加自变量总能提高能提高R-Square。Adj R-Sq(修正(修正R2)考虑了加入模型的变量数,在比较)考虑了加入模型的变量数,在比较不同多元模型时用不同多元模型时用Adj R-Sq更合适。如在这里它为更合适。如在这里它为0.7571,
36、而在简单模型中为,而在简单模型中为0.6991,说明这一模型比一,说明这一模型比一元线性模型更多地说明变量元线性模型更多地说明变量Y的变化。的变化。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第四张方差分析表中(下图左),看到第四张方差分析表中(下图左),看到p值值0.0001,拒绝原假设并可作出至少有一个回归系数不为零的结论,拒绝原假设并可作出至少有一个回归系数不为零的结论,说明所建模型的线性关系是显著的。说明所建模型的线性关系是显著的。III型检验表(上图右)与参数估计表(下图)给出各个型检验表(上图右)与参数估计表(下图)给出各个自变量的回归系数为零
37、的假设检验,各自变量的回归系自变量的回归系数为零的假设检验,各自变量的回归系数的数的F检验与检验与t检验在这里是一致的。检验在这里是一致的。参数估计表(上图右)包括截距的显著性检验,还给出参数估计表(上图右)包括截距的显著性检验,还给出了容差(了容差(Tolerance)和方差膨胀因子()和方差膨胀因子(VIF)。)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程两表中自变量两表中自变量x2、x3、x4的回归系数假设检验的的回归系数假设检验的p值较大,值较大,说明这些自变量对说明这些自变量对Y的影响不显著,这种情况可能是这的影响不显著,这种情况可能是这些变量对
38、预测些变量对预测Y值作用不大,也可能是由于这些变量之值作用不大,也可能是由于这些变量之间的高度相关性所引起的共线问题。如果自变量之间具间的高度相关性所引起的共线问题。如果自变量之间具有高度的共线关系,则它们所提供的预测信息就是重复有高度的共线关系,则它们所提供的预测信息就是重复的,在参数(回归系数)检验中这些变量的显著性就可的,在参数(回归系数)检验中这些变量的显著性就可能被隐蔽起来,故应考虑剔除一些自变量,重新拟合回能被隐蔽起来,故应考虑剔除一些自变量,重新拟合回归方程。(本例中归方程。(本例中x1的方差膨胀系数较大,说明的方差膨胀系数较大,说明x1与其与其余自变量有一定的线性关系)余自变量
39、有一定的线性关系)STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)剔除自变量剔除自变量 在上面的例子中首先考虑剔除变量在上面的例子中首先考虑剔除变量x3,对此只需在刚,对此只需在刚才已打开的拟合窗的任一处选中变量才已打开的拟合窗的任一处选中变量x3,如图,如图4-31所示,所示,再在主菜单中选择再在主菜单中选择“Edit”“Delete”所有的结果就会修所有的结果就会修改为不含改为不含x3的拟合结果。的拟合结果。类似地剔除作用不显著的自变量类似地剔除作用不显著的自变量x2,得到拟合结果如图,得到拟合结果如图4-32所示。所示。STATSTATSTATSTA
40、TSASSAS软件与统计应用教程软件与统计应用教程从图从图4-32所示的拟合结果可以看到,回归方程的显著性所示的拟合结果可以看到,回归方程的显著性检验以及检验以及x1、x4的显著性检验都已通过。但是方程的判的显著性检验都已通过。但是方程的判定系数定系数R2还不如前述一元回归方程还不如前述一元回归方程 的判定系的判定系数大。因此,考虑进一步优化模型,拟合不含常数项而数大。因此,考虑进一步优化模型,拟合不含常数项而仅含仅含x1、x4的回归方程。的回归方程。1 0.0331 xY STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 拟合结果如图拟合结果如图4-33所示。
41、所示。结果显示,回归方程为:结果显示,回归方程为:结果还可以看到,回归方程的显著性检验以及结果还可以看到,回归方程的显著性检验以及x1、x4的显著性检验都已通过,方程的修正判定系数的显著性检验都已通过,方程的修正判定系数Adj R2也也比前述所有回归方程的比前述所有回归方程的Adj R2大,因此采用该回归模型大,因此采用该回归模型更为合适。更为合适。410344.00489.0 xxYSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.2.3 用用“分析家分析家”作回归分析作回归分析【例【例4-5】根据例】根据例4-2中的数据集中的数据集Mylib.jyzk,建
42、立单位,建立单位面积营业额的预测公式。面积营业额的预测公式。在在“分析家分析家”中打开数据集中打开数据集Mylib.jyzk。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.一元线性回归一元线性回归(1)分析步骤分析步骤 选择主菜单选择主菜单“Statistics(统计)(统计)”“Regression(回(回归)归)”“Linear(线性)(线性)”,打开,打开“Linear Regression(线性回归)(线性回归)”对话框,按图对话框,按图4-34设置分析变量,设置分析变量,STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计
43、应用教程 在显示的输出结果中,在显示的输出结果中,p值值.0001 =0.05,所以模,所以模型的作用是显著的。型的作用是显著的。参数估计部分列举了回归方程中两个参数的值以及有参数估计部分列举了回归方程中两个参数的值以及有关的显著性检验的结果。拟合的回归方程为:关的显著性检验的结果。拟合的回归方程为:t检验的结果表明检验的结果表明x2的系数显著不为的系数显著不为0。240418.066431.0 xySTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)制作散点图制作散点图 在上述操作打开的在上述操作打开的“Linear Regression”对话框中,对话框中
44、,单击单击“Plots”按钮。在打开的按钮。在打开的“Linear Regression:Plots”对话框中,选择对话框中,选择“Predicted”选项卡,选中选项卡,选中“Plot observed vs independent”复选框。单击复选框。单击“OK”按钮,得按钮,得到分析结果,包含响应变量到分析结果,包含响应变量Y与解释变量与解释变量x2的散点图,的散点图,如图如图4-36右所示。右所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(3)拟合不含常数项的回归拟合不含常数项的回归 在在“Linear Regression”对话框中单击对话框中
45、单击“Model”按钮,按钮,在打开的在打开的“Linear Regression:Model”对话框中选中对话框中选中“Do not include an intercept”复选框,如图复选框,如图4-37;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在显示的输出结果中,在显示的输出结果中,p值值.0001 =0.05,所以模,所以模型的作用是显著的。在汇总的信息中,显示了型的作用是显著的。在汇总的信息中,显示了R2和校正和校正R2分别为分别为0.9540和和0.9516,远远高于含有常数项的回归,远远高于含有常数项的回归模型。模型。参数估计部分表明参
46、数估计部分表明t检验的结果检验的结果x2的系数显著不为的系数显著不为0,拟合的回归方程为:拟合的回归方程为:254096.0 xy STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.多元线性回归多元线性回归【例【例4-6】引入数据集】引入数据集Mylib.jyzk中所有中所有6个自变量对因个自变量对因变量单位面积营业额变量单位面积营业额Y建立多元线性回归。建立多元线性回归。(1)分析步骤分析步骤 1)选择主菜单选择主菜单“Statistics”“Regression”“Linear”,打开,打开“Linear Regression(线性回归)(线性回归)”
47、对对话框,按下图所示进行多元线性回归分析;话框,按下图所示进行多元线性回归分析;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 显示的分析结果表明显示的分析结果表明模型的作用是显著的(模型的作用是显著的(F统计量的值为统计量的值为268.30,p值值0.00010.05=)。)。参数估计部分表明拟参数估计部分表明拟合的回归方程为:合的回归方程为:y=0.26044+0.16644x1+0.33987x2+0.73354x3+0.03201x4 0.00471x5 0.04752x6 参数显著性检验表明,进入回归的参数显著性检验表明,进入回归的6个自变量,其作个
48、自变量,其作用在其它变量进入回归的前提下并不都是显著的。例如用在其它变量进入回归的前提下并不都是显著的。例如x1、x4、x5、x6的作用就不显著。的作用就不显著。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)逐步回归逐步回归 “分析家分析家”中选择变量的方法很多,在上述步骤的中选择变量的方法很多,在上述步骤的“Linear Regression”对话框中,单击对话框中,单击“Model”按钮,按钮,打开打开“Linear Regression:Model”对话框。对话框。在在“Method”选项卡中包含多种变量的选择方法,选选项卡中包含多种变量的选择方法
49、,选择其中一种,例如选择择其中一种,例如选择“Backward elimination(逐步(逐步剔除法)剔除法)”,如图,如图4-41所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程继续剔除进入回归的变量中最不显著的自变量继续剔除进入回归的变量中最不显著的自变量x6,直到所有的参数显著不为直到所有的参数显著不为0。结果如图。结果如图4-42所示。所示。参数估计部分表明拟合的回归方程为:参数估计部分表明拟合的回归方程为:模型的模型的R2为为0.9902,C(p)值较小(仅为值较小(仅为3.8425);方);方差分析中模型的作用也是显著的(差分析中模型
50、的作用也是显著的(F统计量的值为统计量的值为540.98,p值值0.00010.05=)。)。43203716.072315.029074.029721.0 xxxySTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.2.4 使用使用REG过程作回归分析过程作回归分析1.REG1.REG过程的语法格式过程的语法格式 REG过程的基本用法为:过程的基本用法为:PROC REG DATA;VAR;MODEL =/;PRINT;PLOT =/;RUN;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 说明:说明:MODEL语句用以指定所