1、三、相关系数的显著性检验三、相关系数的显著性检验n两变量函数关系在图形上两变量函数关系在图形上表现为各观测点落在一条表现为各观测点落在一条线上线上 n两变量相关关系在图两变量相关关系在图形上表现为各观测形上表现为各观测点点分布在线的周围分布在线的周围。相关关系的图示相关关系的图示20304050809556516.815.615.014.814.230例:例:30家企业按产品产量分组的平均单位产品成本家企业按产品产量分组的平均单位产品成本例:例:30家企业按产品产量和单位产品成本分组家企业按产品产量和单位产品成本分组203040508018161514441321311321449107955
2、6530相关关系的图示相关关系的图示(散点图散点图scatter diagram)散点图散点图(例题分析例题分析)【例【例9.1】一家大型商业银行在多个地区设有分】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。重点项目建设、固定资产投资等项目的贷款。近年该银行贷款额平稳增长,但不良贷款额近年该银行贷款额平稳增长,但不良贷款额也有较大提高,给银行业务发展带来较大压也有较大提高,给银行业务发展带来较大压力。为弄清不良贷款形成的原因,以便找出力。为弄清不良贷款形成的原因,以便找出控制不良贷款的办法,
3、现利用银行有关业务控制不良贷款的办法,现利用银行有关业务数据进行相关分析。下面是该银行所属数据进行相关分析。下面是该银行所属25家家分行分行2002年的有关业务数据。年的有关业务数据。散点图散点图(例题分析例题分析)散点图散点图(例题分析例题分析)不良贷款与贷款余额的散点图024681012140100200300400贷款余额不良贷款不良贷款与贷款项目个数的散点图02468101214010203040贷款项目个数不良贷款不良贷款与固定资产投资额的散点图02468101214050100150200固定资产投资额不良贷款 不 良 贷 款 与 累 计 应 收 贷 款 的 散 点 图024681
4、 01 21 401 02 03 0累 计 应 收 贷 款不良贷款1.相关系数相关系数(取值及其意义取值及其意义)我国人均国民收入与人均消费金额数据我国人均国民收入与人均消费金额数据 单位单位:元元年份年份人均人均国民收入国民收入人均人均消费金额消费金额年份年份人均人均国民收入国民收入人均人均消费金额消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92
5、099.56436907138039471148用例用例9.1数据计算出该商业银行不良贷款、贷款数据计算出该商业银行不良贷款、贷款余额、应收贷款、贷款项目、固定资产投资额之间的余额、应收贷款、贷款项目、固定资产投资额之间的相关系数如下:相关系数如下:三、三、用例用例9.2数据数据相关系数的显著性检验相关系数的显著性检验(例题分析例题分析)【例】对【例】对用例用例9.1数据数据大型商业银行大型商业银行不良贷款与贷款余额之间的相关系数进行显著性检不良贷款与贷款余额之间的相关系数进行显著性检(0.05)1.提提出假设:出假设:H0:;H1:02.计算计算检验的统计量检验的统计量相关系数的显著性检验相
6、关系数的显著性检验(例题分析例题分析)n对前述对前述9.1例某大型商业银行各相关系数计算检例某大型商业银行各相关系数计算检验统计量数据如下,同学们可以自行检验和分析验统计量数据如下,同学们可以自行检验和分析regression model因变因变量量y y与自变量与自变量x x之间为线性关系之间为线性关系estimated regression equation010011最小二乘法最小二乘法(图示)(图示)011n从从 的计算公式可以看出其分母大于的计算公式可以看出其分母大于0。的正负取的正负取决于分子,且分子与相关系数决于分子,且分子与相关系数r的分子相同。的分子相同。0时,时,表示表示x
7、每增加一个单位每增加一个单位y值平均增加的数量,即值平均增加的数量,即x与与y正相关;正相关;0时,表示时,表示x每增加一个单位每增加一个单位y值平均减值平均减少的数量,即少的数量,即x与与y负相关。负相关。1111020040060080010001200140005001000150020002500人均消费与人均国民收入的回归人均消费与人均国民收入的回归【例】对【例】对求某求某大型商业银行大型商业银行不良贷款对不良贷款对贷款余额的回归方程贷款余额的回归方程1不良贷款对贷款余额回归方程的图示不良贷款对贷款余额回归方程的图示不良贷款对贷款余额的回归直线不良贷款对贷款余额的回归直线-20246
8、81012140100200300400贷款余额不良贷款用用Excel进行回归分析进行回归分析第第1步步:选择:选择“工具工具”下拉菜单下拉菜单第第2步步:选择:选择“数据分析数据分析”选项选项第第3步步:在分析工具中选择:在分析工具中选择“回归回归”,然后选择,然后选择“确确定定”第第4步步:当对话框出现时:当对话框出现时 在在“Y值输入区域值输入区域”方框内键入方框内键入Y的数据区域的数据区域 在在“X值输入区域值输入区域”方框内键入方框内键入X的数据区域的数据区域 在在“置信度置信度”选项中给出所需的数值选项中给出所需的数值 在在“输出选项输出选项”中选择输出区域中选择输出区域 在在“残
9、差残差”分析选项中选择所需的选项分析选项中选择所需的选项离差平方和的分解离差平方和的分解(图示)(图示)xyy离差分解图离差分解图coefficient of determination判定系数判定系数 越接近于越接近于1判定判定系数系数 越接近于越接近于或者说在或者说在取值的变动取值的变动中,有中,有99.74%是由是由所决定的。所决定的。判定系数判定系数r2(举举例例)【例】对【例】对计算某计算某大型商业银行大型商业银行不良不良贷款额对贷款余额回归的判定系数贷款额对贷款余额回归的判定系数意义:在不良贷款额的变差中有意义:在不良贷款额的变差中有71.16%可以可以由不良贷款与贷款余额之间的线
10、性关系来解由不良贷款与贷款余额之间的线性关系来解释,或者说在不良贷款额的变动中,有释,或者说在不良贷款额的变动中,有71.16%是由贷款余额所决定的。可见不良贷是由贷款余额所决定的。可见不良贷款与贷款余额之间有较强的线性关系款与贷款余额之间有较强的线性关系。(standard error of estimate)n估计标准误差估计标准误差是是对回归模型随机对回归模型随机误差项误差项 的标准差的标准差 的估计,即观察值与回归估计值离差平方和的均方的估计,即观察值与回归估计值离差平方和的均方根,是在排除了根,是在排除了x对对y的线性影响后对因变量的线性影响后对因变量y随机波随机波动大小的一个估计量
11、。动大小的一个估计量。n反映观察值在回归直线周围的分散程度和回归方程反映观察值在回归直线周围的分散程度和回归方程对因变量代表性的大小,其数值越大说明代表性越对因变量代表性的大小,其数值越大说明代表性越小。也小。也反反映用估计的回归方程预测映用估计的回归方程预测y时预测误差的大时预测误差的大小,其数值越大说明预测误差越大。小,其数值越大说明预测误差越大。n可从另一个角度说明回归直线的拟合程度。可从另一个角度说明回归直线的拟合程度。n计算公式为计算公式为22211101212nSSEnyxyynyySniiiniiniiniiiy(举例举例)【例【例】22211yyyySrrSn在根据样本数据拟合
12、回归方程时,首先假设在根据样本数据拟合回归方程时,首先假设变量变量x和和y之间存在线性关系,这种假设是否之间存在线性关系,这种假设是否成立必须经过检验才能证实。成立必须经过检验才能证实。n回归分析中的显著性检验包括两方面内容:回归分析中的显著性检验包括两方面内容:n是检验自变量与因变量之间线性关系是否显著。是检验自变量与因变量之间线性关系是否显著。n方法是方法是将回归均方将回归均方(MSR)同残差均方同残差均方(MSE)加以加以比较,比较,应用应用F检验分析二者之间的差别是否显著检验分析二者之间的差别是否显著回归均方回归均方(MSR):回归:回归离差离差平方和平方和(SSR)除以相应除以相应的
13、自由度的自由度(自变量的个数自变量的个数p)残差均方残差均方(MSE):残差平方和:残差平方和(SSE)除以相应的自除以相应的自由度由度(n-p-1)如果差别显著,两个变量之间存在线性关系如果差别显著,两个变量之间存在线性关系如果差别不显著,两个变量之间不存在线性关系如果差别不显著,两个变量之间不存在线性关系回归方程线性关系的显著性检验回归方程线性关系的显著性检验(检验的步骤)(检验的步骤)1.提出假设:提出假设:H0:两变量:两变量之间的线性关系不显著之间的线性关系不显著 H1:两变量:两变量之间的线性关系显著之间的线性关系显著2.计算检验统计量计算检验统计量F其中,其中,F(1,n-2)表
14、示第一自由度为表示第一自由度为1,第二自由度,第二自由度为为n-2的的F分布。分布。3.确定显著性水平确定显著性水平,并根据分子自由度,并根据分子自由度1和分母自和分母自由度由度n-2查查F分布分布表找出临界值表找出临界值F 4.作出决策:若作出决策:若F F ,拒绝拒绝H0;若若FF0.05(1,25-2)=4.84 拒绝拒绝H0,说明贷款余额说明贷款余额x与与不良贷款不良贷款y之间存在显著之间存在显著的线性关系,即的线性关系,即回归方程线性关系显著。回归方程线性关系显著。线性关系的线性关系的显著性显著性检验检验(方差分析表方差分析表)1 1不不 2111110122112121121nyx
15、yyxnxxnxstniiiniiniiniiniiniiniiy回归系数的回归系数的检验检验(例题分析例题分析)【例】对【例】对例例9.1数据建立数据建立的回归方程的回归方程的回归系数进的回归系数进行显著性检验行显著性检验(0.05)1.提出假设提出假设qH0:1=0 qH1:1 0 2.计算检验的统计量计算检验的统计量回归系数的回归系数的检验检验(例题分析例题分析)nP 值的应用值的应用y 的平均值的点估计的平均值的点估计n在前面在前面某某大型商业银行的例子中,假如要估计大型商业银行的例子中,假如要估计贷款余额为贷款余额为100亿元时所有分行不良贷款的平亿元时所有分行不良贷款的平均值,就是
16、平均值的点估计。根据估计的回归均值,就是平均值的点估计。根据估计的回归方程得方程得y 的个别值的点估计的个别值的点估计n利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量x的一个给的一个给定值定值 x0,求出因变量,求出因变量 y 的一个个别值的估计的一个个别值的估计值值 ,就是个别值的点估计,就是个别值的点估计n比如,在前面比如,在前面某某大型商业银行的例子中,如大型商业银行的例子中,如果只是想知道贷款余额为果只是想知道贷款余额为72.8亿元的那个分亿元的那个分行行(这里是编号为这里是编号为10的那个分行的那个分行)的不良贷款的不良贷款是多少,则属于个别值的点估计。根据估计是多少,
17、则属于个别值的点估计。根据估计的回归方程得的回归方程得点估计不能给出估计的精度,点估计值与实际点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计。值之间是有误差的,因此需要进行区间估计。区间估计是对于自变量区间估计是对于自变量x 的一个给定值的一个给定值 x0,根据,根据回归方程得到因变量回归方程得到因变量 y 的一个估计区间。的一个估计区间。区间估计有两种类型区间估计有两种类型q置信区间估计置信区间估计(confidence interval estimate)q预测区间估计预测区间估计(prediction interval estimate)置信区间估计置信区
18、间估计n利用利用估计的回归方程,对于自变量估计的回归方程,对于自变量 x 的一个给定的一个给定值值 x0,求出因变量,求出因变量 y 的平均值的平均值的估计区间的估计区间,这一估计区间称为这一估计区间称为置信区间置信区间(confidence interval)n E(y0)在在1-置信置信水平下的置信区间为水平下的置信区间为置信区间估计置信区间估计(例题分析例题分析)【例】在前面【例】在前面某某大型商业银行的例子中,求出贷款余大型商业银行的例子中,求出贷款余额为额为100亿元时,不良贷款亿元时,不良贷款95%的置信区间的置信区间 解:根据前面的计算结果,已知解:根据前面的计算结果,已知n=2
19、5,sy=1.9799,t(25-2)=2.0687,贷款余额为贷款余额为100亿元时不良贷款亿元时不良贷款平均值的点估计值为平均值的点估计值为2.96,置信区间为置信区间为即当贷款余额为即当贷款余额为100亿元时,所有分行不良贷款的平亿元时,所有分行不良贷款的平均值在均值在2.1141亿元到亿元到3.8059亿元之间。亿元之间。预测区间估计预测区间估计n利用估计利用估计的回归方程,对于自变量的回归方程,对于自变量 x 的一个给定的一个给定值值 x0,求出因变量,求出因变量 y 的一个个别值的估计区间,的一个个别值的估计区间,这一区间称为这一区间称为预测区间预测区间(prediction in
20、terval)n y0在在1-置信水平下的预测区间为置信水平下的预测区间为预测区间估计预测区间估计(例题分析例题分析)【例】在前面【例】在前面某某大型商业银行的例子中,求出贷款余大型商业银行的例子中,求出贷款余额为额为72.8亿元的那个分行不良贷款亿元的那个分行不良贷款 95%的预测区间的预测区间 解:根据前面的计算结果,已知解:根据前面的计算结果,已知n=25,sy=1.9799,t(25-2)=2.0687,贷款余额为贷款余额为72.8亿元时不良贷款亿元时不良贷款点估计值为点估计值为1.93,预测,预测区间为区间为即贷款余额为即贷款余额为72.8亿元的那个分行不良贷款的预测亿元的那个分行不
21、良贷款的预测区间在区间在-2.2766亿元到亿元到6.1366亿元之间。亿元之间。相关、回归分析举例相关、回归分析举例x2y2199619971998199920002430323438111514162057690010241156144412122519625640026445044854476015876相关、回归分析举例相关、回归分析举例9507.07611985158510057615824665)()(222222 xynxxnyxxynr1)提出假设:提出假设:H0:;H1:02)计算检验统计量计算检验统计量3)根据显著性水平根据显著性水平 0.05,查,查t分布表得临界值分布表
22、得临界值 t(n-2)=t0.025(5-2)=3.1824 由于由于t=5.3099t0.025(5-2)=3.1824,所以拒绝,所以拒绝H0,接,接受受H1,即说明居民人均收入与,即说明居民人均收入与商品销售额商品销售额之间的相之间的相关关系显著。关关系显著。求一元线性回归方程,解释回归系数的意义求一元线性回归方程,解释回归系数的意义xyxyxxnyxxyn6.076.376.351586.05766.0158510057615824665)(102221 计算判定系数,并解释其意义计算判定系数,并解释其意义r2(0.9507)20.9038 说明在商品销售额的总变差中有说明在商品销售额
23、的总变差中有90.38可以由可以由人均收入与商品销售额之间的线性关系来解释,人均收入与商品销售额之间的线性关系来解释,或者说,在商品销售额取值的变动中,有或者说,在商品销售额取值的变动中,有90.38%是由人均收入所决定的。说明二者之间是由人均收入所决定的。说明二者之间有较强的线性关系。有较强的线性关系。计算估计标准误差计算估计标准误差 说明根据说明根据人均收入人均收入预测预测商品销售额商品销售额时,平均的时,平均的预测误差为预测误差为1.3871.387百万元百万元387.12524666.07676.311982102nxyyySyt=4.4789t0.025(5-2)=3.1824,拒绝
24、,拒绝H0,接受,接受H1,表明表明人均收入与商品销售额之间有线性关系人均收入与商品销售额之间有线性关系24.20406.076.310 xy练习题:以下为练习题:以下为10家商店销售额和利润率的资料家商店销售额和利润率的资料12345678910658147633712.610.418.538.116.312.36.26.616.8学习要求学习要求n理解变量之间相关关系的概念、种类;理解变量之间相关关系的概念、种类;n掌握相关系数及其显著性检验;掌握相关系数及其显著性检验;n掌握一元线性回归方程的确定,判定系数、掌握一元线性回归方程的确定,判定系数、估计标准差、回归系数的显著性检验;估计标准差、回归系数的显著性检验;n掌握利用回归模型进行估计预测的方法。掌握利用回归模型进行估计预测的方法。