1、第十三章 简单回归和相关分析研究两个变量之间的关系本章重点s什么是线性回归模型s建立线性回归模型的步骤s解释最小平方法s计算回归系数s样本回归方程在统计推断中的作用s如何衡量变量之间关系的密切程度函数关系和统计关系s函数关系:两变量的数量表现在一定条件下是完全确 定的。如:圆的面积和半径的关系s统计关系(相关关系):两变量的数量表现尽管存在着密切关系,但却不是完全确定的。如:成本和利润的关系 Sr 2统计关系的种类s按涉及变量的多少可分 简单相关回归关系(一个自变量和一个因变量)复相关复回归关系(一个因变量和多个自变量)s按变量关系在图形上的形态可分 线性相关回归 非 线性相关回归s按 两变量
2、变动的方向可分 正相关回归 负相关回归分析统计关系的定量方法回归分析相关分析其他方法分析统计关系的方法 1996年12个沿海省、直辖市、自治区 大型零售、批发贸易业企业利润额与销售额 单位:亿元省、市、区销售总额利润总额北 京147 71天 津 64 20河 北 87 40辽 宁108 59上 海206120江 苏277122浙 江209 88福 建 64 29山 东173 91广 东214105广 西 44 19海 南 53 24 贸易业企业利润额与销售额 相关与回归分析数据计算 单位:亿元省、市、区销售额(X)利润额(Y)X2Y2XY北 京 147 71 21609 5041 10437天
3、 津 64 20 4096 400 1280河 北 87 40 7569 1600 3480辽 宁 108 59 11664 3481 6372上 海 206120 4243614400 24720江 苏 277122 7672914884 33794浙 江 209 88 43681 7744 18392福 建 64 29 4096 841 1856山 东 173 91 29929 8281 15743广 东 214105 4579611025 22470广 西 44 19 1936 361 836海 南 53 24 2809 576 1272合 计 1646788 2923506863414
4、065212省市自治区销售额与利润额的相关n X Y (X)(Y)=390776n X2 (X)2=798884n Y2 (Y)2=202664 390776r=798884 202664 =0.9712省市自治区销售额与利润额的回归回归系数的计算:390776b=0.49 798884 788 0.49 1646a=1.43 1212省利润额对销售额的散点图及回归 020406080100120140050100150200250300销售额(亿元)利润额(亿元)销售额为 200 亿元时利润额的平均值Yc=1.43+0.49 200=96.57(亿元)估计标准误 68634(1.43)788
5、 0.49 140653SY.X=12 2 =9.80(亿元)相关系数的计算rrXYXYXXn YY 22222 =nn =0.8257相关系数对样本相关关系的计量r值相关程度1绝对相关0.81高度相关0.50.8中度相关0.30.5低度相关00.3无相关0绝对无相关建立 样本线性回归模型的方法-最小平方法实际观察值与样本回归线上的点的距离的平方和最小XY e1e2e3e4yyiiiniine1221最小样本回归系数的计算公式ybb XbnXYXYnXXbY b XYnbXn 01122011线性回归分析目的;在因变量和自变量之间建立一个数学模型,根据这个模型可以根据自变量的变动预测因变量的变
6、动。应注意的问题:1.建立模型的目的2.谁将用这个模型3.建立 模型用的资料是否合适4.如何利用模型建立 样本线性回归模型的实际例子1现有10个企业的销售额和利润的资料序号销售额利润额1111252102223902448521566256621375818851129481010439总计716179问:利润额和销售额之间存在什么样的关系销售额和利润额的散点图0510152025020406080100120利润额实际例子的计算1序号销售额利润额xy111125123212775625210222104042244484390248100216057648521722517854415662
7、543561650625662133844806169758183364104432485112260161214494810230448010010439184938781总计71617956368139433569x2y2实际例子的计算2ybb XbnXYXYnXXbYb XYnbXnYX 0112210 13943 716 17910 56368 716202201117910022716102.152.15 022.表示当销售额增加或减少1亿元时,利润额平均增加或减少0.22亿元建立 线性回归模型的步骤s确定研究的问题s设样本回归模型(如:)s搜集样本资料(数据资料)s估计未知参数(计
8、算统计量)s得到样本回归方程s用模型预测因变量Yabx总体线性回归模型的图示YXYXii01iyxX01观察值观察值总体线性回归模型YXiii 01因变量自变量参数随机误差yxY单值Y条件平均数利用回归方程预测的三个假设条件s对于给定的每个X,Y都服从正态分布s 是随机变量并相互独立s对于给定的每个X,都相等,iyx2即对应不同的X,Y的离散程度是相等的.三个假设条件的图示 XiXJXkyxX01yxyxyxijk总体回归模型与样本回归方程YX观察值观察值yb bX eiii 01ybb Xi01eiyxX01Y拟合值残值估计标准误差s估计标准误差:实际观察值Y与 Y的平均离差 s它可用来估计
9、Y值围绕总体回归线的离散 程度 yxiNiyxNYN212Syynenybybxynyxiii22201222 =利用回归方程对总体进行推断s对给定的X,求 的置信区间s对给定的X,求单个 的置信区间s求 的置信区间s根据样本回归方程对s 的假设进行检验yxYi110 Yi,之间的关系 YXybb X01yxX01YiX(给定的)y?yx(通过样本回归方程计算得到)yxy对给定的X,求 的置信区间yxytytnXXXn XSSnXXXn XytSytSnyxnyyyxiyyxinyyxnyy222222222211 的置信区间yx X S 15.35 2.306 1.2431(12.49 18
10、.21)0yx66005381215 022 66153531811066 71656368 10 7161241315351241366228,.,.yStyyx的置信区间为请解释结果:Yi 的推算区间YtYYtnXXXnXSSnXXXnXYYtSYYtSnyinyyyxiyyxiinyinyiiiiii22222222221111的区间为 Yi 的推算区间 X S 15.35 2.306 4.0071(6.11 24.54)0yx 66005381215 022 661535318110166 71656368 10 7164007115354007166228,.,.ySYtyii的置信
11、区间为请解释结果:为什么 Yi 的置信区间比 的置信区间宽 YXybb X01yxX01YiX(给定的)y?yx(通过样本回归方程计算得到)yx影响区间宽度的因素s置信系数sY的变异程度s样本容量的大小s给定的X与 的距离X对总体回归系数的假设检验1002340111211122200111.:.,HHttbsbsssXnXttHHnbbbyxn -tn-2计算统计量如果则接收否则拒绝1b1对总体回归系数的假设检验的例子YXHtstbsXYbb21502210020052 30633815636810 71600530220053415450182111.:.,H t=4.15 2.306 H
12、 :XY 110拒绝结论 样本回归方程能代表总体回归方程也就是说从总体上 与 之存在线性关系可以根据样本回归方程通过 预测.可决系数s作用:衡量回归对Y变异的解释程度。s总变差=已解释变差+未解释变差。s 已解释变差s可决系数=s 总变差s经调整的可决系数总变差,已解释变差,未解释变差的关系YiYXiybb X01总变差YY2未解释变差YY2已解释变差Y Y2Y Y2Y Y2Y Y2=+SSTSSESSR=+可决系数s定义:已解释变差与总变差的比值,在估计Yi时,在总变差中可被X解释的比率,它越大,拟合回归方程的解释作用越强。s公式:样本可决系数rY YYYYYYYbYbXYnYYnY22222012221 可决系数的例题r222215179 02213943 101793569 10179 .=0.6817结论:利润额的变动有68.17%来自销售额 的变动.相关系数-可决系数的平方根rrXYXYXXn YY 22222 =nn =0.8257经调整 可决系数rY YnY Ynadj222121 =0.6419