1、 12 12 回归分析回归分析2Sr确定性关系:变量间关系不确定性关系:身高和体重;商品价格和销售量一、一、 一般概念一般概念相关相关(correlation)n相关分析:研究多个变量之间相互关系的统计方法。n英国遗传学和统计学家F.Galton(1822-1911)首次在自然遗传一书中,提出并阐明了“相关相关”和“相关系数相关系数”两个概念,为相关论奠定了基础。n相关分析可以确定两变量间相关关系的强两变量间相关关系的强弱和方向弱和方向。回归回归(regression)n回归分析方法是处理变量间相关关系的一种重要的数学工具。n回归分析可以提供变量间相关关系的一个一个确定的数学表达式(经验公式)
2、。确定的数学表达式(经验公式)。n回归分析中,可以检验所得到的经验公式检验所得到的经验公式是否有效。是否有效。n回归分析中,可以根据一个或几个变量的值,预测或控制预测或控制另一个变量的取值n F.Galton和Karl Pearson发现儿子身高(Y,英寸)与父亲身高(X , 英寸) 存在线性关 系: ,n也就是说,高个子父代的子一代在成年之后的平均平均身高身高不是更高,而是稍矮于其父代水平,n而矮个子父代的子一代的平均身高平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之为“回归回归”。0.51633.73YX回归回归(regression)n相关分析相关分析
3、是研究事物或现象之间有无关系有无关系以及关系的方向和密切程度关系的方向和密切程度的分析方法。n回归分析回归分析是研究事物或现象之间数量依存数量依存的关系的关系的分析方法。二、二、 一元线性回归一元线性回归 yxoyabx回归直线回归直线220YabX, N( ,), a,b,为常数.一元线性回归模型一元线性回归模型估计估计容量为n的二维样本:(x1,y1)(x2,y2)(xn,yn)线性回归方程线性回归方程如何确定模型中的如何确定模型中的a a和和b b?最小二乘法!?最小二乘法!是统计学中估计未知参数的一种重最小二乘法要方法.().iabab基:用使误差 的平方和达到最小的和作为 和 的估计
4、 最小二本乘估计思想2211( , )()iiinniiQ a bya bx要求的最小值()ab看成关于 和 的二元函数( , )0( , )0Q abaQ abb令11() 0()0iiiiininiy a bxy a bx x 则121()()()iiininiabbyxx x yyx x 解得 a bx 则经验回归方程为yn例:例:某工厂在分析产量与成本关系时,选取了十个小组作样本,得到以下统计数据: 求y关于x的线性回归方程。n解:12177.7,165.7()()0.3978134.79134.790.3978()niiinixyxxyybiaybxyxxx所以线性回归方程为:三、三
5、、 相关系数与回归的显著性检验相关系数与回归的显著性检验即使平面上n个杂乱无章的样本点也可以得到回归方程,但实际上此时的回归方程毫无意义!究竟在什么情况下所配的回归直线才有意义,回归方程真的揭示了X和Y之间存在线性关系的内在规律?问题问题2:X和Y之间如果有线性回归函数,是否可以用某个指标来描述X和Y之间的线性关系的密切程度呢?问题问题1:X和Y之间是否有线性回归函数?回归显著性检验回归显著性检验相关系数相关系数确定系数确定系数n平方和分解公式 iiyyy这里的平方和指的是 与其均值 偏差的平方和,反映了的 的数据分散程度222111=.=+nnnyyiiiiiiiS( yy)( yy )(
6、yy)Q剩剩余平法和Q回回归平方和iyy注:也是的均值n回归直线拟合程度的度量样本相关系数:样本相关系数:12211niixyinnxxyyiiii( xx)( yy)SrSS( xx)( yy)反映反映X X和和Y Y线性关系方向和程度的指标!线性关系方向和程度的指标!222121nixyinxxyyyyii( yy)SQr.S SS( yy)回222111=.=+nnnyyiiiiiiiS( yy)( yy )( yy)Q剩剩余平法和Q回回归平方和Q Q回回在在SyySyy中占的比例越大,说明中占的比例越大,说明X X和和Y Y线性关系线性关系越强越强称为确定系数称为确定系数或决定系数或决
7、定系数n线性回归的显著性检验 X与Y之间是否存在显著的线性关系呢?H0:b=0;H1:b0SPSS中提供了两种检验方法:F检验和t检验。(2) (1,2)(1,2), + )FQFnFnQFn回剩检验统计量拒绝域为22 (2),=2(,(2)(2),)xxtQbtSt nntntn 剩检验统计量其中拒绝域为n例:例:K.Pearson搜集了大量父亲身高与儿子身高的资料,其中10对如下表所示(单位:英寸):(1)建立Y对于X的回归方程;(2)对建立的线性回归方程作假设检验(=0.05).n解:解:12166.8,67.05()()0.455136.649336.64930.4551()niiin
8、ixyxxyybiaybxyxxx所以线性回归方程为:H0:b=0;H1:b00.0535.5433,1.6817(2) (1,8)35.5433=8169.08271.6817(1,8), + )5.32, + )H .QQQFnFQFF回剩回剩0统计量查表得拒绝域为即可知统计量落在拒绝域内,则拒绝从而认为线性回归方程是显著的.H0:b=0;H1:b00.0250.0250 (8),=213.0032(,(8)(8),)(,2.3062.306,)H .xxQbtStnttt 剩统计量其中计算可得拒绝域为查表可得为可知统计量落入拒绝域内,则拒绝从而认为线性回归方程是显著的.四、四、 预测与控
9、制预测与控制预测:预测:给定自变量X的某一个值X0,以一定的置信度预测对应的Y的观察值Y0的取值范围.这种预测的取值范围称为预测区间.Y0的置信度为1-a的置信区间是:0000(Y( X ),Y( X )0020021212xxYa bXQ( XX )( X )t (n)nnS剩其中其中n例:例:在上例中,如果已知一位父亲的身高为69英寸,利用已建立的回归方程求出其孩子身高的置信度为95%的预测区间.n解:解:36.64930.4551yx回归方程为:Y0的置信度为1-a的置信区间是:0000(Y( X ),Y( X )其中其中0020021212xxYa bXQ( XX )( X )t (n
10、)nnS剩036 64930 4551 69=68 0512Y.0 02522 =8 =2 306.t (n) t( ).0 45852Q.n剩20102116966 82 3060 458511 12310ii(. )( X ).( xx)68 05121 123 68 05121 12366 9282 69 1742(.,.)(.,.)因此预测区间为即控制:控制:求出X的取值区间(x1,x2),使得对应的Y的取值以1-a的概率落在已知的(y1,y2)内。2y2y122Qun剩当时22112222Qyabxu ,nQyabxun剩剩x1,x2求解求解五、五、 一元非线性回归一元非线性回归非线性关系转化到线性关系非线性关系转化到线性关系BxyAe1ln yln ABxkyxc11cxykk THE END
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。