第五章多元线性回归课件.ppt

上传人(卖家):三亚风情 文档编号:3404327 上传时间:2022-08-28 格式:PPT 页数:68 大小:718.50KB
下载 相关 举报
第五章多元线性回归课件.ppt_第1页
第1页 / 共68页
第五章多元线性回归课件.ppt_第2页
第2页 / 共68页
第五章多元线性回归课件.ppt_第3页
第3页 / 共68页
第五章多元线性回归课件.ppt_第4页
第4页 / 共68页
第五章多元线性回归课件.ppt_第5页
第5页 / 共68页
点击查看更多>>
资源描述

1、第二章 多元线性回归(multiple linear regression)第一节相关和回归第一节相关和回归第二节一元线性回归模型第二节一元线性回归模型第三节多元线性回归模型第三节多元线性回归模型第四节方程的解释能力第四节方程的解释能力第五节回归方程的检验和回归系数的推断统计第五节回归方程的检验和回归系数的推断统计第六节虚拟变量的应用第六节虚拟变量的应用第七节多重共线性及其解决方案第七节多重共线性及其解决方案第八节计算机应用第八节计算机应用第九节研究实例第九节研究实例参见郭志刚主编,社会统计分析方法SPSS软件应用第二章,中国人民大学出版社1999第一节 相关和回归n一、相关统计量n用一个数值

2、表示两个变量间的相关程度(无单位度量)(-1+1)解读nX与y的相关系数为0.6,x与z的相关系数为0.3n答案:n只能说明x与y相关程度高于x与z的相关程度,但不能说前者是后者的两倍n二、计算相关的思路二、计算相关的思路n定距:数量上的数量上的“共变共变”n定类、定序:“连同发生连同发生”隐含根据一个变量去预测或估计另一个变量的意思n人们正是根据预测的准确程度来界定定类或定序变量之间的关系的消减误差比例n三、相关测量逻辑展示三、相关测量逻辑展示n(一)Lambda相关测量法n基本逻辑:以一个定类变项的值来预测另一个定类变项的值时,如果以众值作为预测准则,可以减少多少误差n公式:MMmMmMM

3、MmMmMMMMMmmyyyxxx121xyyyyyy121yyxyxyxn)()()(n)()()(2n)(nnnnnnEEEEEE(不对称)(不对称)()(对称练习:根据下表数据计算lambda志愿性别男女总数快乐家庭103040理想工作401050增广见闻10010总数60401004.05020)50100(50)3040(n)2(4.0503050)50100()3040(100)50100()()()()1(MMmMmMyyyyyy121ynnnEEE(不对称)思考并运算:如果数据有如下变化,lambda值会发生什么变化呢?志愿性别男女总数快乐家庭101020理想工作403070增

4、广见闻10010总数6040100n存在的问题:n1、Lambda系数以众值为预测准则,不理会众值以外的次数分布,对数据利用率低。n2、因为上述计算方式,如果全部众值集中如果全部众值集中在条件次数表的同一列或同一行中,则在条件次数表的同一列或同一行中,则LambdaLambda系数会等于系数会等于0 0,相关失去意义,相关失去意义n(二)相关系数(二)相关系数rn1、协方差的思想n2、r系数计算n3、PRE计算思路为决定系数222)()()(ryyxxyyxxr四、回归n回归是相关分析的深入n回归分析的结果是建立一个数学模型以表达变量之间的关系在分析观测数据的在分析观测数据的基础上,确定一个能

5、反映变量之间关系的基础上,确定一个能反映变量之间关系的近似函数表达式近似函数表达式1(多)个(多)个定距(类)变量定距(类)变量1个个定距变量定距变量注意n回归模型只是整个研究方案中的一环,它必须依赖理论和经验的支撑,服从研究设计的需要,在研究方法论的指导下展开研究变量间的因果关系研究变量间的因果关系预测预测是否吻合预先构想是否吻合预先构想评价模型拟合度评价模型拟合度求解模型参数求解模型参数第二节一元线性回归第二节一元线性回归参见:卢叔华参见:卢叔华社会统计学社会统计学,北京大学出版社,北京大学出版社1997 第十二章第十二章 回归与相关回归与相关一、回归方程与线性回归方程二、回归方程的建立与

6、最小二乘法三、回归方程的假定与检验一、回归方程与线性回归方程n两变量x与yn对于确定的xi,yi是随机变量,可计算其均值回归方程是研究自变量不同取值时,y的均值的变化n当因变量y的均值与自变量x呈线性规律时,称线性回归方程n根据x个数不同,分为一元线性回归、多元线性回归关于模型n现实数据=模型+误差n没有误差的不是模型,是复制n复制很精确,但是往往太不简洁n设置模型一般而言是希望用简洁的方式表述复杂信息,达到较好的精确度二、回归方程的建立与最小二乘法n回归分析的目的:找出错误最小的方法来预测因变量的数值n拟合思路:各点到待估直线铅直距离之和为最小最小二乘 n原理:n(1)散点图n(2)每个x值

7、对应的y的均值,构成回归线(曲折)n(3)用最小平方法绘制回归直线n(各个样本个案的估计误差和为误差总数。为避免正负抵消,改为将误差的平方值相加。如果回归直线位置能够使此平方和最小,即为最佳拟和直线)n线性回归方程式不但有简化资料的作用,而且可以推广应用于预测或估计样本以外之个案的数值aybx2()()()iiixx yybxxn回归系数的意义:nb值的大小表示每增加一个单位的x值,y值的变化有多大三、回归方程的假定与检验n(一)基本假定n1、自变量x可以是随机变量,也可以是非随机变量,其误差忽略不计n2、对于每一个x值,yi都是随机变量。Y的所有子总体y1,y2yn,方差相等n3、y的所有子

8、总体,其均值都在一条直线上线性假定n4、随机变量yi是统计独立的n5、y的所有子总体都满足正态分布n(二)检验nF检验第三节 多元线性回归模型n一、多元的思路n二、回归方程的建立n三、回归方程的解释n四、标准化回归系数一、多元的思路n关联性 Association 和因果性Causalityn统计意义上的关联性很容易发现,难的是,如何确立因果联系。n然而我们在研究中更加关心的是因果性的解释。n因果关系存在的必要条件:n1、变量间的关系是strong and consistent;n2、变量间有适当的时序性;n3、变量间的关系不能够被其他变量所解释。对观察数据的统计控制n我们如何排除其他备选解释

9、?n和实验室的实验不同的是,我们不能控制社会现象发生的环境。n对于观察数据,因果性问题可以部分地通过统统计控制计控制来解决n即,我们可以把个体根据我们所要控制的特征分成几个小组,来比较组内的结果变量的差异n对定量变量最常用的统计控制体现在多元回归模型中。二、回归方程的建立eyxbxbxbbkk.22110 xbxbxbbkky.22110bi多元回归系数的估计多元回归系数的估计n首先看只有两个自变量的模型:n我们仍可以用最小二乘法,使得观测的Y值和预测的Y值的差距的平方和最小。利用微积分,Let Z(a,b1,b2)=(Y-a-b1X1-b2X2)2xbxbay2211n对三个未知参数a,b1

10、,and b2 求导:Zab baa bbXiiYX(,)()()()121221 20 Z a b bbXa bb XYX(,)()()()1211112220 Z a b bbXa bb XYX(,)()()()1222112220 n解方程:a Y b X b X _1122bXX Y YXXXX Y YXX XXXXXXXX XX11122222112211222211222()()()()()()()()()()()_bXX Y YXXXX Y YXX XXXXXXXX XX22211211112211222211222()()()()()()()()()()()_n这种方法可以扩展

11、到任意多的自变量的模型。n计算机可以直接给出估计的系数。三、回归方程的解释n在任何情况下,a 始终为当所有自变量为0时的应变量值(截距)n斜率系数 b1 到 bk 表示在其他变量不变的在其他变量不变的情况下情况下,相关的X增加一个单位,Y所对应的变化。xbxbxbbkky.22110 xbxbxbxbbykkii.)1(.221101bxbxbxbxbbxbxbxbxbbyikkiikkiiy.)1(.)1(.22110221101规范解读方式n(在其他变量不变的情况下,)xi平均变化一个单位,y平均相应变化bi个单位x及未包括进方程中的其他与x有关的一切因素对y的总影响一元回归系数一元回归系

12、数多元回归系数多元回归系数偏回归系数:除去方程中其他因素对y的共同影响后,某自变量对y的边际影响回归系数的意义回归系数的意义四、标准化回归系数问题问题需要判别所考察的因素的需要判别所考察的因素的重要程度重要程度解决解决将回归系数标准化将回归系数标准化做法做法1、先将变量标准化,再、先将变量标准化,再 计算计算2、利用回归系数计算、利用回归系数计算22)()(yyxxbssbBiiiyiiixiBi第四节方程的解释能力第四节方程的解释能力一、确定系数二、调整的确定系数三、多元相关系数四、方差分析一、确定系数2R回归方程解释的差异与用y均值解释的差异之比模型中所有变量解释y的变化占总变化的比例 预

13、测与残差 eyxbxbxbbkk.22110 xbxbxbbkky.22110 e=(Y-)YThe sum of squared errors 我们通过对该项(残差)最小化方法求得 a and bi.)(2yySSE拟合优度nwhere nandR22222RTSSSSETSSRSSTSSY YY YY Y()()()_)(2yyTSS)(2yyRSSn 和前面一样,是衡量 Y的所有变异中由所有自变量的差异共同解释的比例 n 越高,模型拟合数据的程度就越好。n 当加入新的变量时,只升不降。n 由于常常是随着自变量数目的增加而增加,所以直接比较 没有太大的意义。R2R2R2R2二、调整的确定系

14、数2R三、多元相关系数R因变量观测值和预测值之间的相关程度因变量观测值和预测值之间的相关程度四、方差分析y的总变差平方和回归平方和余差平方和检验统计推断回归方程回归系数回归系数的置信区间为什么不显著?第五节回归方程的检验和回归系数的推断统计第五节回归方程的检验和回归系数的推断统计实质实质假设假设计算计算H0:B1B2Bk0 (BSS/k)/ESS/(n-k-1)在总体中,X1,Xk的变化都不引起Y的线性变化,1k n kF P与a比较,决定是否拒绝H0检验在a水平统计性显著,并拒绝H0、接受H1我们有相当大的把握断定,统计量b1,bk不等于0不是由于抽样误差造成的。表述表述检验样本y与x1,x

15、k的线性关系是否显著判断能否肯定总体回归系数中至少有一个不等于0一、回归方程的显著性检验一、回归方程的显著性检验当回归方程检验显著时,可以认为回归方程中至少有一个回归系数是显著的。但并不一定所有回归系数都显著。回归模型希望:保留最重要的变量,删除不显著的变量对每个变量的回归系数进行检验对每个变量的回归系数进行检验二、回归系数的显著性检验二、回归系数的显著性检验具体做法:具体做法:jjjbBtsTSig T H0:Bj0 H1:Bj0三、回归系数的置信区间三、回归系数的置信区间2t2t2t回归系数的统计检验只能说明Bj与0有显著差别,并不能说明Bj的具体情况。用样本回归系数b及其标准误,可以推断

16、Bj值的置信区间P(bj-ta/2sjBj回归系数的统计检验只能说明Bj与0有显著差别,并不能说明Bj的具体情况。用样本回归系数b及其标准误,可以推断Bj值的置信区间P(bj-sjBjbj+sj)=1-a2t2t四、回归系数不显著的原因四、回归系数不显著的原因第六节虚拟变量的应用第六节虚拟变量的应用虚拟变量n一个变量只有两个可能值1 or 0.对于一个两分的变量:ngender:1.male n 2.female n我们可以重新编码 1=male and 0=female.由此,gender 就变成了一个虚拟变量,表示被访者是否男性.将某一个分类变量(有n个选项)转换成(n-1)个二分变量,以

17、没有进入变以没有进入变量表达的那个类别为参照量表达的那个类别为参照进行解释,说明不同类别间y取值的变化为什么要在回归分析中引入虚拟变量?n有时我们社会研究的样本数据中观察的个体可以分成不同的组别。n组与组、或群体与群体间的在自变量和应变量的平均数会有差异n在这种情况下,不控制组别特征的回归模型结果会导致 所估计的偏回归系数偏差。n特别是,系数可能低估或者高估一个自变量对应变量的影响强度。第七节多重共线性及其解决方案第七节多重共线性及其解决方案多元线性回归的解释方式:“在其他变量不变的前提在其他变量不变的前提下,下,xi平均变化一个单位y将平均变化bi个单位”如果xi与另一自变量存在高度相关与另

18、一自变量存在高度相关,则这种解释不成立,因为“在其他变量不变的前提”不可能实现回归方程整体显著,但各个自变量都不显著多重共线性的表现之一:自变量之间存在高度线性相关自变量之间存在高度线性相关后果:影响回归方程的有效性 回归预测结果将不可靠 xi与y之间的关系不准确鉴别多重共线性的思路:在自变量之间建立回归方程,以该回归方程的确定系数来判断自变量之间的相关程度具体做法:假定有k个自变量,先以第一个自变量x1为因变量建立回归方程,计算确定系数若值较大,说明至少有一个自变量与x1相关,也即存在共线性问题;按此方法依次建立回归方程,根据确定系数的变化来判断共线性问题检查多重共线性容限度(toleran

19、ce)特征值和条件次数(eigen-values and condition indexes)方差膨胀因子(variance inflation factor)以每个自变量作为因变量对其他自变量回归得到的余差比例是容限度的倒数。表示所对应的偏回归系数的方差由于多重共线性而扩大的倍数小于0.1,则认为多重共线性严重大于10,则认为多重共线性严重21Ri 去掉与y相关较低,而与其他自变量相关高的变量 去掉可以被其余自变量线性表出的变量 增加样本规模 采用新的样本数据 利用先验信息组合变量 逐步删除(逐步回归方法即可消除此问题)变量变换补补救救办办法法选择最优回归方程选择最优回归方程第八节计算机操作

20、第八节计算机操作第九节第九节 研究实例研究实例社会意识的行动逻辑社会意识的行动逻辑性别不平等的现象学社会学解释框架性别不平等的现象学社会学解释框架浙江学刊浙江学刊2006年第年第5期期表表3 家务劳动时间多元回归分析(家务劳动时间多元回归分析(2000年)年)做饭洗衣BBETAsigBBETAsig城乡分组(乡、城)-3.052-0.0270.0000.1780.0020.832年龄0.2000.0300.0005.2E-020.0110.137性别(女、男)-65.050-0.4960.000-46.641-0.4730.000总共上了几年学-0.820-0.0440.0000.1090.0

21、080.348是否在业(不在业、在业)-2.350-0.0110.187-5.147-0.0310.000工作时间(小时)-4.172-0.2240.000-2.847-0.2030.000路途时间(小时)-3.437-0.0370.000-0.992-0.0140.045个人年收入(千元)-6.1E-02-0.0130.121-2.0E-02-0.0050.529夫妻收入差(千元)-4.1E-02-0.0120.145-2.5E-02-0.0090.274夫妻教育程度差(级)-0.376-0.0160.017-0.213-0.0120.087注:做饭时间回归模型注:做饭时间回归模型 R2=0.387,sig=0.000;洗衣时间回归模型;洗衣时间回归模型 R2=0.323,sig=0.000研究实例研究实例对加强化学实验教学效果的统计分析对加强化学实验教学效果的统计分析研究实例研究实例城市居民最低生活保障线的测定城市居民最低生活保障线的测定童星刘松涛社会学研究2000 年第4 期

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第五章多元线性回归课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|