1、第5课时 变量间的相关关系回归分析及独立性检验 赵建文 1.会作两个相关变量的数据的散点图,会利用会作两个相关变量的数据的散点图,会利用散点图认识变量的相关关系散点图认识变量的相关关系. 2.了解最小二乘法的思想,能根据给出的线性了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程回归方程系数公式建立线性回归方程. 3.了解独立检验了解独立检验(只要求只要求22列联表列联表)的基本思想、的基本思想、方法简单应用方法简单应用. 4.了解假设检验的基本思想、方法简单应用了解假设检验的基本思想、方法简单应用. 5.会求回归方程,并能进行回归分析会求回归方程,并能进行回归分析、 (3
2、)正相关正相关 在散点图中,点散布在从在散点图中,点散布在从 到到 的区的区域对于两个变量的这种相关关系,我们将它称为正相域对于两个变量的这种相关关系,我们将它称为正相关关 基础知识梳理基础知识梳理左上角左上角右下角右下角 1两个变量的线性相关两个变量的线性相关(1)相关关系 自变量取值一定时,因变量的取值带有一定随机性的自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系两个变量之间的关系,则称这两个变量具有则称这两个变量具有 . 注意:相关关系是一种不确定性关系注意:相关关系是一种不确定性关系相关关系相关关系(2)散点图 在平面直角坐标系中在平面直角坐标系中,表示表示具有相关关
3、系的两个变量具有相关关系的两个变量的一组数据的图形的一组数据的图形叫做叫做 .散点图散点图 (5)线性相关关系、回归直线线性相关关系、回归直线 如果散点图中点的分布从整体上看大致如果散点图中点的分布从整体上看大致在在 ,就称这两个变量之间具有线性相关,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线关系,这条直线叫做回归直线一条直线附近一条直线附近 (4)负相关负相关 在散点图中,点散布在从在散点图中,点散布在从 到到 的的区域,两个变量的这种相关关系称为负相关区域,两个变量的这种相关关系称为负相关右上角右上角左下角左下角(6)相关系数相关系数r用来衡量两个变量的相关程度,其公式为:1
4、2211()()niiinniiiix ynxyrxxyy 0r1; 当当r0时时,表示两个变量正相关;表示两个变量正相关; 当当r00(4)建立回归模型的基本步骤建立回归模型的基本步骤确定研究对象确定研究对象,明确解释变量与预报变量明确解释变量与预报变量;画出解释变量与预报变量的散点图画出解释变量与预报变量的散点图;由经验确定回归方程的类型由经验确定回归方程的类型;估计回归方程中的参数估计回归方程中的参数;对回归模型进行进行残差分析对回归模型进行进行残差分析,若存在异常,则检验若存在异常,则检验数据是否有误,或模型是否合适。数据是否有误,或模型是否合适。 (5)随机误差产生的原因)随机误差产
5、生的原因 用回归模型近似真实模型差异产生误差;用回归模型近似真实模型差异产生误差; 忽略了某些因素的影响;忽略了某些因素的影响; 观测误差。观测误差。上面三项误差越小,说明我们的回归模型的拟合效果越上面三项误差越小,说明我们的回归模型的拟合效果越好。好。3回归分析回归分析(1)回归分析回归分析对具有对具有 的两个变量进行统计分析的一种常的两个变量进行统计分析的一种常用方法用方法相关关系相关关系(2)残差分析残差分析 回归模型中随机误差回归模型中随机误差 的估计值的估计值 (其中(其中 )叫相应点()叫相应点(xi,yi)的残差的残差。ieiiiyyeabxyii 残差图残差图 在直角坐标系中,
6、以样本编号或解释变量为横在直角坐标系中,以样本编号或解释变量为横坐标,残差为纵轴坐标作出的图像叫残差图。坐标,残差为纵轴坐标作出的图像叫残差图。 残差分析残差分析 若残差点比较均匀的分布在横轴附近很窄的区域内,若残差点比较均匀的分布在横轴附近很窄的区域内,说明回归模型拟合较好,若个别点离横轴较远,需要检查说明回归模型拟合较好,若个别点离横轴较远,需要检查数据收集是否有误差,若取样有误差作出修行正,并对回数据收集是否有误差,若取样有误差作出修行正,并对回归模型进行修改,否则,分析其他原因归模型进行修改,否则,分析其他原因. (3)拟合效果分析总体偏差平方和niiyy12)(残差平方和niiiyy
7、12)(回归平方和2211)nniiiiiyyyy( 用用R2来刻画回归的效果来刻画回归的效果,R2 ,表表示示 .越大越大拟合效果越好拟合效果越好22121()1()niiiniiyyRyy 相关指数相关指数方差估计niiiyyn122)21( 用 来刻画回归效果, 值越小,表明拟合效果越好.224独立性检验独立性检验(1)分类变量的定义分类变量的定义如果某种变量的不同如果某种变量的不同“值值”表示个体所属的不同类别,表示个体所属的不同类别,像这样的变量称为像这样的变量称为 (2)22列联表列联表一般地,假设有两个分类变量一般地,假设有两个分类变量X和和Y,它们的值域分,它们的值域分别为别为
8、x1,x2和和y1,y2,其样本频数列联表,其样本频数列联表(称为称为22列列联表联表)为为分类变量分类变量y1y2总计总计x1abx2cd总计总计acbdabcdabcd(3)二维条形图(4)三维柱状图三维柱状图 将分类变量X取值x1,x2与Y的取值y1,y2的取值用条形图表示出来,可以估计满足条件可以估计满足条件Xx1的个体中具有的个体中具有Yy1的个体所占的比例的个体所占的比例 ,也可以估计满足条件,也可以估计满足条件Xx2的个体中具有的个体中具有Yy2的个体所占的比例的个体所占的比例 .“两个比例两个比例的值相差越大,的值相差越大,H1成立的可能性就越大成立的可能性就越大”baadcd
9、 在坐标系中作出分类变量在坐标系中作出分类变量X、Y取值的柱形图,主对角取值的柱形图,主对角线上两个柱形高度的乘积线上两个柱形高度的乘积ad与副对角线上的两个柱形高与副对角线上的两个柱形高度的乘积度的乘积bc相差越大,相差越大,H1成立的可能性就越大成立的可能性就越大 通过三维柱形图和二维条形图,可以粗略地判断两个通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度结论的可靠程度基础知识梳理基础知识梳理 (5)独立性检验 用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判
10、断的可靠程度具体步骤是: 根据实际问题需要的可信程度确定临界值k0; 利用公式K2 ,由观测数据计算得到随机变量K2的观测值k; 如果kk0,就以(1P(K2k0)100%的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据 利用利用K2来确定在多大程度可以认为来确定在多大程度可以认为“两个分类变量有两个分类变量有关系关系”的方法称为的方法称为独立性检验独立性检验. 1在对两个变量x,y进行线性回归分析时有下列步骤:对所求出的回归方程作出解释;收集数据(xi,yi),i1,2,n;求线性回归方程;求相关系数;根据所搜集的数据绘制散点图如果根据可靠性要求能够作出变量
11、x,y具有线性相关结论,则在下列操作顺序中正确的是() A B C D答案:D2对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),(xn,yn),则下列说法中不正确的是()A由样本数据得到的回归方程 bxa必过样本中心(x,y)B残差平方和越小的模型,拟合的效果越好C用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D若变量y和x之间的相关系数为r0.9362,则变量y和x之间具有线性相关关系答案:Cy 3(2009宁夏、海南)对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图(1);对变量u、v有观测数据(ui,vi)(i1,2,10)
12、,得散点图(2)由这两个散点图可以判断()A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关解析:由图(1)可知,各点整体呈递减趋势,x与y负相关,由图(2)可知,各点整体呈递增趋势,u与v正相关答案:C4下面是一个22列联表 则表中a、b处的值分别为()A94,96 B52,50 C52,54 D54,52答案:C y1y2总计x1a2173x222527总计 b46判断两个变量正相关还是负相关,有三种方法:1利用散点图;2利用相关系数r的符号;当r0时,正相关;r0时,负相关;3在已知两变量线性相关时,也可以利用
13、回归方程 abx.当b0时, abx是增函数,两变量是正相关,当b0时, abx是减函数, 两变量是负相关【例1】山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg)(1)画出散点图;(2)判断是否具有相关关系施化肥量x15202530354045棉花产量y 330 345 365 405 445 450 455思维点拨:用施化肥量x作为横轴,产量y为纵轴可作出散点图,由散点图即可分析是否具有线性相关关系解答:(1)散点图如右图所示,(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x
14、与产量y具有线性相关关系. 对具有相关关系的两个变量进行统计分析时,首先要作出散点图,然后进行相关性检验,在确认具有线性相关关系后,再求其回归直线 【例2】 一台机器使用时间较长,但还可以使用它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:转速x(转/秒)1614128每小时生产有缺点的零件数y(件) 11985(1)对变量y与x进行相关性检验;(2)如果y与x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?(2) 0.728 6x0
15、.857 1.(3)要使 100.728 6x0.857 110,所以x14.901 3.所以机器的转速应控制在14.901 3转/秒以下解答:解答:思维点拨:利用相关系数r进行线性相关检验(也可利用散点图)如果线性相关,再求回归直线方程并加以判断变式2.假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料: (1)y与x间是否有线性相关关系?若有,求出线性回归方程;(2)估计使用年限为10年时的维修费用使用年限(x)/年23456维修费用(y)/万元2.23.85.56.57.0 所谓独立性检验,就是根据采集样本的数据,先利用三维柱形图和二维条形图粗略判断两个分类变量是否
16、有关系,再利用公式计算K2的值,比较它与临界值的大小关系,来判断事件X与Y是否有关的问题【例3】(2009辽宁)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在29.94,30.06)的零件为优质品从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂: 分组29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数12638618292614乙厂:(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面22列联表,并问是否有99
17、%的把握认为“两个分厂生产的零件的质量有差异”.分组29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数297185159766218解答:(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为 72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为 64%.所以有99%的把握认为“两个分厂生产的零件的质量有差异” 甲厂乙厂合计优质品360320680非优质品140180320合计5005001 000(2) 变式3.在对人们休闲方式
18、的一次调查中,共调查了124人,其中女性70人,男性54人女性中有43人主要的休闲方式是看电视,另外27人的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动 (1)根据以上数据建立一个22列联表; (2)画出二维条形图; (3)检验休闲方式是否与性别有关,可靠性有多大解答:(1)22列联表如图: 休闲方式性别 看电视运动合计女432770男213354合计6460124(2)二维条形图如图二维条形图如图:(3)假设休闲方式与性别无关,则K2 6.2015.024,所以有理由认为休闲方式与性别无关是不合理的,即我们有97.5%的把握认为休闲方式与性别有关【方法
19、规律】 1求回归方程,关键在于正确求出系数a,b,由于a,b的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误(注意回归直线方程中一次项系数为b,常数项为a,这与一次函数的习惯表示不同) 2回归分析是处理变量相关关系的一种数学方法主要解决:确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;根据一组观察值,预测变量的取值及判断变量取值的变化趋势;求出回归直线方程 3独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的随机变量,对假设的正确性进行判断. 为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议现对他前7次考试的数学成绩x、物理成绩
20、y进行分析下面是该生7次考试的成绩.数学888311792108100112物理949110896104101106 (1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明; (2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.【答题模板】(2)由于x与y之间具有线性相关关系,根据回归系数公式得到 b 0.5,a1000.510050,线性回归方程为 0.5x50.当y115时,x130.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高 【分析点评】 1. 成绩的稳定性用样本数据的方差判断,由物理成绩估计数学成绩由回归直线方程解决本题容易出错的就是把回归系数和回归常数弄颠倒,导致解题错误 2回归系数与回归常数回归直线方程 bxa和通常的一次函数表达式在系数上的习惯不一样,这里 的系数b 叫做回归系数,求回归直 线方程时首先求这个系数,然后由aybx计算出的a叫做回归常数在求回归直线方程时注意不要把这两个系数弄颠倒了. 点击此处进入 作业手册
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。