1、阶段复习课第 一 章【核心解读核心解读】1.1.刻画回归效果的几种方式刻画回归效果的几种方式(1)(1)残差残差:把随机误差的估计值把随机误差的估计值 称为相应于点称为相应于点(x(xi i,y,yi i)的残差的残差.(2)(2)残差图残差图:作图时纵坐标为残差作图时纵坐标为残差,横坐标可以选为样本编号或横坐标可以选为样本编号或解释变量或预报变量等解释变量或预报变量等,这样作出的图形称为残差图这样作出的图形称为残差图.(3)(3)残差图法残差图法:残差点比较均匀地落在水平的带状区域内残差点比较均匀地落在水平的带状区域内,说明说明选用的模型比较合适选用的模型比较合适,这样的带状区域的宽度越窄这
2、样的带状区域的宽度越窄,说明模型拟说明模型拟合精度越高合精度越高.ie(4)(4)残差平方和残差平方和:残差平方和为残差平方和为 ,残差平方和越小,残差平方和越小,模型拟合效果越好模型拟合效果越好.(5)(5)相关指数相关指数R R2 2:R:R2 2=R=R2 2表示解释变量对于预报表示解释变量对于预报变量变化的贡献率,变量变化的贡献率,R R2 2越接近于越接近于1 1,表示回归的效果越好,表示回归的效果越好.n2iii 1n2ii 1yy1yy(),()n2iii 1yy()2.2.非线性回归方程的常见类型及转化方法非线性回归方程的常见类型及转化方法(1)(1)指数函数型指数函数型:y=
3、ae:y=aebxbx(a0).(a0).函数函数y=aey=aebxbx(a0)(a0)的图象如图所示的图象如图所示.处理方法处理方法:两边取对数得两边取对数得lny=ln(aelny=ln(aebxbx),),即即lny=lna+bx.lny=lna+bx.设设 则原方程变成则原方程变成y=lna+bx.y=lna+bx.具体计算时具体计算时,先将原数据点先将原数据点(x(xi i,y,yi i)转化成转化成(x(xi i,lny,lnyi i),i=1,2,),i=1,2,n,n,再根据一次线性回归模型的方法得出再根据一次线性回归模型的方法得出lnalna和和b.b.yln y,xx ,
4、(2)(2)对数函数型对数函数型:y=a+blnx.:y=a+blnx.函数函数y=a+blnxy=a+blnx的图象如图所示的图象如图所示.处理方法处理方法:设设 原方程就转化成原方程就转化成y=a+bx,y=a+bx,然后按一次线性回归然后按一次线性回归模型求出模型求出a,ba,b的值的值.xln x,yy,(3 3)二次函数型:)二次函数型:y=bxy=bx2 2+a.+a.处理方法:处理方法:令令 原方程就转化成原方程就转化成y=bx+ay=bx+a,然后按一次线性回归,然后按一次线性回归模型求出模型求出a,ba,b的值的值.2xx,yy ,3.3.独立性检验独立性检验(1)(1)进行
5、独立性检验时的三个问题进行独立性检验时的三个问题独立性检验适用于两个分类变量独立性检验适用于两个分类变量.两个分类变量是否有关系的直观判断两个分类变量是否有关系的直观判断:一是根据一是根据2 22 2列联表计算列联表计算|ad-bc|,|ad-bc|,值越大关系越强值越大关系越强;二是观察等高条形图二是观察等高条形图,两个深色条的高度相差越大关系越强两个深色条的高度相差越大关系越强.独立性检验是对两个分类变量有关系的可信程度的判断独立性检验是对两个分类变量有关系的可信程度的判断,而而不是对其是否有关系的判断不是对其是否有关系的判断.独立性检验的结论只能是有多大独立性检验的结论只能是有多大的把握
6、确认两个分类变量有关系的把握确认两个分类变量有关系,而不能是两个分类变量一定而不能是两个分类变量一定有关系或没有关系有关系或没有关系.(2)(2)独立性检验的基本步骤独立性检验的基本步骤要判断要判断“与与有关系有关系”可按下面的步骤进行可按下面的步骤进行:提出统计假设提出统计假设H H0 0:与与没有关系没有关系.根据根据2 22 2列联表与列联表与K K2 2统计量的表达式计算统计量的表达式计算K K2 2的观测值的观测值k k的大小的大小.查对临界值表查对临界值表,然后作出相应的判断然后作出相应的判断.(3)(3)独立性检验的思想方法与反证法独立性检验的思想方法与反证法类似类似,但有不同之
7、处但有不同之处:独立性检验中有利于推断成立的小概率独立性检验中有利于推断成立的小概率事件代替了反证法中的矛盾事件代替了反证法中的矛盾.独立性检验中接受原假设的结独立性检验中接受原假设的结论相当于反证法中没找到矛盾论相当于反证法中没找到矛盾.主题一主题一 线性回归分析的应用线性回归分析的应用【典例典例1 1】(1)(2014(1)(2014湖北高考湖北高考)根据如下样本数据根据如下样本数据得到的回归方程为得到的回归方程为 =bx+a=bx+a,则,则()()A.a0A.a0,b0b0,b0b0C.a0C.a0,b0 D.a0b0 D.a0b0 x x3 34 45 56 67 78 8y y4.
8、04.02.52.5-0.5-0.50.50.5-2.0-2.0-3.0-3.0y(2)(2)以下是某地搜集到的新房屋的销售价格以下是某地搜集到的新房屋的销售价格y y和房屋的面积和房屋的面积x x的的数据数据:房屋面积房屋面积/m/m2 211011090908080100100120120销售价格销售价格/万元万元33333131282834343939画出数据对应的散点图画出数据对应的散点图.求线性回归方程求线性回归方程.据的结果估计当房屋面积为据的结果估计当房屋面积为150m150m2 2时的销售价格时的销售价格.【自主解答自主解答】(1)(1)选选A.A.画出散点图如图所示,画出散点
9、图如图所示,y y的值大致随的值大致随x x的的增加而减小,所以增加而减小,所以b0b0.a0.(2)(2)数据对应的散点图如图所示数据对应的散点图如图所示:(110+90+80+100+120)(110+90+80+100+120)=100,=100,(33+31+28+34+39)=33.(33+31+28+34+39)=33.=110 =1102 2+90+902 2+80+802 2+100+1002 2+120+1202 2=51 000,=51 000,=110 =11033+9033+9031+8031+8028+10028+10034+12034+12039=16 740.39
10、=16 740.5ii 111xx555ii 111yy5552ii 1x5iii 1x y所以所以 =-=33-0.24=-=33-0.24100=9.100=9.所以线性回归方程为所以线性回归方程为 =x+=0.24x+9.=x+=0.24x+9.55iiiii 1i 155222iii 1i 1(xx)(yyx y5xyb(xx)x5x)216 7405 100 330.24,51 0005 100 xbayyba据据,当当x=150mx=150m2 2时时,销售价格的估计值为销售价格的估计值为:=0.24 =0.24150+9=45(150+9=45(万元万元).).y【延伸探究延伸探
11、究】题题(2)(2)的条件不变的条件不变,试求销售价格为试求销售价格为46.246.2万元时万元时,房屋的面积多大房屋的面积多大?【解析解析】由题由题(2)(2)解析知解析知 =0.24x+9,=0.24x+9,故当故当 =46.2=46.2时得时得46.2=0.24x+9,46.2=0.24x+9,解得解得x=155,x=155,即销售价格为即销售价格为46.246.2万元时房屋面积万元时房屋面积为为155m155m2 2.yy【方法技巧方法技巧】回归分析的基本步骤回归分析的基本步骤【补偿训练补偿训练】炼钢是一个氧化降碳的过程炼钢是一个氧化降碳的过程,钢水含碳量的多少钢水含碳量的多少直接影响
12、冶炼时间的长短直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的必须掌握钢水含碳量和冶炼时间的关系关系.如果已测得炉料熔化完毕时如果已测得炉料熔化完毕时,钢水的含碳量钢水的含碳量x x与冶炼时间与冶炼时间y(y(从炉料熔化完毕到出钢的时间从炉料熔化完毕到出钢的时间)的一组数据的一组数据,如下表所示如下表所示:x/0.01%x/0.01%104104180180190190177177147147134134150150191191204204121121y/miny/min10010020020021021018518515515513513517017020520523523512512
13、5(1)(1)作出散点图作出散点图,你能从散点图中发现含碳量与冶炼时间的一般你能从散点图中发现含碳量与冶炼时间的一般规律吗规律吗?(2)(2)求回归直线方程求回归直线方程.(3)(3)预测当钢水含碳量为预测当钢水含碳量为160160时时,应冶炼多少分钟应冶炼多少分钟?【解题指南解题指南】通过作出散点图可以大致判断两个变量是否线性通过作出散点图可以大致判断两个变量是否线性相关相关,只有当两个变量线性相关时只有当两个变量线性相关时,求得的线性回归方程才有意求得的线性回归方程才有意义义.【解析解析】(1)x(1)x轴表示含碳量轴表示含碳量,y,y轴表示冶炼时间轴表示冶炼时间,可作散点图如可作散点图如
14、图图.从图中可以看出从图中可以看出,各点分布在一条直线附近各点分布在一条直线附近,所以它们线性相关所以它们线性相关.(2)(2)列出下表列出下表,并用科学计算器进行计算并用科学计算器进行计算:i i1 12 23 34 45 56 67 78 89 91010 x xi i104104180180190190177177147147134134150150191191204204121121y yi i100100200200210210185185155155135135170170205205235235125125x xi iy yi i10 40010 40036 00036 0003
15、9 90039 90032 74532 74522 78522 78518 09018 09025 50025 50039 15539 15547 94047 94015 12515 12510101022iiiii 1i 1i 1x159.8,y172,x265 448,y312 350,x y287 640设所求的回归直线方程为设所求的回归直线方程为即所求的回归直线方程为即所求的回归直线方程为 =1.267x-30.47.=1.267x-30.47.(3 3)当)当x=160 x=160时,时,=1.267=1.267160-30.47172160-30.47172(minmin),即大)
16、,即大约冶炼约冶炼172 min.172 min.ybxa10iii 11022ii 1x y10 x yb1.267,aybx30.47x10 x,yy主题二主题二 独立性检验及应用独立性检验及应用【典例典例2 2】(1)(1)若由一个若由一个2 22 2列联表中的数据计算列联表中的数据计算K K2 2的观测值的观测值k=5.25,k=5.25,那么在犯错误的概率不超过那么在犯错误的概率不超过的前提下认为两的前提下认为两个变量有关系个变量有关系.(2)(2014(2)(2014厦门高二检测厦门高二检测)为了解目前老年人居家养老还是去为了解目前老年人居家养老还是去敬老院养老的意向敬老院养老的意
17、向,共调查了共调查了5050名老年人名老年人,其中男性明确表示去其中男性明确表示去敬老院养老的有敬老院养老的有5 5人人,女性明确表示居家养老的有女性明确表示居家养老的有1010人人,已知在已知在全部全部5050人中随机抽取人中随机抽取1 1人明确表示居家养老的概率为人明确表示居家养老的概率为 .请根据上述数据建立一个请根据上述数据建立一个2 22 2列联表列联表.居家养老是否与性别有关居家养老是否与性别有关?请说明理由请说明理由.参考公式参考公式:K:K2 2=2n(adbc).ab cd ac bd()()()()35参考数据参考数据:P(KP(K2 2kk0 0)0.1000.1000.
18、0500.0500.0250.0250.0100.0100.0010.001k k0 02.7062.7063.8413.8415.0245.0246.6356.63510.82810.828【自主解答自主解答】(1)(1)因为因为k=5.255.024,k=5.255.024,故在犯错误的概率不超过故在犯错误的概率不超过0.0250.025的前提下认为两个变量有关系的前提下认为两个变量有关系.答案答案:0.0250.025(2)(2)设居家养老的人数为设居家养老的人数为x x人人,因为女性居家养老因为女性居家养老1010人人,所以男性居家养老所以男性居家养老2020人人,列列2 22 2列联
19、表列联表如下如下:x3,x30505,分类分类人数人数性别性别居家养老居家养老去敬老去敬老院养老院养老总计总计男性男性20205 52525女性女性101015152525总计总计303020205050假设居家养老与性别无关假设居家养老与性别无关,K,K2 2的观测值的观测值k=8.3336.635,k=8.3336.635,所以在犯错误的概率不超过所以在犯错误的概率不超过0.010.01的前提下认为居家养老与性别的前提下认为居家养老与性别有关有关.250 20 155 1030 20 25 25()【方法技巧方法技巧】判断两个分类变量是否有关系的三个步骤判断两个分类变量是否有关系的三个步骤
20、(1)(1)统计得到统计得到2 22 2列联表列联表.(2)(2)代入公式计算代入公式计算K K2 2的观测值的观测值.(3)(3)由由k k的值对照临界值表得出结论的值对照临界值表得出结论.【补偿训练补偿训练】为了调查胃病是否与生活规律有关为了调查胃病是否与生活规律有关,在某地对在某地对540540名名4040岁以上的人进行了调查岁以上的人进行了调查,结果是结果是:患胃病者生活不规律的共患胃病者生活不规律的共6060人人,患胃病者生活规律的共患胃病者生活规律的共2020人人,未患胃病者生活不规律的共未患胃病者生活不规律的共260260人人,未患胃病者生活规律的共未患胃病者生活规律的共2002
21、00人人.(1)(1)根据以上数据列出根据以上数据列出2 22 2列联表列联表.(2)(2)判断判断4040岁以上的人患胃病与否和生活规律是否有关岁以上的人患胃病与否和生活规律是否有关.【解析解析】(1)(1)由已知可列由已知可列2 22 2列联表如下列联表如下:患胃病患胃病未患胃病未患胃病总计总计生活规律生活规律2020200200220220生活不规律生活不规律6060260260320320总计总计8080460460540540(2)(2)根据列联表得根据列联表得K K2 2的观测值为的观测值为:k=9.638.k=9.638.因为因为9.6386.635,9.6386.635,因此因
22、此,我们在犯错误的概率不超过我们在犯错误的概率不超过0.010.01的前提下认为的前提下认为4040岁以上岁以上的人患胃病与否和生活规律有关的人患胃病与否和生活规律有关.2540(20 260200 60)80 460 220 320【强化训练强化训练】1.1.下列说法正确的是下列说法正确的是()A.A.任何两个变量都具有相关关系任何两个变量都具有相关关系B.B.球的体积与该球的半径具有相关关系球的体积与该球的半径具有相关关系C.C.农作物的产量与施化肥量之间是一种确定性关系农作物的产量与施化肥量之间是一种确定性关系D.D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系一个学生的数学成绩
23、与物理成绩之间是一种非确定性的关系【解析解析】选选D.D.相关关系就是两个变量之间的一种非确定性关系相关关系就是两个变量之间的一种非确定性关系,可以排除可以排除A,B;CA,B;C中的农作物的产量与施化肥量之间具有非常明中的农作物的产量与施化肥量之间具有非常明显的不确定性显的不确定性.2.2.下列关于下列关于K K2 2的说法正确的是的说法正确的是()A.KA.K2 2在任何相互独立问题中都可以用来检验有关还是无关在任何相互独立问题中都可以用来检验有关还是无关B.KB.K2 2的值越大的值越大,两个事件的相关性就越大两个事件的相关性就越大C.KC.K2 2是用来判断两个分类变量是否有关系的是用
24、来判断两个分类变量是否有关系的,只对于两个分类只对于两个分类变量适合变量适合D.KD.K2 2的观测值的观测值k k的计算公式为的计算公式为k=k=【解析解析】选选C.KC.K2 2是用来判断两个分类变量是否有关的是用来判断两个分类变量是否有关的,故故A A错错;K;K2 2的值越大的值越大,只能说明有更大的把握认为二者有关系只能说明有更大的把握认为二者有关系,却不能判断却不能判断相关性的大小相关性的大小,B,B错错;D;D中中(ad-bc)(ad-bc)应为应为(ad-bc)(ad-bc)2 2.n(adbc)ab cd ac bd()()()()3.3.某班主任对全班某班主任对全班5050
25、名学生进行了认为作业量多少的调查名学生进行了认为作业量多少的调查,数数据如表据如表:认为作业多认为作业多认为作业不多认为作业不多总计总计喜欢玩电脑游戏喜欢玩电脑游戏18189 92727不喜欢玩电脑游戏不喜欢玩电脑游戏8 815152323总计总计262624245050则可推测则可推测“喜欢玩电脑游戏与认为作业的多少有关系喜欢玩电脑游戏与认为作业的多少有关系”的犯错误的犯错误的概率大约为的概率大约为()A.0.01A.0.01 B.0.05 B.0.05 C.0.1 C.0.1 D.D.无充分依据无充分依据【解析解析】选选B.B.由列联表中的相关数据得由列联表中的相关数据得K K2 2的观测
26、值的观测值所以在犯错误的概率不超过所以在犯错误的概率不超过0.050.05的前提下认为喜欢玩电脑游戏的前提下认为喜欢玩电脑游戏与认为作业的多少有关系与认为作业的多少有关系.22n adbc50(18 158 9)k5.063.841abcdacbd2723 26 24,4.4.身高身高x(cm)x(cm)和体重和体重y(kg)y(kg)满足线性回归方程满足线性回归方程 =0.849x-85.712,=0.849x-85.712,若某人的体重为若某人的体重为41.633kg,41.633kg,则身高应为则身高应为.(.(精确到精确到1cm)1cm)【解析解析】=0.849x-85.712,=0.
27、849x-85.712,由由 =41.633=41.633得得41.633=0.849x-41.633=0.849x-85.712,85.712,解得解得x150(cm).x150(cm).答案答案:150cm150cmyyy5.5.为了调查某地区老年人是否需要志愿者帮助为了调查某地区老年人是否需要志愿者帮助,用简单随机抽用简单随机抽样方法从该地区调查了样方法从该地区调查了500500位老年人位老年人,结果如下结果如下:性别性别是否需要帮助是否需要帮助需要需要不需要不需要总计总计男男4040160160200200女女3030270270300300总计总计7070430430500500(1
28、)(1)估计该地区老年人中估计该地区老年人中,需要志愿者提供帮助的老年人的比例需要志愿者提供帮助的老年人的比例.(2)(2)能否在犯错误的概率不超过能否在犯错误的概率不超过0.010.01的前提下认为该地区的老的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关年人是否需要志愿者提供帮助与性别有关?附附:P(KP(K2 2kk0 0)0.0500.0500.0100.0100.0010.001k k0 03.8413.8416.6356.63510.82810.82822n adbcK.abcdacbd【解析解析】(1)(1)需要帮助的老年人的比例估计值为需要帮助的老年人的比例估计值为100%=14%.100%=14%.(2)k=9.967(2)k=9.9676.635.6.635.因为因为P(KP(K2 26.635)0.0106.635)0.010,所以在犯错误的概率不超过所以在犯错误的概率不超过0.010.01的前提下认为该地区的老年人的前提下认为该地区的老年人是否需要帮助与性别有关是否需要帮助与性别有关.70500250040 27030 160200 300 70 430