1、一、考纲要求一、考纲要求1 1、会作具有相关关系两个变量的数据的散点图,会利用、会作具有相关关系两个变量的数据的散点图,会利用散点图认识变量间的相关关系。散点图认识变量间的相关关系。2 2、了解最小二乘法的思想,能根据给出的线性回归、了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。方程系数公式建立线性回归方程。3 3、了解独立性检验(只要求、了解独立性检验(只要求2 2乘乘2 2列联表)的基本列联表)的基本思想、方法及其简单应用。思想、方法及其简单应用。4 4、了解回归分析的基本思想、方法及其简单应用。、了解回归分析的基本思想、方法及其简单应用。二、知识点二、知识点1
2、1、两个变量的关系、两个变量的关系不相关不相关相关相关关系关系函数关系函数关系线性相关线性相关非线性相关非线性相关相关关系:相关关系:对于两个变量,当自变量取值一定对于两个变量,当自变量取值一定时,因变量的取值带有一定时,因变量的取值带有一定_的两个变量的两个变量之间的关系。之间的关系。随机性随机性2 2、最小二乘法:、最小二乘法:_最小二乘估计下的线性回归方程:最小二乘估计下的线性回归方程:ybxaniiniiixnxyxnyxb12_21_ aYbX最小使残差平方和niiiabxy12)(3 3、样本点中心:、样本点中心:_回归直线与样本点中心的关系是?回归直线与样本点中心的关系是?回归直
3、线过样本点中心回归直线过样本点中心4 4、散点图:表示具有相关关系的两个变量的、散点图:表示具有相关关系的两个变量的一组数据的图形。它可直观判断两变量的关系一组数据的图形。它可直观判断两变量的关系是否是线性关系。是否是线性关系。若这些散点分布在从左下角到右上角的区域,若这些散点分布在从左下角到右上角的区域,则两个变量则两个变量_;_;若这些散点分布在从左上角到右下角的区域,若这些散点分布在从左上角到右下角的区域,则两个变量则两个变量_;_;的线性相关关系。有具与个单位,这表明就单位时,个每增加的估计值,说明是回归直线的则、若回归方程为_1_849.0,712.85849.05xyyxbxy斜率
4、斜率增加增加0.8490.849正正6 6、回归分析:对具有、回归分析:对具有_的两个变量进行的两个变量进行 统计分析的方法。统计分析的方法。7 7、线性回归模型、线性回归模型:其中其中bx+abx+a是确定性函数,是确定性函数,x x是是_ e e 是是_,y_,y是是_eabxy注:注:e产生的主要原因:产生的主要原因:(1)所用确定性函数不恰当;所用确定性函数不恰当;(2)忽略了某些因素的影响;忽略了某些因素的影响;(3)观测误差。观测误差。0_)(_,)()4(2eDeE解释变量解释变量随机误差随机误差预报变量预报变量相关关系相关关系0 0 iiieyy2nii 1yyi残差残差样本编
5、号样本编号1 18 8、残差、残差(1)(1)残差残差对于样本点对于样本点(x(xi i,y,yi i)(i=1,2,n)(i=1,2,n)的随机误差的估计值的随机误差的估计值 称为相应于点称为相应于点(x(xi i,y,yi i)的残差,的残差,_称为残差平方和称为残差平方和.(2)(2)残差图残差图利用图形来分析残差特性,作图时纵坐标为利用图形来分析残差特性,作图时纵坐标为_,横坐标可以,横坐标可以选为选为_,也可用其他测量值,这样作出的图称为残差图,也可用其他测量值,这样作出的图称为残差图.(3)(3),R R2 2越接近于越接近于_,表示回归效果越好,表示回归效果越好.n2ii2i 1
6、n2ii 1yyR1yy _ie总偏差平方和回归平方和总偏差平方和残差平方和19.9.建立回归模型的步骤建立回归模型的步骤(1)(1)确定研究对象:明确哪个变量是解释变量,哪个变量是预报变量确定研究对象:明确哪个变量是解释变量,哪个变量是预报变量.(2)(2)画散点图:画出确定好的解释变量和预报变量的散点图,观察它画散点图:画出确定好的解释变量和预报变量的散点图,观察它们之间的关系们之间的关系(如是否存在线性关系等如是否存在线性关系等).).(3)(3)模型选择:由经验确定回归方程的类型模型选择:由经验确定回归方程的类型(如我们观察到数据呈线性如我们观察到数据呈线性关系,则选用线性回归方程关系
7、,则选用线性回归方程y=bx+a).y=bx+a).(4)(4)求回归方程:按一定规则估计回归方程中的参数求回归方程:按一定规则估计回归方程中的参数(如最小二乘法如最小二乘法).).(5)(5)残差分析:得出结果后分析残差图是否有异常残差分析:得出结果后分析残差图是否有异常(如个别数据对应残如个别数据对应残差过大、残差呈现不随机的规律性等差过大、残差呈现不随机的规律性等),若存在异常,则检查数据是,若存在异常,则检查数据是否有误或模型是否合适等否有误或模型是否合适等.1.1.有什么区别?有什么区别?提示:提示:y yi i是样本点是样本点(x(xi i,y,yi i)的纵坐标的纵坐标,是样本点
8、的中心是样本点的中心 ()()的纵坐标的纵坐标,由由 可知可知 是是y yi i的估计值的估计值,其中其中,是是a a和和b b的估计值的估计值.iiy y y,yiiybxaiya,bx,y2.2.若一组观测值若一组观测值(x(x1 1,y,y1 1),(x),(x2 2,y,y2 2),(x),(xn n,y,yn n)之间满足之间满足y yi i=bx=bxi i+a+e+a+ei i(i=1,2,n),(i=1,2,n),若若e ei i恒为恒为0 0,则,则R R2 2为为_._.【解析解析】e ei i恒为恒为0 0,说明随机误差对,说明随机误差对y yi i贡献为贡献为0.0.答
9、案:答案:1 13 3假设关于某设备的使用年限假设关于某设备的使用年限x x和所支出的维修费用和所支出的维修费用y(y(万元万元)有如下的统计资料:有如下的统计资料:使用年限使用年限x x 2 23 34 45 56 6维修费用维修费用y y 2.22.23.83.85.55.56.56.57.07.0若由资料知,若由资料知,y y对对x x呈现线性相关关系试求:呈现线性相关关系试求:(1)(1)线性回归方程线性回归方程 中的中的 的值;的值;(2)(2)残差平方和;残差平方和;(3)(3)相关指数相关指数R R2 2;(4)(4)估计使用年限为估计使用年限为1010年时,维修费用是多少?年时
10、,维修费用是多少?ybxaa,b解解(1)(1)由已知数据制成下表:由已知数据制成下表:i i1 12 23 34 45 5合计合计x xi i2 23 34 45 56 62020y yi i2.22.23.83.85.55.56.56.57.07.02525x xi iy yi i4.44.411.411.4222232.532.54242112.3112.3x xi i2 24 49 91616252536369090552iiii 1i 1x4 y5x90 x y112.3,112.35 4 5b1.23905 4 4 ,aybx 5 1.23 40.08,y1.23x0.08.THA
11、NK YOUSUCCESS2022-10-26可编辑(2)(2)残差平方和为残差平方和为(-0.34)(-0.34)2 2+0.03+0.032 2+0.5+0.52 2+0.27+0.272 2+(-0.46)+(-0.46)2 2=0.651=0.651.12y1.23 20.082.54 y1.23 30.083.77,34y1.23 40.085 y1.23 50.086.23,5y1.23 60.087.46,123e2.22.540.34 e3.83.770.03 e5.550.5,45e6.56.230.27 e7.07.460.46.,(3)(3)(4)(4)回归方程回归方程
12、=1.23x+0.08=1.23x+0.08,当,当x=10 x=10时,时,=1.23=1.2310+0.08=12.38(10+0.08=12.38(万元万元),即估计使用,即估计使用1010年时,维修费年时,维修费用是用是12.3812.38万元万元2222220.651R10.958 7.2.81.20.51.52 yy4.4.对于指数曲线对于指数曲线y=aey=aebxbx,令令U=lny,c=lna,U=lny,c=lna,经过非线性化回归分析经过非线性化回归分析后,可转化的形式为后,可转化的形式为()()(A)U=c+bx (B)U=b+cx(A)U=c+bx (B)U=b+cx
13、(C)y=c+bx (D)y=b+cx(C)y=c+bx (D)y=b+cx【解析解析】选选A.y=aeA.y=aebxbx,lny=lna+bx,U=c+bx.,lny=lna+bx,U=c+bx.1010、分类变量:、分类变量:_变量的不同取值表示个体所属不同的类别变量的不同取值表示个体所属不同的类别(5)n即列出两个分类变量的频率表其中 为样列联表本容量.Anb+da+c合计c+ddca+bbaB合计AB11、1x2x1y2y1212、独立性检验:、独立性检验:量的独立性检验。变”的方法称为两个分类“两个分类变量有关系以认为来确定在多大程度上可利用随机变量2K_2K)()()()(2db
14、cadcbabcadn1.(20111.(2011湖南高考湖南高考)通过随机询问通过随机询问110110名性别不同的大学生是名性别不同的大学生是否爱好某项运动,得到如下的列表:否爱好某项运动,得到如下的列表:男男女女总计总计爱好爱好404020206060不爱好不爱好202030305050总计总计60605050110110由由 得:得:22n adbcKabcdac(bd)2211040 3020 20K7.8.60 50 60 50附表:附表:参照附表,得到的正确结论是参照附表,得到的正确结论是()()(A)(A)在犯错误的概率不超过在犯错误的概率不超过0.1%0.1%的前提下,认为的前
15、提下,认为“爱好该项运爱好该项运动与性别有关动与性别有关”(B)(B)在犯错误的概率不超过在犯错误的概率不超过0.1%0.1%的前提下,认为的前提下,认为“爱好该项运爱好该项运动与性别无关动与性别无关”(C)(C)有有99%99%以上的把握认为以上的把握认为“爱好该项运动与性别有关爱好该项运动与性别有关”(D)(D)有有99%99%以上的把握认为以上的把握认为“爱好该项运动与性别无关爱好该项运动与性别无关”10.82810.8286.6356.6353.8413.841k k0.0010.0010.0100.0100.0500.050P(KP(K2 2k)k)2.2.在研究某种药物对在研究某种
16、药物对“H1N1”H1N1”病毒的治疗效果时,进行动物试病毒的治疗效果时,进行动物试验,得到以下数据,对验,得到以下数据,对150150只动物服用药物,其中只动物服用药物,其中132132只动物存只动物存活,活,1818只动物死亡,对照组只动物死亡,对照组150150只动物进行常规治疗,其中只动物进行常规治疗,其中114114只动物存活,只动物存活,3636只动物死亡只动物死亡(1)(1)根据以上数据建立一个根据以上数据建立一个2 22 2列联表列联表;(2)(2)试问该种药物对治疗试问该种药物对治疗“H1N1”H1N1”病毒是否有效?病毒是否有效?解:解:(1)2(1)22 2列联表如下:列
17、联表如下:存活数存活数死亡数死亡数总计总计服用该药物服用该药物1321321818150150未服该药物未服该药物1141143636150150总计总计2462465454300300(2)(2)由由(1)(1)知知故在犯错误的概率不超过故在犯错误的概率不超过0.010.01的前提下认为该种药物对的前提下认为该种药物对“H1N1H1N1”病毒有治疗效果病毒有治疗效果22300132 36 114 18K7.317 6.635.246 54 150 1503 3、为了探究患慢性气管炎是否与吸烟有关,调查了为了探究患慢性气管炎是否与吸烟有关,调查了339339名名5050岁岁以上的人,调查结果如
18、下表所示:以上的人,调查结果如下表所示:患病患病不患病不患病总计总计吸烟吸烟4343162162205205不吸烟不吸烟1313121121134134总计总计5656283283339339试问:在犯错误不超过试问:在犯错误不超过0.010.01的前提下,能否认为的前提下,能否认为5050岁以上岁以上的人患慢性气管炎与吸烟有关的人患慢性气管炎与吸烟有关.【解题设问解题设问】(1)(1)该问题是独立性检验问题吗?该问题是独立性检验问题吗?_._.(2)(2)如何处理该问题?如何处理该问题?_._.【规范答题规范答题】根据列联表中的数据,得根据列联表中的数据,得K K2 2=6=6分分因为因为7
19、.4697.4696.6356.635,99分分所以在犯错误不超过所以在犯错误不超过0.010.01的前提下,我们认为的前提下,我们认为5050岁以上的人患岁以上的人患慢性气管炎与吸烟有关慢性气管炎与吸烟有关.12.12分分是是先求先求K K2 2然后下结论然后下结论233943 121 162 137.469205 134 56 2834.4.在一个在一个2 22 2列联表中,由计算得列联表中,由计算得K K2 213.07913.079,则判断,则判断“这两个这两个变量有关系变量有关系”时,判断出错的可能性是时,判断出错的可能性是_参考数据:参考数据:P(KP(K2 2k)k)0.150.150.100.100.050.050.0250.0250.010.010.0010.001k k2.0722.0722.7062.7063.8413.8415.0245.0246.6356.63510.82810.828【解析解析】KK2 213.07913.07910.828.10.828.判断出错的可能性是判断出错的可能性是0.001.0.001.答案:答案:0.0010.001THANK YOUSUCCESS2022-10-26可编辑