1、章末复习课整合网络构建警示易错提醒1回归分析:(1)回归分析是建立在两个具有相关性变量之间的一种模拟分析,因此必须先判断两变量是否具有相关性(2)线性回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(,)点,可能所有的样本数据点都不在直线上(3)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值)2独立性检验:(1)通过独立性检验得到的结论未必正确,它只是对一种可靠性的预测(2)在22列联表中,当数据a,b,c,d都不小于5时,才可以用K2检测(3)独立性检验易错误理解假设检验原理,导致得到相反的结论专题一线性回归分析回归分析是对具有相关关系的两个变量进行统
2、计分析的一种方法根据两个变量的一组观测值,可以画出散点图,以判断两个变量是否具有线性相关关系,若具有线性相关关系,可求出线性回归直线方程求出线性回归模型后,可以借助残差、残差平方和以及相关指数R2等对模型进行评判相关指数R2刻画回归的效果,其计算公式:R21 , R2的值越大,模型的拟合效果越好.例1 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归
3、方程,预测技改后生产100吨甲产品比技改前少消耗多少吨标准煤.解:(1)散点图如图所示:(2) x iyi32.5435464.566.5,4.5,3.5,3242526286.0.7,3.50.74.50.35.因此,所求的线性回归方程为0.7x0.35.(3)根据回归方程预测,现在生产100吨产品消耗的标准煤的数量为0.71000.3570.35(吨),故耗能减少了9070.3519.65(吨标准煤)归纳升华1求线性回归方程的基本步骤2需特别注意的是,只有在散点图大致呈直线时,求出的线性回归方程才有实际意义,否则求出的回归方程毫无意义变式训练如图是我国2008年至2014年生活垃圾无害化处
4、理量(单位:亿吨)的折线图注:年份代码17分别对应年份20082014(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2018年我国生活垃圾无害化处理量附注:解:因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系所以y关于t的回归方程为0.920.10t.将2018年对应的t11代入回归方程得0.920.10112。03.所以预测2018年我国生活垃圾无害化处理量将约为2。03亿吨专题二独立性检验独立性检验是判断两个分类变量之间是否有关系的一种方法在判断两
5、个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论例22017年10月18日至24日,中国共产党第十九次全国人民代表大会在北京顺利召开大会期间,北京某高中举办了一次“喜迎十九大”的读书读报知识竞赛,参赛选手为从高一年级和高二年级随机抽取的各100名学生图1和图2分别是高一年级和高二年级参赛选手成绩的频率分布直方图图1图2(1)分别计算参加这次知识竞赛的两个年级学生的平均成绩;(2)若称成绩在68分以上的学生知识渊博,试以上述数据估计该高一、高二两个年级学生的知识渊博率;(3)完成下面22列联表,并回答能否在犯错误的概率不超过0.
6、010的前提下,认为高一、高二两个年级学生这次读书读报知识竞赛的成绩有差异分类成绩低于60分人数成绩不低于60分人数总计高一年级高二年级总计附:P(K2k)0.1000.0500.0250.0100.001k2.7063.8415.0246.63510.828K2.思路点拨:(1)利用均值公式求平均成绩;(2)先利用频率分布直方图求出高一、高二两个年级学生成绩在68分以上的学生所占的频率;(3)完善22列联表,代入K2公式求解解:(1)高一年级参赛学生的平均成绩为(450.04550.04650.01750.01)1054(分)高二年级参赛学生的平均成绩为(450.015550.025650.
7、035750.025)1062(分)(2)高一年级参赛学生的知识渊博率为P1100.01100.010.12,高二年级参赛学生的知识渊博率为P2100.035100.0250.32.故可估计该校高一年级学生的知识渊博率为0.12,高二年级学生的知识渊博率为0.32.(3)补全22列联表,如下:分类成绩低于60分人数成绩不低于60分人数总计高一年级8020100高二年级4060100总计12080200根据表中数据得K2的观测值k33.336.635,故在犯错误的概率不超过0.010的前提下,认为高一、高二两个年级学生这次读书读报知识竞赛的成绩有差异归纳升华1正确利用概率分布直方图与平均数等,求
8、出高一、高二年级各个分数的学生数是利用K公式求得k并进行估计的前提条件2独立性检验的一般步骤如下:(1)根据样本数据制成22列联表(2)根据公式计算K2的观测值k.(3)比较k与临界值的大小关系,做统计推断注:根据学生用书选用 变式训练某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本,并称出它们的重量(单位:克),重量值落在495,510)内的产品为合格品,否则为不合格品统计结果如下:甲流水线样本的频数分布表产品重量(克)频数490,495)6495,500)8500,505)14505,510)8510,5154乙流水线样本的频率分布直方图(1
9、)求甲流水线样本合格的频率;(2)由以上统计数据完成下面22列联表,并回答有多大的把握认为产品的包装质量与两条自动包装流水线的选择有关分类甲流水线乙流水线总计合格品不合格品总计附:K2.P(K2k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828解:(1)由表知甲流水线样本中合格品数为814830,故甲流水线样本中合格品的频率为0.75.(2)由(1)知甲流水线样本中合格品格数30,乙流水线样本中合格品数为0.94036.22列联表如下:分类甲流水线乙流水线总计合格品303666不合格品10414总计
10、404080由22列联表中的数据得K2的观测值为K3.122.706.故有90%的把握认为产品的包装质量与两条自动包装流水线的选择有关变式训练调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人(1)将22列联表补充完整性别出生时间总计晚上白天男婴女婴总计(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?解:(1)列出22列联表:性别出生时间总计晚上白天男婴243155女婴82634总计325789(2)由所给数据计算K2的观测值k3.6892.706.根据临界值表知P(K2
11、2.706)0.10,因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.专题三化归转化思想在回归分析中的应用如果两个变量非线性相关,要进行回归分析,可以通过对变量进行代换,转化成线性相关问题,进而进行回归分析 例3电容器充电后,电压达到100 V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式UAebt(b0)表示,现测得时间t(s)时的电压U(V)如下表:t(s)012345678910U(V)100755540302015101055试求:电压U对时间t的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)解:对UAebt两边取对数得ln
12、 Uln Abt,令yln U,aln A,xt,则yabx,得y与x的数据如下表:x012345678910y4.64.34.03.73.43.02.72.32.31.61.6根据表中数据作出散点图,如图所示,从图中可以看出,y与x具有较强的线性相关关系,由表中数据求得5,3.045,进而可以求得0.313,4.61.所以y对x的线性回归方程为y4.610.313x.由yln U,得Uey,Ue4.610.313xe4.16e0.313x.因此电压U对时间t的回归方程为Ue4.61e0.313x.归纳升华非线性回归分析的一般步骤:1确定变量,作出散点图2根据散点图,选择恰当的拟合函数3变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程4分析拟合效果:通过计算相关指数或画残差图来判断拟合效果5根据相应的变换,写出非线性回归方程变式训练对于曲线yae,令ln y,cln a,v,可变换为线性回归模型,其形式为()AyabvBabvCcbv Dycbx解析:由yae,两边取对数得ln yln a又ln y,cln a,vcbv.答案:C