1、第二章阶段复习课【答案速填答案速填】_;_;_;_系统抽样系统抽样分层抽样分层抽样用样本的频率分用样本的频率分布估计总体分布布估计总体分布用样本的数字特征估计总体的数字特征用样本的数字特征估计总体的数字特征类型类型 一一 抽样方法的应用抽样方法的应用 1.1.应用抽样方法时的原则应用抽样方法时的原则(1)(1)当总体容量较小当总体容量较小,样本容量较小时样本容量较小时,制签简单制签简单,号签容易搅号签容易搅匀匀,可采用抽签法可采用抽签法.(2)(2)当总体容量较大当总体容量较大,样本容量较小时样本容量较小时,可用随机数法可用随机数法.(3)(3)当总体容量较大当总体容量较大,样本容量也较大时样
2、本容量也较大时,可采用系统抽样可采用系统抽样.(4)(4)当总体中个体差异较显著时当总体中个体差异较显著时,可采用分层抽样可采用分层抽样.2.2.应用抽样方法抽取样本时应注意的两点应用抽样方法抽取样本时应注意的两点(1)(1)用随机数法抽样时用随机数法抽样时,对个体所编号码位数要相同对个体所编号码位数要相同,当所给位当所给位数不同时数不同时,以位数较多的为准以位数较多的为准,在位数较少的数前面添在位数较少的数前面添“0”,0”,凑齐位数凑齐位数.(2)(2)用系统抽样法时用系统抽样法时,如果总体容量如果总体容量N N能被样本容量能被样本容量n n整除时整除时,抽抽样间隔为样间隔为k=;k=;如
3、果总体容量如果总体容量N N不能被样本容量不能被样本容量n n整除时整除时,先用先用简单随机抽样剔除多余个体简单随机抽样剔除多余个体,抽样间隔为抽样间隔为k=(k=(其中其中K=N-K=N-多余多余个体数个体数).).NnKn【典例典例1 1】(1)(1)某高校甲、乙、丙、丁四个专业分别有某高校甲、乙、丙、丁四个专业分别有150,150,150,400,300150,400,300名学生名学生.为了解学生的就业倾向为了解学生的就业倾向,用分层抽样的方用分层抽样的方法从该校这四个专业共抽取法从该校这四个专业共抽取4040名学生进行调查名学生进行调查,应在丙专业抽应在丙专业抽取的学生人数为取的学生
4、人数为.(2)(2)高三高三(1)(1)班共有班共有5656人人,学号依次为学号依次为1,2,3,56,1,2,3,56,现用系统抽现用系统抽样的办法抽取一个容量为样的办法抽取一个容量为4 4的样本的样本.已知学号为已知学号为6,34,486,34,48的同学的同学在样本中在样本中,那么还有一个被抽取的同学的学号应为那么还有一个被抽取的同学的学号应为.【解析解析】(1)(1)抽样比为抽样比为 ,因此从丙专,因此从丙专业应抽取业应抽取 40040016(16(人人)答案:答案:1616(2)(2)抽取间隔为抽取间隔为 14.14.已抽取学号为已抽取学号为6,34,486,34,48,故还有一个被
5、抽取的同学的学号应为,故还有一个被抽取的同学的学号应为20.20.答案:答案:2020404150 150 400 300 100 4100564类型类型 二二 用样本的频率分布直方图估计总体用样本的频率分布直方图估计总体关于用样本估计总体的问题关于用样本估计总体的问题(1)(1)用样本频率分布估计总体频率分布时用样本频率分布估计总体频率分布时,通常要对给定的一通常要对给定的一组数据进行列表、作图处理组数据进行列表、作图处理,作频率分布表与频率分布直方图作频率分布表与频率分布直方图时要注意其方法及步骤时要注意其方法及步骤.(2)(2)茎叶图刻画数据有两个优点茎叶图刻画数据有两个优点:一是所有信
6、息都可以从图中一是所有信息都可以从图中得到得到;二是便于记录和表示二是便于记录和表示,但数据位数较多时不方便但数据位数较多时不方便.(3)(3)平均数反映了样本数据的平均水平平均数反映了样本数据的平均水平,而标准差反映了样本而标准差反映了样本数据的波动程度数据的波动程度.【典例典例2 2】(1)(1)有一个容量为有一个容量为200200的样本的样本,其频率分布直方图如其频率分布直方图如图所示图所示.根据样本的频率分布直方图估计根据样本的频率分布直方图估计,样本数据落在区间样本数据落在区间10,12)10,12)内的频数为内的频数为()A.18A.18B.36B.36C.54C.54D.72D.
7、72(2)(2)某学校为了了解学生的日平均睡眠时间某学校为了了解学生的日平均睡眠时间(单位单位:h),:h),随机选随机选择了择了n n名同学进行调查名同学进行调查.下表是这下表是这n n名同学的日睡眠时间的频率名同学的日睡眠时间的频率分布表分布表.序号序号(i)(i)分组分组(睡眠时间睡眠时间)频数频数(人数人数)频率频率1 14,5)4,5)6 60.120.122 25,6)5,6)0.200.203 36,7)6,7)a a4 47,8)7,8)b b5 58,98,90.080.08求求n n的值的值;若若a=20,a=20,将表中数据补全将表中数据补全,并画出频率分布直方图并画出频
8、率分布直方图.统计方法中统计方法中,同一组数据常用该组区间的中点值同一组数据常用该组区间的中点值(例如区间例如区间4,5)4,5)的中点值是的中点值是4.5)4.5)作为代表作为代表.若据此计算的上述数据的平若据此计算的上述数据的平均值为均值为6.52,6.52,求求a,ba,b的值的值.【解析解析】(1)(1)选选B.B.由直方图得样本数据在由直方图得样本数据在10,12)10,12)内的频率为内的频率为0.18.0.18.则样本数据在区间则样本数据在区间10,12)10,12)内的频数为内的频数为36.36.(2)(2)由频率分布表可知由频率分布表可知n=50.n=50.60.12补全数据
9、如下表补全数据如下表:序号序号(i)(i)分组分组(睡眠时间睡眠时间)频数频数(人数人数)频率频率1 14,5)4,5)6 60.120.122 25,6)5,6)10100.200.203 36,7)6,7)20200.400.404 47,8)7,8)10100.200.205 58,98,94 40.080.08频率分布直方图如下频率分布直方图如下:()()由题意由题意 解得解得a a1515,b b15.15.16 4.5 10 5.5 a 6.5 b 7.5 4 8.56.52,506 10 a b 4 50,【互动探究互动探究】若若(1)(1)中条件不变中条件不变,问问:样本数据的
10、众数为多少样本数据的众数为多少?样本数据的平均数是多少样本数据的平均数是多少?【解析解析】众数应为最高矩形的中点对应的横坐标众数应为最高矩形的中点对应的横坐标,故应为故应为9.9.平均数为平均数为:3:30.020.022+52+50.050.052+72+70.150.152+92+90.190.192+112+110.090.092=8.12.2=8.12.类型类型 三三 利用数字特征估计总体特征利用数字特征估计总体特征1.1.各个数据特征在估计总体中的作用各个数据特征在估计总体中的作用(1)(1)为了从整体上把握总体的规律,我们可以通过样本数据的为了从整体上把握总体的规律,我们可以通过样
11、本数据的众数、中位数、平均数和标准差等数字特征作出估计众数、中位数、平均数和标准差等数字特征作出估计.(2)(2)众数是样本数据中出现次数最多的那个数;中位数就是将众数是样本数据中出现次数最多的那个数;中位数就是将一组数据按从小到大一组数据按从小到大(或从大到小或从大到小)的顺序排列,处在中间位的顺序排列,处在中间位置的那个数置的那个数(或中间两个数据的平均数或中间两个数据的平均数);平均数就是所有样;平均数就是所有样本数据的平均值,用本数据的平均值,用 表示;标准差是反映样本数据离散程度表示;标准差是反映样本数据离散程度大小最常用的统计量,其计算公式为大小最常用的统计量,其计算公式为 222
12、12n1s(xx)(xx)(xx).nx2.2.平均数、方差的推广公式平均数、方差的推广公式(1)(1)若数据若数据x x1 1,x,x2 2,x,xn n的平均数为的平均数为 ,那么那么mxmx1 1+a,+a,mxmx2 2+a,mx+a,mx3 3+a,+a,mx,mxn n+a+a的平均数是的平均数是m +a.m +a.(2)(2)数据数据x x1 1,x,x2 2,x,xn n的方差为的方差为s s2 2.s s2 2=.=.xx222212n1(xxx)nx n【典例典例3 3】甲、乙两人在相同的条件下各射靶甲、乙两人在相同的条件下各射靶1010次次,每次射靶每次射靶成绩成绩(单位
13、单位:环环)如图所示如图所示.(1)(1)填写下表填写下表:(2)(2)请从几个不同的角度对这次测试进行分析请从几个不同的角度对这次测试进行分析:从平均数和方差结合分析偏离程度从平均数和方差结合分析偏离程度;从平均数和中位数结合分析谁的成绩好些从平均数和中位数结合分析谁的成绩好些;从折线图上两人射击命中环数及走势分析谁更有潜力从折线图上两人射击命中环数及走势分析谁更有潜力.平均数平均数方差方差中位数中位数命中命中9 9环及以上环及以上甲甲7 71.21.21 1乙乙5.45.43 3【解析解析】(1)(1)乙的射靶环数依次为乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,2,4,6
14、,8,7,7,8,9,9,10,所所以以 =(2+4+6+8+7+7+8+9+9+10)=7;=(2+4+6+8+7+7+8+9+9+10)=7;乙的射靶环数从小到大乙的射靶环数从小到大排列为排列为2,4,6,7,7,8,8,9,9,10,2,4,6,7,7,8,8,9,9,10,所以中位数是所以中位数是 =7.5;=7.5;甲的甲的射靶环数从小到大排列为射靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,5,6,6,7,7,7,7,8,8,9,所以中位数所以中位数为为7.7.于是填充后的表格如下表所示于是填充后的表格如下表所示:x乙1107+82平均数平均数方差方差中位数中位数命中
15、命中9 9环及以上环及以上甲甲7 71.21.27 71 1乙乙7 75.45.47.57.53 3(2)(2)甲、乙的平均数相同甲、乙的平均数相同,均为均为7,7,但但s s甲甲2 2ss乙乙2 2,说明甲偏离平说明甲偏离平均数的程度小均数的程度小,而乙偏离平均数的程度大而乙偏离平均数的程度大.甲、乙的平均水平相同甲、乙的平均水平相同,而乙的中位数比甲大而乙的中位数比甲大,说明乙射靶说明乙射靶环数的优秀次数比甲多环数的优秀次数比甲多.从折线图上看从折线图上看,乙的成绩呈上升趋势乙的成绩呈上升趋势,而甲的成绩在平均线而甲的成绩在平均线上波动不大上波动不大,说明乙的状态在提升说明乙的状态在提升,
16、更有潜力更有潜力.【互动探究互动探究】从平均数和命中从平均数和命中9 9环以上的次数相结合看谁的成环以上的次数相结合看谁的成绩好些绩好些?【解析解析】甲、乙的平均水平相同甲、乙的平均水平相同,而乙命中而乙命中9 9环以上环以上(包含包含9 9环环)的次数比甲多的次数比甲多2 2次次,可知乙的射靶好成绩比甲多可知乙的射靶好成绩比甲多.类型类型 四四 类型四线性回归分析的应用类型四线性回归分析的应用1.1.对相关关系与函数关系的两点说明对相关关系与函数关系的两点说明(1)(1)相关关系与函数关系不同相关关系与函数关系不同.因为函数关系是一种确定性关因为函数关系是一种确定性关系系,而相关关系是一种非
17、确定性关系而相关关系是一种非确定性关系,即相关关系是非随机变即相关关系是非随机变量与随机变量之间的关系量与随机变量之间的关系.而函数关系可以看成是两个非随机而函数关系可以看成是两个非随机变量之间的关系变量之间的关系.因此因此,不能把相关关系等同于函数关系不能把相关关系等同于函数关系.(2)(2)函数关系是一种因果关系函数关系是一种因果关系,而相关关系不一定是因果关系而相关关系不一定是因果关系,也可能是伴随关系也可能是伴随关系.例如例如,有人发现有人发现,对于在校儿童对于在校儿童,鞋的大小鞋的大小与阅读能力有很强的相关关系与阅读能力有很强的相关关系.然而然而,学会新词并不能使脚变学会新词并不能使
18、脚变大大,而是涉及第三个因素而是涉及第三个因素年龄年龄.当儿童长大一些当儿童长大一些,他们的阅他们的阅读能力会提高而且由于长大读能力会提高而且由于长大,脚也变大脚也变大.2.2.求回归方程的方法求回归方程的方法(1)(1)先计算出先计算出 .(2)(2)计算回归系数计算回归系数 .(3)(3)写出回归直线方程写出回归直线方程 .nn2iiii 1i 1x,y,x,xy a,by bx a【典例典例4 4】下表数据是退水温度下表数据是退水温度x()x()对黄酮延长性对黄酮延长性y(%)y(%)效应效应的试验结果的试验结果,y,y是以延长度计算的是以延长度计算的,且对于给定的且对于给定的x,yx,
19、y为变量为变量.(1)(1)画出散点图画出散点图.(2)(2)指出指出x,yx,y是否线性相关是否线性相关.(3)(3)若线性相关若线性相关,求求y y关于关于x x的回归方程的回归方程.(4)(4)估计退水温度是估计退水温度是1 0001 000时时,黄酮延长性的情况黄酮延长性的情况.x()x()300300400400500500600600700700800800y(%)y(%)404050505555606067677070【解析解析】(1)(1)散点图如下散点图如下:(2)(2)由散点图可以看出样本点分布在一条直线的附近由散点图可以看出样本点分布在一条直线的附近,可见可见y y与与x
20、 x线性相关线性相关.(3)(3)列出下表并用科学计算器进行有关计算列出下表并用科学计算器进行有关计算.i i1 12 23 34 45 56 6x xi i300300400400500500600600700700800800y yi i404050505555606067677070 x xi iy yi i12 00012 00020 00020 00027 50027 50036 00036 00046 90046 90056 00056 000 x xi i2 290 00090 000 160 000160 000 250 000250 000 360 000360 000 49
21、0 000490 000 640 000640 000 x 550;y 57;662iiii 1i 1x1 990 000,xy198 400于是可得于是可得 0.058 86,0.058 86,=57-0.058 86 =57-0.058 8655055024.627.24.627.因此所求的回归直线的方程为:因此所求的回归直线的方程为:0.058 86x0.058 86x24.627.24.627.6iii 16222ii 1xy6xy198400 6 550 57b1990000 6 550 x6x ay bx y(4)(4)将将x x1 0001 000代入回归方程得代入回归方程得 0
22、.058 860.058 861 0001 00024.62724.62783.48783.487,即退水温度是,即退水温度是1 000 1 000 时,黄酮延长性大约是时,黄酮延长性大约是83.487%.83.487%.y【跟踪训练跟踪训练】1.1.为了了解全校为了了解全校240240名学生的身高情况名学生的身高情况,从中抽取从中抽取4040名学生进名学生进行测量行测量,下列说法正确的是下列说法正确的是()A.A.总体是总体是240240 B.B.个体是每一个学生个体是每一个学生C.C.样本是样本是4040名学生名学生 D.D.样本容量是样本容量是4040【解析解析】选选D.D.总体容量是总
23、体容量是240,240,总体是总体是240240名学生的身高名学生的身高;个体个体是每名学生的身高是每名学生的身高;样本是样本是4040名学生的身高名学生的身高;样本容量是样本容量是40.40.2.(20132.(2013琼海高二检测琼海高二检测)下表是下表是x x与与y y之间的一组数据之间的一组数据,则则y y关关于于x x的线性回归直线必过点的线性回归直线必过点()A.(2,2)A.(2,2)B.(1.5,2)B.(1.5,2)C.(1,2)C.(1,2)D.(1.5,4)D.(1.5,4)【解析解析】选选D.D.由题意可知由题意可知 =1.5,=1.5,=4=4,所以,所以y y关于关
24、于x x的线性回归直线必过点的线性回归直线必过点(1.5,4)(1.5,4),故选,故选D.D.x x0 01 12 23 3y y1 13 35 57 70 1 2 3x4 1 3 5 7y4 3.(20133.(2013四川高考四川高考)某学校随机抽取某学校随机抽取2020个班个班,调查各班中有网上购物经历的人调查各班中有网上购物经历的人数数,所得数据的茎叶图如图所示所得数据的茎叶图如图所示.以组距以组距为为5 5将数据分组成将数据分组成0,5),5,10),30,35),35,400,5),5,10),30,35),35,40时时,所作所作的频率分布直方图是的频率分布直方图是()【解析解
25、析】选选A.A.由由0,5),5,10)0,5),5,10)内的频数均为内的频数均为1,1,可知图中相应可知图中相应的高度相等的高度相等,可以排除选项可以排除选项B,B,由于分组时按照组距为由于分组时按照组距为5 5分的分的,而而选项选项C,DC,D的组距为的组距为10,10,故错误故错误.所以选所以选A.A.4.4.为了分析某篮球运动员在比赛中发挥的稳定程度为了分析某篮球运动员在比赛中发挥的稳定程度,统计了该统计了该运动员在运动员在6 6场比赛中的得分场比赛中的得分,用茎叶图表示如图用茎叶图表示如图,则该组数据的则该组数据的方差为方差为.【解析解析】该运动员该运动员6 6场的总得分为场的总得
26、分为14+17+18+18+20+21=108,14+17+18+18+20+21=108,平平均得分为均得分为 =18(=18(分分),),方差为方差为 (14-18)(14-18)2 2+(17-18)+(17-18)2 2+(18-+(18-18)18)2 2+(18-18)+(18-18)2 2+(20-18)+(20-18)2 2+(21-18)+(21-18)2 2=5.=5.答案答案:5 51086165.5.调查某地若干户家庭的年收入调查某地若干户家庭的年收入x(x(单位单位:万元万元)和年饮食支出和年饮食支出y(y(单位单位:万元万元),),调查显示年收入调查显示年收入x x
27、与年饮食支出与年饮食支出y y具有线性相关具有线性相关关系关系,并由调查数据得到并由调查数据得到y y对对x x的回归直线方程的回归直线方程 =0.254x+=0.254x+0.321.0.321.由回归直线方程可知由回归直线方程可知,家庭年收入每增加家庭年收入每增加1 1万元万元,年饮食年饮食支出平均增加支出平均增加万元万元.【解析解析】由回归直线斜率的几何意义可知由回归直线斜率的几何意义可知,家庭年收入每增加家庭年收入每增加1 1万元万元,年饮食支出平均增加年饮食支出平均增加0.2540.254万元万元.答案答案:0.2540.254y6.(20136.(2013长春模拟长春模拟)我校高三
28、年级进行了一次水平测试我校高三年级进行了一次水平测试.用系用系统抽样的方法抽取了统抽样的方法抽取了5050名学生的数学成绩名学生的数学成绩,准备进行分析和研准备进行分析和研究究.经统计成绩的分组及各组的频数如下经统计成绩的分组及各组的频数如下:40,50),2;50,60),3;60,70),10;70,80),15;40,50),2;50,60),3;60,70),10;70,80),15;80,90),12;90,100,8.80,90),12;90,100,8.(1)(1)绘制样本的频率分布表绘制样本的频率分布表,画出频率分布直方图画出频率分布直方图.(2)(2)估计成绩在估计成绩在85
29、85分以下的学生比例分以下的学生比例.(3)(3)请你根据以上信息去估计样本的众数、中位数、平均请你根据以上信息去估计样本的众数、中位数、平均数数.(.(精确到精确到0.01)0.01)【解析解析】(1)(1)频率分布表频率分布表分组分组频数频数频率频率40,50)40,50)2 20.040.0450,60)50,60)3 30.060.0660,70)60,70)10100.20.270,80)70,80)15150.30.380,90)80,90)12120.240.2490,10090,1008 80.160.16合计合计50501 1频率分布直方图频率分布直方图(2)(2)成绩在成绩
30、在8585分以下的学生比例为分以下的学生比例为 100%=72%.100%=72%.(3)(3)众数为众数为75.0075.00,中位数在,中位数在7070,80)80)范围内,然后由范围内,然后由0.0040.00410+0.00610+0.00610+0.0210+0.0210+(x10+(x中中-70)-70)0.03=0.50.03=0.5,解得解得x x中中=76 76.67.=76 76.67.平均数为平均数为45450.04+550.04+550.06+650.06+650.2+750.2+750.3+850.3+850.24+950.24+950.160.16=76.20.=76.20.0.24(0.3 0.2 0.06 0.04)223