1、【高三数学知识点总结】统计1. 抽样的方法抽样一般分为简单随机抽样和分层抽样.(1) 简单随机抽样 从个体数为的总体中逐个不放回地取出个个体作为样本如果每个个体都有相同的机会被取到,那么这样的抽样方法称为简单随机抽样.方式一:抽签法步骤将总体中的个个体编号;将这个号码写在形状、大小相同的号签上;将号签放在同一箱中,并搅拌均匀;从箱中每次抽出1个号签,连续抽取次;将总体中与抽到的号签的编号一致的个个体取出.方式二:随机数表法将总体中的个体编号(每个号码位数一致);在随机数表中任选一个数作为开始;从选定的数开始按一定的方向读下去,若得到的号码在编号中,则取出;若得到的号码不在编号中或前面已经取出,
2、则跳过,如此继续下去,直到取满为止;根据选定的号码抽取样本.(2)分层抽样(按“比例抽样”)当总体由差异明显的几个部分组成时,为了使样本更客观地反映总体情况,我们常常将总体中的个体按不同的特点分成层次比较分明的几个部分,然后按各个部分在总体中所占的比实施抽样,这种抽样方法叫分层抽样.分层抽样的步骤:将总体按一定标准分层;计算各层的个体数与总体的个体数的比;按各层个体数占总体的个体数的比确定各层应抽取的样本容量;在每一层进行抽样(可用简单随机抽样).(3)两种抽样的联系类别特点相互联系适用范围共同点简单随机抽样从总体中逐个抽取总体中的个体数较少抽样过程中每个个体被抽到的可能性相同,均为分层抽样将
3、总体分成几层,按各层个体数之比抽取各层抽样时采用简单随机抽样总体由差异明显的几部分组成例1-1假设要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋牛奶进行检验,利用随机数表抽样时,先将800袋牛奶按000,001,799进行编号,如果从随机数表第8行第7列开始向右读,请你依次写出最先检测的5袋牛奶的编号 , , , , .(下面摘取了随机数表第7行至第9行)8442 1753 3157 2455 0688 7704 7447 6721 7633 5025 8392 1206 766301 6378 5916 9556 6719 9810 5071 7512 867
4、3 5807 4439 5238 793321 1234 2978 6456 0782 5242 0744 3815 5100 1342 9966 0279 54例1-2某工厂生产三种不同型号的产品,三种产品数量之比依次为,现采用分层抽样的方法从中抽出一个容量为的样本,样本中型号的产品有件,那么此样本容量 答:1-1: 785 667 199 507 175; 1-2:72.2. 总体分布的估计 用样本估计总体的方法之一是用样本的频率分布估计总体的分布,二是用样本的数字特征估计总体的数字特征.(1) 频率分布表制作频率分布表的步骤如下:求全距,决定组数和组距,组距=.(注:如果取全距时不利于分
5、组(如不能被组数整除),那么可以适当增大全距,如在左、右两端各增加适当范围(尽量使两端增加的量相同))分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间.登记频数,计算频率,列出频率分布表.(2) 频率分布直方图、折线图、总体密度曲线1. 作频率分布直方图的方法:把横轴分成若干段,每一线段对应1个组的组距,然后以此线段为底作矩形,它的高等于该组的,这样得到一系列的矩形,每个矩形的面积恰好是该组的频率.这些矩形就构成了频率分布直方图.性质:所有矩形的面积之和为1.2. 如果将频率分布直方图中各个相邻的矩形的上底边的中点顺次连结起来,那么就得到频率分布折线图.(注:取值区间两端点须分别向
6、外延伸半个组距,并取此组距上在轴上的点与折线的首、尾分别相连.)3.总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线例2-1某校从高一年级学生中随机抽取100名学生,将他们期中考试的数学成绩(均为整数)分成六段: 40,50),50,60),90,100后得到频率分布直方图(如下图所示),则分数在70,80)内的人数是 答:2-1:30. (3)平均数、方差、标准差如果有个数据则个数据的平均数为,方差为, 标准差为. 注:加权平均:若取值为的频率分别为则其平均数为 连续型分布(区间)求平均数问题,用
7、“组中值”近似估计. 方差越小,数据越稳定; 其他概念:极差:一组数据的最大值与最小值的差; 众数:一组数据中出现次数最多的数值;中位数:离散型数据:把所有数值按大小排序后,当变量值的项数N为奇数时,处于中间位置的变量值即为中位数;当N为偶数时,中位数则为处于中间位置的2个变量值的平均数。连续型数据:在中位数的左右两侧频率均为 性质:如果有个数据其平均数为,方差为,标准差为,则数据的平均数为,方差为,标准差为 例2-2.【2016江苏高考】已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是 .例2-3已知一组数据的方差为,则数据的方差是 答:2-2: 0.1; 2-3: 1
8、2.3.回归分析(1)变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系与函数关系不同,相关关系是一种非确定性关系2.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关(2)线性回归方程1.最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法 2.基本步骤由样本点形成散点图,判定是否具有线性相关关系;由最小二乘法,确定回归系数和回归截距,得到线性回归方程,其中称为样本中心点;依据线性回归方程作出预测为了回答模型的合理性问题,我们需要对变量x
9、与y的线性相关性进行检验(简称相关性检验)(3)相关系数r刻画线性相关程度的参数1.相关系数2.相关系数的性质:当则和正相关;当则和负相关; ;当越接近1,线性相关程度越高;当越接近0,线性相关程度越低. 3.对相关系数进行显著性检验的步骤:提出统计假设变量不具有线性相关关系;如果以的把握作出推断,那么可以根据与(是样本容量,表示自由度)在教材目录中查出一个的临界值(其中称为检验水平);计算样本相关系数;作出统计推断;(i) 若则否定表明有的把握认为变量与之间具有线性相关关系;(ii) 若则就目前数据而言,没有充分理由认为与之间具有线性相关关系.说明:1.对相关系数进行显著性检验,一般取检验水
10、平即可靠程度为;2.这里的指的是线性相关系数,的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.(4)相关指数刻画回归效果的参数1.残差(其中):实际值与估计值之间的差,残差平方和 越小,线性回顾模型的拟合效果越好.2.相关指数:表示解释变量对于响应变量变化的贡献率. 可以看出,越接近于1,表示残差平方和越小,表示模型的拟合效果越好.(5)非线性回归分析在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们选择适当的变量代换,把非线性方程转化为线性回归方程常见的非线性回归转化方法有:(1)“ya”型:令t,则有yabt;(2)“yaxb”型:令mln y
11、,tln x,则有mln abt;(3)“yaebx”型:令mln y,则有yln abx;(4)“yae”型:令mln y,t,则有yln abt;(5)“yabln x”型:令tln x,则有yabt.4.独立性检验 (1)22列联表已知分类变量X和Y,它们的取值分别为x1,x2,y1,y2,其22列联表如下(2)等高条形图:按列联表可制作等高条形图等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,所以常用等高条形图展示列联表数据的频率特征;观察等高条形图发现和(图中两段阴影条)相差很大,则判断两个分类变量有关系,且差异越大关系越强小结:“利用等高条形图判断两个分类变量相关程度”的步骤:统计列表画图(3)统计量2选取2作统计量,用它的大小检验变量之间是否相关(4)独立性检验临界值表当数据量较大时,在统计中,用以下结果对变量的独立性进行判断当22.706时,则没有充分的证据显示A和B有关系,也不能认为A和B没有关系;当22.706时,有90%的把握认为变量A,B有关系(犯错误的概率不超过0.1);当26.635时,有99%的把握认为变量A,B有关系(犯错误的概率不超过0.01);当210.828时,有99.9%的把握认为变量A,B有关系(犯错误的概率不超过0.001)