1、统统计计 【知识要点】【知识要点】 1随机抽样 总体、个体、样本:把所考察对象的某一个数值指标的全体构成的集合看成总体,构成 总体的每一个元素称为个体,从总体中抽出若干个体所组成的集合叫做样本 随机抽样:抽样时,保证每一个个体都可能被抽到,且每个个体被抽到的机会均等,满 足这样条件的抽样为随机抽样 简单随机抽样:从元素个数为 N 的总体中,不放回的抽取容量为 n 的样本,如果每一 次抽样时,总体中的各个个体有相同的可能性被抽到,这种抽样方法叫简单随机抽样 系统抽样:当总体个数很大时,可将总体分成均匀的若干部分,然后按照预先制定的规 则从每一部分抽取一个个体得到所需要的样本,这种抽样的方式叫做系
2、统抽样 分层抽样: 当总体由有明显差异的几部分组成时, 将总体中各个个体按某种特征分成若 干个互不重叠的几部分, 每一部分叫做层, 在各层中按层在总体中所占比例进行简单随机抽 样或系统抽样,这种抽样方法叫做分层抽样 三种抽样方法的比较 类别共同点各自特点联系适用范围 简单随机抽 样 (1)抽样过程中每个个体 被抽到的可能性相等 (2)每次抽出个体后不再 将它放回,即不放回抽 样 从总体中逐个抽取总体个数较 少 系统抽样 将总体均分成几部分, 按预先制定的规则在各 部分抽取 在起始部分抽样时 采用简单随机抽样 总体个数较 多 分层抽样 将总体分成几层,分层 进行抽取 分层抽样时采用简 单随机抽样
3、或系统 抽样 总体由差异 明显的几部 分组成 2用样本的频率分布估计总体的频率分布 常用频率分布表、频率分布直方图、频率分布折线图、茎叶图等统计图表来表示样本数 据,观察样本数据的特征,从而估计总体的分布情况 频率分布(表)直方图的画法步骤: (1)计算极差(用样本数据的最大值减去最小值) (2)决定组数与组距(组数组距极差) (3)决定分点 (4)列频率分布表 (5)绘制频率分布直方图 易见直方图中各个小长方形面积等于相应各组的频率,所有小长方形面积之和等于 1 频率分布折线图: 连结频率分布直方图各个长方形上边的中点, 就得到频率分布折线图 总体密度曲线:随着样本容量的增加,分组的组距不断
4、缩小,相应的频率分布折线图就 会越来越接近于一条光滑曲线, 这条光滑曲线就叫做总体密度曲线 总体密度曲线精确地反 映了一个总体在各个区域内取值的规律 茎叶图:茎指中间的一列数,叶是从茎的旁边生长出来的数在样本数据较少时,茎叶 图表示数据的效果较好它的突出优点是:统计图中没有原始数据的损失,所有的数据信息 都可以从茎叶图中得到;茎叶图可随时记录,方便表示 3用样本的数字特征估计总体的数字特征 样本数据的平均数:如果有 n 个数 x1,x2,xn,那么 n xxx x n 21 叫做这 n 个数的平均数 标准差:样本数据到平均数的一种平均距离,一般用 s 表示,其中 n xxxxxx S n 2
5、_ 2 _ 2 2 _ 1 )(.)()( 方差:标准差的平方 s2叫做差 n xxxxxx S n 2 _ 2 _ 2 2 _ 1 2 )(.)()( 4两个变量间的关系 散点图: 两个变量的关系可通过它们所对应的点在平面上表现出来, 这些点对应的图形 叫做散点图 线性相关: 若两个变量的散点图中所有点看上去都在一条直线附近波动, 则这两个变量 可近似看成具有线性相关关系 回归直线方程: 从散点图上看, 如果这些点从整体上看大致分布在通过散点图中心一条 直线附近,则这条直线叫做这些数据点的回归直线方程,记作 y bxa,其中 b 叫回归系 数 最小二乘法:假设我们已经得到两个具有线性相关关系
6、的变量的一组数组 ),( 11 yx,),( 22 yx,),( nn yx,求得, )( )()( 22 1 1 2 1 1 xnx yxnyx xx yyxx b i n i ii n i i n i ii n i xbya ,这时离差 n i ii xbayQ 1 2 )(最小,所求回归直线方程是axby . 这种求回归直线的方法称为最小二乘法 【复习要求】【复习要求】 1会用简单随机抽样方法从总体中抽取样本,了解分层抽样和系统抽样方法 2了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎 叶图,理解它们各自的特点 3理解样本数据标准差的意义和作用,会计算样本数据平
7、均数、标准差,并给出合理 解释 4会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字 特征,理解用样本估计总体的思想 5会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系了解 最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 【例题分析】【例题分析】 例例 1某单位 200 名职工的年龄分布情况如图,现要从中抽取 40 名职工作样本,用系 统抽样法,将全体职工随机按 1200 编号,并按编号顺序平均分为 40 组(15 号,610 号,196200 号)若第 5 组抽出的号码为 22,则第 8 组抽出的号码应是_,若用 分层抽样方法,则
8、40 岁以下年龄段应抽取_人 【分析】【分析】由已知系统抽样的组距为 5,所以相邻组间的号码相差 5;由饼形图可知 200 名职工中,50 岁以上人数:4050 岁人数:40 岁以下人数235,总样本为 40 人,分 层抽样抽取每层人数比例为 235 解:解:37;20 【评析【评析】系统抽样的特征是等距,也就是只要在一组内选定号码,其余各组的号码随之 选定,所选相邻号码的间隔为组距分层抽样的特征是按比例抽取,也就是每一层所选人数 占总选出人数的比例与每层人数占总人数的比例相等 抽样是统计分析的重要部分, 最常用 的抽样方法是简单随机抽样、 系统抽样和分层抽样, 抽样时每个个体被抽到的可能性相
9、等 简 单随机抽样常用抽签法和随机数表法 例例 2对某电子元件进行寿命追踪调查,情况如下: 寿命(h)100,200)200,300)300,400)400,500)500,600) 个数(个)2030804030 (1)列出频率分布表; (2)画出频率分布直方图; (3)估计电子元件寿命在100,400)以内的概率; (4)估计电子元件寿命在 400h 以上的概率 【分析】【分析】按要求列表、绘图,并用样本的分布估计总体的分布 解:解:(1)频率分布表 (2)(画图); (3)P0.100.150.400.65; (4)P10.650.35 寿命(h)频数频率 100,200)200.10
10、200,300)300.15 300,400)800.40 400,500)400.20 500,600)300.15 合计2001.00 【评析【评析】 频率分布表和频率分布直方图是用统计的方法对样本数据加以概括和总结 列 频数分布表时,要区分频数和频率的意义,画频率分布直方图时要注意横、纵坐标代表的意 义和单位 频率分布指的是一个样本数据在各拿小范围内所占比例的大小, 常用样本数据落 在某个范围的频率估计总体落在这个范围的概率 频率分布直方图中众数是最高矩形中点的 横坐标,中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标 例例 3(海南)从甲、乙两品种的棉花中各抽测了 2
11、5 根棉花的纤维长度(单位:mm),结 果如下: 甲品种:271273280285285287292294295301303303307 308310314319323325325328331334337352 乙品种:284292295304306307312313315315316318318 320322322324327329331333336337343356 由以上数据设计了如下茎叶图 根据以上茎叶图,对甲、乙两品种棉花的纤维长度作比较,写出两个统计结论: _; _ 【分析【分析】抽样数据比较分散,很难观察数据的分布特征,通过茎叶图展现了样本数据的 分布通过茎叶图可观察出平均数、众
12、数、中位数,数据分布的对称性等等,由于茎叶图保 留了原始数据,还可计算平均数、方差、标准差 解:解:(可任选两个作答)(1)乙品种棉花的纤维平均长度大于甲品种棉花的纤维平均长度; (2)甲品种棉花的纤维长度较乙品种棉花的纤维长度更分散(或乙品种棉花的纤维长度较 甲品种棉花的纤维长度更集中); (3)甲品种棉花的纤维长度的中位数为 307mm,乙品种棉花的纤维长度的中位数 为 318mm; (4)乙品种棉花的纤维长度基本上是对称的,而且大多集中在中间(均值附近),甲品种棉 花的纤维长度除一个特殊值(352)外,也大致对称,其分布较均匀; 【评析【评析】茎叶图是统计图表的一种,它具有统计图表的一般
13、功能:通过样本的数据分布 推断总体的分布,通过样本的数字特征估计总体的数字特征本题中的统计结论,是指用样 本的特征估计总体特征得到的结论 例例 4图 1 是某县参加 2007 年高考的学生身高条形统计图,从左到右的各条形表示 的学生人数依次记为 A1、A2、Am(如 A2表示身高(单位:cm)在150,155)内的学生人 数)图 2 是统计图 1 中身高在一定范围内学生人数的一个算法流程图现要统计身高在 160180cm(含 160cm,不含 180cm)的学生人数,那么在流程图中的判断框内应填写的 条件是_ 图 1图 2 【分析【分析】条形图的横坐标是身高,纵坐标为每个身高区间内的人数条形图
14、没有提供具 体的数据信息程序框图的算法含义是统计160,180)内学生人数,即求 A4A5A6A7 的和 解:解:i8 或 i7 【评析【评析】设计算法利用计算机完成数据的统计工作,是实际统计工作中经常应用的除 了可以完成计数工作外,还可排序、求最值,利用公式进行各种计算等等将算法和统计一 起考查是新课程的一个特色 例例 5甲乙两位运动员在相同的条件下分别射击 10 次,记录各次命中环数如下: 甲:8,8,6,8,6,5,9,10,7,4 乙:9,5,7,8,7,6,8,6,8,7 (1)分别计算他们射击环数的平均数及标准差; (2)判断他们设计水平谁高,谁的射击情况更稳定? 【分析【分析】平
15、均数、标准差分别反映了两个选手的射击水平和稳定程度,平均数越高说明 选手射击水平越高,标准差越小说明选手发挥越稳定 解:解:(1)甲的平均数为 7.1,标准差为 1.758;乙的平均数为 7.1,标准差为 1.136; (2)从平均值上看,两人的水平相当;从标准差上看,乙的情况更稳定 【评析【评析】平均数反映的是平均水平的高低,方差和标准差反映的是数据的离散程度如 果样本数据中每个数都增加数 a,则它的平均数也增加 a,但是它的标准差不变,因为数据 的离散程度没有变化由于方差与原始数据的单位不同,而且可能夸大了偏离程度,实际解 决问题中常采用标准差 例例 6假定关于某设备的使用年限 x 和所支
16、出费用 y(万元),有如下的统计资料 使用年限 x23456 维修费用 y2.23.85.56.57.0 (1)请画出上表数据的散点图; (2)根据上表数据,用最小二乘法求出线性回归方程axby ; (3)估计使用 10 年时,维修费用是多少? 【分析】【分析】利用描点法画出散点图,用公式 xbya xnx yxnyx b i n i ii n i , 2 2 1 1 求得回归直线方程,取 x10 求得结果 解:解:(1)散点图如图 (2)y0.081.23x (3)12.38 【评析【评析】判断两个变量有无相关关系时,散点图直观简便,这是一道应用问题,通过回 归直线方程分析使用年限和维修费用
17、的关系 例例 7某工厂有工人 1000 名,其中 250 名工人参加过短期培训(称为 A 类工人),另外 750 名工人参加过长期培训(称为 B 类工人),现用分层抽样方法(按 A 类、B 类分二层)从该 工厂的工人中共抽查100名工人, 调查他们的生产能力(此处生产能力指一天加工的零件数) ()求甲、乙两工人都被抽到的概率,其中甲为 A 类工人,乙为 B 类工人; ()从 A 类工人中的抽查结果和从 B 类工人中的抽查结果分别如下表 1 和表 2 表 1: 生产能力分组100,110)110,120)120,130)130,140)140,150) 人数48x53 表 2 生产能力分组110
18、,120)120,130)130,140)140,150) 人数6y3618 (i)先确定 x,y,再在答题纸上完成下列频率分布直方图就生产能力而言,A 类工人中 个体间的差异程度与 B 类工人中个体间的差异程度哪个更小?(不用计算, 可通过观察直方图 直接回答结论) 图 1 A 类工人生产能力的频率分布直方图 图 2 B 类工人生产能力的频率分布直方图 (ii)分别估计 A 类工人和 B 类工人生产能力的平均数,并估计该工厂工人的生产能力的 平均数(同一组中的数据用该组区间的中点值作代表) 【分析】【分析】(1)相互独立事件同时发生的概率用乘法公式(2)画出直方图,从图中分析数据 信息 解:
19、解:()甲乙被抽到的概率都是 10 1 ,而且事件“甲工人被抽到”与“乙工人被抽到” 相互独立,所以甲、乙两工人都被抽到的概率 100 1 10 1 10 1 p A 类工人中和 B 类工人中分别抽查 25 名和 75 名 ()(i)由 48x5325,得 x5;6y361875,得 y15 频率分布直方图如下 图 1 A 类工人生产能力的频率分布直方图 图 2 B 类工人生产能力的频率分布直方图 从直方图可以判断:B 类工人中个体间的差异程度更小 ,123145 25 3 135 25 5 125 25 5 115 25 8 105 25 4 )ii( Ax , 8 .133145 75 1
20、8 135 75 36 125 75 15 115 75 6 Bx 1 .1318 .133 100 75 123 100 25 x. A 类工人生产能力的平均数,B 类工人生产能力的平均数以及全厂工人生产能力的平均 数的估计值分别为 123,133.8 和 131.1 【评析【评析】本题是一道综合应用题,通过语言叙述和图表给出信息频率分布直方图反映 了数据分布的情况,数据的差异大小及数据的方差大小 练习练习 一、选择题一、选择题 1某校高三年级有男生 500 人,女生 400 人,为了解该年级学生的健康情况,从男生中任 意抽取 25 人,从女生中任意抽取 20 人进行调查这种抽样方法是()
21、A简单随机抽样法B抽签法 C随机数表法D分层抽样法 2从容量为 N 的总体中抽取容量为 n 的样本,若采用系统抽样法,则抽样间隔为() A n N BnC n N D1 n N 3下图是根据山东统计年整 2007中的资料做成的 1997 年至 2006 年我省城镇居民百户 家庭人口数的茎叶图图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百 位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字,从图中可以 得到 1997 年至 2006 年我省城镇居民百户家庭人口数的平均数为() A304.6B303.6C302.6D301.6 4甲、乙、丙三名射箭运动员在某次测试中各射箭
22、20 次,三人的测试成绩如下表 甲的成绩乙的成绩丙的成绩 环数78910环数78910环数78910 频数5555频数6446频数4664 s1,s2,s3分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则有() As3s1s2Bs2s1s3 Cs1s2s3Ds2s3s1 二、填空题二、填空题 5 要考察某公司生产的 500 克袋装牛奶的质量是否达标, 现从 800 袋牛奶中抽取 60 袋进行 检验,将它们编号为 001,002,800,利用随机数表抽取样本,从第 7 行第 1 个数 开始,依次向右,再到下一行,继续从左到右请问选出的第七袋牛奶的标号是_ (为了便于说明,下面摘取了随机数表的
23、第 6 行至第 10 行) 16 22 77 94 39 49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64 84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76 63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79 33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 9
24、9 66 02 79 54 57 60 86 32 44 09 47 27 96 54 49 17 46 09 62 90 52 84 77 27 08 02 73 43 28 6为了调查某厂工人生产某种产品的能力,随机抽查了 20 位工人某天生产该产品的数 量产品数量的分组区间为45,55),55,65),65,75),75,85),85,95),由此得 到频率分布直方图如图,则这 20 名工人中一天生产该产品数量在55,75)的人数是_ _ 7 将一组数据中的每一个数据都减去 10 得到一组新的数据, 如果这组新数据的平均数和方 差分别为 1.2 和 0.4,那么原来一组数据的平均数和方差
25、分别为_ 8随机抽取某产品 n 件,测得其长度分别为 a1,a2,an则如图所示的程序框图输出 的 s_,s 表示的样本的数字特征是_ 三、解答题三、解答题 9某公司在过去几年内使用某种型号的灯管 1000 支,该公司对这些灯管的使用寿命(单位: 小时)进行了统计,统计结果如下表所示: 分组 500, 900)900,1100)1100,1300)1300,1500)1500,1700)1700,1900)1900,) 频数4812120822319316542 频率 (1)将各组的频率填入表中; (2)画出频率分布直方图; (3)根据上述统计结果,计算灯管使用寿命不足 1500 小时的频率; (4)该公司某办公室新安装了这种型号的灯管 3 支,若将上述频率作为概率,试求至少有 2 支灯管的使用寿命不足 1500 小时的概率 10下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量 x(吨)与相应的生产 能耗 y(吨标准煤)的几组对照数据 x3456 y2.5344.5 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小乘法求出 y 关于 x 的线性回归方程abxy; (3)已知该厂技改前 100 吨甲产品的生产能耗为 90 吨标准煤 试根据(2)求出的线性同归 方程,预测生产 100 吨甲产品的生产能耗比技改前降低多少吨标准煤?