1、 9 . 1 . 29 . 1 . 2 分 层 随 机 抽 样分 层 随 机 抽 样1. 1. 简单随机抽样的概念简单随机抽样的概念: :简单随机抽样的特点简单随机抽样的特点: :2 2. . 简单随机抽样的常用方法:简单随机抽样的常用方法:机会均等抽样机会均等抽样. . 总体个数有限;总体个数有限;逐个进行抽取;逐个进行抽取;抽签法;抽签法; 随机数表法随机数表法. . 设一个总体含有设一个总体含有有限个个体有限个个体,并记其个体数为,并记其个体数为N如果通过如果通过逐逐个抽取个抽取的方法从中抽取一个样本,且每次抽取时的方法从中抽取一个样本,且每次抽取时各个个体被抽到的各个个体被抽到的机会相
2、等机会相等,就称这样的抽样为,就称这样的抽样为简单随机抽样简单随机抽样. 3. 3. 总体均值与样本均值总体均值与样本均值NiiNYNNYYYY1211niinynnyyyy1211用样本的平均数估计总体的平均数用样本的平均数估计总体的平均数复习回顾复习回顾 抽样调查最核心的问题是什么?抽样调查最核心的问题是什么?会不会出现样本中会不会出现样本中5050个个体大部分来自高个子或矮个子的情形?个个体大部分来自高个子或矮个子的情形?为什么会出现这种为什么会出现这种“极端样本极端样本”?如何避免这种如何避免这种“极端样本极端样本”?样本的代表性样本的代表性会会抽样结果的随机抽样结果的随机性个体差异较
3、大性个体差异较大分组抽样,减少组内差距分组抽样,减少组内差距引例 在高一年级的在高一年级的 712 名学生中,名学生中, 男生有男生有 326 名、女生有名、女生有 386 名名. 现现欲了解全体高一年级学生的平均身高,要从中抽取一个欲了解全体高一年级学生的平均身高,要从中抽取一个容量为容量为50的样本的样本,可以采取可以采取简单随机抽样简单随机抽样的方式的方式.引入新课引入新课 高一女生群体与男生群体的身高差别较为明显,所以可分成高一女生群体与男生群体的身高差别较为明显,所以可分成男生和女男生和女生两个子总体生两个子总体. .将身高相差不多的学生放在一个将身高相差不多的学生放在一个类类中中,
4、从中随机抽取一些个体,也可以,从中随机抽取一些个体,也可以较准确地了解该类的身高信息较准确地了解该类的身高信息调查前我们无法获知学生的身高数据,显然也就无法根据身高对总调查前我们无法获知学生的身高数据,显然也就无法根据身高对总体进行分类体进行分类. .能不能通过能不能通过其他指标或信息其他指标或信息对学生进行对学生进行分类分类,使得同类,使得同类的学生身高差异尽量小呢?的学生身高差异尽量小呢?高一阶段,影响学生身高的主要因素是什么呢?高一阶段,影响学生身高的主要因素是什么呢?如何避免这种如何避免这种“极端样本极端样本”?分组抽样,减少组内差距分组抽样,减少组内差距引例 在高一年级的在高一年级的
5、 712 名学生中,名学生中, 男生有男生有 326 名、女生有名、女生有 386 名名. 现现欲了解全体高一年级学生的平均身高,要从中抽取一个欲了解全体高一年级学生的平均身高,要从中抽取一个容量为容量为50的样本的样本,可以采取可以采取简单随机抽样简单随机抽样的方式的方式.对男生、女生分别进行简单随机抽样,样本量在男生、女生中应如何分配?对男生、女生分别进行简单随机抽样,样本量在男生、女生中应如何分配?无论是男生还是女无论是男生还是女生,生,每个学生被抽每个学生被抽到的可能性相等到的可能性相等. .引例 在高一年级的在高一年级的 712 名学生中,名学生中, 男生有男生有 326 名、女生有
6、名、女生有 386 名名. 现现欲了解全体高一年级学生的平均身高,要从中抽取一个欲了解全体高一年级学生的平均身高,要从中抽取一个容量为容量为50的样本的样本,可以采取可以采取简单随机抽样简单随机抽样的方式的方式.合在一起就可以得合在一起就可以得到一个容量为到一个容量为5050的的样本样本. . 一般地,按一般地,按一个或多个变量一个或多个变量把把总体总体划分成若干个划分成若干个子总体子总体,每个,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有机抽样,再把所有子总体中抽取的样本子总体中抽取的样本合在一起作为
7、合在一起作为总样本总样本,这样,这样的抽样方法称为的抽样方法称为分层随机抽样分层随机抽样(stratified random sampling),),每一个子总体每一个子总体称为称为层层. 在分层随机抽样中,如果在分层随机抽样中,如果每层样本量都与层每层样本量都与层的大小成比例的大小成比例,那么称这种样本量的分配方式为,那么称这种样本量的分配方式为比例分配比例分配.探究新知探究新知 每一层抽取的样本数=总样本量该层个体数总体个体数=抽样比例该层个体数mnMN 每每层层样样本本量量总总样样本本量量 每每层层的的个个体体数数总总体体的的比比分分配配:个个体体数数例例1. 分层随机抽样的定义分层随机
8、抽样适用于分层随机抽样适用于总体由差异明显总体由差异明显的几个部分组成的情况。的几个部分组成的情况。比例分配比例分配的分层随机抽样是的分层随机抽样是等可能抽样等可能抽样,如果层数分为,如果层数分为 2层,第层,第 1 层层和第和第 2 层包含的个体数分别为层包含的个体数分别为M和和N,抽取的样本数分别抽取的样本数分别m和和n。2. 分层随机抽样的特点综合每层抽样,组成样本综合每层抽样,组成样本. .各层分别按各层分别按简单随机抽样简单随机抽样方法抽取方法抽取. .将总体分成将总体分成互不交叉的层互不交叉的层. .3. 分层随机抽样的步骤计算计算样本容量与总体的个体数之比,样本容量与总体的个体数
9、之比,按按比例比例确定确定各层要抽取的各层要抽取的个体数个体数例题1 某公司在甲、乙、丙、丁四个地区分别有某公司在甲、乙、丙、丁四个地区分别有150个、个、120个、个、180个、个、150个销售点,公司为了调查产品的销售情况,需从这个销售点,公司为了调查产品的销售情况,需从这600个销售点中抽取一个容量为个销售点中抽取一个容量为100的样本,记这项的样本,记这项调查为调查为;在丙地区中有在丙地区中有20个特大型销售点,要从中抽取个特大型销售点,要从中抽取7个调查其销售收个调查其销售收入和售后服务等情况,记这项入和售后服务等情况,记这项调查为调查为. 完成这两项调查宜分别采用什么方法?完成这两
10、项调查宜分别采用什么方法?用分层随机抽样,用分层随机抽样,用简单随机抽样用简单随机抽样.例题巩固例题巩固 2.为了调查城市为了调查城市PM2.5的情况,按地域把的情况,按地域把48个城市分成大型、个城市分成大型、中型、小型三组,相应的城市数分别为中型、小型三组,相应的城市数分别为8,16,24.若用分层若用分层随机抽样的方法抽取随机抽样的方法抽取12个城市,则应抽取的中型城市数为个城市,则应抽取的中型城市数为()() A.3B.4 C.5 D.6例题巩固例题巩固 方法点拨方法点拨 .在简单随机抽样中如何估计总体平均数?在简单随机抽样中如何估计总体平均数?.那么在分层随机抽样中如何估计总体平均数
11、呢?那么在分层随机抽样中如何估计总体平均数呢?探究新知探究新知 是否也可以直接是否也可以直接用样本平均数进用样本平均数进行估计?行估计?在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别m和n.我们用X1, X2, , XM表示第1层各个个体的变量值,用x1, x2, , xm表示第1层被抽取样本的各个个体的变量值;用Y1, Y2, , YN表示第2层各个个体的变量值,用y1, y2, , yn表示第2层被抽取样本的各个个体的变量值,这样:4. 分层随机抽样的平均数样本平均数进行估样本平均数进行估计总体平均数计总体平均数第1层的总体平均数和样本平均数分
12、别为,11MiiM21XMMXXXX.xmmxxxxm1iim211第2层的总体平均数和样本平均数分别为,1N1iiN21YNNYYYY.ynnyyyyn1iin211总体平均数和样本平均数分别为,NMYXWN1iiM1ii.nmyxwn1iim1ii探究新知探究新知 由于可以用第1层的样本平均数 估计第1层的总体平均数 ,可以用第2层的样本平均数 估计第2层的总体平均数 ,因此我们可以用xXyYyNMNxNMMNMyNxM估计总体平均数 .W在比例分配的分层随机抽样中,,NMnmNnMm可得 因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数 估计总体平均数 .Wwwynmnxnmm
13、yNMNxNMM探究新知探究新知 与考察简单随机抽样估计效果类似与考察简单随机抽样估计效果类似, ,小明也想通过多次抽样考察一下小明也想通过多次抽样考察一下分层随机抽样的分层随机抽样的估计效果估计效果. .他用比例分配的分层随机抽样方法,从高一年他用比例分配的分层随机抽样方法,从高一年级的学生中抽取了级的学生中抽取了1010个样本量为个样本量为5050的样本的样本, ,计算出样本平均数如下表所示计算出样本平均数如下表所示, ,与上一小节与上一小节“探究探究”中相同样本量的简单随机抽样的结果比较中相同样本量的简单随机抽样的结果比较, ,小明有了小明有了一个重要的发现一个重要的发现. .你是否也有
14、所发现你是否也有所发现? ?抽样序号12345678910男生样本的平均数170.0 170.7 169.8 171.7 172.7 171.9 171.6 170.6 172.6 170.9女生样本的平均数162.2 160.3 159.7 158.1 161.1 158.4 159.7 160.0 160.6 160.2总样本的平均数165.8 165.1 164.3 164.3 166.4 164.6 165.2 164.9 166.1 165.1 我们把分层随机抽样的平均数与上一小节样本量为50的简单随机抽样的平均数用下图形进行表示,其中粉红线表示整个年级学生身高的平均数.探究新知探究
15、新知 从试验结果看,分层随机抽样的样本平均数围绕总体平均数波动,与简单随机抽样的结果比较,分层随机抽样并没有明显优于简单随机抽样.但相对而言,分层随机抽样的样本平均数波动幅度更均匀,简单随机抽样中出现了一个(第2个)偏离总体平均数的幅度比较大的样本平均数,即出现了比较“极端”的样本,而分层随机抽样没有出现.探究新知探究新知 162.5163163.5164164.5165165.5166166.516712345678910简单随机抽样分层随机抽样实际值 实际上,在个体之间差异较大的情形下, 只要选取的分层变量合适,使得各层间差异明显、层内差异不大, 分层随机抽样的效果一般会好于简单随机抽样,
16、也好于很多其他抽样方法. 分层随机抽样的组织实施也比简单随机抽样方便, 而且除了能得到总体的估计外,还能得到每层的估计.探究新知探究新知 选择抽样方法的规律:选择抽样方法的规律:(1)当当总体总体的个体数和的个体数和样本量样本量都都较小较小时,可采用抽签法时,可采用抽签法.(2)当当总体总体的个体数的个体数较大较大,样本量较小样本量较小时,可采用随机数法时,可采用随机数法.(3)当总体按当总体按一个或多个变量一个或多个变量可划分为可划分为若干个层若干个层时,采用分层随机抽样时,采用分层随机抽样.简单随机抽样和分层随机抽样异同:类 别共同点各自特点联 系适 用 范 围 简单随机抽 样(1) 抽样
17、过程中每个个体被抽到的可能性相等;(2) 每次抽出个体后不再将它放回,即不放回抽样.从总体中逐个抽取各层抽样时采用简单随机抽样总体个数较少分层随机抽样将总体分成几层,分层进行抽取 总体由差异明显的几部分组成 归纳提升归纳提升分层随机抽样的步骤分层随机抽样的步骤 9.1.39.1.3获取数据的途获取数据的途径径1.通过通过调查调查获取数据获取数据:对于有限总体问题,一般通过抽样调对于有限总体问题,一般通过抽样调查或普查的方法获取数据查或普查的方法获取数据.2.通过通过试验试验获取数据获取数据:通过试验获取数据时,我们需要严格控通过试验获取数据时,我们需要严格控制试验环境,通过精心的设计安排试验,
18、以提高数据质量,为制试验环境,通过精心的设计安排试验,以提高数据质量,为获得好的分析结果奠定基础获得好的分析结果奠定基础.3.通过通过观察观察获取数据获取数据:通过观察自然现象所获取的数据性质比通过观察自然现象所获取的数据性质比较复杂,其中蕴含着所观察现象的本质信息,这些信息十分宝较复杂,其中蕴含着所观察现象的本质信息,这些信息十分宝贵,统计学理论和方法是挖掘这些信息的强有力的工具之一贵,统计学理论和方法是挖掘这些信息的强有力的工具之一.4.通过通过查询查询获得数据获得数据:我们可以收集前人的劳动成果并加以利用,我们可以收集前人的劳动成果并加以利用,从而减少收集数据的成本从而减少收集数据的成本. 我们往往把这样获得的数据叫做我们往往把这样获得的数据叫做二手数二手数据据. 随着信息技术的发展,通过互联网获取数据越来越成为获取二随着信息技术的发展,通过互联网获取数据越来越成为获取二手数据的主要方式手数据的主要方式. 但从网络上查找的数据,因为数据来历和渠道但从网络上查找的数据,因为数据来历和渠道多样,所以质量会参差不齐,必须根据问题背景知识多样,所以质量会参差不齐,必须根据问题背景知识“清洗清洗”数数据,去伪存真,为进一步的数据分析奠定基础据,去伪存真,为进一步的数据分析奠定基础。