第七章-抽样推断课件.ppt

上传人(卖家):晟晟文业 文档编号:4514968 上传时间:2022-12-16 格式:PPT 页数:65 大小:2.67MB
下载 相关 举报
第七章-抽样推断课件.ppt_第1页
第1页 / 共65页
第七章-抽样推断课件.ppt_第2页
第2页 / 共65页
第七章-抽样推断课件.ppt_第3页
第3页 / 共65页
第七章-抽样推断课件.ppt_第4页
第4页 / 共65页
第七章-抽样推断课件.ppt_第5页
第5页 / 共65页
点击查看更多>>
资源描述

1、一、抽样估计的概念与特点一、抽样估计的概念与特点1.1.抽样估计的概念抽样估计的概念v 抽样估计也叫抽样调查、抽样推断,实抽样估计也叫抽样调查、抽样推断,实际上包括两部分,即抽样调查和抽样推断。际上包括两部分,即抽样调查和抽样推断。即从所研究的对象总体中,按照随机原则抽即从所研究的对象总体中,按照随机原则抽选一部分单位构成一个样本,通过对样本中选一部分单位构成一个样本,通过对样本中所有单位的调查,取得样本资料,根据样本所有单位的调查,取得样本资料,根据样本资料推断总体特征的方法。在该定义中要注资料推断总体特征的方法。在该定义中要注意以下几点:意以下几点:部分与全部。统计抽样调查是以抽选总体里的

2、部部分与全部。统计抽样调查是以抽选总体里的部分单位为调查对象的特征,其部分是来自于总体分单位为调查对象的特征,其部分是来自于总体的并按照一定原则抽取单位。的并按照一定原则抽取单位。随机原则。是指抽样调查在总体中抽取部分单位随机原则。是指抽样调查在总体中抽取部分单位时应遵循的原则,该原则要求在抽取代表单位时,时应遵循的原则,该原则要求在抽取代表单位时,必须随机(非主观)的对待每一单位,使总体中必须随机(非主观)的对待每一单位,使总体中的每一单位被抽取的可能性都相等,即保证各单的每一单位被抽取的可能性都相等,即保证各单位等可能被抽取的原则就是随机原则。位等可能被抽取的原则就是随机原则。部分特征与全

3、部特征的关系。来自总体的部分特征与全部特征的关系。来自总体的部分单位,自然包含了有关总体分布的信部分单位,自然包含了有关总体分布的信息,适当而又有效地利用这些信息,即根息,适当而又有效地利用这些信息,即根据随机得到的部分单位的特征与总体的相据随机得到的部分单位的特征与总体的相应特征的相互关系,才能作出尽可能好的应特征的相互关系,才能作出尽可能好的对总体相应特征的推断。对总体相应特征的推断。对总体的认识。抽样推断的目的是了解和对总体的认识。抽样推断的目的是了解和认识总体全部单位的特征,而非部分单位认识总体全部单位的特征,而非部分单位的特征。所以对部分单位的研究只是一种的特征。所以对部分单位的研究

4、只是一种手段,因为它带有总体相应特征的信息,手段,因为它带有总体相应特征的信息,通过它可以达到认识总体的目的。通过它可以达到认识总体的目的。v2.2.抽样估计的特点与作用抽样估计的特点与作用v(1)(1)部分单位的选择,是依据随机原则抽选的部分单位的选择,是依据随机原则抽选的-随机性随机性。v(2)(2)它是由部分推及全体的方法,即通过对部分现它是由部分推及全体的方法,即通过对部分现象的了解,推断估计全体现象(总体)的各种特象的了解,推断估计全体现象(总体)的各种特征征-推断性推断性。v(3)(3)推断是在一定把握程度下进行的,即推断的可推断是在一定把握程度下进行的,即推断的可能误差是受到有效

5、控制的能误差是受到有效控制的-误差可控性误差可控性。v(4)(4)抽样推断是现代统计学的中心内容,抽样调查抽样推断是现代统计学的中心内容,抽样调查也是现代社会调查的主要的调查方法之一。也是现代社会调查的主要的调查方法之一。v(5)(5)抽样推断的作用不仅是解决了无法进行的全面抽样推断的作用不仅是解决了无法进行的全面调查问题,还可以节省调查成本。还具有省时,调查问题,还可以节省调查成本。还具有省时,省力、登记误差较小等优点。省力、登记误差较小等优点。总体样本 抽样 随机性样本指标总体指标推断误差可控性抽样推断过程抽样推断过程v二、总体和样本v(一)总体v 总体也称为全及总体或母体。是指所要认识的

6、对象全体,它由具有某种共同性质的许多单位所组成。总体的单位数通常都是很大的,甚至是无限的。一般用大写字母N表示总体单位数。v 总体按其中包含的单位数可以分为有限总体和无限总体。v(二)样本v 样本也称为样本总体或子样。它是作为全及总体的一个代表而存在的。样本中也有许多个体,组成样本的单位也称为样本单位。样本中所包含的单位数称为样本容量,通常用n表示。v 样本可分为大样本和小样本。若n30,则称为小样本。否则称为大样本。一般,社会经济现象都是大样本。自然实验多是小样本。v 研究对象一经确定,则总体也就唯一确定了。但作为观察对象的样本就不是这样的。从一个总体中可以抽取很多个样本,每次可能抽到哪个样

7、本不是确定的,也不是唯一的。v三、随机原则和随机性v 随机原则是指在抽样前或抽样过程中,应保证总体中的每个单位都处在平等地位上,即都有相同的被抽中的可能性(概率)。根据这一原则,抽样者要在不带任何主观意愿,并排除一切外来因素干扰的条件下随意地抽取单位组成样本。随机性原则是抽样时必须遵循的原则。v 依据随机原则抽选的样本,我们称其具有随机性。v四、总体指标和样本指标v 样本是总体的代表,所以总体指标和样本指标是一一对应的。总体指标也称为总体参数,是不变的、未知的,也是客观存在的。样本指标也称为样本统计量,通过调查,是可以知道的,但每个样本的样本指标是不完全相同的,也就是说样本指标是一个随机变量。

8、v 假定总体由X1,X2,XN组成。v 样本由x1,x2,xn 组成。总体指标样本指标单位数(容量)Nn平均数标准差比例(成数)比例标准差NXXnxxNXX2)(1)(2nxxSNNNNP011nnnnp011)1(PPP)1(ppSp N1表示总体中具有某种性质的单位数 n1表示样本中具有某种性质的单位数v一、简单随机抽样(纯随机抽样)v 这种抽样方式是对随机原则不加任何限制,直接从总体中抽取样本。我们平时所见的抽签,抓阉,以及各种奖券的摇奖都是这种方式。简单随机抽样有直接抽选法、抽 签 法、随 机 数 表 法 等 三 种 方 法。v 简单随机抽样又分为重复(重置)抽样和不重复(不重置)抽样

9、两种形式。v 重复抽样是指每抽取一个单位后还将其放回到总体中去,再抽取下一个单位。这样保证每次抽取时总体构成不变,而每个个体可能被抽中多次。每次每个个体中选概率为1/N。v 不重复抽样是每次抽中的单位不再放回总体中去,这样每个个体最多只可能被抽中一次。虽然不重复抽样每次抽取之后总体容量和构成都在发生变化,但它仍能保证每个个体中选概率相等。v 简单随机抽样主要适合总体容量不是很大,所观察的特征分布比较均匀的情况。v二、等距抽样(机械抽样、系统抽样)v 将总体单位编号排序(可按时间顺序、空间顺序或其它顺序编号),然后由样本容量和总体容量的比值确定出抽取间距,每隔一(固定的)间距,抽取一个单位。v

10、例:从已有某种顺序(如学号顺序)的 1000人中要抽取50人为样本进行调查,则比值为5%,也就是每20人中抽1人。首先从120号中以简单随机方式抽取一个号码,比如抽中12号,当第一个号码确定后,以后要抽的单位就都确定了,32,52,992。这50个号码所代表的人构成的样本就是等距抽样的一个样本。v 等距抽样是按间距把总体分为若干距离相等的组,当第一组选择的位置确定后,后面各组中所抽的样本单位也就随之确定了,因此,这种抽样方式的随机性远不如简单随机抽样。特别是当总体单位的排列呈现出某种周期性时,采用这种方式会导致样本出现倾向性偏差。所以等距抽样适用于总体容量较大,各单位已有现成编号,且样本单位在

11、总体中分布均匀的情况。v三、类型抽样(分层抽样)v 当总体内部各单位之间性质差异较大时,我们可以将总体按与有关的主要标志划分为若干类,使每一类内性质相近,然后在每一类别中分别抽取单位构成样本。v 例如,要对某行业的100个工厂的劳动生产率作抽样调查(已知劳动生产率与工厂规模有关)。则首先需将总体分为大、中、小厂三种类型。如果已知100个工厂中有6个大厂、20个中厂、74个小厂,现确定样本容量为20,那么各类中样本容量按 比例分配应为:大型厂 6X20/100=1.21(个)中型厂 20X20/100=4(个)小型厂 74X20/100=14.815(个)这就是说应随机地从大厂中抽取1个单位,从

12、中、小型厂中分别抽4个和15个单位。这20个厂组成一个样本。v 类型抽样的前提是对总体有比较充分的了解,且总体内部有比较明显的差异。这时采用类型抽样可得到对总体更具代表性的样本。v四、整群抽样v 整群抽样是将总体分为若干群,并尽量使这些群之间没有明显的类别差异,然后,以群为单位,在这些群中随机地抽取一个或几个群作为样本,样本包括被抽中群中的全部单位。v 假定将总体分为m群,从中抽取k群,则每个个体中选的概率为k/m。v 整群抽样适用于总体容量很大的情况,一般多用于居民家计调查,农产量调查和大量产品的质量检验等等。v五、多阶段抽样v 当总体规模很大时,采用整群抽样的样本容量仍然很大时,可采用多阶

13、段抽样,这时可对所抽中群再进行抽样,从被抽中群中再抽取部分组成样本。这种方法叫两阶段抽样。依此类推,在多次分组的基础上,还可进行多阶段抽样。v 如农产量抽样调查,可以首先抽县,再从选中县中抽选乡,然后再从选中乡中抽选地块实割实测,取得样本产量资料。v一、可能样本与抽样分布v1.可能样本v 可能样本是指总体容量N和样本容量n都确定后,总体中每一个可能被抽中的样本。v 一次抽样的全部可能样本数目,由总体容量N,样本容量n和抽样方式决定。对于一个无限总体,则可能样本数也是无限的。v考虑顺序的可能样本v重复抽样:v不重复抽样:v不考虑顺序的可能样本v重复抽样:v不重复抽样:nNnNPnnNC1nNCv

14、2.样本分布v 样本分布是指由全部可能样本依某一样本指标的变动而形成的次数或比率分布。例如样本平均数的抽样分布(简称样本平均数分布),就是全部样本依各个样本的平均数值归类整理得到的。其他如样本比例分布、样本标准差分布都是如此得到的。v1.样本平均数的平均数(数学期望)等于总体平均数。v2.样本平均数的方差等于总体方差的1/n乘以修正因子。Xx122NnNnxv二、抽样推断的理论依据v1.大数定律(大数法则)v 大数法则证明:如果随机变量总体存在着有限的平均数和方差,则对于充分大的样本单位数n,可以用几乎趋近于的概率,来期望样本平均数与总体平均数的绝对离差为任意小,即对于任意的正数有:v2.中心

15、极限定理1)(XxPLimn 正态分布的性质:(1)以平均数为中心的轴对称分布(2)在平均数的两侧,以分布标准差为单位计算的一定距离内,次数分布的比率是确定的,如在平均数一个标准差距离内,次数分布比率为68.27%。v 实际抽样是从全部可能样本中随机抽取的一个,虽然我们不能肯定这个被抽中的样本的平均值落在哪里,偏离总体平均数有多远?但是我们可以说,它落在 范围内的可能性为68.27%。落在这一范围以外的可能性为31.73%。落在 范围内的可能性为95.45%。落在这一范围以外的可能性为4.55%。xxXXxxXX22v一、抽样误差一、抽样误差v在抽样调查和抽样推断过程中,可能会产生各种在抽样调

16、查和抽样推断过程中,可能会产生各种误差造成最后结论与实际情况不一致。这些误差误差造成最后结论与实际情况不一致。这些误差可分为两类:可分为两类:v登记性误差:是由于工作责任、计算错误、及数登记性误差:是由于工作责任、计算错误、及数据传输等工作质量原因造成的,叫登记性误差或据传输等工作质量原因造成的,叫登记性误差或责任性误差。责任性误差。v 随机误差:指抽样推断系统产生的代表性误差,随机误差:指抽样推断系统产生的代表性误差,叫抽样误差。抽样误差是抽样推断中可以控制的,叫抽样误差。抽样误差是抽样推断中可以控制的,我们可以从如下几个角度来分析抽样误差。我们可以从如下几个角度来分析抽样误差。v 在抽样推

17、断统计中,确定的样本统计量在抽样推断统计中,确定的样本统计量与总体被估计的真实指标之间的误差是客与总体被估计的真实指标之间的误差是客观存在的,我们把这种推断中客观存在的观存在的,我们把这种推断中客观存在的代表性误差,叫做实际抽样误差。代表性误差,叫做实际抽样误差。v 实际抽样误差随样本的随机性也表现为实际抽样误差随样本的随机性也表现为随机变量,有多少种可能的样本就有多少随机变量,有多少种可能的样本就有多少种可能的实际抽样误差。因此,在抽样推种可能的实际抽样误差。因此,在抽样推断中要结合所有可能的样本来研究所有可断中要结合所有可能的样本来研究所有可能的实际抽样误差。能的实际抽样误差。v 抽样平均

18、误差是指一个抽样方案的所有抽样平均误差是指一个抽样方案的所有可能样本的某统计量与总体相应指标的离可能样本的某统计量与总体相应指标的离差的平均值。差的平均值。v 因在现实的抽样中,我们只能取得一个因在现实的抽样中,我们只能取得一个样本,不可能也没必要获得全部所有可能样本,不可能也没必要获得全部所有可能样本,所以抽样平均误差也不可能通过所样本,所以抽样平均误差也不可能通过所有样本来直接计算。但从统计量的分布律有样本来直接计算。但从统计量的分布律中我们已经知道:统计量是以总体相应指中我们已经知道:统计量是以总体相应指标为期望值。标为期望值。抽样平均误差实质上就是该抽样平均误差实质上就是该统计量在其概

19、率分布中的标准差。统计量在其概率分布中的标准差。v二、抽样平均二、抽样平均误差的计算误差的计算v1.重复抽样的抽重复抽样的抽样平均误差:样平均误差:v样本平均数的样本平均数的抽样平均误差抽样平均误差:v样本成数的抽样本成数的抽样平均误差:样平均误差:nxnPPp)1(v2.不重复抽样的不重复抽样的抽样平均误差抽样平均误差v样本平均数的样本平均数的抽样平均误差抽样平均误差:v样本成数的抽样本成数的抽样平均误差样平均误差:NnnNnNnx11)1()1(1)1(NnnPPNnNnPPpv公式中为总体标准差,P为总体比例。若和P未知,在大样本情况下,可用样本标准差s和样本比例p代替。所以常用公式为:

20、nsxnppp)1(Nnnsx1)1()1(Nnnppp例:从某学校的学生中采用重复抽样方法抽出了200人,测得这200人的平均身高为163cm,身高标准差为5cm,200人中近视者有156人,求平均身高的抽样平均误差以及 近 视 率 的 抽 样 平 均 误 差?解:平均身高的抽样平均误差:近视率的抽样平均误差:p=n1/n=156/200=78%cmnsx354.02005%93.20293.0200)78.01(78.0)1(npppv若上例是从1000人中采用不重复抽样方式抽取的200人,则其抽样平均误差为:v平均身高的抽样平均误差:近视率的抽样平均误差:cmNnnsx316.01000

21、200120051%62.20262.0)10002001(200)78.01(78.0)1()1(Nnnpppv三、抽样极限误差v 以样本指标估计总体指标,要达到完全准确毫无误差,这几乎是不可能的。所以在估计总体指标时就必须考虑误差的大小。我们把可允许的误差范围称为抽样极限误差,也称为最大允许误差。由于抽样实际误差可正可负,所以定义抽样极限误差是以绝对值表示的抽样误差的最大允许范围,通常用符号“”表示。v设 、分别表示样本平均数、样本成数的最大允许误差。则有:v上述不等式可以变形为:xpXxxPppxxXxXppPpPv由于总体平均数和总体成数是未知的,它要靠实测的样本平均数和样本成数进行估

22、计,因此抽样极限误差的实际意义是希望被估计的总体指标即总体平均数和总体成数包含在样本指标的一定范围内。这样上述不等式可以变换为:xxxXxpppPpv四、抽样平均误差与抽样极限误差的关系:其中:t为概率度为概率度。实际就是最大允许误差是样本指标标准差的倍数度量。它与概率保证有关,可从正态分布概率表上查出t与概率保证之间的数值对应关系。如:v t 1 1.645 1.96 2 2.58v1-(%)68.27 90 95 95.45 99ppxxttv一、估计量和估计值v 用来推断估计一个总体指标的样本指标,叫做这个总体指标的估计量。如样本平均数是总体平均数的一个估计量。v 根据被抽中的一个样本,

23、计算得到估计量的一个具体数值,叫做总体指标的估计值。v 抽样推断过程就是取得适当的总体估计值的过程。获得估计值的方法有两种:点估计和区间估计。例:从某学校的1000个学生中抽出200个,测得这200个学生的平均身高为163cm,用点估计1000个学生的平均身高就为163cm。一、根据已知的(给定的)概率保证(置信度)的要求,求出置信区间范围。步骤:v(1)组织抽样,计算样本指标(样本平均数、样本标准差、样本比率等);v(2)计算抽样平均误差;v(3)根据已知的概率保证(置信度)查正态分布概率表得概率度t,计算最大允许误差;v(4)计算估计区间。例:某灯泡厂从其生产的一批灯泡中随即抽取了100只

24、进行寿命实验,测得这100只灯泡的平均寿命为1124小时,标准差为93小时,这100只灯泡中有88只合格,现要求以95%的把握估计这批灯泡的平均寿命和合格率的区间。解:按步骤,(1)计算样本指标%8888,93,1124,10011nnpnsxnv(2)计算抽样平均误差v(3)计算最大允许误差 因为概率保证为95%,所以t=1.96小时3.910093nsx%25.30325.0100)88.01(88.0)1(nppp%37.6%25.396.195.173.996.1ppxxttv(4)计算估计区间 估计区间为:落在上述区间的概率有95%。%)37.94%,63.81(%)37.6%88%

25、,37.6%88(),()95.1141,05.1106()95.171124,95.171124(),(ppxxppxx二、根据已知的(给定的)最大允许误差的要求,求出置信区间范围。步骤:v(1)组织抽样,计算样本指标(样本平均数、样本标准差、样本比率等);v(2)计算抽样平均误差;v(3)根据已知的最大允许误差求概率度概率度t,查正态分布概率表得概率保证(置信度);v(4)计算估计区间。例:某轮胎生产厂从其生产的轮胎中采用不重复抽样,抽取例:某轮胎生产厂从其生产的轮胎中采用不重复抽样,抽取了了120只进行寿命检验,测得了只进行寿命检验,测得了120个数据,对这个数据,对这120个数个数据进

26、行整理,得分组数列如下:据进行整理,得分组数列如下:按轮胎寿命分组(万公里)轮胎数9以下69-101010-116411-122812以上12现要求最大误差不超过现要求最大误差不超过 1700 公里,对该轮胎厂生产的全公里,对该轮胎厂生产的全部轮胎进行平均寿命的区间估计。部轮胎进行平均寿命的区间估计。v根据步骤:v(1)计算样本指标v(2)计算抽样平均误差v(3)计算概率度,求出置信度v查正态分布概率表得置信度1-=95.45%928.01195.1021)(75.10120125.12285.11645.10105.965.82ffxxsfxfx085.0120928.0nsx2085.01

27、7.0 xxxxttv(4)计算估计区间v该厂生产的全部轮胎平均寿命落在上述区间的概率为95.45%,即有95.45%的把握说该厂生产的全部轮胎的平均寿命在10.58万公里至10.92万公里之间。)92.10,58.10()17.075.10,17.075.10(),(xxxxv我们已经知道,样本容量越大,抽样误差就越小。但样本容量大,抽样调查所花费的人力、物力、财力也越大。那么什么样的样本容量是合理的呢?v样本容量是指能同时满足调查组织者所提出的置信度置信度和最大允许误差最大允许误差要求的样本单位的最小数量。重复抽样:不重复抽样:式中:可由同一总体的历史资料得知,或者在正式抽样之前进行一次实

28、验性抽样,以取得的一个估计值。222xxxtnntt22222)1(tNNtnx重复抽样:不重复抽样:式中:P可由同一总体的历史资料得知,或者在正式抽样之前进行一次实验性抽样,以取得P的一个估计值。22)1()1(pppPPtnnPPtt)1()1()1(222PPtNPPNtnpv例:某农场对其种植的10000亩水稻平均亩产量进行抽样估计,要求最大误差不超过15公斤,概率保证要达到95%以上,根据去年资料,该品种水稻亩产量的标准差为64公斤,问采用不重复抽样方法,至少应抽多少亩才能满足上述要求?v解:v至少应抽查70亩才能满足上述两项要求。7046.696496.11599996496.11

29、0000)1(2222222222tNNtnxv例:某灯管厂对其生产的灯管进行抽样检验,根据例:某灯管厂对其生产的灯管进行抽样检验,根据历史资料,该灯管厂的灯管寿命标准差为历史资料,该灯管厂的灯管寿命标准差为86小时,小时,合格率为合格率为92%,现要求概率保证要达到,现要求概率保证要达到95%,平均,平均寿命最大误差不超过寿命最大误差不超过20小时,合格率最大误差不超小时,合格率最大误差不超过过4%,估计这批灯管的平均寿命以及合格率,问,估计这批灯管的平均寿命以及合格率,问至少应抽多少只灯管?至少应抽多少只灯管?解:根据已知条件:解:根据已知条件:估计平均寿命时的样本容量:估计平均寿命时的样

30、本容量:估计合格率时的样本容量:估计合格率时的样本容量:为了满足以上要求,应抽为了满足以上要求,应抽177只灯管。只灯管。%4,20%,951%,92,86pxP7203.71208696.122222xtn17771.17604.0)092.1(92.096.1)1(222pPPtnv1.总体平均数和总体比率的区间估计方法;v(1)抽样平均误差的计算;v(2)最大允许误差的计算。v2.样本容量的计算。1.某外贸进出口公司对其出口的一批货物进行抽检,共检查了400件,测得这400件货物平均净含量为1002克,净含量标准差为18克,这400件货物中优良品有364件,试以95%的把握估计这批货物的平均净含量区间以及优良率的估计区间。2.某企业对其生产的1000件产品进行不重复抽样,根据历史资料,该产品的净重标准差为12克,现要求最大误差不超过2克,把握程度要达到90%以上,问至少要抽多少件产品?v1.平均净含量区间:(1000.24,1003.76)v 优良率区间:(88.2%,93.8%)v2.89件

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第七章-抽样推断课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|