1、第七章第七章 抽样抽样推断推断第一节第一节 抽样推断的基本抽样推断的基本问题问题 一、抽样推断及其特点一、抽样推断及其特点(一)抽样推断的概念(一)抽样推断的概念 抽样推断是按照随机原则,从研究总体的所有单位中,抽取部分单位作为样本,然后以样本的观测或调查结果对总体的数量特征做出具有一定可靠程度和精度的估计方法。抽样推断即是搜集统计资料的方法,也是对调查对象进行科学估计和推断的方法。(二)抽样推断的基本特点(二)抽样推断的基本特点 1在调查单位的选取上遵循随机原则 所谓随机原则,就是在抽选样本时排除主观上有意识地抽选调查单位,使总体每个单位都有相同的机会被抽中。2以样本的数量特征去推断总体的数
2、量特征 3、抽样误差可以事先计算并加以控制 抽样推断是用样本的数量特征去估计总体的数量特征,由于样本单位的分布不能完全接近总体单位的分布,因此,在抽样推断过程中会产生一定的由随机因素引起的代表性误差,即抽样误差(三)抽样推断的作用(三)抽样推断的作用 1适宜无限总体或总体单位特别多的总体 2可以对全面调查的结果进行检查和修正 3可用于生产过程的质量控制 二、抽样推断中的基本概念二、抽样推断中的基本概念(一)总体(一)总体 总体,又称全及总体或母体,是指所要调查研究的对象的全体。在抽样调查中,总体是唯一确定的。总体内包含的单位多少称为总体单位数,一般用符号N表示。根据被研究变量的性质不同,总体还
3、可分为数量总体数量总体和属性总体属性总体两种。被研究的是数量变量的总体为数量总体,如研究学习成绩水平的学生总体;被研究是属性变量的总体为属性总体,如研究文化程度的居民总体。反映总体数量特征的指标为总体指标或总体参数。从理论上说,它由被抽样总体各单位的变量值或变量特征计算而成的。对于数量总体,设某单位的变量值为 则总体指标有:),2,1(NiXi总体均值:(7.1)总体方差:(7.2)总体标准差:(7.3)NXNii1NXNii122)(NXNii12)(对于属性总体,设总体中具有某种属性特征的单位数为 N,其它单位数为 N,总体单位数N=N+N,则总体指标有:(二)样本(二)样本 样本,也称子
4、样,是指从被调查的总体中按照随机原则抽取,并要对其进行调查或观察的部分单位所组成的集合体。样本是总体的缩影,是总体的代表。以样本的调查或观察结果来推断总体的数量特征,是抽样调查的目的。一个样本所包含的单位数称样本容量,用符号 表示。从总体中可能抽取的全部样本数目称为可能样本个数。对于一个总体,从中所抽取的样本是随机的,不是唯一的。在统计推断理论中,常采用对不同的问题构造不同的样本函数的方法,来汇集(浓缩)样本中与总体分布有关的各种信息,以用于对总体分布做出分析推断。这种样本的函数就称为统计量,统计量中不能含有未知参数。n 与总体相对应,表示样本数量特征的指标称为样本指标或样本统计量,它由样本各
5、单位的标志值或标志特征计算而成的。设 是来自总体 的样本,则样本指标有:),(21nXXX样本均值:在未分组情况下 (7.7)在分组情况下 (7.8)nXXnii1niiniiiffXX11样本方差:在未分组情况下 (7.9)1)(122nXXSnii在分组情况下 (7.10)1)(1122niniiiffXXS样本标准差:在未分组情况下 (7.11)在分组情况下 (7.12)样本成数:(7.13)样本方差:(7.14)样本标准差:(7.15)1)(12nXXSniininiiiffXXS1121)(nnp1nnq0)1(2ppS)1(ppS由于样本非唯一确定,不同样本的样本指标值不同,因而样
6、本指标是随机变量,其取值随样本不同而不同。三、抽取样本的方法三、抽取样本的方法 抽取样本的目的是为了对总体情况进行推断,我们自然希望抽取出来的样本尽可能好地反映总体的情况,这就要对抽样方法提出一定的要求。容易想到,如果总体中每个个体被抽到的机会是均等的,并且在每次抽取一个个体之后总体的成分不改变,这样抽取出的个体所构成的样本就能很好地反映总体的情况,基于这种想法抽取的样本,称为简单随机样本。取得简单随机样本的过程,称为简单随机抽样简单随机抽样。根据样本单位是否可以重复抽取,抽样方法可以分为重复抽样与不重复抽样。(一)重复抽样 重复抽样,也称重置抽样。它从总体N中随机抽取一个容量为 n的样本,每
7、次从总体中抽取一个样本单位,连续进行n 次抽取,构成一个样本。而对每次抽取的一个样本单位,经过调查观测后,将该单位重新放回总体,这样在下一次的抽样中仍有可能再次被抽中。因而,对于含有N个单位的总体,每个单位被抽中的概率均为 。N1(二)不重复抽样 不重复抽样,也称不重置抽样,它从总体N中抽取一个容量为n 的样本也是由连续 n次抽取的结果构成的,但每次抽中的样本单位,经调查观测后搁置一边,不再放回总体,因此在下一次抽取样本单位时不会再抽到前面已抽中过的样本单位。每抽取一次,总体单位就减少一个,每次抽取结果都影响着下一次的抽取情况,每个单位被抽中的概率在各次中是不同的。四、抽样推断的理论基础四、抽
8、样推断的理论基础 大数定律证明大数定律证明:随着样本容量n 的增加,样本均值 接近于总体均值 的趋势,几乎是具有实际必然性。大数定律论证了样本均值趋于总体均值的趋势,这为抽样调查提供了重要的理论依据。但是,样本均值和总体均值离差究竟有多大?离差不超过一定范围的概率(把握程度或可靠程度)有多大?这个问题要用概率论中的中心极限定理来研究。中心极限定理论证中心极限定理论证:如果总体变量存在有限的平均数和方差,那么,不论这个总体的分布如何,随着样本容量 n的增加,样本均值的分布便趋近正态分布。在现实生活中,一个随机变量服从正态分布未必很多,但是多个随机变量和的分布趋于正态分布则是普遍存在的。样本均值也
9、是一种随机变量和的分布,因此在样本容量n 充分大的条件下,样本均值也趋近于正态分布,这为抽样误差的概率估计理论提供了理论基础。X第二节第二节 抽样抽样误差误差 一、抽样误差的概念及影响因素一、抽样误差的概念及影响因素 (一)抽样误差的概念 抽样误差是指样本指标和全及指标之间的差数。具体来说就是样本平均数和全及平均数之间的差数,或是样本成数和全及成数之间的差数。在抽样调查过程中,会发生许多种误差。一种是登记性误差登记性误差,这是由于没有如实登记,或者登记、汇总错了等造成的,这种登记性误差可以通过提高调查人员的思想和业务水平,改进调查方法和组织工作,建立严格的工作责任制加以避免,另一种误差是代表性
10、误差代表性误差,它又分为两种情况:其其一一是抽样过程中,没有按照随机原则取样,存在人为的主观因素在内,破坏了随机原则所造成的,这种误差叫偏差,是应该避免的;其二其二是在抽样过程中,严格按照随机原则取样(消除登记性误差和偏差的条件下),由于用样本指标代替全及总体指标所引起的误差,这种误差是不可避免的,而且是按随机原则产生的,又称为随机误差。抽样误差一般指的就是随机误差。抽样误差是衡量抽样调查准确性的指标。抽样误差越大,表明样本总体对全及总体的代表性越小,抽样调查的结果越不可靠。反之,抽样误差越小,表明样本总体的代表性越大,抽样调查越准确可靠。(二)影响抽样误差大小的因素 1.样本单位数的多少。2
11、.总体标志变异程度的大小。3.抽样调查的组织方式。4.抽样方法。二、抽样平均误差二、抽样平均误差 抽样平均误差是抽样误差的一般水平,它的数值随着可能抽取的样本不同而或大或小,所以是个随机变量。为了总的衡量样本代表性的高低,就需要计算抽样误差的一般水平,抽样平均误差就是反映抽样误差一般水平的指标。通常是用抽样平均数的标准差或抽样成数的标准差来作为衡量误差一般水平的尺度。这是因为抽样平均数的平均数等于总体平均数,而抽样成数的平均数等于总体成数,所以抽样标准差恰好反映了抽样指标的平均离差程度。2()xxXM设 为抽样成数的平均误差,p 为样本成数,P为总体成数,则:2()ppPM表示总体平均数,M
12、表示样本可能数目,则:(一)抽样平均数的平均误差 1.重复抽样 数理统计证明:在纯随机重复抽样条件下,抽样平均误差与全及总体的标准差成正比,而与样本总体单位数的平方根成反比。根据这个关系可得出纯随机重复抽样平均数抽样误差的计算公式为:式中,为金及总体的标准差;2为全及总体方差;n为样本总体的单位数。2xnn 例 如:设有4个工人的全及总体,他们的日工资是:甲140元、乙150元、丙170元、丁180元,其平均工资 和工资标准差为:X1401501701801604xXn2()xxN2222(140 160)(150 160)(170 160)(180 160)4=15.81 元 现以重复抽样方
13、法从 4 人总体中随机抽取 2 人组成样本,计算样本平均工资用以代表 4 人总体的工资水平,共可组成 16 个样本。每个样本都可算出平均收入(),它们与总体平均收入()都有个离差,下面用表列示出来。X16个样本平均数的平均数为2560()16016xE xM(元)按定义:抽样平均误差 (元)按公式:抽样平均误差 (元)2()200011.18160 xxXM15.8111.82xn按定义和按公式计算的抽样平均误差完全相同。从以上计算过程,可以得出几个基本关系:(1)抽样平均数的平均数等于总体平均数()E xX(2)抽样平均误差小于总体标准差 ,重复抽样时仅为总体标准差的 ,所以抽样平均数作为估
14、计量是更有效的。x1n(3),抽样平均误差和总体标准差是成正比的,与样本单位数的平方根成反比。因此,要想减少抽样平均误差以提高抽样指标的代表性,只能增大样本单位数 n,因为总体标准差 是不能改变的(它是客观存在的)。2.不重复抽样 在不重复抽样条件下,抽样平均数的平均误差不但和总体变异程度、样本单位数有关,而且和总体单位数 N 的多少有关,其计算公式为:()1xNnnN当总体单位数N很大时,公式中的 N1可以用 N 代替。所以,在实际计算时,不重复抽样的抽样平均数的平均误差可用下式计算:2(1)xnnN 将上面重复抽样和不重复抽样的平均误差公式相比,两者相差一个修正系数 ,这个修正系数是大于
15、0 而小于 1 的正数。可见,在同样条件下,不重复抽样的平均误差永远小于重复抽样的平均误差。在不重复抽样情况下,如果全及总体单位数很多,样本单位数又很少时,的数值按近于零,接近于 1,于是修正系数的作用不大了。又因为许多社会经济现象不能进行重复抽样,所以在实际抽样调查中,一般都采用不重复抽样方法抽样,而采用重复抽样的公式计算抽样平均误差,这样计算的结果偏大。1nNnN1nN 现仍以上述 4 个工人工资的例子,用不重复抽样方法从总体中随机抽取 2 人组成样本,则可能出现的样本情况如下表 7-212 个样本平均数的平均数 (元)1920()16012xE xM按定义:抽样平均误差 (元)2()10
16、009.1312xxXM按公式:抽样平均误差 22(15.81)42()()9.13124 1xNnnN元两者计算结果完全相同。由上可知,在不重复抽样的条件下,抽样平均数的平均数仍然等于总体平均数,而它的抽样平均误差 9.13 元则比重复抽样的平均误差11.18 元小。3.总体方差总体方差 的确定的确定方法方法2(1)用样本标准差代替总体标准差,即用 s 代替 。理论和实践都证明,只要样本总体单位数量多(n30)时,抽样总体的标准差与全及总体的标准差是相当接近的。所以,这种方法是可行的。但是只能在抽样调查之后方能计算。(2)用过去调查资料的标准差。如果历史上做过同类型的全面调查或抽样调查,就用
17、过去所掌握的总体标准差或样本标准差。(3)抽取一个小样本进行估计。如果既没有历史资料,又需要在调查之前就要计算抽样平均误差,则可组织一次小规模的试验性抽样调查,计算出抽样标准差作为总体标准差的估计值。例7-2一批新灯泡共 500 只,用纯随机抽样方式从中抽取 25 只进行灯泡寿命的检验,经计算灯泡的平均寿命为 1500 h,样本标准差为 60 h,求抽样平均误差。解:重复抽样:601225xsn小时不重复抽样:226025(1)(1)11.7025500 xsnnN小时 计算结果表明,样本平均寿命为 1500 h,它与总体平均寿命的抽样平均误差在重复抽样时为 12 h,不重复抽样时为 11.7
18、0 h。(二)抽样成数的平均误差 抽样成数平均误差的计算方法与平均数抽样误差的计算方法基本上是一样的,首先要求出成数的总体方差。要计算成数的总体方差,须先求出成数的平均数。怎样求成数的平均数呢?前面讲过,某一现象有两种表现时,例如合格或不合格,用 N代表具有某种表现的总体单位数,N代表不具有某种表现的总体单位数;假定N的变量值为 1,N的变量值为0,则它们的平均数为:1011010NNNxfXPfNNN 由此可见,成数的平均数是成数本身,即成数是一种最简单的平均数,是只取0和1两个变量值的变量的平均数。根据标准差的计算公式,成数的标准差为:2()xXff22()q pp qpq pq(1)pq
19、pp 由此可见,成数的标准差就是具有某一标志表现的单位在总体中的成数和不具有这一标志表现的单位在总体中的成数二者乘积的平方根。因此可以从抽样平均数的平均误差和总体标准差的关系推出抽样成数平均误差的计算公式:2(1)pppnn2(1)()11pNnppNnnNnN()p(1)pppnnN(1-)1.重复抽样2.不重复抽样在总体单位数N较大的情况下,近似地为 抽样成数平均误差公式中的 P 是总体的成数,一般也是无法知道的。这时我们也可以用实际抽样的样本成数来代替,或用已掌握的历史同类现象的相应成数来代替。200 10100%95%200p样本合格品数样本单位数(1)0.951.54%200pppn
20、(1-0.95)(1)pppnnN(1-)0.952001.53%20010 000(1-0.95)(1-),解:先求样本产品的合格率,即抽样成数 用重复抽样计算成数抽样平均误差:计算结果表明,样本的合格率为 95%,它与总体合格率之间的抽样平均误差为 1.53%。例7-3 从 10 000 件产品中随机抽取 200 件进行质量检查,发现其中有 10 件不合格,问合格率的抽样平均误差是多少?用不重复抽样计算成数抽样平均误差 三、抽样极限误差 (一)抽样极限误差的意义 抽样极限误差是指抽样指标与总体指标之间抽样误差的可能范围,又叫抽样误差范围。用样本指标来估计总体指标,总是要产生误差,两者完全相
21、等几乎是不可能的。由于样本是随机抽取的,样本指标是随机变量,所以要确切地指出某一抽样指标究竟误差有多大,也几乎是不可能的,我们只能把抽样误差控制在一定的范围内,这就需要研究抽样极限误差。由于总体指标是一个确定的数,而抽样指标则围绕着总体指标左右变动,它与总体指标可能产生正离差,也可能产生负离差,抽样指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这个抽样误差的可能范围称为抽样极限误差。x设 与P分别表示抽样平均数与抽样成数的误差范围,则有:将上列等式变成相应不等式为:由于总体平均数和成数是未知的,它需要靠实测的抽样平均数和成数来估计,因而抽样极限误差的实际意义是希
22、望总体平均数 落在抽样平均数 的范围内,总体成数 P 落在抽样成数 p 士P 的范围内,因此上述不等式应该变换为:X 容易验证后面两个不等式和前面两个不等式是完全等价的,前面两个不等式成立,后面的两个不等式也同样成立。(二)抽样误差的可靠程度(二)抽样误差的可靠程度 数理统计证明,如果抽样单位数达到足够多的条件下,抽样误差范围的变化和抽样的可靠程度之间具有密切联系,抽样误差范围愈扩大,抽样的可靠程度也愈高,反之,当抽样误差范围愈小时,抽样的可靠程度也愈低。数理统计还证明,在大样本条件下,抽样平均数服从正态分布。因此抽样误差范围同概率的关系是这样的:当误差范围为一倍平均误差时,其概率为 0.68
23、27,即 68.27%;当误差范围扩大为 2时,其概率为 0.9545,即 95.45%;当误差范围扩大为 3时,其概率为 0.9973,即99.73%。参见图 7-1图图71 抽样误差范围与概率的关系抽样误差范围与概率的关系 上面列举的抽样误差扩大的倍数,叫概率度,它是用符号 t 表示的。而扩大或缩小后的误差就是极限误差(或允许误差),是用符号表示的。上例 500 只灯泡的估计中,当概率度t=1时,允许误差为=1t=12小时,估计的概率为 68.27%,当 t=2 时,允许误差=t=212=24小时,估计的概率为 95.45%。由此得出,允许误差、概率度和抽样平均误差三者之间的关系式:=t仍
24、用 表示平均数抽样极限误差,用P 表示成数抽样极限误差,那么计算公式为:xxxxxtt或pppptt或 从公式中可以看出,抽样极限误差就是在一定概率度t保证下的最大可能误差,它等于 t 倍的抽样平均误差。概率度t 是抽样平均误差扩大或缩小的倍数或以抽样平均误差为标准单位来衡量抽样极限误差所得到的相对数。常用的概率度及其相应的概率见下表 (三)抽样极限误差的计算 1.平均数的抽样极限误差 重复抽样 不重复抽2xxttn 2(1)xxnttnN(1)ppppttn(1)(1)ppppnttnN 2成数的抽样极限误差 重复抽样 不重复抽样 例7-4某灯泡厂检查一批灯泡,按随机原则抽取 100 只进行
25、寿命检验,查得平均使用寿命为 1600 小时,标准差为 50 小时,在概率为 95%的保证下,求抽样极限误差。解:根据题意知:由 S=5O,n=100,F(t)=95%查表得 t=1.96,按重复抽样公式计算013004585%300nnnpnn(1)(1)ppntnN0.85 0.153002(1)306000解:根据题意知:由N=6000件,n=300件,=45件,F(t)=95.45%查表7-3得t=2,于是样本合格率为按不重复抽样公式计算 =4.06%例7-5从 6000 件产品中,随机抽查 300 件,发现 45 件不合格,在概率为 95.45%时,求抽样极限误差。0nP 第三节第三
26、节 抽样估计抽样估计 一、点估计 点估计就是直接用样本指标推断全及总体指标的方法。即用样本平均数的值()推断全及总体平均数的值(),或用样本成数的值(p)推断全及总体成数的值(P)。其推断形式如下:XX 例如从4000人中抽取 500 人进行工资收入的调查,得 500人样本的平均工资是1720.5 元;于是就推断 4000人的平均工资是1720.5 元;从 10000 件产品中抽查 200 件,发现有 30 件不合格,则样本合格率是 85%。于是也推断10000 件产品的合格率是 85%点估计简单明了。但是没有考虑抽样误差的影响,不能说明估计的准确性和可靠性。只有在要求推断总体的一般的数量特征
27、,抽取的样本单位数较多时使用。二、区间估计 区间估计是抽样推断的主要方法,它是在考虑抽样误差的前提下,用样本指标估计总体指标。在估计时不仅要考虑抽样误差的可能范围有多大,而且还必须考虑落到这一范围的概率是多少。前者决定于极限误差(),后者可由 t 值查概率表求得。(一)区间估计 1.平均数的区间估计:式中,表示平均数的抽样极限误差(允许误差);t 表示概率度;表示平均数的抽样平均误差;表示样本总体平均数;表示总体平均数;表示区间估计的下限;表示区间估计的上限。xxtxX 2.成数的区间估计:pppppPpptPpt (二)区间估计的方法与步骤 对总体平均数(或总体成数)的估计就相应地有两套模式
28、:1.第一套模式是根据已经给定的极限抽样误差范围,求概率保证程度F(t),具体步骤是:(1)抽取样本,计算样本平均数(或样本成数),作为总体平均数(或总体成数)的估计值,并计算样本标准差S,以此推算抽样平均误差。(2)根据给定的抽样极限误差范围 A,估计总体平均数(或总体成数)的下限 (或P-p)和 (或p+p)。(3)将抽样极限误差除以抽样平均误差,求出概率度t 值,再根据t 值查概率表求出相应的可信度 F(t)。例7-6 某电池厂要检查某型号蓄电池的耐用性能,随机抽取 100 只蓄电池检验,资料整理如下如表 7-4,要求耐用时数极限误差不超过 2.6 小时,试估计该厂蓄电池的耐用时数及可靠
29、程度。解:计算样本平均数和标准差,并推算平均误差。55140551.4100 x fxf2()1750413.2100 xxfsf13.21.32100 xsn(小时)(小时)(小时)根据给定的极限误差 =2.6 小时,计算总体平均数的上限和下限。x根据 ,查表7-3 得 F(t)=F(1.96)=0.952.61.961.32xxt 点估计,该厂蓄电池平均耐用时数为 551.4 小时,误差不超过 2.6小时的可靠程度为 95%。或:该厂蓄电池平均耐用时数为 551.4 小时,精确度为,即 可靠程度为 95%。区间估计:该厂蓄电池耐用时数在 548.8554 小时之间,可靠程度为 95%。例7
30、-7为了解某市居民住户拥有电视机的普及率,随机抽取 350 户居民;其中有 280 户居民有电视机,要求抽样极限误差范围不超过3.5%,试对该市居民住户电视机普及率进行估计。解:抽取样本,并计算样本成数及抽样平均误差。128080%350npn(1)0.8 0.22.14%350pPPn 点估计:估计该市居民住户电视机普及率为 80%,其误差不超过3.5%的可靠程度为 90%。或:估计该市居民住户电视机普及率为80%,精确度为 ,可靠程度为90%区间估计:该市居民住户电视机普及率在 76.5%-83.5%之间,可靠程度为 90%。1pp3.5%195.6%80%(2)第二套模式是根据给定可信度
31、 F(t)的要求来估计极限抽样误差的可能范围,具体步骤是:(1)抽取样本,计算样本平均数(或样本成数)作为总体平均数(或总体成数)的估计值,并计算样本标准差S,以此推算抽样平均误差。(2)根据给定的可信度 F(t),查概率表求得概率度t值。(3)根据概率度和抽样平均误差计算抽样极限误差的可能范围,并据以计算被估计的总体平均数(或总体成数)的上限和下限。例7-8某乡水稻总面积 25000 亩,以不重复抽样方法从中随机抽取500 亩实割实测,求得样本平均亩产640公斤,标准差71.5 公斤,试以 95.45%的概率保证程度,对该乡水稻亩产量作出估计。解:抽取样本,计算样本平均亩产量和抽样平均误差。
32、22(71.5)500(1)(1)3.250025000 xsnnN根据给定的概率可信度F(t)=0.9545,查概率表得 t=2.点估计:在可靠程度为 95.45%的条件下,该乡水稻窗产量为640公斤。区间估计:在 95.45%的概率保证之下,该乡水稻窗产量在 633.6646.4 公斤之间。例7-9从10000 件产品中,用不重复抽样的方法随机抽取200 件进行质量检查,发现有30 件不合格,若以 0.9545 的概率保证,试估计全部产品合格率的范围多大。解:求样本合格率p和抽样平均误差。2003085%200p样本合格品数样本单位(1)(1)pppnnN 根据 F(t)=0.9545,查
33、表求t=2 计算极限误差p计算全及指标的上、下限,估计全及指标的范围。点估计:在 95.45%的概率保证下,该批产品的合格率为85%。区间估计:在可靠程度为95.45%的条件下,该批产品的合格率在 80%90%之间。第四节第四节 假设检验假设检验 一、假设检验的基本思想一、假设检验的基本思想 假设检验的基本思想和方法就是所谓概率性质的反证法。例7-10某种产品按国家规定次品率不超过3%才能出厂。今从一批这种产品中抽查 10 件,发现有2 件次品,试问这批产品能否出厂?解:这里的问题是,如何根据抽样的结果来判断这批产品的次品率(记为 p)是否不超过 3%,即“p3%”是否成立?我们先假设这批产品
34、的次品率p=3%,看看由此推出什么结果。若p=3%,那么“抽取 10 件之中有 2 件次品”这一事件的概率为2810(1)0.03Ppp10(2)2这个概率很小,显然若p20.51000.05panZ (7.17)(7.18)式(7.18)表明事件 是小概率事件,根据小概率原理,若 :=100 为真,则观测均值 满足20.5100pnZ0Hx20.5100 xnZ (7.19)几乎是不可能的,如果在一次抽样中出现了满足不等式(7.19)的 ,就表明假设 与抽样的结果不符合,或者说 与=100 有显著差异。所以,我们有理由认为原来的假设有问题,从而拒绝原假设 否则,即 满足x0Hx0Hx (7.
35、20)则没有理由否定 ,因而接受 。0H0H 由(7.19)和(7.20)式可知,我们可以取常数 作为判断的临界值,因为事件 与事件 是等价的,所以在应用中往往取 作为判断的监界值,即若样本观测值的均值 满足不等式20.5knZg21000.5/nZ20.5100nZg2Zx02/xznZ(7.21)则拒绝假设 ;否则,若0H02/xznZ(7.22)则接受 ,并称 为否定域(见图 7-2)。0H2zZ 本例中对给定的显著性水平 =0.05,查正态分布分位数表,得 =1.96,根据样本观测值算得 =99.62,于是2Zx1002.281.960.5/9xz所以,我们拒绝 ,即认为包装机工作不正
36、常。0H 本例中我们是把概率为 0.05 的事件当作“小概率事件”即把显著性水平取为 0.05,若改变 的值,例如取 =0.01,则查正态分布表,可求得临界值 =2.58,即2Z1002.580.010.5/9p1002.580.5/9x 10099.62 1002.282.580.5/90.5/9x 否定域为从样本观测值算出例7-11 中我们讨论的假设 :,可以写作0H0 7-23 称为双边检验。其中 称为原假设,称为对立假设或备选假设。在双边检验中,备选假设可以不写出来。0H0:1H0:0H0:1H0:如果我们只关心总体的均值是否增大,例如,经过工艺改革后,考察某元件的使用寿命是否增大,以
37、确定是否采用新工艺,我们的问题就是在新工艺的条件下,要确定接受假设 ,还是接受另一假设 H:。这种检验的一般叙述方式为:在显著性水平 之下检验假设:0H0:i0H0:;H:7-24 形如(7-24)的假设检验称为右边检验右边检验。类似地,形如0H0:;H:Z,本题中ZZ0(0.8191.96),故接收H0假设。可以认为两种储存方式基本无差异。第五节第五节 样本单位数的样本单位数的确定确定 一、确定抽样数目应考虑的因素一、确定抽样数目应考虑的因素进行抽样调查时,确定抽取多大容量的样本,是一个非常重要的问题。如果抽取数目过多,会造成人力、物力和财力的浪费;抽取数目过少,会使抽样调查误差很大。那么,
38、如何确定样本单位数 n 的大小呢?首先,我们以简单随机重复抽样为例说明影响样本单位数的因素。由简单随机重复抽样的抽样平均数极限误差公式2xxttn g可解得 n 的表达式为:222xtng由此式可以看出,当误差范围固定不变时,样本数目 n 与概率度 t 的平方成正比,与总体方差成正比。在总体方差和概率度确定的条件下,样本数目 n 与极限误差成反比。因此,确定样本单位数时应考虑下列因素:1.标志变异的大小。如果被研究总体标志变异较大时,为反映总体的特征,要相应的多抽一些样本单位,反之可少些。2.误差范围的大小。要求误差范围越小,抽样数目要增多,反之可少些,但两者并不是按比例变化的。以重复抽样来说
39、,当允许误差缩小一半,则样本单位数是原来的四倍,当允许误差扩大一倍,则样本单位数只需原来的 (指在其他条件不变的情况下)。3.概率度的大小。当概率度增大时,要求可靠程度提高,抽样数目要多;反之可少些。4.抽样组织方式和方法。一般情况下,类型抽样和等距抽样比简单随机抽样需要的样本单位数少;不重复抽样比重复抽样需要的样本单位数少。14 二、样本单位数计算公式:二、样本单位数计算公式:(一)简单随机抽样样本单位数目的确定 1.平均数的抽样单位数目。(1)重复抽样由 得2xxttn 222xtn(2)不重复抽样由 得22222xtNnNt2(1)xntnN 上述公式中的2为总体方差,当总体方差未知时,
40、2 的确定方法参见本章第二节中关于总体方差2的确定方法中的讨论。以下同。例7-19设某厂生产某零件 5000 件,根据过去资料生产该零件的标准差是10mm。问概率为0.95,允许误差不超过1.5mm时,应抽查多少件?已知N=5000 件 =10 毫米 X=1.5毫米 根据 F(t)=0.95,查附录D得t=1.96 重复抽样下:22222(1.96)170(1.5)xtn不重复抽样22222xtNnNt22222(1.96)10500(1.5)5000(1.96)10g=165(件)从计算结果可以看出,采用重复抽样所需要的抽样数目比不重复抽样的稍大,但十分接近。所以一般都可以采用重复抽样公式来
41、计算抽样数目,这样计算过程较为简便。2.成数的抽样单位数目(1)重复抽样。由 得(2)不重复抽样。由 得(1)Ppppttn(1)(1)pppntnN 22(1)pt ppn上述公式中,成数p为总体成数,当p未知时,用样本成数代替或用历史资料代替。222(1)(1)pt pp NnNt pp例7-20某灯泡厂日产灯泡15000只,根据以往抽样资料,一等品率为 90%;现要求援限误差为2%,概率为95.45%,问抽样单位数是多少?已知 N=15000 件,p=90%,p=2%t=2重复抽样下:22(1)pt ppn0.9 0.122(2)(0.02)=900(只)不重复抽样222(1)(1)pt pp NnNt pp222(2)0.9 0.1 15000(0.02)15000(2)0.9 0.1=849(只)(二)分类抽样样本单位数的确定 1.平均数的抽样单位数(1)重复抽样222xtng(2)不重复抽样22222xtNnNtg 2.成数的抽样单位数(2)不重复抽样在(1)重复抽样22(1)pt ppn222(1)(1)pt pp NnNt pp (三)整群抽样 整群抽样单位数目的确定,主要是第一阶段从全部R群中抽取r群作为样本群时,r 大小的确定。1.平均数的抽样群数 2.成数的抽样群数22222xxxtRrRt22222pxptRrRt