1、第五章第五章 抽样理论抽样理论总体、样本和统计推断总体、样本和统计推断在实践中,我们常想从一大群个体或实物中提取有用的结论,所要考察的整个一大群被称为总体。但全部考察可能是困难的,甚至不可能,所以我们仅考察总体的一部分,这部分称为样本。我们的目的是从样本发现的结果推断总体的某种事实,这一过程称为统计推断。获得样本的过程称为抽样。例子例子1 我们希望提取天津市2535岁成年人(总体)身高的信息,现仅从这个总体中选择10000个体(样本)作考察。2 我们希望提取某一方向来的宇宙线的动量(总体),然后现仅选择其中10000个事例的动量(样本)作为考察,我们根据样本的分布从而推断出此方向宇宙线的动量期
2、望值和方差(统计推断)。无放回抽样无放回抽样如果我们从一个罐子中抽取一个物体,在下一次抽取前,可以有将该物体放回或不放回两种选择。前一种选择中一个特定的物体可以一次再次地被抽中,而后一种选择中,一个物体仅能抽中一次。总体的每一成员可以被抽中多次的抽样称为有放回抽样,仅能抽中一次的称为无放回抽样。对一个有限总体作有放回抽样,理论上可以考虑为无限总体,因为任何样本量的样本均可以选择,而不会穷尽总体。对一个非常大的有限总体抽样时,实用上常考虑为无限总体抽样。随机样本随机样本如何选取样本是统计推断的一个重要问题。我们从总体中抽样所作的结论的可靠性依赖于样本是否选取得当,是否能充分代表总体。从有限总体抽
3、样保证总体的每一成员有同等机会进入样本,这样的抽样叫随机抽样。总体参数总体参数当描述总体的随机变量X的概率分布f(x)(概率函数和密度函数)已知时,我们认为总体是已知的。例如,倘若X是正态分布,我们就说总体是正态分布的,或者说有一个正态总体。在f(x)中会有一些量,如正态分布中的、,或者二项式分布中的p等等。这些量常成为总体参数。当总体已知时,这些总体参数都是已知的。当总体的概率分布f(x)不是完全清楚时,对f(x)虽然有一些概念,可以做出某些假设,但f(x)的总的状况仍会是一个重要问题。例如,我们知道某一分布是正态分布,但不知道均值和方差,希望对它们作出统计推断。样本统计量样本统计量 我们可
4、以从总体总取随机样本,然后使用这些样本,从而获得对总体参数进行估计或假设检验所需的值。为了估计总体参数,要从样本获得一个称为 样本统计量的量,简称为统计量。数学上,一个容量为n的样本的统计量是随机变量 X1,X2,Xn的函数。抽样分布抽样分布我们可以看到,从样本X1,X2,Xn计算的一个样本统计量是这些随机变量的一个函数,它本身也是一个随机变量。一个样本统计量的概率分布常称为该统计量的抽样分布换个角度,我们也可以考虑从总体中抽取样本容量为n的各种可能样本。对每一个样本计算这个统计量。用这种方法获得统计量的分布,这就是它的抽样分布。从抽样分布当然可以计算期望值、方差、标准差、矩等等。标准差有时也
5、称为标准误差。样本均值样本均值设X1,X2,Xn记样本容量为n的随机样本,它们是独立同分布的随机变量。样本均值也是一个随机变量,记为nXXXXn.21均值的抽样分布均值的抽样分布设f(x)是一给定总体的概率分布,从中抽出一个容量为n的样本,自然会寻找样本统计量样本均值的概率分布,这个分布叫样本均值的抽样分布。定理一:均值抽样分布的期望值记为其中是总体的期望值。XXXE)(,有定理二:如果总体是无限的,进行随机抽样,或者总体是有限的,进行有放回抽样,则均值的抽样分布的方差记为定理三:如果总体容量为N,抽样是无放回的,样本量n=30),它很接近2,要得到无偏估计量,这要定义这样有E(S2)=2。n
6、XXXXXXSn222212)(.)()(221)(2nnSES1)(.)()(12222122nXXXXXXSnnSn上述结果是认为进行无限总体抽样或有放回的有限总体抽样,如果从容量为N的有限总体中无放回抽样,则样本方差的抽样分布的期望值是当N时,它简化为无限总体抽样或有放回有限总体抽样的样本方差抽样分布期望值。22)1)(1()(2nnNNSES方差的抽样分布方差的抽样分布从一个总体抽取容量为n的一切可能的随机样本,在计算每个样本的方差,可以获得方差的抽样分布。相对直接求S2或 的抽样分布,求下列相关随机变量的抽样分布要更方便定理:从一个正态分布总体中,抽取容量为n的一个随机样本,则上式的
7、随机变量有自由度为n-1的2分布2222212222)(.)()()1(XXXXXXSnnSn2S总体方差未知的情形总体方差未知的情形当容量为n的样本来自正态分布总体时,标准化的随机变量有正态分布。如果总体不是正态分布,而n=30时,它仍时渐近正态的。当然这里总体方差要假定时已知的。当总体方差未知时,情况如何呢?一种可能的方法是用样本方差去估计总体方差:T是有n-1个自由度的学生氏t分布定理:如果容量为n的随机样本来自正态分布总体,则上式的统计量有n-1个自由度的t分布nXZ/1/nSXnSXT方差比的抽样分布方差比的抽样分布考虑统计量 ,比值大或小将表明两者有大的差异,而比值接近1时,两者差异小。定理:从两个分别具有方差 的正态总体中,抽取容量分别为m和n的两个独立随机样本,用 作为随机样本的方差,则统计量有m-1,n-1自由度的F分布。2221,SS2221和2221/SS2222212122222121/)1/()1/(SSnnSmmSF