1、第五章 数理统计的基本概念第一节 总体与样本第二节 抽样分布第五章 数理统计的基本概念第一节 总体与样本第五章 数理统计的基本概念一、总体与个体数理统计中把研究对象的全体称为总体(或母体),而把构成总体的每个成员称为个体.在统计问题的研究中,我们关心的不是每个个体的种种具体特征,而是它的某一项或 某几项数量指标 X(可以是向量)和该数量指标的分布状况.这样一来,若抛开实际背景,总体就是一批数据,这批数据的 数据量有大有小,有的数据出现次数多,有的数据出现次数少,因此用一个概率分布来描 述和归纳总体是合理的.从这个意义上看,可以把总体看作一个分布,而其数量指标就是服 从这个分布的随机变量.由于我
2、们关心的正是这个数量指标,因此以后提到总体总是指具 有一定概率分布的随机变量,用 X 表示.所谓总体的分布也就是指随机变量 X 的分布.总体作为一个随机变量有一维与多维、离散型与连续型之分.从集合角度来看,只含有 限个个体的总体,称为有限总体,否则称为无限总体.为了计算和讨论的方便,当所含个体 数量很大时,有限总体也可以看成是无限总体.本章将以无限总体作为主要研究对象.第五章 数理统计的基本概念二、抽样与样本在实际问题中,人们事先并不知道总体服从的分布.为了推断总体的分布,需要按一定的规则,从总体中抽取若干个个体进行观测或试验,这个过程称为抽样.为了保证抽取的部分能够较好地反映总体的特性,从理
3、论上讲,抽取方法必须满足两个基本要求:(1)随机性.即总体中每个个体被抽到的机会是均等的(等可能性).(2)独立性.即每次抽取的结果既不影响其他各次的抽取结果,也不受其他各次抽取结果的影响.这种随机、独立的抽取方式称为简单随机抽样,简称为随机抽样或抽样.对总体采用有放回抽样就是简单随机抽样;对有限总体进行不放回抽样,就不是简单随机抽样.当个体的总数N比要得到的样本的容量n大得多时,可以将不放回抽样近似地当作有放回抽样来处理.下面所述的抽样如无特别说明均指简单随机抽样.对总体X进行n次抽样观测,我们就得到总体X的n个观测值x1,x2,xn,其中xi为第i次抽样观测的结果.由于抽样的随机性和独立性
4、,如果再抽取n次,则会得到另外一组观测值.反复进行这一操作,将会得到许多组不同观测值.可见,就某一次抽样而言,观测值x1,x2,xn是一组确定的实数,同时它又随着每一次抽样观测发生变化.因而从数学上可以将n次抽样与n个随机变量X1,X2,Xn对应起来,称X1,X2,Xn为来自总体X的样本.n次抽样所得结果称为随机变量X1,X2,Xn的观测值,称为样本值.观测次数n称为样本容量.第五章 数理统计的基本概念抽样的随机性和独立性意味着样本中的分量X1,X2,Xn 是相互独立的随机变量,而且与总体 X 同分布.若总体 X 的分布函数为F(x),则样本 X1,X2,Xn 的联合分 布函数为 ;若总体 X
5、 具有概率密度f(x),则样本 X1,X2,Xn 的联合概率密度为 ;若总体X 为离散型随机 变量,则样本 X1,X2,Xn 的联合分布律为三、经验分布函数定义1 设总体 X 的样本观测值为x1,x2,xn,将这些值按从小到大的顺序排列 为x(1)x(2)x(n),作函数称Fn(x)为总体 X 的经验分布函数(也称样本分布函数).经验分布函数Fn(x)依赖于样本观测值,对每一个固定的x,Fn(x)是该组观测值中 随机事件(Xx)发生的频率.Fn(x)的图形呈跳跃上升的阶梯形,如图5.1所示.它具有以下性质:第五章 数理统计的基本概念(2)Fn(x)是单调不减函数;(3)Fn(x)右连续.由大数
6、定律可知,事件发生的频率依概率收敛于这个事件发生的概率.那么,当n 足够大 时,是否可以用总体 X 的经验分布函数Fn(x)估计总体的分布函数 F(x)呢?格列汶科(Glivenko)于1933年从理论上严格证明了以下的结论:定理1 设总体 X 的理论分布函数为F(x),经验分布函数为Fn(x),则该定理表明,当样本容量n足够大时,对一切实数x,总体X 的经验分布函数Fn(x)与它 的理论分布函数F(x)之间差异的最大值也会足够小.即n 相当大时,Fn(x)是F(x)的很好近 似,而Fn(x)可由样本观测值得到.这就是数理统计中用样本估计来推断总体的重要理论根据.第五章 数理统计的基本概念四、
7、统计量样本是进行统计分析和统计推断的依据,但是样本往往是一堆“杂乱无章”的原始数 据,不经过一定的整理、加工和提炼,很难从样本中直接获得有用的信息.数表和图是一类 加工形式,可以帮助人们获得对总体的初步认识.如果要从样本中获得对总体各种参数的 认识,最常用的加工方法是构造样本的某个函数,即统计量.定义2 设X1,X2,Xn 为取自总体X 的样本,g(X1,X2,Xn)是X1,X2,Xn 的函数,如果g 中不包含任何未知参数,则称g(X1,X2,Xn)为统计量.设x1,x2,xn 是样本的观测值,则称g(x1,x2,xn)是统计量g(X1,X2,Xn)的观测值.按照这一定义,若 X1,X2,X3
8、 为取自正态总体 N(,2)的样本,其中,已知而2 未知,则 ,都是统计量,但 都不是统计量.下面给出几个在数理统计中常用的统计量.设X1,X2,Xn 是来自总体X 的样本,定义如下统计量:(1)样本均值(或一阶原点矩):(2)样本方差:(3)样本k 阶原点矩:第五章 数理统计的基本概念(4)样本k 阶中心矩:(5)顺序统计量:设x1,x2,xn 为样本X1,X2,Xn 的一个观测值,将各个分 量xi 按由小到大的递增次序排列起来,得到 x(1)x(2)x(n)定义 X(k)取值为x(k).由此得到的 X(1),X(2),X(n)称为 X1,X2,Xn 的顺序 统计量.其中,X(1)=min(
9、X1,Xn)称为最小顺序统计量,X(n)=max(X1,Xn)称 为最大顺序统计量.将样本 X1,Xn,Xn 的观测值x1,x2,xn 代入上述统计量,得到统计量的观 测值,它们仍分别称为样本均值、样本方差、样本k 阶原点矩及样本k 阶中心矩等,记号分 别改用小写字母,即第五章 数理统计的基本概念第二节 抽 样 分 布第五章 数理统计的基本概念由概率知识可知,n 维随机变量(X1,X2,Xn)的函数g(X1,X2,Xn)是一个 一维随机变量,统计量本质上是一维随机变量,这个一维随机变量往往包含了总体的重要 信息.理论上,只要知道了总体的分布就可以求出统计量的分布.但在一般情况下,求统计 量的精
10、确分布相当困难.统计推断就是希望通过统计量来推断总体的分布特征(分布类型、分布参数和数字特征等),并对推断的准确性与可信程度进行评价,这就必须知道统计量的 分布,因此求统计量的分布是数理统计的关键问题.统计量的分布又称为抽样分布.数理统计中,许多统计推断基于正态总体的假设,以服从标准正态分布的随机变量为 基石,可以构造出在理论和实际中应用广泛的三个著名统计量,由于这三个统计量不仅具 有明确背景,而且其密度函数有明确的表达式,所以被称为数理统计中的“三大抽样分布”.一、2 分布定义1 设随机变量X1,X2,Xn 相互独立且均服从标准正态分布N(0,1),则称 随机变量服从自由度为n 的2 分布,
11、记为22(n).第五章 数理统计的基本概念2 分布中的自由度可以理解为平方和中独立随机变量的个数.2(n)分布的概率密 度为2 分布的概率密度图像随n 取不同数值而不同,见图5.2第五章 数理统计的基本概念2 分布密度函数中的(x)为伽玛(Gamma)函数,是含参数的广义积分一般求 函数值需查 函数表.对自然数n,有2 分布具有如下性质:(1)若22(n),则E(2)=n,D(2)=2n(2)设212(n1),222(n2),且21 和22 相互独立,则这个性质称为2 分布的可加性.进一步可以证明n 个相互独立的服从2 分布的随机 变量之和仍服从2 分布,其自由度等于n 个2 分布的自由度之和
12、.(3)设 X2(n),由林德贝格 列维中心极限定理可知,对任意x,有该定理说明2 分布的极限分布为正态分布.第五章 数理统计的基本概念在涉及2 分布的概率计算中常涉及“分位数”的概念.与标准正态分布的“上 分位数(或分位点)”z 定义类似,有定义2 设22(n),分布密度为f(x),对给定的(01),称满足条件的数2(n)为2(n)分布的上 分位数(或分位点).如图5.3所示.第五章 数理统计的基本概念二、t分布定义3 设 XN(0,1),Y2(n),且 X 与Y 相互独立,则称随机变量服从自由度为n 的t分布,记为Tt(n).t分布的概率密度为t分布的概率密度函数图形见图5.4,它随n 取
13、不同数值而不同.由于f(t)是偶函数,所以t分布密度曲线关于纵轴对称.当n 较小时,t分布与N(0,1)分布之间有较大的差 异;当n 较大时,其图形类似于标准正态分布密度的图形见,图3.2(左),只是波峰比标准 正态分布的低一些第五章 数理统计的基本概念事实上,可以证明:若Tt(n),概率密度函数为f(t),则t分布是统计学上的一类重要分布.它是由英国统计学家哥塞特发现的.1908 年,哥塞特以笔名“Student”在生物统计杂志生物计量学上发表论 文,提出了这一分布,因而t分布又称为“学生氏分布”.t分布的发现打破了正态分布一统 天下的局面,开创了小样本统计推断的新纪元,在统计学史上具有划时
14、代意义.第五章 数理统计的基本概念定义4 设T=t(n),概率密度为f(t),对给定的(01),称满足条件的数t(n)为t(n)分布的上 分位数(或分位点),如图5.5所示.三、F分布定义5 设 X2(n1),Y2(n2),且 X 与Y 相互独立,则称随机变量 服从自由度为(n1,n2)的F 分布,记为FF(n12,n2),其中n1 称为第一自由度,n2 称为 第二自由度.第五章 数理统计的基本概念F(n1,n2)分布的概率密度函数为F 分布的概率密度函数图形见图5.6,它随n1,n2 取不同数值而不同.第五章 数理统计的基本概念定义6 设FF(n1,n2),概率密度为f(z),对给定的(01
15、),称满足条件的数F(n1,n2)为F(n1,n2)分布的上 分位数(或分位点),如图5.7所示四、正态总体的样本均值与样本方差的分布定理1 设 X1,X2,Xn 是取自正态总体XN(,2)的一个样本,记 则有如下结论:第五章 数理统计的基本概念推论1 设 X1,X2,Xn 是来自正态总体N(,2)的样本,则推论2 设X1,X2,Xm 为来自正态总体 N(1,2)的一个样本,而Y1,Y2,Yn 是来自N(2,2)的一个样本,并且它们相互独立,记则其中第五章 数理统计的基本概念推论3 设 X1,X2,Xm 为来自正态总体N(1,21)的一个样本,而Y1,Y2,Yn 为来自正态总体N(2,22)的样本,并且它们相互独立,则