1、参 数估 计用SPSS作参数估计抽样与抽样分布区间估计点 估 计参 数估 计抽样方法样本容量与抽样分布抽样分布抽样与抽样分布样本(sample)总体(population)抽样(sampling)总体容量(population size)N=45样本容量(sample size)n=10 为推断总体的某些特征,而从总体中按一定方法抽取若干个体,这一过程称为抽样,所抽取的个体称为样本。抽样方法自有限总体的简单随机抽样简单随机样本有限总体 总体中每一个体以相等的概率被抽出,称简单随机抽样。有放回抽样与无放回抽样之分。自有限总体的简单随机抽样,特指有放回抽样。27252134523262829303
2、13336141312111098762120224243449117371635153832394041241834452383257362323129抽样方法自无限总体的简单随机抽样无限总体自无限总体抽取样本,采用无放回抽样。如果满足以下两个条件,则称简单随机抽样:每个个体来自同一个总体样本中每个个体的抽取是独立的简单随机样本抽样方法统计量计算总 体确定性样 本随机抽样随机性随机性xps 样本统计量做为随机变量,具有特定的概率分布。 把握住他们的分布规律就找到了推断总体参数的依据。总体参数XP理论上可计算 确定性抽样分布 1000名公司员工总体,500个容量为30的简单随机样本的平均年薪、
3、大学毕业生比率、年薪标准差的分布直方图。0.050.100.150.200.250.305000051000520005300054000 x的分布0.050.100.150.200.250.302600340042005000s的分布0.050.100.150.200.250.300.320.480.640.800.350.40p的分布抽样分布 xEnx随机变量 的数学期望总体均值 xEx随机变量 的标准差xx总体的标准差n样本容量N总体容量 niiniixEnxnExE1111设总体均值为总体方差为2 ,则有: nxDnxnDxDniinii212111设总体均值为总体方差为2 ,则有:抽
4、样分布10;,1,N21212,NnxnNx,xnx,xxxXniin则是取自总体的随机样本若总体 总体为正态概率分布时,对任何样本容量的 的分布均为正态分布。x10;,1,21212,NnxnNxn,xnx,xxx,niin时则当是取自总体的随机样本方差为设任意总体均值为中心极限定理(central limit theorem) 总体为任意分布,当样本容量n时, 的抽样分布为正态分布。实践中n30, 的分布即可用正态近似。xx抽样分布中心极限定理作用下 的概率密度 22221xxxexf)(xEnx xfxx2221xenxf0 x标准正态分布抽样分布总体X的分布样 本 均值的 分 布n=2
5、n=5n=30 中心极限定理对三个总体作用的图示抽样分布nPPp1 PpEP总体比率 pE随机变量 p 的标准差pPP1总体的方差n样本容量N总体容量随机变量p的数学期望对于 ,满足下面两个条件时认为样本容量足够大:当样本容量足够大时, 的抽样分布可用正态近似,即:p5)1 (5pnnpp1011N,NnPPPpnPPP,p0.050.100.150.200.250.300.320.480.640.800.350.40p的分布抽样分布0.050.100.150.200.250.302600340042005000s的分布11,N222212nsnxxxXn则有的随机样本是取自总体若总体 s2
6、服从卡方分布,但其分布函数不便于用数学式直接表达。可以得出与其相联系的一个服从自由度为 n-1的卡方分布的统计量。抽样分布30.73030 xnnxEx)(与样本容量有关与样本容量无关51800400100 xn样本容量与抽样分布点估计的概念估计量的优良性点 估 计 某连续生产线上生产的灯泡的使用寿命X服从正态分布N(,2),其中和2是未知总体参数。从中随机抽取5只灯泡,测得使用寿命分别为1529小时、1513小时、1600小时、1527小时、1111小时。试估计和2。459515152614111516152911516514111527160015131529222_2_nxxsnxx从总
7、体中抽取一个样本,构造适当的统计量 ,来估计对应的总体参数 。点估计的概念估计量的优良性无偏性有效性一致性则称统计量 是总体参数 的无偏估计量E参数不等于抽样分布的均值(有偏估计量)参数等于抽样分布的均值(无偏估计量)偏差EEE如果 22_sEPpExE22nsE注意无偏性有效的估计量是较则称统计量如果2121DD的抽样分布1的抽样分布2有效性 自正态总体抽样时,总体均值与总体中位数相同,而中位数的标准误差大约比均值的标准误差大25%。因此,样本均值更有效。X_xeM的抽样分布的抽样分布有效性估计量的满足一致性标准的点为则称为样本容量为任意小数如果),nPn( 1limx2sp均为一致性估计量
8、的抽样分布1的抽样分布2较大时的抽样分布n较小时的抽样分布n两个无偏点估计量的抽样分布两个不同容量样本的点估计量的抽样分布一致性总体均值的区间估计总体比率的区间估计样本容量的确定总体方差的区间估计区间估计总体方差已知时总体均值的区间估计总体方差未知时总体均值的区间估计总体均值的区间估计2N ,X1 ,0_NnxZn,Nx2_总体方差已知时总体均值的区间估计2Z2Z显著性水平2210置信度2212_2ZnxZP12_2_nZxnZxP122ZZZPnZxnZx2_2_,显著性水平下,在1- 置信水平下的置信区间: 一批零件的长度服从正态分布,从中随机抽取9件,测得其平均长度为21.4毫米。已知该
9、批零件长度的标准差为0.15毫米,试以95%的把握程度,估计该批零件平均长度的存在区间。215.0,X 95.0114.2_x9n05.0025.0296.12ZnZxnZx2_2_,915.096.14.21,915.096.14.21498.21,302.2115. 0总体方差已知时总体均值的区间估计 某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36)。95.0126_x30100 n05.0025.0296.12ZnZxnZx2_2_,100696.126,100696.12
10、6176.27,824.24362总体方差已知时总体均值的区间估计2N ,X1_ntnsxtn,Nx2_1 ,0_NnxZ-3-2-101230.00.10.20.30.4标准正态分布自由度为20的t-分布自由度为10的t-分布nstxnstx2_2_,显著性水平下,的1- 置信区间:总体方差未知时总体均值的区间估计 某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼为26分钟,样本方差为34。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间。95.0126_x30100 n05.0025.02984.1991025.02tntnstxnstx2_2_,1003
11、4984.126,10034984.12616.27,84.24342s总体方差未知时总体均值的区间估计是否为大样本n30值是否已知值是否已知总体是否近似正态分布用样本标准差s估计nszx2_nzx2_nzx2_nstx2_用样本标准差s估计将样本容量增加到n30以便进行区间估计是是是是否否否否总体均值区间估计程序总体均值的区间估计5)1 (5pnnpnPPP,p1N101,NnPPPpZ2pz2pz22nPPp1PnppZpnppZp1,122显著性水平下,P在1- 置信水平下的置信区间:总体比计的区间估计 某企业在一项关于职工流动原因的研究中,从企业前职工的总体中随机抽选了200人组成一个
12、样本。在对其进行访问时,有140说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开企业的人员的真正比率构造95%的置信区间。95.017 .0p200nnppZpnppZp1,122764.0,636.051407 . 0200np5603 . 02001 pn96.12Z2007 . 017 . 096. 17 . 0 ,2007 . 017 . 096. 17 . 0总体比计的区间估计nZ2nZ2允许误差(permissible)2222Zn2221PPZn 用历史数据代替。若有若干个历史数据,应以较大者代替。样本容量的确定 一家广告公司想估计某类商店去年所花的平均广告费
13、有多少。经验表明,总体方差为1800000。如置信度取95%,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?1800000205.096.12Z5002865.27500180000096. 1222222Zn 一家市场调研公司想估计某地区有彩色电视机的家庭所占的比率。该公司希望对 P 的估计误差不超过0.05,要求可靠程度为 95%,应取多大容量的样本?总体方差最大值为0.50.5=0.2505.096. 12Z05. 038505. 05 . 015 . 096. 1122222PPZnnZ222221sn 自由度为50自由度为2自由度为10分布的抽样分布22
14、21sn 11,N222212nsnxxxXn则是取自总体的随机样本若总体总体方差的区间估计22122221sn22222111221snsn2122222211snsn11,112212222nsnnsn显著性水平下,2 的置信区间0=8.90655=32.85230.0250.025自由度为19的2分布2 从一批灌装产品中,随机抽取20灌,得样本方差为0.0025。试以95%的置信度,估计总体方差的存在区间。2212222211snsn2975.0222025.0211snsn90655. 80025. 0198523.320025. 01920053. 00014. 022975. 02
15、025. 0%951总体方差的区间估计0=2.7044=19.02280.0250.025自由度为9的2分布2 对某种金属的10个样品所组成的一个随机样本作抗拉强度试验。从试验数据算出的方差为4,试求2 的95%值信区间。7044. 2490228.194923314.138925. 122975. 02025. 0%9512212222211snsn2975.0222025.0211snsn总体方差的区间估计结 束关键术语无放回抽样(无放回抽样(sampling without replacement)一个元素一旦选入样本,就从总体中剔除,不能再次被选入放回抽抽样(放回抽抽样(samplin
16、g with replacement)一个元素一旦被选入样本,仍被放回总体中。先前被选入的元素可能再次被抽到,并且在本样中可能出现多次抽样分布(抽样分布(sampling distribution)样本统计量所有可能值构成的概率分布点估计(点估计(point estimate)用做总体参数估计量的值。它是点估计量的具体的取值点估计量(点估计量(point estimator)提供总体参数点估计的样本统计量标准误差(标准误差(standard error)点估计量的标准差中心极限定理(中心极限定理(central limit theorem)当样本容量大的时候,用正态分布近似样本均值的分布和样本
17、比率的抽样分布区间估计(区间估计(interval estimate)总体参数估计值的一个范围,确信该范围包括参数的值在内抽样误差(抽样误差(sample error)无偏估计值(如样本均值)与所估计的总体值(如总体均值)之差的绝对值置信水平(置信水平(confidence level)与区间估计相联系的置信度边际误差(边际误差(margin error)置信区间中从点估计值中所加上或减去的值t分布(分布(t distribution) 概率分布的一族,当总体是正态或者近似正态概率分布,并且总体标准差未知情况下,对总体均值进行区间估计时常用到该分布自由度(自由度(degrees of free
18、dom)t 分布的参数,计算总体均值的区间估计中所用的t 分布的自由度为n-1,其中n是简单单随机样本的样本容量结 束案例5-1 某学者估计某城市一个家庭所收到的邮件中大约有70%是广告。一个由20个家庭组成的样本给出了有关它们在一个星期中所收到的邮件的总份份数及所收到的广告的份数的数据.见数据集案例5-1。要求:1、每周所收到的广告数据数量的均值的点估计为多少?并求总体均值的95%置信区间。2、每周所收到邮件数量的点估计为多少?并求总体均值的95%置信区间。3、由1和2中所得到的点估计与初始所给出的关于70%的邮件是广告的说法是否一致。案例5-2 某消费者研究组织,经常要对消费者所使用的大量
19、产品和服务进行评估。消费者抱怨,某一汽车制造商所生产的小汽车,在初期的使用过程中,传动系统不佳。为了更好地了解该种小汽车传动系统的问题,该消费者研究组织采用该地区一个汽车修理企业所提供的实际传动系统的维修记录为样本。如下数据是50辆汽车传动系统出现故障时所行驶的实际里程数据。见数据集案例5-2。要求:1、用适当的描述统计量汇总传动系统数据。2、求曾经出现过传动系统问题的汽车总体中在出现传动系统问题时所行驶里程的均值的95%置信区间。并对该区间估计做出管理上的解释。3、按照一些汽车用户曾经历过使用初期传动系统失灵的说法,你的统计结果说明了什么?4、如果研究公司想在5000公里的边际误差下,估计出现传动系统问题时所行驶里程的均值,应选取多大的样本容量?(取置信度为95%。)5、为了更全面地对该传动系统问题做出评价,你还需要收集一些某他什么样的信息?案例结 束