第六章参数估计课件.ppt

上传人(卖家):三亚风情 文档编号:2897628 上传时间:2022-06-09 格式:PPT 页数:45 大小:635KB
下载 相关 举报
第六章参数估计课件.ppt_第1页
第1页 / 共45页
第六章参数估计课件.ppt_第2页
第2页 / 共45页
第六章参数估计课件.ppt_第3页
第3页 / 共45页
第六章参数估计课件.ppt_第4页
第4页 / 共45页
第六章参数估计课件.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

1、第五章第五章 参数估计参数估计第一节第一节 参数估计基本方法参数估计基本方法第二节第二节 总体均值和总体比例的区间估计总体均值和总体比例的区间估计第一节参数估计的基本方法第一节参数估计的基本方法v推断统计就是根据抽样分布的原理进行的。推断统计就是根据抽样分布的原理进行的。v推断统计分为两大类:推断统计分为两大类:v参数估计:参数估计:根据一个随机样本的统计值来估计总体根据一个随机样本的统计值来估计总体之参数值是多少。先看样本情况,再推总体情况。之参数值是多少。先看样本情况,再推总体情况。v假设检验:假设检验:首先假设总体的情况是怎样的,然后以首先假设总体的情况是怎样的,然后以一个随机样本的统计

2、值来检验这个假设是否正确一个随机样本的统计值来检验这个假设是否正确。第一节参数估计的基本方法第一节参数估计的基本方法v只要采用随机抽样法,就可根据抽样分布,以样本只要采用随机抽样法,就可根据抽样分布,以样本统计值来推测总体情况。统计值来推测总体情况。即根据一个随机样本的统即根据一个随机样本的统计值来估计总体参数是多少。计值来估计总体参数是多少。 参数估计方法:参数估计方法:1.1.点估计:以一个最适当的样本统计值来代表总体点估计:以一个最适当的样本统计值来代表总体的参数值;的参数值;2.2.区间估计:以一个区间去估计总体参数值区间估计:以一个区间去估计总体参数值;一、点估计一、点估计从总体中抽

3、取一个样本,根据该样本的统计量对总体的未从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计,用于估计总体某一参数的知参数作出一个数值点的估计,用于估计总体某一参数的随机变量;随机变量;例如例如: : 用样本均值作为总体未知均值的估计值就是一用样本均值作为总体未知均值的估计值就是一 个个点估计。点估计。样本越大,抽样方法越严谨,点估计越可信样本越大,抽样方法越严谨,点估计越可信。点估计的缺陷点估计的缺陷 抽样误差总是难免的。抽样误差总是难免的。 点估计没给出估计值接近总体未知点估计没给出估计值接近总体未知参数程度的信息,即估计的可信程度很参数程度的信息,即估计的可信程度

4、很难确定。难确定。二、区间估计二、区间估计1.1.根据一个样本的观察值给出总体参数的估计范围根据一个样本的观察值给出总体参数的估计范围2.2.给出总体参数落在这一区间的概率给出总体参数落在这一区间的概率3.3.例如例如: : 总体均值落在总体均值落在50705070之间,可信度为之间,可信度为 95%95%1.1.总体未知参数落在某区间内的概率总体未知参数落在某区间内的概率2.2.表示为表示为 (1 - 100100为为显著性水平显著性水平,是总体参数,是总体参数未在未在区间内的概率区间内的概率3.3.常用的可信度值有常用的可信度值有 99%, 95%99%, 95%;相应;相应的的 为为0.

5、010.01,0.050.05。可信度(置信水平)可信度(置信水平) 正态分布落在总体均值某一区间正态分布落在总体均值某一区间内的样本内的样本XX总体均值的间距估计总体均值的间距估计假定条件假定条件总体服从正态分布总体服从正态分布, ,且总体方差(且总体方差( )已知已知如果不是正态分布,可以由正态分布来近似如果不是正态分布,可以由正态分布来近似 ( (n n 30)30)均值的间距估计均值的间距估计v可用下面公式计算可用下面公式计算可信间距可信间距:v当可信度为当可信度为9999时,时,Z Z取取2.582.58v间距的大小与可信度成正比间距的大小与可信度成正比v不难理解:在估计时所用不难理

6、解:在估计时所用 的间距如果很小,错误的间距如果很小,错误的机会当然较大,可信度自然较低。的机会当然较大,可信度自然较低。v应用间距估计法时,可以选用任意的可应用间距估计法时,可以选用任意的可信度,但一般用信度,但一般用9595或或9999。总体均值的间距估计总体均值的间距估计某行业职工日工资收入服从正态分布,从该行业职工中随机抽某行业职工日工资收入服从正态分布,从该行业职工中随机抽取人,测得其平均日工资收入为取人,测得其平均日工资收入为21.4 21.4 元。已知总体标准元。已知总体标准差差 =0.15=0.15元,试估计建立该行业职工日均收入的置信区间元,试估计建立该行业职工日均收入的置信

7、区间,给定置信水平为,给定置信水平为0.950.95。v均值抽样分布的标准差,称为均值的标准误:计算均值抽样分布的标准差,称为均值的标准误:计算方法是用总体的标准差除以样本大小方法是用总体的标准差除以样本大小(n)(n)的的平方的的平方根。根。v然而,总体的标准差很难知道,如果样本相当大,然而,总体的标准差很难知道,如果样本相当大,通常以样本的标准差通常以样本的标准差 S S 作为总体的标准差作为总体的标准差。但。但是,这种做法有将实际的标准误估计得稍偏。因为是,这种做法有将实际的标准误估计得稍偏。因为样本标准差倾向稍小于总体标准差。为弥补这个差样本标准差倾向稍小于总体标准差。为弥补这个差异,

8、在计算样本标准差时,除以异,在计算样本标准差时,除以n-1n-1而不是而不是n n。这样。这样就可以得到总体方差和标准差的无偏估计。就可以得到总体方差和标准差的无偏估计。v此处的此处的“n-1”称为称为“自由度自由度”。 第一,自由度的产生是与抽样分布联系在一起的第一,自由度的产生是与抽样分布联系在一起的。因为从总体中抽取样本,因而我们需要计算样。因为从总体中抽取样本,因而我们需要计算样本的本的“统计量统计量”,“统计量统计量”是研究者通过调查是研究者通过调查样本数据人为地计算出来的,而样本数据人为地计算出来的,而“参数参数”是被调是被调查者的总体所客观存在的,这是两者的区别。在查者的总体所客

9、观存在的,这是两者的区别。在统计学的理论层面上,要求统计量是参数的无偏统计学的理论层面上,要求统计量是参数的无偏估计,认为两者是相等的。在实际研究中,由于估计,认为两者是相等的。在实际研究中,由于抽样的误差可能导致两者的不相等,但对于这种抽样的误差可能导致两者的不相等,但对于这种情况,研究者是无法知道的,否则就没有抽样的情况,研究者是无法知道的,否则就没有抽样的必要了。在理论假设下,统计量和参数一样被看必要了。在理论假设下,统计量和参数一样被看作是客观的、确定性的。作是客观的、确定性的。 第二,既然在理论上统计量被要求是确定的第二,既然在理论上统计量被要求是确定的,那么在实际层面上计算统计量的

10、那组数,那么在实际层面上计算统计量的那组数据就不是完全自由的。这一点很重要,因据就不是完全自由的。这一点很重要,因为为“自由度自由度”中中“自由自由”的含义就是相对的含义就是相对这个这个“确定确定”而言的。正是统计量的这个而言的。正是统计量的这个“确定性确定性”限制了与之相关的一组数据的限制了与之相关的一组数据的“自由度自由度”,也就是说,一组数据不是可,也就是说,一组数据不是可以完全自由取值的,它必须支持以完全自由取值的,它必须支持“统计量统计量与总体参数相等与总体参数相等”的理论假设。这就是的理论假设。这就是“自由度自由度”存在的理由。存在的理由。 研究者对某一社区内居民家庭的收入状况进行

11、调研究者对某一社区内居民家庭的收入状况进行调查,该社区共有查,该社区共有10001000户,采取随机抽取的方式户,采取随机抽取的方式对对100100户进行了调查。在这个例子中,总体户进行了调查。在这个例子中,总体10001000户的收入的平均数是总体参数,是客观的户的收入的平均数是总体参数,是客观的、确定的,尽管研究者不知道。通过随机抽样、确定的,尽管研究者不知道。通过随机抽样和入户问卷调查,研究者获得了和入户问卷调查,研究者获得了100100户的收入户的收入数据。运用这组数据可以算出样本的平均数,数据。运用这组数据可以算出样本的平均数,它是统计量。由于在理论上要求统计量与参数它是统计量。由于

12、在理论上要求统计量与参数相等。当相等。当9999个数据被选择以后,第个数据被选择以后,第100100个数据个数据就是确定的,所以,这组数据在求平均数这统就是确定的,所以,这组数据在求平均数这统计量时的自由度就是计量时的自由度就是:k=100-1=99:k=100-1=99。t t分布分布v以均值标准误的估计以均值标准误的估计 作为分母计算的值作为分母计算的值,不完全符合,不完全符合Z Z分布或者说标准正态分布,我分布或者说标准正态分布,我们给这个分布起个名字,叫做们给这个分布起个名字,叫做t t分布。分布。vt t值符合值符合t t分布。分布。n-1n-1被称作自由度,自由度不被称作自由度,自

13、由度不同同t t分布的形状有差异。随着样本规模增大,分布的形状有差异。随着样本规模增大,也就是自由度的增大,也就是自由度的增大,t t分布会变得更加近似分布会变得更加近似于标准正态分布。于标准正态分布。总体均值的间距估计总体均值的间距估计v例题:例题:v我们欲了解某地区家庭用于请客送礼的每月我们欲了解某地区家庭用于请客送礼的每月平均支出(平均支出( )情况)情况, ,现从该地区抽取一个现从该地区抽取一个样本是:样本是:n n226226户,户, 4343元,元,S S10.510.5。则可信度为则可信度为9595的间距估计值为?的间距估计值为?v 41.63 M44.3741.63 M44.3

14、7v当可信度为当可信度为9999时的间距估计值是多少?时的间距估计值是多少?影响可信间距宽度的因素:影响可信间距宽度的因素:数据的离散程度,用数据的离散程度,用 来测度来测度;样本容量样本容量n n;置信水平置信水平 (1 - ) ,影响影响 Z Z 的取值。的取值。算例算例1 1v某大学从该校学生中随机抽取某大学从该校学生中随机抽取100100人,调查到人,调查到他们平均每天参加体育锻炼的时间为他们平均每天参加体育锻炼的时间为2626分钟。分钟。试以试以9595的置信水平估计该大学全体学生平的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差均每天参加体育锻炼的时间(已知总体

15、方差为为3636分钟)分钟)算例算例2 2从一个正态总体中抽取一个随机样本,从一个正态总体中抽取一个随机样本, n n = 25 = 25 ,其均值,其均值 x = 50 ,标准差标准差 s s = 8 = 8。 建立总体均值建立总体均值m m 的的95%95%的置信区间。的置信区间。我们可以我们可以9595的概率保证总体均值在的概率保证总体均值在46.6946.6953.30 53.30 之间之间四、总体比例的间距估计四、总体比例的间距估计v我们要估计某城镇有多少家庭是不和睦的。现我们要估计某城镇有多少家庭是不和睦的。现一个随机样本(一个随机样本(n n100100)中知道有)中知道有20.

16、0%20.0%的家庭的家庭不和,请估计该城镇总体家庭不和睦情况。要不和,请估计该城镇总体家庭不和睦情况。要求置信度是求置信度是9595。v估计总体的比例或百分率,其逻辑基本上估计总体的比例或百分率,其逻辑基本上与估计均值的相同。如果样本颇大,百分与估计均值的相同。如果样本颇大,百分率(或比例)的抽样分布会近似正态分布率(或比例)的抽样分布会近似正态分布,各个样本的百分率都对称地散布于总体,各个样本的百分率都对称地散布于总体百分率的两旁。其标准误差是:百分率的两旁。其标准误差是:v其中其中P是总体的比例(即百分率)。由于是总体的比例(即百分率)。由于难以知道难以知道P的数值,的数值,样本相当大时

17、,样本样本相当大时,样本中的比例中的比例 可以代替总体中的比例可以代替总体中的比例 P P。v总体比例区间估计总体比例区间估计:总体比例的间距估计总体比例的间距估计v我们要估计某城镇有多少家庭是不和睦的。我们要估计某城镇有多少家庭是不和睦的。现一个随机样本(现一个随机样本(n n100100)中知道有)中知道有20.0%20.0%的家庭不和,请估计该城镇总体家的家庭不和,请估计该城镇总体家庭不和睦情况。要求置信度是庭不和睦情况。要求置信度是9595。v0.122P 0.278总体比例的间距估计总体比例的间距估计v上面的方法,是在上面的方法,是在SpSp公式中以样本公式中以样本 值代替值代替总体

18、总体 P P 值。如果样本相当大,这个方法是可值。如果样本相当大,这个方法是可以的。另一个较为保守的做法,是以以的。另一个较为保守的做法,是以P P0.500.50代入代入SESE公式,使公式,使SESE达到最大值,再将达到最大值,再将SESE值代值代入可信间距公式就获得最大的间距,以之来入可信间距公式就获得最大的间距,以之来估计参数值最安全。估计参数值最安全。v如上述家庭不和睦的例子:如上述家庭不和睦的例子:v 0.071P0.329算例算例3 3某企业在一项关于职工流动原因的研究中,从该某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了企业前职工的总体中随机选取了200

19、200人组成一人组成一个样本。在对其进行访问时,有个样本。在对其进行访问时,有140140人说他们人说他们离开该企业是由于同管理人员不能融洽相处。离开该企业是由于同管理人员不能融洽相处。试估计由于这种原因而离开该企业的人员的比试估计由于这种原因而离开该企业的人员的比例(例(95%95%的置信度)。的置信度)。我们可以我们可以9595的概率保证该企业职工由于同管理的概率保证该企业职工由于同管理人 员 不 能 融 洽 相 处 而 离 开 的 比 例 在人 员 不 能 融 洽 相 处 而 离 开 的 比 例 在63.6%76.4%63.6%76.4%之间之间第三节第三节 决定样本的大小决定样本的大小

20、v样本越大越好样本越大越好v在能够付出的研究代价的限度内,选取最大在能够付出的研究代价的限度内,选取最大的样本。的样本。v除此之外的两个标准:除此之外的两个标准:v1 1、我们愿意容忍多少错误、我们愿意容忍多少错误v2 2、所研究的个案之间的相互差异有多大、所研究的个案之间的相互差异有多大均值间距估计样本大小的决定均值间距估计样本大小的决定v某变量某变量X X总体均值为总体均值为 ,一个随机抽取样本,一个随机抽取样本的均值为的均值为v抽样均值与总体均值的差就是错误抽样均值与总体均值的差就是错误e e,如果用,如果用绝对值表示如下:绝对值表示如下:ve=| - |e=| - |均值间距估计样本大

21、小的决定均值间距估计样本大小的决定v假定我们知道总体的标准差假定我们知道总体的标准差的数值,则在估计总的数值,则在估计总体的均值时,体的均值时,9595的可信度间距为:的可信度间距为: 均值间距估计样本大小的决定均值间距估计样本大小的决定v在上述公式中,容忍错误的大小可以随研究的需在上述公式中,容忍错误的大小可以随研究的需要来决定,但标准差要来决定,但标准差的值却难以确定,原则上的值却难以确定,原则上用总体的标准差,如果不知道,只有参考前人的用总体的标准差,如果不知道,只有参考前人的研究或自己进行试点研究,依据这些研究计算出研究或自己进行试点研究,依据这些研究计算出来的标准差数值,尽可能猜想总

22、体的标准差是多来的标准差数值,尽可能猜想总体的标准差是多少。少。v这项猜想工作不容易,准确性也有疑问。所以社这项猜想工作不容易,准确性也有疑问。所以社会学研究多不用此公式来决定样本的大小,但以会学研究多不用此公式来决定样本的大小,但以之作参考只用是可以的。之作参考只用是可以的。算例算例4 4v我们想调查某地区工人的平均工资,根据前人我们想调查某地区工人的平均工资,根据前人研究,该地区工人工资变量的标准差大约是研究,该地区工人工资变量的标准差大约是1515元,我们希望样本均值与总体均值的差距最好元,我们希望样本均值与总体均值的差距最好不要多过不要多过3 3元。应该抽取多少名工人来研究?元。应该抽

23、取多少名工人来研究?v如果置信度为如果置信度为95%95%vn=(1.96/e)2 =(1.96153)2 96v如果可信度为如果可信度为99,则则vn= (2.58/e)2 166比例间距估计样本大小的决定比例间距估计样本大小的决定v原理与均值间距估计样本大小的决定一样。原理与均值间距估计样本大小的决定一样。v例:研究某地区工人有多少是满意目前的工例:研究某地区工人有多少是满意目前的工作环境的,根据前人研究大概有作环境的,根据前人研究大概有6060的工人的工人满意目前的工作环境,要求本研究的可信度满意目前的工作环境,要求本研究的可信度为为9595,而且样本比例与总体比例的差异不,而且样本比例

24、与总体比例的差异不大于大于5 5,要抽取多少名工人来研究?,要抽取多少名工人来研究?ve= 1.96(SE)v2 P(1-P)v计算结果,当可信度为计算结果,当可信度为95时,时,vn=(1.96)2 (0.60)(1-0.60)/(0.05)2 369v当可信度为当可信度为99时,时,vn=(2.58)2 (0.60)(1-0.60)/(0.05)2=639v可见,要求的可信度越高,样本要越大。可见,要求的可信度越高,样本要越大。v上面的公式要求我们推测总体上面的公式要求我们推测总体P P值。如果有困值。如果有困难,可改用比较保守的方法,就是上一节所难,可改用比较保守的方法,就是上一节所讲的

25、,以讲的,以P P0.500.50代入公式中,得到一个更大代入公式中,得到一个更大的样本。的样本。v如上面例题,如上面例题,9595的可信度:的可信度:vn=(1.96)2 (0.50)(1-0.50)/(0.05)2 v =384决定样本大小要注意的问题决定样本大小要注意的问题v一、以统计公式来推断样本的大小,最大的一、以统计公式来推断样本的大小,最大的困难是要先推测若干总体参数值,如标准差、困难是要先推测若干总体参数值,如标准差、比例等。倘若我们的推测犯错误,决定的样比例等。倘若我们的推测犯错误,决定的样本大小就有问题。较为适当的做法是,一方本大小就有问题。较为适当的做法是,一方面参考统计

26、公式算得的结果,另一方面看能面参考统计公式算得的结果,另一方面看能够付得起多少研究代价,然后决定样本的大够付得起多少研究代价,然后决定样本的大小。例如根据公式推测小。例如根据公式推测n n369369,如果研究经,如果研究经费许可,可以决定样本的大小为费许可,可以决定样本的大小为400400,甚至,甚至500500。决策时,宁多勿少。决策时,宁多勿少。决定样本大小要注意的问题决定样本大小要注意的问题v二、每一项调查研究都包括多个变量,我们二、每一项调查研究都包括多个变量,我们应该根据哪一个变量来计算样本的大小呢?应该根据哪一个变量来计算样本的大小呢?同样是前述工人的例子,如果根据工资变量,同样

27、是前述工人的例子,如果根据工资变量,n n9696,如果根据满意工作环境变量,则,如果根据满意工作环境变量,则n n369369。因此,大部分的社会学研究是难于应用。因此,大部分的社会学研究是难于应用统计公式的。如果一定要应用公式来决定样统计公式的。如果一定要应用公式来决定样本的大小,通常以样本中最重要的变量作为本的大小,通常以样本中最重要的变量作为准则,而且只是作为参考用。准则,而且只是作为参考用。决定样本大小要注意的问题决定样本大小要注意的问题v三、决定样本的大小,还要考虑日后采用的三、决定样本的大小,还要考虑日后采用的资料分析方法。如果计划采用多变量分析法资料分析方法。如果计划采用多变量

28、分析法或每个变量的分类都很精细,就要选用一个或每个变量的分类都很精细,就要选用一个较大的样本,才能提供足够的分析材料。较大的样本,才能提供足够的分析材料。算例算例5一家广告公想估计某类商店去年所花的平均广一家广告公想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为告费用有多少。经验表明,总体方差约为18000001800000元。如置信度取元。如置信度取95%95%,并要使估计处,并要使估计处在总体平均值附近在总体平均值附近500500元的范围内,这家广告元的范围内,这家广告公司应抽多大的样本?公司应抽多大的样本?vN28算例算例6v一家市场调研公司想估计某地区有彩色电视一家市

29、场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例机的家庭所占的比例。该公司希望对比例p p的的估计误差不超过估计误差不超过0.050.05,要求的可靠程度为,要求的可靠程度为95%95%,应抽多大容量的样本(没有可利用的应抽多大容量的样本(没有可利用的p p估计估计值)。值)。vN385算例7v某工厂某工厂374374名工人的平均年龄为名工人的平均年龄为36.2436.24岁,标岁,标准差为准差为10.3210.32岁,分别求当可信度为岁,分别求当可信度为95%95%和和9999时工人平均年龄的可信间距,并对结果加时工人平均年龄的可信间距,并对结果加以比较。以比较。95%(

30、35.20,37.28)99(34.86,37.62)算例8v计划研究某社区男性青年的结婚年龄,容许计划研究某社区男性青年的结婚年龄,容许样本平均结婚年龄与总体平均年龄的误差为样本平均结婚年龄与总体平均年龄的误差为1 1岁。在试调查中求得结婚年龄的标准差为岁。在试调查中求得结婚年龄的标准差为3 3岁。岁。计算当可信度为计算当可信度为9999时,应抽取多少样本。时,应抽取多少样本。N=60算例9v计划研究某地区的性别比例。容许样本男性计划研究某地区的性别比例。容许样本男性所占的百分比与总体的百分比的误差是所占的百分比与总体的百分比的误差是3 3。在。在试调查中求得男性所占的百分比是试调查中求得男性所占的百分比是4545。计。计算当可信区间为算当可信区间为9999时,应抽取多少样本时,应抽取多少样本。N=1831再 见

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第六章参数估计课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|