1、第第4章章 抽样估计抽样估计统计推断的过程 抽样估计包括抽样调查和抽样推断两个部分。抽样调查是一种非全面的调查方法,是从总体中按照随机原则抽取样本单位进行调查 抽样推断是利用样本信息推断总体的数量特征。抽样估计不论在统计调查还是在统计分析中都有广泛的应用。抽样调抽样调查的查的概念概念广义:凡是抽取一部分单位进行观察,并根据观察结果来推断全体的都是抽样调查,其中又可分为非随机抽样和随机抽样两种。狭义:根据大数定律的要求,在抽取调查单位时应保证总体中的各个单位都有同等的中选可能性。一般所讲的抽样调查,大多数是指这种随机调查,即狭义的抽样调查。什么是抽样推断?例例1:1:一汽车轮胎制造商生产一种被认
2、为一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎寿命更长的新型轮胎。120120个个样本样本测试平均里程:36,500公里推断新轮胎新轮胎平均寿命平均寿命400个样本 支持人数:160推断支持该候选人支持该候选人的选民占全部的选民占全部选民的比例选民的比例例例2 2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众支持该候选人的民众占全部登记投票人总数的比例占全部登记投票人总数的比例。由于时间及财力的限制:抽样调查的基本特点:抽样调查的基本特点:节省调查费节省调查费 调查速度快调查速度快 调查结果准确可靠调查结果准确可靠 应用范围广应用范
3、围广 设设计计抽抽样样方方案案抽抽取取样样本本单单位位收收集集样样本本数数据据计计算算样样本本统统计计量量推推断断总总体体参参数数第六章第六章 抽样与参数估计抽样与参数估计第一节抽样调查的含义第一节抽样调查的含义第二节第二节 抽样调查的基本概念抽样调查的基本概念第三节第三节 抽样调查的数理基础抽样调查的数理基础第四节抽样推断的方法第四节抽样推断的方法第二节第二节 抽样调查的基本概念抽样调查的基本概念 一、全及总体和样本总体一、全及总体和样本总体 二、全及指标和样本指标二、全及指标和样本指标 三、抽样方法和样本可能数目三、抽样方法和样本可能数目研究对象的全体,即第一章中学研究对象的全体,即第一章
4、中学过的总体。过的总体。按随机原则从全及总体中抽取一按随机原则从全及总体中抽取一部分单位组成的集合体,又叫样部分单位组成的集合体,又叫样本总体。本总体。样本总体中所包括的单位数叫样本容量,样本总体中所包括的单位数叫样本容量,一般用一般用n 表示表示1 1、大样本(、大样本(n30)2 2、小样本、小样本(n30),样本均值的抽样分布逐渐趋于正态分布一个任意分布的总体XXnxP119例例4-5某班组有5个工人,他们的单位工时工资分别是4、6、8、10、12元,总体服从于正态分布。现用重复抽样方式从5个工人中抽出2人,计算样本的平均工时工资的抽样平均误差。样本成数分布样本成数分布P120例例4-6
5、已知一批产品的合格率为90%,现采用重复抽样方式从中取出400件,求样本合格率的抽样平均误差。练习练习1、对某乡进行简单重复抽样调查,抽出、对某乡进行简单重复抽样调查,抽出100个个农户,户均年收入农户,户均年收入2000元,年收入标准差元,年收入标准差100元。元。(1)求抽样平均误差。)求抽样平均误差。(2)若抽取的是)若抽取的是200户,则抽样平均误差是多户,则抽样平均误差是多少少?(3)若要使抽样平均误差降低为原来()若要使抽样平均误差降低为原来(1)的)的一半,则应抽多少户。一半,则应抽多少户。2、对某县人口用不重复抽样方法按、对某县人口用不重复抽样方法按1/10比例抽比例抽出出1万
6、人进行调查,得知样本平均年龄万人进行调查,得知样本平均年龄40岁岁,年龄标准差,年龄标准差20岁,求抽样平均误差。岁,求抽样平均误差。1、某县人口10万人,用简单随机不重复抽样方法抽取1/10的人口进行调查,得知男性人口比重为51%,求男性人口比重的抽样平均误差。2、对某乡进行简单随机重复抽样调查,抽出100个农户进行调查,得知年收入在1800元以上的占95%,求农户年收入在1800元以上比重的抽样平均误差。抽样平均误差的计算公式:第第4章章 抽样估计抽样估计一、总体参数估计概述一、总体参数估计概述 点估计就是根据样本资料得出的样本指标数值,直接用以代表相应的总体指标,即:。根据给定的估计可靠
7、程度的要求,利用实际样本资料,指出包含总体被估计值的区间范围。点点 估估 计计区间估计区间估计二、参数估计的基本方法二、参数估计的基本方法无偏性无偏性有效性有效性一致性一致性估计量的优良性准则估计量的优良性准则(无偏性)(无偏性)无偏性:估计量的数学期望等于被估计的总体无偏性:估计量的数学期望等于被估计的总体 参数参数估计量的优良性准则估计量的优良性准则(有效性)(有效性)估计量的优良性准则估计量的优良性准则(一致性)(一致性)一致性:随着样本容量的增大,估计量越来越一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数接近被估计的总体参数 为的无偏、有效、一致估计量;为的无偏、有效、一
8、致估计量;为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;为的无偏、有效、一致估计量。为的无偏、有效、一致估计量。x1nSpP案例案例3:A市农村自来水居民用户共有市农村自来水居民用户共有70万户,采用万户,采用不重复抽样的方式,随机抽取了不重复抽样的方式,随机抽取了200户进行满意户进行满意度的调查,获得的相关资料如下:度的调查,获得的相关资料如下:样本农村居民用户对产品的平均满意度为样本农村居民用户对产品的平均满意度为3.52,标准差为,标准差为0.74。现在要求以现在要求以95%的概率保证程度的概率保证程度来估计全部来估计全部农村居民用户农村居民用户对产品的满意度所在的区间对产品
9、的满意度所在的区间。注意:区间注意:区间估计必须同时考察所得结果的估计必须同时考察所得结果的“可能范围可能范围”与与“可靠程度可靠程度”。68.27%95.45%99.73%),(2NXX回顾正态分布回顾正态分布回顾正态分布回顾正态分布)()|(|zFzxPX1在实际中,一般将这种对应函数关系在实际中,一般将这种对应函数关系编成编成正态概率表正态概率表供直接查用供直接查用回顾中心极限定理回顾中心极限定理(图示)(图示)中心极限定理:中心极限定理:设从均值为,方差为 2的一个任意任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从正态分布。当样本容量足够大时(n 30),样本均
10、值的抽样分布逐渐趋于正态分布一个任意分布的总体X?x所有可能的样本平均数的分布所有可能的样本平均数的分布xx68.27%95.45%99.73%),(2xNxx2x3x2xx3xx)()(zFzxPx)()(zFzxzxPxx)()(zFzxzPxx9973.0)3()33(9545.0)2()22(6873.0)1()11(FxxPFxxPFxxPxxxxxx1)(xxxxPxxz抽样极限误差:1)(zF置信水平:)()(zFzxzxPxx1P 置信水平置信水平与概率度与概率度查表查表得到置信水平和概率度的关系P126:置信区间置信区间:置信下限置信下限、置信上限置信上限所谓区间估计,就是估
11、计总体参数的区间所谓区间估计,就是估计总体参数的区间范围,并要求给出区间估计的置信水平范围,并要求给出区间估计的置信水平 抽样平均误差是说明抽样方案总的误差情况 但在实际抽样推断时,往往只抽取一个样本,因此实际的抽样误差可能大于或者小于抽样的平均误差。在现实中,置信区间可以通过统计量的值加减一个允许的误差项 来计算,这个可以接受的误差项也叫作极限误差,也称为允许误差或容许误差。抽样极限误差抽样极限误差 在一定的全及总体中,当抽样方式和样本容量确定在一定的全及总体中,当抽样方式和样本容量确定以后,抽样的平均误差就是一个以后,抽样的平均误差就是一个定值定值。而抽样的极限误差则可以根据研究目的的不同
12、而抽样的极限误差则可以根据研究目的的不同,由由人们加以规定。人们加以规定。抽样极限误差和抽样平均误差的关系:抽样极限误差和抽样平均误差的关系:这里的这里的“z”称为称为“概率度概率度”概率度概率度“z”和和置信水平置信水平的关系的关系(查表)抽样极限误差的估计总是和一定的抽样极限误差的估计总是和一定的概率保证程度概率保证程度联联系在一起系在一起ppxxzzn区间估计最关心的两个问题:n 抽样误差的可能范围有多大?置信区间估计的精度落在这个范围内的概率有多大?置信水平估计的可靠性案例案例7:A市农村自来水居民用户共有市农村自来水居民用户共有70万户,万户,采用不重复抽样的方式,随机抽取了采用不重
13、复抽样的方式,随机抽取了200户进户进行满意度的调查,获得的相关资料如下:行满意度的调查,获得的相关资料如下:样本农村居民用户对产品的平均满意度为样本农村居民用户对产品的平均满意度为3.52,标准差为,标准差为0.74。现在要求以现在要求以95%的概率保证程度来估计全部的概率保证程度来估计全部农村居民用户对产品的满意度所在的区间。农村居民用户对产品的满意度所在的区间。本章中最重要的问题之一:本章中最重要的问题之一:区间估计的三类主要问题区间估计的三类主要问题一一.总体平均数的区间估计总体平均数的区间估计二二.总体成数的区间估计总体成数的区间估计三样本容量的确定三样本容量的确定步步骤骤 计算样本
14、平均数计算样本平均数 ;x 搜集总体方差的经验数据搜集总体方差的经验数据 ;或计算样本方差或计算样本方差 ;22s总体平均数的区间估计总体平均数的区间估计 计算抽样平均误差:计算抽样平均误差:计算抽样极限误差:计算抽样极限误差:xxz 确定总体平均数的置信区间:确定总体平均数的置信区间:xx:案例案例7:A市农村自来水居民用户共有市农村自来水居民用户共有70万户,采用不重复抽样的方式,随万户,采用不重复抽样的方式,随机抽取了机抽取了200户进行满意度的调查,获得的相关资料如下:样本农村居民用户进行满意度的调查,获得的相关资料如下:样本农村居民用户对产品的平均满意度为户对产品的平均满意度为3.5
15、2,标准差为,标准差为0.74。现在要求以。现在要求以95%的概率保证的概率保证程度来估计全部农村居民用户对产品的满意度所在的区间。程度来估计全部农村居民用户对产品的满意度所在的区间。(1)计算样本平均数的平均误差,因为n/N比值很小,所以,应用重复抽样的公式进行计算:(2)根据概率保证程度:,查表得概率度:(3)计算抽样极限误差(4)计算A市所有农村自来水用户满意度的区间:下限3.520.103.42xx上限3.520.103.62xx 计算结果表明,A市农村自来水用户的平均满意度为3.423.62,其置信水平为95%。练习解:解:已知 x26,=6,n=100,F(z)=0.95,z=1.
16、96【例例】某大学从该校学生中随机抽取某大学从该校学生中随机抽取100100人,调查到他们平人,调查到他们平均每天参加体育锻炼的时间为均每天参加体育锻炼的时间为2626分钟。试以分钟。试以9595的置信水的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体标准差为知总体标准差为6 6分钟)。分钟)。176.27824.24176.126,176.126:,:176.16.096.16.01006XXxxXznxxxxx区间估计的原理1.样本中平均参加体育锻炼的时间为样本中平均参加体育锻炼的时间为26分钟,分钟,即用样本平均数作为对总
17、体平均数的即用样本平均数作为对总体平均数的点估点估计计2.估计范围为估计范围为261.176(1.176的误差的误差),即,即区间区间(。3.如用类似的方式,重复抽取大量(样本容如用类似的方式,重复抽取大量(样本容量相同的)样本时,产生的大量类似区间量相同的)样本时,产生的大量类似区间中有些会覆盖真正的总体平均数,而有些中有些会覆盖真正的总体平均数,而有些不会;但其中大约有不会;但其中大约有95%会覆盖真正的总会覆盖真正的总体比例。体比例。0.6827xxXX样本抽样分布曲线样本抽样分布曲线原总体分布曲线原总体分布曲线0.9545xx2XX样本抽样分布曲线样本抽样分布曲线原总体分布曲线原总体分
18、布曲线 0.9973落在落在范围内的概率范围内的概率为为99.73%Xxx3X区间估计的三类主要问题区间估计的三类主要问题一一.总体平均数的区间估计总体平均数的区间估计二二.总体成数的区间估计总体成数的区间估计三样本容量的确定三样本容量的确定产品的合格率产品的合格率民众对某项政策的支持率民众对某项政策的支持率某企业产品的市场占有率某企业产品的市场占有率某电视节目的收视率某电视节目的收视率一、应用环境一、应用环境nnp12ppzppppPppP:总体比例的置信区间总体比例的置信区间(实例)(实例)【例例】某企业在一项某企业在一项关于职工流动原因的关于职工流动原因的研究中,从该企业前研究中,从该企
19、业前职工的总体中随机选职工的总体中随机选取了取了200200人组成一个人组成一个样本。在对其进行访样本。在对其进行访问时,有问时,有140140人说他人说他们离开该企业是由于们离开该企业是由于同管理人员不能融洽同管理人员不能融洽相处。试对由于这种相处。试对由于这种原因而离开该企业的原因而离开该企业的人员的真正比例构造人员的真正比例构造95%95%的置信区间。的置信区间。影响抽样误差(区间宽度)影响抽样误差(区间宽度)的因素的因素区间估计的三类主要问题区间估计的三类主要问题一一.总体均值的区间估计总体均值的区间估计二二.总体比例的区间估计总体比例的区间估计三.三.样本容量的确定样本容量的确定样本
20、容量样本容量找出在规定误差找出在规定误差范围内的最小样范围内的最小样本容量本容量找出在限定费用找出在限定费用范围内的最大样范围内的最大样本容量本容量案例案例8:A市自来水城镇居民用户共有市自来水城镇居民用户共有114万户,万户,2009年年其满意度的标准差为其满意度的标准差为1。现对现对A市城镇自来水居民用户市城镇自来水居民用户2010年的满意度进行抽年的满意度进行抽样估计,要求平均满意度的允许误差最大不超过样估计,要求平均满意度的允许误差最大不超过0.1,概,概率保证程度为率保证程度为95%。那么我们用重复抽样方法需要抽查多少城镇自来水居那么我们用重复抽样方法需要抽查多少城镇自来水居民用户?
21、民用户?允许的极限误差的大小允许的极限误差的大小 抽样推断的可靠程度抽样推断的可靠程度 抽样方法与抽样的组织形式抽样方法与抽样的组织形式 总体各单位标志值变异程度的大小总体各单位标志值变异程度的大小(1)在重复抽样条件下:(2)在不重复抽样条件下:1推断总体平均数所需的样本单位数2推断总体成数所需的样本单位数(1)在重复抽样条件下:(2)在不重复抽样条件下:222zn22222zNNznx案例:案例:A A市自来水城镇居民用户共有市自来水城镇居民用户共有114114万户,万户,20092009年其满意度的年其满意度的标准差为标准差为1 1。现对。现对A A市城镇自来水居民用户市城镇自来水居民用
22、户20102010年的满意度进行抽年的满意度进行抽样估计,要求平均满意度的允许误差最大不超过样估计,要求平均满意度的允许误差最大不超过0.10.1,概率保证,概率保证程度为程度为95%95%,那么我们用重复抽样方法需要抽查多少城镇自来水,那么我们用重复抽样方法需要抽查多少城镇自来水居民用户?居民用户?查正态分布概率表当概率保证程度查正态分布概率表当概率保证程度为为95%时,时,z=1.96,允许,允许误差误差=0.1,根据,根据平均满意度推算样本容量时,采用重复抽样公式:平均满意度推算样本容量时,采用重复抽样公式:也就是为了满足也就是为了满足A A市城镇自来水用户对产品的平均满意度的市城镇自来
23、水用户对产品的平均满意度的推断,我们至少应抽取推断,我们至少应抽取384384户户A A市城镇自来水用户来进行调查。市城镇自来水用户来进行调查。样本容量的确定样本容量的确定(实例)(实例)估计总体比例时样本容量的确定估计总体比例时样本容量的确定 在简单随机重复抽样条件下:nxnPPp)1(样本均值的抽样平均误差:样本比例的抽样平均误差:?总体标准差总体比例1.用过去全面调查或抽样调查的资料,若同时有几个的资料,应选用数值较大的那个。2.用样本标准差Sn-1 代替全及标准差3.在大规模调查前,先做个小规模的试验性的调查来确定S,代替 如何确定?1.可以取经验数据 2.如果可以有几个经验数据,取使
24、得 P(1-P)最大的那一个.3.可以用样本比例代替4.使用P=0.5,此时P(1-P)最大.如何确定P?样本容量的确定样本容量的确定(实例)(实例)【例例】一家市场调一家市场调研公司想估计某地研公司想估计某地区有彩色电视机的区有彩色电视机的家庭所占的比例。家庭所占的比例。该公司希望对比例该公司希望对比例P 的估计误差不超过的估计误差不超过0.05,要求的可靠,要求的可靠程度为程度为95%,应抽,应抽多大容量的样本(多大容量的样本(没有可利用的没有可利用的P估计估计值,抽样方法为重值,抽样方法为重复抽样)。复抽样)。The margin of error for estimating a po
25、pulation proportion is almost 0.10 or less.In national public opinion polls conducted by organizations,a 0.03 or 0.04 margin of error is generally reported.The use of these margins of error will generally provided a sample size that is large enough to satisfy the central limit theorem requirements o
26、f np5 and n(1-p)5.某大学随机抽取了50名男生,测得他们的平均身高为174.5厘米,标准差为6.9厘米。试求置信度为95%的置信区间。176.41172.59509.696.15.174,509.696.1-5.174:9126.1509.696.19758.0509.696.1%95)(9.65.174,50即:厘米厘米,已知条件:XXzzFsxnxx结论:可以以95%的置信度推断该学校全部男生的平均身高在172.59厘米176.41厘米之间。练习2:某企业生产彩色电视机,按不重复抽样的方法,从一批出厂产品中抽取1%的产品(共144台)进行质量检验,经测试得知:样本彩色电视机
27、正常工作的平均时间为10.97千小时,标准差为2.15千小时,试计算:(1)以95%的概率保证程度对该厂生产的这批彩色电视机的正常工作时间做出区间估计。(2)若样本中彩色电视机的一级品率为34%,试以95%的概率保证程度对该厂这批出厂产品的一级品率做出区间估计。已知:,则抽样平均数的平均误差的计算如下:144n14400%1144N97.10 x0.178(千小时)千小时S=2.15千小时(1)根据95%的概率保证程度查表得t=1.96不重复抽样允许误差 不重复抽样下限 (千小时)不重复抽样上限 (千小时)计算结果表明,该企业彩色电视机平均正常工作时间在10.62111.319千小时之间,其概
28、率保证程度为95%。10.970.34910.621xx 10.970.34911.319xx(2)计算样本一级品率和平均误差 ,p=34%根据概率保证度95%查表,得概率度z=1.96计算抽样极限误差 计算总体指标的区间:不重复抽样下限 不重复抽样上限 计算结果表明,该批彩色电视机一级品率在26.356%41.644%之间,其置信水平为95%。144n%356.26%644.7%34pP%644.41%644.7%34pP练习练习3:某企业生产彩色电视机,按不重复抽样的方法,:某企业生产彩色电视机,按不重复抽样的方法,从一批出厂产品中抽取从一批出厂产品中抽取1%的产品进行质量检验,取得如的产
29、品进行质量检验,取得如下表所示的抽样检验资料,试计算:下表所示的抽样检验资料,试计算:(1)以)以95%的概率保证程度对该厂生产的这批彩色电视的概率保证程度对该厂生产的这批彩色电视机的正常工作时间做出区间估计。机的正常工作时间做出区间估计。(2)如果规定彩色电视机的正常工作时间在)如果规定彩色电视机的正常工作时间在12000小时以小时以上为一级品,试对该厂这批出厂产品的一级品率做出区间上为一级品,试对该厂这批出厂产品的一级品率做出区间估计。估计。正常工作时间(千小时)正常工作时间(千小时)电视机(台)电视机(台)6 68 8 15 158 81010 30 3010101212 50 5012
30、121414 40 4014141616 9 9合计合计144144按按 日产量分组(件)日产量分组(件)工人数(人)工人数(人)110114114118118122122126126130130134134138138142371823211864合计合计100按按 日产量分组日产量分组(件)(件)工人数(人)工人数(人)110114114118118122122126126130130134134138138142371823211864合计合计100 xf0568.09.010000568.09.01000,0568.09.00568.09.0NPP即该企业工人中完成定额的工人比重在即该
31、企业工人中完成定额的工人比重在84.3%至至95.7%之间,完成定额的工人总数在之间,完成定额的工人总数在843至至957人人之间,估计的可靠程度为之间,估计的可靠程度为95。按按 日产量分组日产量分组(件)(件)组中值组中值(件)(件)工人数工人数(人)(人)11011411411811812212212612613013013413413813814211211612012412813213614037182321186433681221602852268823768165605887006489284648600784合计合计100126004144xfxffxx2件件件件47.6994
32、1441126100126002ffxxsfxfxN203.11261000203.11261000,203.1126203.1126N即该企业工人人均产量在即该企业工人人均产量在124.797至至127.203件之间,其日件之间,其日总产量在总产量在124797至至127303件之间,估计的可靠程度为件之间,估计的可靠程度为95。更进一步的话题更进一步的话题增加样本容量至n30?30n是否是是是否否否已知吗?x s 计算代替用nzxnszxnzxnstx2/x s 计算代替用已知吗??)(2,XN查t分布表得到生活中的辛苦阻挠不了我对生活的热爱。22.9.3022.9.30Friday,Se
33、ptember 30,2022人生得意须尽欢,莫使金樽空对月。7:22:267:22:267:229/30/2022 7:22:26 AM做一枚螺丝钉,那里需要那里上。22.9.307:22:267:22Sep-2230-Sep-22日复一日的努力只为成就美好的明天。7:22:267:22:267:22Friday,September 30,2022安全放在第一位,防微杜渐。22.9.3022.9.307:22:267:22:26September 30,2022加强自身建设,增强个人的休养。2022年9月30日上午7时22分22.9.3022.9.30精益求精,追求卓越,因为相信而伟大。20
34、22年9月30日星期五上午7时22分26秒7:22:2622.9.30让自己更加强大,更加专业,这才能让自己更好。2022年9月上午7时22分22.9.307:22September 30,2022这些年的努力就为了得到相应的回报。2022年9月30日星期五7时22分26秒7:22:2630 September 2022科学,你是国力的灵魂;同时又是社会发展的标志。上午7时22分26秒上午7时22分7:22:2622.9.30每天都是美好的一天,新的一天开启。22.9.3022.9.307:227:22:267:22:26Sep-22相信命运,让自己成长,慢慢的长大。2022年9月30日星期五7时22分26秒Friday,September 30,2022爱情,亲情,友情,让人无法割舍。22.9.302022年9月30日星期五7时22分26秒22.9.30谢谢大家!谢谢大家!