1、 美国渔业和野生动物保护机构规定美国渔业和野生动物保护机构规定:“:“每个扇贝肉每个扇贝肉的重量至少的重量至少1/361/36磅才可以捕捞磅才可以捕捞”。 !?这艘渔船上的扇贝符合捕捞标准吗?这艘渔船上的扇贝符合捕捞标准吗?第九章抽样估计第九章抽样估计 第一节第一节 抽样估计概论抽样估计概论 第二节第二节 抽样估计的基本概念抽样估计的基本概念 第三节第三节 简单随机抽样的抽样误差测定简单随机抽样的抽样误差测定 第四节第四节 简单随机抽样的抽样估计简单随机抽样的抽样估计 第五节第五节 必要抽样单位数的确定必要抽样单位数的确定 第六节第六节 抽样方案设计抽样方案设计第一节抽样估计概论第一节抽样估计
2、概论 一一、抽样估计的概念抽样估计的概念 二、抽样估计的特点二、抽样估计的特点 三、三、抽样估计的用途抽样估计的用途 四、四、抽样估计的步骤抽样估计的步骤一、抽样估计的概念一、抽样估计的概念 抽样估计即根据抽样估计即根据样本统计量样本统计量推断推断总体总体参数参数的过程。的过程。统计推断统计推断全及总体指标:参全及总体指标:参数(未知量)数(未知量)样本总体指标:统样本总体指标:统计量(已知量)计量(已知量)分为:分为:点估计点估计和和区间估计区间估计二、抽样估计的特点二、抽样估计的特点随机样本:随机样本:与总体分布与总体分布特征趋同特征趋同非随机样本非随机样本:与总体分:与总体分布特征不同布
3、特征不同并非所并非所有的抽样估有的抽样估计都按随机计都按随机原则抽取样原则抽取样本。也有本。也有非非随机抽样。随机抽样。特点之一:按特点之一:按随机原则随机原则抽取样本抽取样本 二、抽样估计的特点二、抽样估计的特点特点之二:具有科学的理论基础,其估特点之二:具有科学的理论基础,其估计结果具有可靠性计结果具有可靠性。抽样估计的理论基础抽样估计的理论基础大大 数数 定定 律律中中 心心 极极 限限 定定 理理特点之三:存在估计误差,并可特点之三:存在估计误差,并可加以控制。加以控制。抽样调抽样调查误差查误差登记登记误差误差代表性代表性误差误差用设计、培训、管用设计、培训、管理等方法消除理等方法消除
4、用抽样方法、样本用抽样方法、样本容量等手段控制容量等手段控制二、抽样估计的特点二、抽样估计的特点三、抽样估计的用途三、抽样估计的用途 抽样估计可用于四种情况: 不可能进行全面调查时 不必要进行全面调查时 来不及进行全面调查时 对全面调查补充修订时 统计法对调查方法的规定统计法对调查方法的规定:以周期性的普查为以周期性的普查为基础,以抽样调查为主要方法,以其他方法为基础,以抽样调查为主要方法,以其他方法为辅助手段。辅助手段。抽取样本单位抽取样本单位收集样本数据收集样本数据计算样本统计量计算样本统计量推断总体参数推断总体参数重点重点掌握掌握四、抽样估计的步骤四、抽样估计的步骤pPsxX,区间估计
5、20052005年中国消费者协会的主年中国消费者协会的主题是题是 “ “健康健康维权维权”. .想象你想象你是中国消费者协会的官员是中国消费者协会的官员, ,负责负责治理缺斤少两的不法行为。治理缺斤少两的不法行为。 假设你对可口可乐公司生产假设你对可口可乐公司生产的一种瓶装雪碧(包装上标明的一种瓶装雪碧(包装上标明其净含量是其净含量是500ml500ml)进行调查。)进行调查。在市场上随机抽取了在市场上随机抽取了5050瓶,测瓶,测得其平均净含量为得其平均净含量为499.5ml499.5ml,标,标准差为准差为0.63ml0.63ml。其中要做的一。其中要做的一件事情就是件事情就是: : 做出
6、一个估计:你有做出一个估计:你有95.45%95.45%的把握说的把握说该种包装的雪碧平均该种包装的雪碧平均净含量在净含量在498.24500.76ml498.24500.76ml之间,之间,然后向消协写份报告。然后向消协写份报告。随机性原则随机性原则 所谓随机性原则,就所谓随机性原则,就是在抽选样本单位时,是在抽选样本单位时,总体中总体中每一个单位每一个单位被抽被抽中的中的机会相等机会相等,样本单,样本单位的位的抽中与否抽中与否完全是完全是偶偶然然的。的。 例如:一些彩票的中例如:一些彩票的中奖号码奖号码; 电脑抽取中奖电脑抽取中奖的身份证号或手机号等的身份证号或手机号等等等.第二节第二节
7、抽样估计的基本概念抽样估计的基本概念一、全及总体和抽样总体一、全及总体和抽样总体二、总体指标和样本指标二、总体指标和样本指标三、抽样框三、抽样框四、有限总体与无限总体四、有限总体与无限总体五、简单随机样本五、简单随机样本六、重复抽样与不重复抽样六、重复抽样与不重复抽样七、样本容量与可能的样本数目七、样本容量与可能的样本数目八、抽样分布八、抽样分布(一)全及总体和抽样总体(一)全及总体和抽样总体全及总体简称总体或母体,它是指所要调查研究对象全及总体简称总体或母体,它是指所要调查研究对象的全体。全及总体的单位数用字母的全体。全及总体的单位数用字母N表示。表示。【例【例】研究某学校研究某学校5000
8、名学生的学习情况,则该名学生的学习情况,则该校的校的5000名学生即构成全及总体。名学生即构成全及总体。一具体问题来说,全及总体是唯一确定的。一具体问题来说,全及总体是唯一确定的。全及总体是样本所赖以抽取的母体。对于某全及总体是样本所赖以抽取的母体。对于某1.全及总体全及总体注意2.抽样总体。抽样总体。抽样总体简称样本或子样,它是指在全及总体中按随抽样总体简称样本或子样,它是指在全及总体中按随机原则抽取的那一部分单位所构成的集合体。机原则抽取的那一部分单位所构成的集合体。抽样总体的单位数称为样本容量,通常用字抽样总体的单位数称为样本容量,通常用字 母母n表示。表示。概念【例【例】从全校从全校1
9、0000名学生中随机抽取名学生中随机抽取100名学生名学生进行健康状况调查,请举出由进行健康状况调查,请举出由100人构成的一个人构成的一个抽样总体。共有多少种抽样总体?抽样总体。共有多少种抽样总体?通常,样本容量通常,样本容量n远小于总体单位数远小于总体单位数N。在抽样。在抽样中,中,n30的样本称为大样本,的样本称为大样本, n30的样本称为的样本称为小样本。样本总体不是唯一确定的,因为从总体小样本。样本总体不是唯一确定的,因为从总体N中抽取容量为中抽取容量为n的样本(当的样本(当n N)时,共有)时,共有注意nNC(二)总体指标和样本指标(二)总体指标和样本指标1.总体指标总体指标一个总
10、体常常有多个总体参数,它们从不同的角一个总体常常有多个总体参数,它们从不同的角度反映了总体分布的基本状况和主要特征。由于度反映了总体分布的基本状况和主要特征。由于全及总体是唯一确定的,因此,依据全及总体的全及总体是唯一确定的,因此,依据全及总体的数据计算的全及指标也是唯一确定的。数据计算的全及指标也是唯一确定的。注意 总体指标也称为母体参数、总体参数或全及总体,它是根据总总体指标也称为母体参数、总体参数或全及总体,它是根据总体各单位的标志值或标志特征计算的,反映总体某种属性的综合体各单位的标志值或标志特征计算的,反映总体某种属性的综合指标。指标。X常用的总体指标有总体平均数常用的总体指标有总体
11、平均数 、总体比率、总体比率P、总体标准差总体标准差或方差或方差 以及总体标志总量以及总体标志总量N或总或总体中某一部分单位总数体中某一部分单位总数 等。等。21N设总体中,设总体中,N个总体单位按某项标志的标志值分个总体单位按某项标志的标志值分组,分组结果为:组,分组结果为:变量值X次数FmXXX,21mFFF,21则,(则,(1)总体平均数总体平均数的计算公式为:的计算公式为:计算计算公式公式miimiiimmmFFXFFFFXFXFXX11212211总体指标的计算(2)总体方差总体方差的计算公式为:的计算公式为:miimiiimmmFFXXFFFFXXFXXFXX11221222212
12、12)()()()(miimiiimmmFFXXFFFFXXFXXFXX112212222121)()()()((4)总体比率)总体比率概念在抽样估计中,比率习惯上称为成数,也就是总体中具有某一属性的单位占总体全部单位数的比重。(3)总体标准差总体标准差的计算公式为:的计算公式为:(5)是非标志)是非标志分组单位数F变量值X具有某一属性不具有某一属性10合计0N1N为了研究是非标志总体的数量特征,为了研究是非标志总体的数量特征,令令N是非标志是非标志指总体中全部单位只具有“是”或“否”、“有”或“无”两种表现形式的标志,又叫交替标志交替标志是非标志总体的指标是非标志总体的指标具有某种标志表现的
13、单位数所占的成数NNP1不具有某种标志表现的单位数所占的成数NNQ010101NNNNNNNNNQP且有成数实际上,就是非标志总体中具有某种表现或不具有某种表现的单位数占全部总体单位总数的比重。均值标准差PNNNNNFXFXP10101PQPQPQQPPQNNNPNPFFXXp22010212201)(方差PPPQ1225. 05 . 02max时,有当QP例例某厂某月份生产了某厂某月份生产了400400件产品,其中件产品,其中合格品合格品380380件,不合格品件,不合格品2020件。求产品质量件。求产品质量分布的集中趋势与离散趋势。分布的集中趋势与离散趋势。解解:218. 0)95. 01
14、 (95. 095. 054002095400380203804000101PQPXNNQNNPNNNpP所以有:,件,则件,件,己知PQPPPPPXVPP11标准差系数样本指标也称为样本指标也称为统计量或抽样指标统计量或抽样指标,它是根据,它是根据抽样总体各单位的标志值或标志特征值计算的抽样总体各单位的标志值或标志特征值计算的、用以估计和推断相应总体指标的综合指标。、用以估计和推断相应总体指标的综合指标。一个样本总体也常常有多个样本指标,它们从不一个样本总体也常常有多个样本指标,它们从不同的角度反映了样本分布的基本状况和主要特征同的角度反映了样本分布的基本状况和主要特征。但由于样本总体不是唯
15、一确定的,因此,依据。但由于样本总体不是唯一确定的,因此,依据样本总体的数据计算的样本指标也不是唯一确定样本总体的数据计算的样本指标也不是唯一确定的。的。2.样本指标样本指标x常用的样本指标有样本平均数常用的样本指标有样本平均数 、样本比率、样本比率P、样本标准差样本标准差s或方差或方差 以及样本总体总量以及样本总体总量n或样本或样本中某一部分单位总数中某一部分单位总数 等。等。1n变量值变量值x次数次数fmxxx,21mfff,21则,(则,(1)样本平均数的计算公式为:)样本平均数的计算公式为:设样本中,设样本中,n个总体单位按某项标志的标志值分个总体单位按某项标志的标志值分组,分组结果为
16、:组,分组结果为:计算计算公式公式miimiiimmmffxffffxfxfxx112122112s(2)无偏样本方差无偏样本方差的计算公式为:的计算公式为:1)(1)()()(1122122221212miimiiimmmffXXffffXXfXXfXXs无偏miimiiimmmffXXffffXXfXXfXXs1122122221211)(1)()()(无偏(3)无偏样本标准差的计算公式为:)无偏样本标准差的计算公式为:样本单位数减样本单位数减1,主要是满足统计量要符合三个,主要是满足统计量要符合三个评选标准:评选标准:无偏性无偏性一致性一致性有效性有效性注意(2)有偏样本方差有偏样本方差
17、的计算公式为:的计算公式为:miimiiimmmffXXffffXXfXXfXXs1122122221212)()()()(有偏miimiiimmmffXXffffXXfXXfXXs112212222121)()()()(有偏(3)有偏样本标准差有偏样本标准差的计算公式为:的计算公式为:有偏样本方差,主要是不满足统计量要符合的有偏样本方差,主要是不满足统计量要符合的三个评选标准:三个评选标准:无偏性无偏性一致性一致性有效性有效性注意分组分组单位数单位数f变量值变量值x具有某一属性具有某一属性不具有某一属性不具有某一属性10合计合计0n1n(5)是非)是非标志标志指样本总体中全部单位只具有指样本
18、总体中全部单位只具有“是是”或或“否否”、“有有”或或“无无”两种表现形式的标志,又叫两种表现形式的标志,又叫交替交替标志标志为了研究是非标志样本总体的数量特征,令为了研究是非标志样本总体的数量特征,令n(4)样本比率)样本比率在抽样估计中,比在抽样估计中,比率习惯上称为成数,也就是样本中具有某一属性率习惯上称为成数,也就是样本中具有某一属性的单位占总体全部单位数的比重。的单位占总体全部单位数的比重。成数实际上就是非标志样本总体中具有某实际上就是非标志样本总体中具有某种表现或不具有某种表现的单位数占种表现或不具有某种表现的单位数占全部总体单位总数的比重。全部总体单位总数的比重。具有某种标志表现
19、的具有某种标志表现的单位数所占的成数单位数所占的成数nnp1不具有某种标志表现不具有某种标志表现的单位数所占的成数的单位数所占的成数nnq010101nnnnnnnnnqp且有均值标准差pnnnnnfxfxp101011011)(0102122nnnpnpffxxsp方差1011)(01021222nnnpnpffxxsp例例1一批货物(一批货物(18001800箱)运抵仓库,随箱)运抵仓库,随机抽取机抽取2%2%进行检验,获得下列资料进行检验,获得下列资料。求该批货物每箱平均重量、该批货物重量求该批货物每箱平均重量、该批货物重量的方差、标准差。的方差、标准差。平均每箱重量(克)抽样数目f(箱
20、) 5005403 5405805 5806206 62066010 6607007 7007405合计36由于这批货物由于这批货物运抵仓库后,是随机抽取运抵仓库后,是随机抽取解解:2%2%进行检验来获得上面资料的进行检验来获得上面资料的。因此,上。因此,上述资料属于抽样资料,要用样本指标计算述资料属于抽样资料,要用样本指标计算。解解:例例2辽宁省辽宁省19841984年第二季度城市居民家年第二季度城市居民家庭生活基本情况一次性调查资料见表庭生活基本情况一次性调查资料见表1 1城镇居民家庭按生活费月收入分组资料月收入(人民币元)家庭人口f(人) 20以下2371 202537062535176
21、59 355039188 506014782 60706736 70以上3885合计88327求月平均收入、月收入的方差、标准差。求月平均收入、月收入的方差、标准差。(三)有限总体与无限总体(三)有限总体与无限总体在抽样估计中,总体单位为有在抽样估计中,总体单位为有限个、且可以逐个调查登记的总体限个、且可以逐个调查登记的总体称为有限总体。称为有限总体。总体单位为无限个、或总体单位虽总体单位为无限个、或总体单位虽然有限但不可能逐个调查的总体称然有限但不可能逐个调查的总体称为无限总体。为无限总体。以下内容被以下内容被视为属于无限总视为属于无限总体:体:单位数太多单位数太多的总体;的总体;一个正在进
22、一个正在进行的过程;行的过程;预期将会发预期将会发生的某个总量。生的某个总量。有限总体与无限总体有限总体与无限总体有限总体:已知,可以排有限总体:已知,可以排队编号并利用随机数表抽取队编号并利用随机数表抽取样本单位。样本单位。无限总体:未知,不能编无限总体:未知,不能编号,不能使用随机数表。号,不能使用随机数表。抽样框抽样框抽样框:包含所有总抽样框:包含所有总体单位的名单框架。体单位的名单框架。仅对仅对有限有限总体总体而言而言姓名姓名 身高体重身高体重(cm)()(kg)丁一丁一 182 70 于峰于峰 175 62 马宁马宁 160 50 王一波王一波 172 66 王忠烈王忠烈 169 6
23、2 王洪宇王洪宇 182 70 刘可心刘可心 166 61 李元元李元元 152 48 李煌李煌 188 90 李一民李一民 173 63编号编号001 002 003 004 005 006 007 008 009 010 抽样框抽样框应当调查的对应当调查的对象(居民户)象(居民户)已购或未购微已购或未购微波炉的住户波炉的住户已购该公司微已购该公司微波炉的住户波炉的住户有购买微波炉有购买微波炉意向的住户意向的住户某外国公司在大连进某外国公司在大连进行微波炉市场调查:行微波炉市场调查:微波炉普及情况微波炉普及情况居民的喜好特征居民的喜好特征居民购买力水平居民购买力水平公司产品知名度公司产品知名
24、度公司产品信誉度公司产品信誉度在商场的大门口在商场的大门口在微波炉柜台前在微波炉柜台前在市区街道旁边在市区街道旁边在某个住宅小区在某个住宅小区中山区中山区沙河口区沙河口区星海街道星海街道黑石礁街道黑石礁街道尖山一委尖山一委尖山二委尖山二委居民一组居民一组居民二组居民二组抽样框抽样框连续出产的产品总体连续出产的产品总体可以编制抽样框:可以编制抽样框:均均匀的出产时间、可以匀的出产时间、可以预见到的产品总量。预见到的产品总量。连续到加油站加油的连续到加油站加油的汽车总体无法编制抽汽车总体无法编制抽样框:样框:时间不定、总时间不定、总量也无法确定。量也无法确定。简单随机样本简单随机样本在不对总体进行
25、划分在不对总体进行划分、排队的情况下按随机原、排队的情况下按随机原则抽取样本单位的方法称则抽取样本单位的方法称为简单随机抽样,抽取出为简单随机抽样,抽取出的样本称为简单随机样本的样本称为简单随机样本。自有限总体抽取的简单随机样自有限总体抽取的简单随机样本:各样本单位以相等的概率被抽本:各样本单位以相等的概率被抽出。出。自无限总体抽取的简单随机样自无限总体抽取的简单随机样本:各样本单位来自于同一总体;本:各样本单位来自于同一总体;各单位的抽取是相互独立的。各单位的抽取是相互独立的。重复抽样与不重复抽样重复抽样与不重复抽样重复抽样重复抽样放回抽样放回抽样:抽出抽出个体个体登记登记特征特征放回放回总
26、体总体继续继续抽取抽取通常只在必须使样本单通常只在必须使样本单位能重复出现时使用位能重复出现时使用某彩票中奖号码(号码不重复出现):某彩票中奖号码(号码不重复出现): 1 2 3 4 5 6失去失去中奖中奖机会机会的号的号码码11、 121 、122 、1231 、1232 、1233 、12341 、12342 、12343 、12344、123451、123452、123453、123454、123455总计:总计:12345个个至少占总数至少占总数重复抽样与不重复抽样重复抽样与不重复抽样抽出抽出个体个体登记登记特征特征继续继续抽取抽取最为常用的抽样方法最为常用的抽样方法,用于无限总体和许
27、,用于无限总体和许多有限总体的抽样。多有限总体的抽样。不重复抽样不重复抽样无放回抽样无放回抽样:重复抽样与不重复抽样重复抽样与不重复抽样有限总体有限总体修正系数修正系数1NnNNn1当当N足足够大时够大时nNnNx21nx2用于不重复抽样用于不重复抽样 用于重复抽样用于重复抽样样本容量与可能的样本数目样本容量与可能的样本数目样本容量:一个样本中样本容量:一个样本中包含的样本单位数。通常用包含的样本单位数。通常用n来表示。来表示。大样本:大样本:n30小样本:小样本:n 30样本容量与可能的样本数目样本容量与可能的样本数目 1、考虑顺序的不重复抽样 2、考虑顺序的重复抽样 3、不考虑顺序的不重复
28、抽样 4、不考虑顺序的重复抽样抽样分布抽样分布抽样分布:样本统计量所抽样分布:样本统计量所有可能值的概率分布。有可能值的概率分布。样本统样本统计量计量总体未总体未知参数知参数样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量分布的形状分布的形状及接近总体及接近总体参数的程度参数的程度抽样分布抽样分布 分布的特征值:均值和标准差分布的特征值:均值和标准差样本主要统计量样本主要统计量平均数平均数 比率(成数)比
29、率(成数) 方差方差xp2S平均数的抽样分布平均数的抽样分布学生学生成绩成绩 30 40 50 60 70 80 90按随机原则抽选出名学按随机原则抽选出名学生,并计算平均分数。生,并计算平均分数。平均数的抽样分布平均数的抽样分布0 01 12 23030404050506060707080809090样本样本均值均值样本样本均值均值样本样本均值均值ABCDABCEABCFABCGABDEABDFABDGABEFABEGABFGACDEACDF4547.55052.55052.5555557.56052.555ACDGACEFACEGACFGADEFADEGADFGAEFGBCDEBCDFBC
30、DGBCEF57.557.56062.56062.56567.55557.56060BCEGBCFGBDEFBDEGBDFGBEFGCDEFCDEGCDFGCEFGDEFG62.56562.56567.5706567.57072.575样本均值样本均值 62.5 65 67.5 70 72.5 75出现次数出现次数 4 4 3 2 1 10 01 12 23 34 45 56 645 4550 5055 5560 6065 6570 7075 750 01 12 23030404050506060707080809090二者均值相等二者均值相等07. 7x统计学统计学第四章第四章 抽样估计抽样
31、估计样本均值样本均值 45 47.5 50 52.5 55 57.5 60出现次数出现次数 1 1 2 3 4 4 5离差离差 -15 -12.5 -10 -7.5 -5 -2.5 0样本均值样本均值 62.5 65 67.5 70 72.5 75出现次数出现次数 4 4 3 2 1 1离差离差 2.5 5 7.5 10 12.5 15学生学生成绩成绩 30 40 50 60 70 80 90离差离差 -30 -20 -10 0 10 20 302007. 7100214201747122nNnNx第三节第三节 简单随机抽样的抽样误差简单随机抽样的抽样误差测定测定一、抽样误差概述一、抽样误差概
32、述二、抽样平均误差二、抽样平均误差三、抽样极限误差三、抽样极限误差一、抽样误差概述一、抽样误差概述抽样估计的可能误差抽样估计的可能误差抽样误差的控制抽样误差的控制抽样估计的可能误差抽样估计的可能误差抽样推抽样推断误差断误差登记登记误差误差代表性代表性误差误差由人为原因造成的、可以由人为原因造成的、可以避免的误差:避免的误差:非抽样误差非抽样误差非人为原因造成的、无法非人为原因造成的、无法避免的误差:避免的误差:抽样误差抽样误差抽样估计的可能误差抽样估计的可能误差 非抽样误差的种类及产生的原因:非抽样误差的种类及产生的原因:设计失误或设计失误或工具不良;调查对象选择失误;无回答;数据工具不良;调
33、查对象选择失误;无回答;数据处理失误;调查人员误导;被调查者说谎。处理失误;调查人员误导;被调查者说谎。 抽样误差产生的原因:抽样误差产生的原因:用部分单位来推断总体用部分单位来推断总体抽样误差的控制 关于抽样误差的几点认识:关于抽样误差的几点认识: 抽抽样误差是样本统计量与总体参数之间的绝抽抽样误差是样本统计量与总体参数之间的绝对差异对差异 对对于任何一个样本,其抽样误差都不可能测对对于任何一个样本,其抽样误差都不可能测量出来量出来 抽抽样误差的大小可以依据概率分布理论加以抽抽样误差的大小可以依据概率分布理论加以说明说明抽样误差的控制抽样误差的控制抽样误差的控制途径:抽样误差的控制途径:第一
34、,选择合适的抽样方式第一,选择合适的抽样方式第二,控制样本容量第二,控制样本容量样本容量越大,则样本容量越大,则样本统计量就越接样本统计量就越接近总体参数。近总体参数。分层随机样本可能优于简单分层随机样本可能优于简单随机样本随机样本二、抽样平均误差二、抽样平均误差1、抽样平均误差的概念、抽样平均误差的概念2、平均数的抽样平均误差、平均数的抽样平均误差3、比率的抽样平均误差、比率的抽样平均误差抽样平均误差的概念抽样平均误差的概念抽样平均误差即全部可抽样平均误差即全部可能样本的统计量与总体参数能样本的统计量与总体参数离差的平均数。又称离差的平均数。又称抽样标抽样标准误差、抽样标准误准误差、抽样标准
35、误meanESxxmxx2)(nxxS2)(注意:不要混淆抽样标注意:不要混淆抽样标准差与样本标准差!准差与样本标准差!平均数的抽样平均误差平均数的抽样平均误差mxx2)(nnxx2)(总体方差总体方差11)(2NnNnNnNnxx若总体方差若总体方差 未知:未知:v用用 样本方差样本方差2 代代替替v用用 历史资料代替历史资料代替v用用 试验结果估算试验结果估算nSSxxnxxS2)(比率的抽样平均误差比率的抽样平均误差1)1 ()(NnNnPPppnPPnPPpp)1 ()1 ()(nppSpp)1 ( 总体总体方方差已知差已知总体方总体方差未知差未知三、抽样极限误差三、抽样极限误差1、抽
36、样极限误差的概念、抽样极限误差的概念2、平均数的抽样极限误差、平均数的抽样极限误差3、比率的抽样极限误差、比率的抽样极限误差抽样极限误差的概念抽样极限误差的概念抽样极限误差:在一定概抽样极限误差:在一定概率保证下,样本统计量偏离总率保证下,样本统计量偏离总体参数的最大幅度。体参数的最大幅度。抽样极限误差越大抽样极限误差越大,则概率则概率保证程度越高。保证程度越高。)()(px平均数的抽样极限误差平均数的抽样极限误差nzzxx)(z值为给定概率保证程值为给定概率保证程度下样本均值偏离总体均度下样本均值偏离总体均值的抽样标准差个数。常值的抽样标准差个数。常用的值及相应的概率保证用的值及相应的概率保
37、证程度为:程度为: z 概率保证程度概率保证程度1 0.6827 1.96 0.95 2 0.9545 2.33 0.98 2.58 0.99 3 0.9973比率的抽样极限误差比率的抽样极限误差nPPzzpp)1 ()(例例某企业生产某种产品的工人有某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随人,某日采用不重复抽样从中随机抽取机抽取100人调查他们的当日产量,样本人均产量为人调查他们的当日产量,样本人均产量为35件,产量的样件,产量的样本标准差为本标准差为4.5件,试以件,试以0.9545的置信度估计平均产量的抽样极限误的置信度估计平均产量的抽样极限误差。差。 由题意知,样
38、本标准差由题意知,样本标准差s解解:=1000,样本单位数样本单位数n总体单位数总体单位数N=4.5(件),(件),=100属于大样本,并且采用不重复抽样属于大样本,并且采用不重复抽样,抽样平均误差抽样平均误差x100010011005 . 4Nnns19487. 05 . 4 (件)2692. 4。但抽样平均误差和概率度均未知,因此,我们先求。但抽样平均误差和概率度均未知,因此,我们先求x2zx2z因此,因此,平均产量的抽样极限误平均产量的抽样极限误然后,再求概率度然后,再求概率度。 题中给出题中给出置信度为置信度为0.9545,因此因此,1=0.9545,=0.0455,=0.02275,
39、2通过查表并计算,得概率度通过查表并计算,得概率度2z=2,因此,我们求得因此,我们求得平均产量的抽样极限误差为平均产量的抽样极限误差为:x2zx22692.4(件)5384. 8解释就是根据就是根据11)(22z,然后查附表,然后查附表。概率度概率度2z求法求法。第四节第四节 简单随机抽样的抽样估计简单随机抽样的抽样估计 一、平均数的抽样分布一、平均数的抽样分布 二、比率的抽样分布二、比率的抽样分布 三、点估计三、点估计 四、区间估计四、区间估计平均数的抽样分布平均数的抽样分布全部可能样本平均数的均值等于全部可能样本平均数的均值等于总体均值,即:总体均值,即: 从非正态总体中抽取的样本平均数
40、当从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。足够大时其分布接近正态分布。 从正态总体中抽取的样本平均数不论从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。容量大小其分布均为正态分布。样本均值的标准差为总体标准差的样本均值的标准差为总体标准差的 。n1)()(xxE),(nNx比率的抽样分布比率的抽样分布全部可能样本比率的均值等于总全部可能样本比率的均值等于总体比率,即:体比率,即: 从非正态总体中抽取的样本比率当从非正态总体中抽取的样本比率当n足够大时其分布接近正态分布。足够大时其分布接近正态分布。 从正态总体中抽取的样本比率不论容从正态总体中抽取的样本比率不论
41、容量大小其分布均为正态分布。量大小其分布均为正态分布。样本比率的标准差为总体标准差的样本比率的标准差为总体标准差的 。n1)()(PpPpE5)1 (5)1 (,(pnnpnPPPNpSTATSTAT比率的抽样分布例比率的抽样分布例教师是否博士教师是否博士 是是 是是 否否 否否 否否 是是 具有博士学位具有博士学位的比率:的比率:0.5比率的标准差比率的标准差:0.5从总体中按不重复抽样方法随从总体中按不重复抽样方法随机抽取人,计算其比率和机抽取人,计算其比率和标准差标准差p比率的抽样分布比率的抽样分布样本样本比率比率离差离差样本样本比率比率离差离差ABCDABCEABCFABDEABDFA
42、BEFACDEACDF0.50.50.750.50.750.750.250.5000.2500.250.25-0.250ACEFADEFBCDEBCDFBCEFBDEFCDEF0.50.50.250.50.50.50.2500-0.25000-0.25Pnpp5 . 0p5245 . 05 . 01)1 (1581. 015375. 0)(2NnNnPPffppppPsxX,四、四、区间估计的概念区间估计的概念0.9545xx2XX样本抽样分布曲线样本抽样分布曲线原总体分布曲线原总体分布曲线 0.9973落在落在范围内的概率范围内的概率为为99.73%Xxx3XxxxxxxXxXx,或,其中,
43、其中, 为极限误差为极限误差xxZx1,12222ffxxsnxxs22snsnx或NnnsNnnx1122或xxZxxxxxxXxXx,或,按按 日产量分组(件)日产量分组(件)组中值(件)组中值(件)工人数工人数(人)(人)11011411411811812212212612613013013413413813814211211612012412813213614037182321186433681221602852268823768165605887006489284648600784合计合计100126004144xfxffxx2解解件件47.69941441126100126002f
44、fxxsfxfx件614.01000100110047.6122Nnnsx件203.1614.096.1xxZXXN203. 11261000203. 11261000,203. 1126203. 1126XNXppppppPpPp,或,其中,其中, 为极限误差为极限误差ppZnnp12p11111nppppnnnnpp或NnnppNnnpp11112或ppZppppppPpPp,或,例例按按 日产量分组(件)日产量分组(件)组中值(件)组中值(件)工人数(人)工人数(人)1101141141181181221221261261301301341341381381421121161201241
45、28132136140371823211864合计合计100 xf解:解:0568. 0029. 096. 1029. 01000100111001 . 09 . 0111, 9 . 010090,96. 1,10,90,100,1000101pppZNnnppnnpZnnnN则己知PNP0568. 09 . 010000568. 09 . 01000,0568. 09 . 00568. 09 . 0NPP第五节第五节 必要抽样单位数的确定必要抽样单位数的确定样本容量样本容量找出在规定误差找出在规定误差范围内的最小样范围内的最小样本容量本容量找出在限定费用找出在限定费用范围内的最大样范围内的最
46、大样本容量本容量,nZZxx22222xxZn通常的做法是先确通常的做法是先确定置信度,然后限定置信度,然后限定抽样极限误差。定抽样极限误差。 或或 S S通常未知。一般通常未知。一般按以下方法确定其估计按以下方法确定其估计值:值:过去的经验数据过去的经验数据;试验调查样本的试验调查样本的S S。计算结果通常向上进位计算结果通常向上进位,12NnnZZxx22222222xxNNZNNZn例例解解袋袋在不重复抽样条件下:袋则在重复抽样条件下:克克己知10001.99252510000252100001005252,2,5,25,100002222222222222222ZNNZnZnZNxxx
47、,1nPPZZpp22211PPPPPPZn通常的做法是先确通常的做法是先确定置信度,然后限定置信度,然后限定抽样极限误差。定抽样极限误差。计算结果通常向上进位计算结果通常向上进位 通常未知。一般按以下通常未知。一般按以下方法确定其估计值:方法确定其估计值:过过去的经验数据;去的经验数据;试验调试验调查样本的查样本的 ;取方差取方差的最大值的最大值0.250.25。2P2Ps,11NnnPPZZppPPNPNPPPZNPPNZnpp11112222例例解解件件在不重复抽样条件下:件则在重复抽样条件下:己知577004.5760651. 0303. 050000651. 035000116510
48、3. 00651. 031,0651. 01, 3,3,500022222222222PPZNPPNZnPPZnPPZNpppp22222xxZn22222222xxNNZNNZn第六节第六节 抽样方案设计抽样方案设计1、概念、概念:又称纯随机抽样。是指不对总体做任:又称纯随机抽样。是指不对总体做任何处理,就从总体中的全部单位随机抽选样本何处理,就从总体中的全部单位随机抽选样本单位。单位。 具体做法具体做法:直接抽选法:直接抽选法 抽签法抽签法 随机数码表示法随机数码表示法 2 2、适用情况、适用情况:(1)对调查对象的情况了解很少)对调查对象的情况了解很少(2)总体单位的排列没有顺序)总体单
49、位的排列没有顺序(3)抽到的单位比较分散时也不影响工作)抽到的单位比较分散时也不影响工作3 3、误差计算公式、误差计算公式 1 1、概念、概念:又称分类抽样,是指先对总体各单:又称分类抽样,是指先对总体各单位按一定标志进行分类(层),然后再从各类位按一定标志进行分类(层),然后再从各类(层)中按随机原则抽取样本,由各类(层)(层)中按随机原则抽取样本,由各类(层)内的样本组成一个总样本。内的样本组成一个总样本。 2 2、抽样单位数的确定、抽样单位数的确定 (1)类型比例抽样单位数的确定)类型比例抽样单位数的确定 (2)类型适宜抽样单位数的确定)类型适宜抽样单位数的确定 原则:对标志变动程度大的组,抽取样本单位原则:对标志变动程度大的组,抽取样本单位数的比例应该大些;反之,则应该小些。公式数的比例应该大些;反之,则应该小些。公式为:为:3、类型抽样误差的计算 重复抽样条件下重复抽样条件下 不重复抽样条件下不重复抽样条件下 1、概念:又称等距抽样或系统抽样,是指对、概念:又称等距抽样或系统抽样,是指对研究的总体按一定的顺序排列,每隔一定的间研究的总体按一定的顺序排列,每隔一定的间隔抽取一个或若干个单位,并把这些抽取的单隔抽取一个或若干个单位,并把这些抽取的单位组成样本进行观察的方法。位组成样本进行观察的方法。