1、第七章第七章 抽样调查抽样调查第一节第一节 抽样调查与统计推断基础知识抽样调查与统计推断基础知识一、 抽样调查的概念、特点和适用范围 1、 抽样 抽样是根据一定的调查目的,从调查对象中抽取部分单位构成样本的过程全部工业企业部分工业企业2、抽样种类 概率抽样(随机抽样)非概率抽样(非随机抽样)简单随机抽样分层抽样等距抽样整群抽样3、抽样调查的概念抽样调查是按照随机原则从调查对象中抽取一部分单位作为样本进行调查,以其所获得的样本资料,对总体的数量特征进行估计的一种非全面调查方式。抽样调查抽样(手段)推断 (目的)调查对象或总体样本抽取推断调查4、抽样调查的特点 -与其他非全面调查相比较按照随机原则
2、抽取调查单位根据样本信息对总体的数量特征进行估计存在误差但可以计算并施加控制5、抽样调查的适用范围在不可能进行全面调查的情况下,抽样调查是唯一选择在时效性要求很高的情况下,适用于抽样调查在不必要开展全面调查的情况下,适用于抽样调查在对全面调查进行补充和修正时,适用于抽样调查二、抽样调查与估计的步骤设计抽样方案抽样样本单位对样本单位进行调查由样本信息对总体特征进行估计三、抽样调查与推断的常用指标1、总体指标(总体参数)用以描述与刻画总体数量特征。特点:既定,唯一,未知。总体平均数NXXXXN21NXNii1总体方差与标准差NXXnii122NXXnii12符号规定:符号规定: N-N-总体单位数
3、总体单位数 n-n-样本单位数样本单位数 X-X-总体平均数总体平均数 P-P-总体成数总体成数 x x-样本平均数样本平均数 p p-样样本成本成数数 -总体标准差总体标准差 S-S-样本标准差样本标准差n-样本单位数,也叫样本容量。样本单位数,也叫样本容量。n30时,为大样本,时,为大样本,n30时为小样本时为小样本总体成数总体单位属性有时为品质标志,品质标志有时为是非标志是非标志-标志表现只有两种情况,如,性别:男,女;产品质量:合格,不合格。变量值X频数f成数成数(频率)一种属性1N1P= N1/N另一种属性0N21-P=N2/NN1)1 ()1 ()0()1 (222PPPPPPff
4、XXiii是非标志的平均数、方差和标准差XPNNNNNNffXNii12121101N1/N=P)1 (PP2P(1-P)1、样本指标(样本统计量)用以描述与刻画样本数量特征。样本既定时:唯一,可知。样本平均数nxxxxn21nxnii1样本方差与标准差1122nxxSnii112nxxSniinnpx1样本成数(平均数)四、数据的分布特征及其度量 峰峰度度均值反均值反映集中映集中趋势趋势偏偏斜斜度度所有数据所有数据对均值的对均值的偏离或离偏离或离散度散度集中趋势的度量:众数 、中位数和四分位数、平均数平均数离散程度的度量:极差 、平均差、方差和标准差方差和标准差、离散系数峰度的度量:峰度系数
5、偏度的度量:偏度系数第二节 抽样方法与抽样调查组织方式一、 抽取样本的方法u重复抽样亦称回置抽样每抽出一个单位在登记后仍放回去同一个单位有多次被重复抽中的可能u不重复抽样二、抽样调查组织方式简单随机抽样简单随机抽样: 对总体不做任何处理,直接随机抽取样本。具体包括抽签法,随机数表法。适用性:总体单位之间差异较小,且总体单位数目较少的情况。类型抽样:类型抽样:又称分层抽样,将总体单位按某种属性特征分类或分层,再从各类或各层抽样。适用性:总体单位之间差异较大,且总体单位数目较多的情况。等距抽样:等距抽样:又称机械抽样或系统抽样,将总体各单位按一定标志或顺序排列,实施等距或等间隔(k=N/n)抽样。
6、整群抽样:整群抽样:又称集团抽样,将总体按某一标志划分成若干群,随机抽取若干群,对抽中的群内的所有单位逐一调查。第三节、简单随机抽样及抽样估计第三节、简单随机抽样及抽样估计一、抽样误差测算一、抽样误差测算二、抽样区间估计二、抽样区间估计三、抽样数目确定三、抽样数目确定1、统计调查误差、统计调查误差登记性误差:登记性误差:所有统计调查活动都可能会产生登记性误差。全面调查和非全面调查皆如此。表现为样本的统计数据与真值有偏误。通过加强监管和组织工作,可以减少乃至消除此误差。代表性误差:代表性误差:代表性误差只存在于非全面调查,表现为样本结构与总体结构不一致。抽样调查中的代表性误差不可避免,但可以计算
7、和控制。一、抽样误差一、抽样误差2、抽样平均误差、抽样平均误差抽样平均误差是样本平均数或样本成数的标准差3名同学成绩为88,82,96 平均88.66667分,不重复抽样,n=2可能的样本为:可能的样本为:88,82; 88,96; 82,96平均数:平均数: 85 92 8988.66667抽样误差就是用来反映样本平均数与总体平均数的离差的抽样误差就是用来反映样本平均数与总体平均数的离差的样本平均数的抽样平均误差可能的样本个数2)(Xxx可能的样本个数2)(Ppp样本成数的抽样平均误差 当样本单位数既定时当样本单位数既定时, ,从一个总体可抽取多个样本,抽样指标(如平均数、从一个总体可抽取多
8、个样本,抽样指标(如平均数、抽样成数等),就有多个不同的数值,它们对总体指标(如总体平均数、总体成抽样成数等),就有多个不同的数值,它们对总体指标(如总体平均数、总体成数等)的离差也就有大有小,这就必需用一个指标来衡量抽样误差的一般水平。数等)的离差也就有大有小,这就必需用一个指标来衡量抽样误差的一般水平。 抽样平均误差是抽样平均数(或抽样成数)的标准差,它反映抽样平均数抽样平均误差是抽样平均数(或抽样成数)的标准差,它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均差异程度。(或抽样成数)与总体平均数(或总体成数)的平均差异程度。根据概率论与数理统计学的有关知识,抽样平均误差公式
9、nnx2nPPnpp)1 (2NnnNnnNx1) 1()(22重复抽样:不重复抽样:NnnPPNnNnPPp1)1 () 1()()1 (上例只有3名同学作为总体,不重复抽样且每次样本容量为2,所有可能的抽样可以试验。但当总体单位较多时候,各种可能的抽样是不可以一一试验的。这就需要而且只能根据一个样本进行计算。考虑问题:哪些因素影响抽样平均误差? 它们如何影响抽样平均误差?1、总体标准差2、样本单位数n3、抽样方法4、抽样的组织方式解:已知 N=30,n=4,2=4例题:某工人某天生产电子元件30件,已知其方差为4,现从中抽取4件产品进行质量检查。试计算本次抽样平均误差在重复抽样下: 厘米1
10、442nx在不重复抽样下: 厘米95. 0) 130( 4) 430( 4) 1()(2NnnNx例题:有5个工人的日产量分别为(单位:件):6,8,10,12,14,用重复抽样的方法,从中随机抽取2个工人的日产量,用以代表这5个工人的总体水平。计算抽样平均误差解:总体平均数 件抽样平均误差 件?总体标准差 件8)(2NXX在抽样平均误差公式中有总体方差2、P(1-P)或标准差, P(1-P)的平方根,但是在大部分情况下,总体方差或标准差是未知的。如何处理?用以前或同类现象的标准差代替当有多个标准差可供选择时,选其最大者当为成数时,选其最接近0.5的那一个P,因为P=0.5时,p最大当为成数时
11、,没可供选择的成数,直接取p=0.5 用样本标准差代替在大样本下,直接用S代替在小样本下,用S代替 ,S= 11)(1)(22nnSnnnxxnxx1、甲乙两地区各抽选400家企业进行调查,结果表明,甲地区平均每个企业盈利300万元,乙地区平均每个企业盈利80万元,甲乙两地区标准差系数分别为30%和20%,请计算两地区的抽样平均误差练习题2、某企业生产的产品,按正常生产经验,合格率为90%,现从5000件产品中抽取50件进行检验,求合格率的抽样平均误差3、要估计某县10万家庭的电视机拥有率,随机抽取100户家庭,发现有85户拥有电视机,求电视机拥有率的平均抽样误差。 2、解:在重复抽样条件下,
12、合格率的抽样平均误差为: 在不重复抽样条件下,合格率的抽样平均误差为: 3、根据已知条件可得:p= 85/100 =0.852=p(1-p)= 0.850.15=0.1275在重置抽样下: =0.0357不重置抽样下: = =0.0357计算结果表明,用样本的拥有率来估计总体的拥有率,其抽样误差平均说来为3.6%左右。3、抽样极限误差XXx抽样极限误差也叫允许误差,是指样本指标与总体指标之间抽样误差的可能范围。或者说,在一定的置信度置信度下,抽样估计可以允许的误差范围。抽样平均数的极限误差抽样成数的极限误差pPp置信度置信度,又称置信水平或把握度,是表明抽样指标和总体指标的误差不超过一定范围的
13、概率保证度,一般表示为1-, 是显著显著性水平性水平 样本指标与总体指标之间的差异绝对值不超过极限误差 样本统计量与总体参数之间的差异绝对值不超过极限误差这样看来,置信度越大,极限误差就越大,反之,置信度越小,极限误差就越小。xx2根据平均数抽样分布理论,在给定置信度1-时,大样本条件大样本条件下的极限误差可以表示为:抽样平均数的极限误差抽样成数的极限误差pp2Z /2是什么?是什么?在给定显著性水平,或者给定置信水平1- 时候,标准正态分布的临界值为Z /2 ,可查Z分布表取得广泛应用的是: 1-=90%, Z =1.65 1-=95%, Z =1.96 1-=95.45%, Z =2 1-
14、=99%, Z =2.58 1-=99.73%, Z =3 3x 2x x x x 2x 3x 68.27% 95.45% 99.73% 对刚下线的1000个酒瓶重量进行检查。重复抽取100个酒瓶,样本平均重量为100克,样本标准差为5克,试以95%的把握度估计本次抽查的抽样极限误差解解: 依照题意,已知:N=1000 ,n=100,S=5,1-=95%Z /2 =1.96抽样平均数的极限误差xx2重复抽样的平均误差克5 .01005222nSnx本次抽样极限误差克98. 05 . 096. 1x意思是说,我们有95%的把握保证样本的平均重量与总体的平均重量的误差不超过0.98克2、某电扇厂对
15、1500台电扇使用寿命进行抽样调查,抽取30台,平均寿命为45万小时,使用寿命的标准差为240小时,试以95%的置信水平计算本次抽查的极限误差1、对某地区电视机拥有率进行抽样调查,抽取100户,调查显示90户拥有电视机,试以95%的把握程度计算本次调查的极限误差练习二、抽样区间估计:利用样本信息对总体数量特征进行推断 区间估计:在一定的置信度下,根据样本统计量推断总体参数与总体总量的可能范围或置信区间。1、总体均值的区间估计:由样本平均数估计总体均值的可能范围由抽样极限误差的定义:在1-下,XXx)()(xxxXx总体均值的置信区间:),(xxxx亦即,),(22xxZxZx在大样本下,给定置
16、信度1-时,总体均值的总体均值的区间估计区间估计抽样平抽样平均误差均误差总体均值的区间估计的含义:-由样本平均数估计总体均值的可能范围),(22xxZxZx在大样本下,给定置信度1-时,总体均值的置信区间为:含义:我们有1-(95%)的把握能保证总体均值落在上述区间之内例题例题: 对刚下线的1000个酒瓶重量进行检查。重复抽取100个酒瓶,样本平均重量为100克,样本标准差为5克,试以95%的置信度估计这批酒瓶重量的置信区间,并说明其含义是什么?解解: 已知:N=1000 ,n=100,S=5,1-=95% ,Z /2 =1.96重复抽样的平均误差克5 .01005222nSnx总体均值的置信
17、区间:(100-1.960.5,100+1.960.5 ) ( 99.02,100.98 )2、总体成数的区间估计:由样本成数估计总体成数的可能范围由成数的抽样极限误差的定义:在1-下,pPp)()(pppPp总体成数的置信区间:),(pppp亦即,),(22ppZpZp在大样本下即,例、对某地区电视机拥有率进行调查,抽取100户,调查显示90户拥有电视机,试以95%的把握程度估计本地区电视机拥有率解解:n=100,n1=90,即 p=90/100=0.9,1-=95%,即 z/2=1.96%3100)9.01(9.0)1(nppp(重复)抽样平均误差(成数)抽样极限误差%88.5%396.1
18、2pp在把握度为95%下的置信区间:(90%-5.88%,90+5.88%)即(84.12%,95.88%) 我们以95%把握度保证本地区电视机拥有率介于84.12%95.88%之间 3、总体总量的区间估计:由样本总量估计总体总量的可能范围总体标志总量的区间估计:由均值的区间估计推断总体标志总量的可能范围总体标志总量的区间估计:由均值的区间估计推断总体标志总量的可能范围),(22xxZxZxN1000( 99.02,100.98 )=( 99020,100980 )前例题:酒瓶总重量:即,在95%的置信度下,这批酒瓶的总重量介于99020100980克之间 总体成数总量的区间估计:由成数区间估
19、计推断总体成数总量的可能范围),(22ppZpZpN前例题假定该地区有居民家庭10000户拥有电视机的总户数: 10000(84.12%,95.88%)=( 8412,9588 )户在95%置信度下,该地区拥有电视机的家庭总数介于84129588 户之间对一批产品的质量进行调查,随机抽取100个产品,调查发现有6个产品不合格,若以95%的置信水平,可否能推断这批产品的不合格率不会超过10%?计算其置信区间。 以95的概率保证推断该市职工人均年收入的置信区间(采用重复抽样)。思考题三、抽样数目确定在重复抽样条件下: 平均数估计的必要样本单位数的确定平均数估计的必要样本单位数的确定 在不重复抽样条
20、件下:nZZxxx22/22222xxZn由NnnZxx1222222222xxxZNNZn由某厂对10000个电子元件的耐用时间进行检查,根据以往资料可知该型号电子元件耐用时间的标准差为800小时,要求置信概率为95.45%,抽样误差范围不超过200小时,问:需要抽取多少个电子元件检查?1-/2若采取重复抽样:重复抽样:若采取不重复抽样:不重复抽样:小时200 x(个)642008002222222xxZn(个)638002200100008002100002222222222xxxZNNZn小时800 xn 成数估计的必要样本单位数的确定在重复重复抽样条件抽样条件 在不重复不重复抽样条件抽
21、样条件下nPPZZpp)1 (22222)1(pPPZn由NnnPPZZpp1)1 (22)1()1(22222PPZNPPNZnp由 上例中,若对10000个电子元件的合格率进行检查,根据以往调查资料得知产品合格率为96%,要求在95.45%的概率保证程度下,抽样误差范围不超过4%,试确定需要抽取的电子元件数量?已知: N=10000个 P=96% p=4% 1-=95.45% /2(个)96%)4(%)961(%962)1(2222pPPZn(个)9504.096.0204.01000004.096.0210000)1()1(222222PPZNPPNZnp若采取不重复抽样不重复抽样若采取
22、重复抽样重复抽样现对某地区电视机拥有率进行调查。以往曾经做过三次调查,抽取家庭均为500户,拥有电视机的家庭分别为400、436、450户,若置信度为95%,误差范围不超过3%,本次调查至少应该抽取多少个家庭户?第四节 其他抽样组织方式类型抽样等距抽样整群抽样一、类型抽样一、类型抽样(分层抽样分层抽样)亦称分层抽样先将总体各单位分成若干类型或层从各类型中抽取样本单位再由各类型的样本单位组成一个样本类型抽样的样本抽取总体单位数N,样本单位n,分成k组或层,每一组抽取多少样本单位ni ?等额抽取样本:等比例抽取样本每一组抽取n/ k个样本单位N=N1+N2+N3+Nkn=n1+n2+n3+nkni
23、 = n(Ni /N)考虑:哪一种样本抽取方法更科学?为什么? 类型抽样的抽样平均误差 类型抽样用平均组内方差代替总方差计算抽样平均误差n类型抽样:平均数的抽样平均误差在重复抽样条件下: nSix2NnnSix12在不重复抽样条件下:2iS为各组内方差nnSSiii222iS为平均组内方差n类型抽样:成数的抽样平均误差在重复抽样条件下: nSip2NnnSip12在不重复抽样条件下:2iS为各组内方差nnppSiiii)1 (22iS为平均组内方差 类型抽样:抽样极限误差的计算类型抽样用平均组内方差代替总方差计算抽样平均误差重复抽样的极限误差nS2i2Zx不重复抽样的极限误差NnnSZix12
24、2抽样极限误差xx2pp2nnSSiii222iS为平均组内方差对于平均数nnppSiiii)1 (22iS为平均组内方差对于成数 类型抽样:抽样极限误差的区间估计类型抽样用平均组内方差代替总方差计算抽样平均误差总体均值的置信区间),(22xxZxZx在大样本下,给定置信度1-时,总体均值的置信区间为:总体成数的置信区间),(22ppZpZp在大样本下,给定置信度1-时,总体均值的置信区间为:xxpp某镇种植小麦50000亩,其中平原40000亩,山区10000亩,采用不重复抽样,按2%的比例共抽取100亩进行产量调查,根据实割实测结果,计算的样本指标见下表,试计算抽样平均误差,并以95%的置
25、信度,推断全部小麦田亩平均产量的置信区间类型全部面积(亩) Ni样本面积(亩)ni样本平均亩产(千克)xi样本标准差(千克)i平原山区4000010000 800 2003602508060合计500001000类型全部面积(亩) Ni样本面积(亩)ni样本平均亩产(千克)xi样本标准差(千克)i平原山区4000010000 800 2003602508060合计500001000平均组内方差:抽样平均误差:抽样极限误差:抽样平均数:产量置信区间:5840100020060800802222nnSSiii4.250000100011000584012NnnSix7.44.296.11222Nn
26、nSZZixx338200800200250800360iiiiiinnxffxx)7 .342, 3 .333()7 . 4338, 7 . 4338(),(xxxx以95%的把握推断全部小麦的亩产介于333.3342.7千克思考考虑: 什么情况下进行类型抽样?如果对全国大学毕业生就业状况开展调查,如何分类?某市对中老年患高血压病人数所占比重进行抽样推断,采取不重复抽样按4%的比例抽取样本单位,调查结果及相关指标见下表。试在95%把握程度下计算高血压病人数所占比重的置信区间与总的患者数量。组别总体单位数(人)Ni样本单位数(人)ni患高血压人数比重()pi样本方差()Pi(1pi)老年组中年
27、组1500020000 600 80015 8 12.75 7.36合计350001400 二、等距抽样等距抽样的概念: 亦叫机械抽样或系统抽样 先将总体各单位按某一标志排队 然后按等距离抽取样本单位等距抽样的操作程序:第一步:编制抽样框将总体按有关标志(x)从低到高顺序排队 列出辅助(无关)标志(f) 将辅助标志依次累计列出抽中单位与研究内容有直接关系的标志,如调查今年的产量,可把照往年产量作为有关有关标志标志进行排队与所研究的内容无直接关系的标志,如居民生计调查,可把人口数作为辅助辅助标志标志进行排队例题例题某村民小组有30户农户,若调查该村民小组所有农户2005年人均收入水平,如何实施等
28、距抽样?序号1 12 23 34 45 56 67 78 89 91010111112121313141415152004年人均收入(十元)x185185187187190190198198201201218218256256260260274274290290295295325325340340366366368368人口数(人)f4 42 25 53 34 43 33 34 45 54 42 21 15 54 43 3人口数累计4 46 61111141418182121242428283333373739394040454549495252抽中户序号1616171718181919202
29、021212222232324242525262627272828292930302004年人均收入(十元)x370370371371388388402402410410446446453453470470477477490490499499502502503503516516520520人口数(人)f4 42 23 33 34 44 42 24 43 34 45 54 43 33 35 5人口数累计5656585861616464686872727474787881818585909094949797100100105105抽中户抽样框第二步:计算抽样距离(K)如果抽取6户进行调查,则: 抽
30、样距离K=105617.5nfK需要抽取的单位数辅助标志累计数抽样距离第三步:抽取调查单位半距起点、等距抽样随机起点、对称等距抽样以第一个抽样距离的一半处作为第一个调查单位以后毎隔一个抽样距离抽取一个调查单位直到最后一个调查单位抽出为止以抽取6户为例,抽取的样本户:类推,直至抽完样本单位序号1 12 23 34 45 56 67 78 89 91010111112121313141415152004年人均收入(十元)x18518518718719019019819820120121821825625626026027427429029029529532532534034036636636836
31、8人口数(人)f4 42 25 53 34 43 33 34 45 54 42 21 15 54 43 3人口数累计4 46 61111141418182121242428283333373739394040454549495252抽中户3 38 81313序号1616171718181919202021212222232324242525262627272828292930302004年人均收入(十元)x370370371371388388402402410410446446453453470470477477490490499499502502503503516516520520人口数(人
32、)f4 42 23 33 34 44 42 24 43 34 45 54 43 33 35 5人口数累计5656585861616464686872727474787881818585909094949797100100105105抽中户u 随机起点、对称等距抽样 上例:若抽取6户,第一户随机确定为5,则各户依次为: 第1户 n1: r =5 为第2号户 第2户 n2: 2Kr =217.5530 为第9号户 第3户 n3: 2K+ r =217.5+540 为第12号户 第4户 n4: 4Kr 417.5565 为第20号户 第5户 n5: 4K+ r417.5+575 为第23号户 第6户
33、 n6: 6Kr 617.55100 为第29号户 从第二个单位起依次用2、4、6、倍的K值减、加r值确定。l 当n为偶数时序号1 12 23 34 45 56 67 78 89 91010111112121313141415152004年人均收入(十元)x18518518718719019019819820120121821825625626260 0274274290290295295325325340340366366368368人口数(人)f4 42 25 53 34 43 33 34 45 54 42 21 15 54 43 3人口数累计4 46 611111414181821212
34、42428283333373739394040454549495252抽中户2 29 91212序号1616171718181919202021212222232324242525262627272828292930302004年人均收入(十元)x37037037137138838840240241041044644645345347470 0477477490490499499502502503503516516520520人口数(人)f4 42 23 33 34 44 42 24 43 34 45 54 43 33 35 5人口数累计5656585861616464686872727474
35、787881818585909094949797100100105105抽中户202023232929 第1户 n1: r =5 为第2号户 第2户 n2: 2Kr =217.5530 为第9号户 第3户 n3: 2K+ r =217.5+540 为第12号户 第4户 n4: 4Kr 417.5565 为第20号户 第5户 n5: 4K+ r417.5+575 为第23号户 第6户 n6: 6Kr 617.55100 为第29号户抽中户的位置可用图形表示如下:1k2k3k4k5k6kn1n2n3n4n5n6采取先抽中间、再抽两边的办法 。 若中间单位数为奇数,则各单位依次用中间单位数为起点的奇
36、数倍K值加、减r值确定。若中间单位数为偶数,则各单位依次用中间单位数加1为起点的奇数倍K值减、加r值确定。中间单位之后计算方法与抽取单位数为偶数时的方法相同中间单位之前中间单位按f/2计算l 当当n为奇数时为奇数时上例中,若抽取5户(中间单位数是3,即为奇数) 抽样距离 K105521l第一个单位n1 随机确定为15l中间单位n3f /2105252.5 中间单位以前还有一个单位,即n2ln2=2Kr2211527 中间单位以后有两个单位,即n4和n5ln4=3K+r =3211578ln5=5Kr5211590则抽取的5户依次为第5、8、16、23、26号的农户上例中,若n=7户(中间单位数
37、是4,即为偶数)l第一个单位n1 随机确定为4l中间单位n4 f /2105252.5 中间单位以前还有n2和n3两个单位ln22Kr215426ln32K+r215434 中间单位以后有三个单位,即ln5(4+1)Kr515471ln65K+r515+479ln77Kr7154101 则抽取的7户依次为第1、8、10、16、21、24、30号的农户序号1 12 23 34 45 56 67 78 89 91010111112121313141415152004年人均收入(十元)x185185187187190190198198201201218218256256260260274274290
38、290295295325325340340366366368368人口数(人)f4 42 25 53 34 43 33 34 45 54 42 21 15 54 43 3人口数累计4 46 61111141418182121242428283333373739394040454549495252抽中户1 181010序号1616171718181919202021212222232324242525262627272828292930302004年人均收入(十元)x37037037137138838840240241041044644645345347047047747749049049949
39、9502502503503516516520520人口数(人)f4 42 23 33 34 44 42 24 43 34 45 54 43 33 35 5人口数累计5656585861616464686872727474787881818585909094949797100100105105抽中户1616212124243030n1:4 N2:26 N3:34 n4 :52.5 N5:71 N6:79 N7:101则:抽取的则:抽取的7户依次为第户依次为第1、8、10、16、21、24、30号的农户号的农户第四步:对样本单位进行调查第五步:统计推断(抽样估计) 方法同简单随机抽样(不重复)平均
40、数的抽样平均误差、极限误差、区间与总量估计成 数 的抽样平均误差、极限误差、区间与总量估计三、整群抽样将总体单位划分成若干群(R)以群为单位,随机抽取样本群(r)对中选群的所有单位进行全面调查D村庄村庄L村庄M村庄N村庄村庄J村庄A村庄B村庄C村庄E村庄F村庄G村庄H村庄K村庄例如:例如:对某镇农户进行家计调查,以自然村庄划分群,抽取若干个自然村庄,对中选村庄的所有农户都进行调查 整群抽样抽样平均误差平均数的抽样平均误差:成 数的抽样平均误差:12RrRrxx12RrRrppr为样本组数R为总体组数rxxix22)(2x为平均数的群间方差rppip22)(2p为成 数的群间方差 整群抽的样抽样
41、极限误差、抽样估计 方法同简单随机抽样 某生产车间有20个生产小组,生产同一种零件,随机抽取4个生产小组(各有5人构成)调查工人的日产量,抽样资料见下表,试计算抽样平均误差。例题组序号工人日产量(个) 160、80、65、72、73 275、88、90、77、70 367、72、75、82、84 473、76、80、89、92四个组工人平均日产量群间方差抽样平均误差组序号工人日产量(个)组平均日产量(个)离差离差平方 160.80.65.72.73 70 7 49 275.88.90.77.70 80 3 9 367.72.75.82.84 76 1 1 473.76.80.89.92 82
42、5 25合计 84ix(个)21484)(22rxxix(个)77482768070rxxi(个)4.412042042112RrRrxxix)77(xxxi2)(xxi某工厂昼夜连续生产某种产品,采取整群抽样从全天24个小时生产的产品中随机抽取12.5%的产品检验其质量。调查结果见下表,计算产品合格率的抽样平均误差。练习群序号群产品合格率(%)pi离差() pip离差平方()(pip)219510.0129420.04399 30.09合计0.14样本合格率:%963999495rPPi%05.03%14.0)(22rppip%015.01243243%05.012RrRrpp 群间方差:
43、抽样平均误差:思考题思考题 针对整群抽样的例题,以针对整群抽样的例题,以95%的置信度推断该车间工人平的置信度推断该车间工人平均产量的置信区间均产量的置信区间 统计学统计学一、单项选择题(每小题一、单项选择题(每小题1分,共分,共15分)分) 二、多项选择题(每小题二、多项选择题(每小题2分,共分,共10分)分)三、判断题(正确请在各题括号里打三、判断题(正确请在各题括号里打“”。如果错误请改正。如果错误请改正。 每小题每小题3分,共分,共15分)分) 四、举例说明定义(每小题四、举例说明定义(每小题3分,共分,共15分)分)五、计算题(五、计算题(4小题,共小题,共45分)分)单项选择题单项
44、选择题某产品合格率2006年比2003年增长了12%,2005年比2004年增长了3%,2006年比2005年增长了4%,则2004年比2003年的合格率增长了( )。A、24% B、9% C、9.3% D、4.6%某地区8月份一等鸭梨每公斤1.8元,二等鸭梨每公斤1.5元,10月份鸭梨销售价格没变,但一等鸭梨销售量增加8%,二等鸭梨销售量增加10%,10月份鸭梨的平均销售价格是( )。A、不变 B、提高 C、下降 D、无法确定 某地区计划2015年的钢产量相对于2005年产量翻两番,则是要求2015年钢产量是2005年产量的( )A、 2倍 B、 4倍 C、 6倍 D、 8倍多项选择题多项选
45、择题下列属于平均指标的有( )。A、国民生产总值/人口总数 B、工资总额/职工人数 C、粮食总产量/播种面积 D、钢产量/粮食总产量 E、工业总产值/农业总产值评价抽样方案优劣的基本准则有( )。A、抽样的随机原则 B、抽样误差最小 C、调查费用最少D、调查时间最短 E、调查内容最多 综合指数的特点包括( ) A、要使用同度量因素 B、要把同度量因素加以固定 C、可以对个体指数加权平均计算 D、只能使用完整的报告期资料 E、可以分析影响因素变动的影响程度B CA B CA B C E判断题(正确请在各题括号里打判断题(正确请在各题括号里打“”。如果错误请改正)。如果错误请改正)指标和标志一样,
46、都是由名称和数值两部分组成。( )错,指标还应包括时间、地点、计量单位等组成部分。统计调查按组织方式的不同,可以分为经常性调查和一次性调查。( )错,统计调查按登记时间是否连续,可分为经常性调查和一次性调查。 工资总额/职工人数 是平均指标。( )举例说明定义举例说明定义 发展水平:发展水平是现象在不同时间上所达到的规模或水平的数量反映,也就是时间数列中的每一项指标数值。比如:19902007年的四川省各年粮食产量。 回归系数:Y=a+bx,其中b为回归系数,表示自变量x变动一个单位,y的平均变动量。比如:消费函数中的b即为边际消费倾向 算术平均数:算术平均数是总体各单位标志值与总体单位数的比值,基本如平均成绩、平均产量等。 复合表:复合表是指主词按两个或两个以上的标志进行重叠式的分组。比如:学生先按性别分组,在性别分组的基础上再按年龄分组。 标志:是总体单位所具有的共同特征。比如:每个学生有姓名、年龄、身高等标志。计算题计算题