1、抽样调查 一、选择题1.抽样调查的根本功能是( C )A. 获取样本资料 B. 计算样本资料 C . 推断总体数量特征 D. 节约费用2.概率抽样与非概率抽样的根本区别是( B )A.是否能保证总体中每个单位都有完全相同的概率被抽中B.是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中C.是否能减少调查误差D.是否能计算和控制抽样误差3. 与简单随机抽样进行比较,样本设计效果系数Deff 1表明( A )A.所考虑的抽样设计比简单随机抽样效率低B.所考虑的抽样设计比简单随机抽样效率高C.所考虑的抽样设计与简单随机抽样效率相同D.以上皆对4.优良估计量的标准是( B ) A.无偏性、
2、充分性和一致性 B.无偏性、一致性和有效性C. 无误差性、一致性和有效性 D. 无误差性、无偏性和有效性5.某乡欲估计今年的小麦总产量进行调查,已知去年的总产量为12820吨,全县共123个村,抽取13个村调查今年的产量,得到吨,这些村去年的产量平均为吨。试采用比率估计方法估计今年该地区小麦总产量( B ) A.12820.63 B.14593.96 C.12817.83 D.14591.496抽样标准误差的大小与下列哪个因素无关( C )A样本容量 B抽样方式、方法 C概率保证程度 D估计量7.抽样标准误差与抽样极限误差之间的关系是( B )A. B. C. D.8.应用比率估计量能使估计精
3、度有较大改进的前提条件是调查变量与辅助变量之间大致成( A )关系A.正比例 B.反比例 C.负相关 D.以上皆是9.能使达到极小值的值为( B )A. B. C. D.10.( B ) 是总体里最小的、不可再分的单元。A.抽样单元B.基本单元C.初级单元D.次级单元11. 下面哪种抽样方法是最简单的概率抽样方法( A )。A.简单随机抽样B.分层随机抽样C.系统抽样D.整群抽样12. 下面关于各种抽样方法的设计效应,表述错误的是( B )。A.简单随机抽样的deff=1 B.分层随机抽样的deff1C.整群随机抽样的deff1 D.机械随机抽样的deff113. 假设考虑了有效回答率之外所有
4、其他因素后的初始样本量为400,而预计有效回答率为80,那么样本量则应定为( B )。A.320B.500C.400D.48014. 在要求的精度水平下,不考虑其他因素的影响,若简单随机抽样所需要的样本量为300,分层随机抽样的设计效应deff=0.8,那么若想达到相同的精度,分层随机抽样所需要的样本量为( C )。A.375B.540C.240D.36015. 分层抽样设计效应满足( B )。A.deff=1=B.deff1pC.1deff1D.deff1f16. 针对总体每一单元都进行信息搜集的调查是( D )A.抽样调查B.典型调查C.重点调查D.全面调查17. 调查费是用一个与样本容量
5、有关的函数,若0C为固定费用,c为每一个单元的调查费用,则最简单的线性费用函数为( D )A. Ct=C0+nB. Ct=C+C0nC. Ct=(C0+C)nD. Ct=C0+Cn18. 抽样框最直接反映的是( C )A.目标总体B.实际总体C.抽样单元D.基本单元19. 在给定费用下使估计量的方差达到最小,或者对于给定的估计量方差使得总费用达到最小的样本量分配为( C )A.常数分配 B.比例分配C.最优分配D.梯次分配20.分层抽样也常被称为( D )A.整群抽样B.系统抽样C.组合抽样D.类型抽样21. 整群抽样中群的划分标准为( A )。A.群的划分尽可能使群间差异小,群内的差异大B.
6、群的划分尽可能使群间差异大,群内的差异小C.群的划分尽可能使群间差异大,群内的差异大D.群的划分尽可能使群间差异小,群内的差异小22.某班级共有六十名学生,要以直线等距抽样选出15个学生为样本,调查学生的到课率,则下列做法正确的是( D )。A.将60名学生依次编为160B.计算抽样间距为4C.从14随机抽取一个数,作为抽样的起始单元号,按每隔4个单元抽取一个,直至抽出15个样本 D.以上都正确23. 初级单元大小不等的多阶段抽样中,无偏估计量满足自加权的条件是( C )A.第一阶段每个单元被抽中的概率相等 B.第二阶段每个单元被抽中的概率相等C.每个基本单元最终被抽中的概率相等D.每个基本单
7、元最终被抽中的概率不等24.相对于直线等距抽样,圆形等距抽样的优点为( C )A.不用对单元进行编号B.随机起点选择范围小C.保证每个单元被抽中的概率严格相等D.操作更加简单25. 某学院共有500名学生,依次编号为1500,要从中抽取50名学生调查学生的到课率,首先从110号中随机抽取一个数,作为抽样的起始单元号,然后每隔10个单元抽取一个,直到抽足50个单元。这种抽样方法是(C )A. 简单随机抽样 B. 分层抽样 C. 系统抽样 D. 整群抽样26. 非概率抽样与概率抽样的主要区别为( D ) A. 适用的场合不同 B. 总体特征值的估计不同C. 样本量的确定不同 D. 抽样时是否遵循随
8、机原则27. 下面关于各种抽样方法的设计效应,表述错误的是( B )A. 简单随机抽样的deff=1 B. 分层随机抽样的deff1C. 整群抽样的deff1 D. 系统抽样的deff128. 某工厂实行流水线连续生产,为检验产品质量,在每天24小时中每隔1小时抽取一分钟的产量作全面检查,这是( C )。A.简单随机抽样 B.分类抽样 C.等距抽样 D.整群抽样29. 为了解1200名学生对学校教改试验的意见,打算从中抽取一个容量为30的样本,考虑采用系统抽样,则分段的间隔k为(A)A.40B.30C.20D.1230. 分层抽样中的层的划分标准为( B )。A.尽可能使层间的差异小,层内的差
9、异大B.尽可能使层间的差异大,层内的差异小C.尽可能使层间的差异大,层内的差异大D.尽可能使层间的差异小,层内的差异小二、判断题1. 总体比率R与总体比例P两者是一样的概念,只是符号不同。2.比估计量是有偏估计量。3.分层抽样在划分层时,要求层内差异尽可能大,层间差异尽可能小。4.对于同一总体,样本容量同抽样标准误差之间是正相关关系。5.整群抽样设计总是比简单随机抽样效率低。6.其他条件相同时,重复抽样的误差小于不重复抽样的误差。7.设总体容量为N,样本容量为n,采用有顺序放回简单随机抽样,样本配合种数为。8一个调查单位只能对接与一个抽样单位。9. 营业员从笼中抓取最靠近笼门的母鸡,该种抽样方
10、式属于非概率抽样。10. 当调查单位的抽样框不完整时,无法直接实施简单随机抽样。11分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。12分层的基本原则是尽可能地扩大层内方差,缩小层间方差。13分层抽样的效率较简单随机抽样高,但并不意味着分层抽样的精度也比简单随机抽样高。14分层抽样克服了简单随机抽样可能出现极端的情况。15分层抽样的样本在总体中分布比简单随机抽样均匀。16分层后各层要进行简单随机抽样。17分层抽样的主要作用是为了提高抽样调查结果的精确度,或者在一定的精确度的减少样本的单位数以节约调查费用。18分层后总体各层的方差是不同的,为了提高估计的精度,通常的做法是在方差较大的
11、层多抽一些样本。19在不同的层中每个单位的抽样费用可能是不等的。20在分层抽样的条件下,样本容量的确定与简单随机抽样的共同点都是取决于总体的方差。21多主题抽样中,不同的主题对样本量大小的要求不同。在费用允许的情况下,应尽可能地选择较大的样本量。22有时在抽样时无法确定抽样单位分别属于哪一层,只有在抽取样本之后才能区分。23比例分配指的是按各层的单元数占样本单元数的比例进行分配。24等容量分配时各层的样本单元数与各层的层权是相同的。25所谓最优分配是指给定估计量方差的条件下,使总费用最小。26在奈曼分配时,如果某一层单元数较多,内部差异较大,费用比较省,则对这一层的样本量要多分配一些。27在实
12、际工作中如果第k层出现kn超过kN,最优分配是对这个层进行100%的抽样。28在实际工作中,如果要给出估计量方差的无偏估计,则每层至少2个样本单元,层数不能超过n/2。29无论层的划分与样本量的分配是否合理,分层抽样总是比简单随机抽样的精度要高。30即使层权与实际情况相近,利用事后分层技术也难以达到提高估计精度的目的。31在任何条件下,估计量的方差都与估计量的均方差相等,因此一般所讲的估计误差也就是指估计量的方差。 32在多阶段抽样中,各阶段只能采用同一种抽样方法。 33总样本量在各层间按内曼分配的结果可以形成自加权的估计量。 34估计抽样误差时,在各种抽样技术条件下都可以用样本方差代替总体方
13、差。 35比估计就是比例估计。 36随机原则就是要使得总体中的每一个抽样单元都有相等的可能性被抽中。 37整群抽样可以被理解为是第二阶段抽样比为100%时的一种特殊的两阶段抽样。38分层抽样可被理解为是第二阶段抽样比为100%时的一种特殊的两阶段抽样。39比估计与回归估计都充分利用了有关辅助变量,因此一般情况下都较简单估计的精度要高。 40当第一重样本量等于总体容量时,二重分层抽样与一般分层抽样具有相同的估计精度。 三、名词解释1.滚雪球抽样答:滚雪球抽样是指利用样本点(构成样本的单元)寻找样本点,即由目前的受访者去寻找新的具有新的具有某一特征的受访者。2.分别比估计答:分别比估计是指利用将比
14、率估计的思想和技术用于分层随机样本时,两种可行的办法之一:对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均,此时所得的估计量称为分别比估计。3.PPS抽样答:4.配额抽样5.概率抽样6. 不等概率抽样7. 抽样的Brewer方法8. 最优分配9. 比率估计四、计算题1、(简单随机抽样的均值、比例估计和样本量的确定)某住宅区调查居民的用水情况,该区共有=1000户,调查了=100户,得=12.5吨,=1252,有40户用水超过了规定的标准。要求计算:该住宅区总的用水量及95%的置信区间;若要求估计的相对误差不超过10%,应抽多少户作为样本?以95%的可靠性估计超过用水标准的户数;2、
15、(内曼分配和按比例分配的均值和比例估计)有下列数据层10.353.120.5420.553.93.30.3930.17.811.30.24设采用按比例分层抽样的方法估计和并计算其标准误;采用奈曼分配的方法估计和并计算标准误;3、(两阶段抽样)某市为了了解职工收入情况,从该市的630个企业中随机抽取了5个企业,在中选的企业中对职工再进行随机抽样,有关数据如下:企业号(元)152010328400.056210810400301.13431400203101303.15841200203701205.786590001004204200.000其中,为企业职工数,为样本量;为样本均值,为样本方差。
16、试估计该市职工平均收入及标准差。4、 (比率估计)某养兔场共有100只兔子,上月末称重一次对每只兔的重量作了纪录,并计算平均重量为3.1磅,一个月后随机抽取10只兔子标重如下:序号12345678910上次3.232.92.82.83.133.22.92.8本次4.144.13.93.74.14.24.13.93.9估计这批兔子较上月末增重的比率及其标准误差;估计现有兔子的平均重量及其标准误差;将比估计方法与均值估计法进行比较,哪一种方法效率高?分析其原因。5、为调查某5443户城镇居民服装消费情况,采用简单随机不重复抽样调查了36户进行调查,得到平均消费支出元,试根据此估计:(1)该地区居民
17、服装消费支出总额,并给出置信水平为95%的置信区间。(2)如果希望服装平均消费支出的相对误差限不超过5%,则样本量至少应为多少?6、某地区10000名群众,现欲估计在拥有本科学历及以上的群众所占的比例,随机不重复抽取了300名群众进行调查,得到,试估计该地区群众拥有本科以上学历的比例,并以正态分布近似给出其95%的置信区间。7、对某地区171 980户居民家庭收入进行调查,以居民户为抽样单位,根据城镇和乡村将居民划为2层,每层按简单随机抽样抽取300户,经整理得如下数据:层城镇23560151800.1372972乡村14842098560.8632546试根据此估计:(1)居民平均收入及其9
18、5%的置信区间。(2)若是按比例分配和奈曼分配时,各层样本量分别应为多少?8、某居民小区共有600个单元,每个单元均居住15户,现以单元为群进行整群抽样,随机抽取8个单元,调查每户每周的食品支出费用,调查结果经整理,各单元样本均值和标准差如下表所示:20521920221821221720822030.6132.1429.6228.3625.8433.5934.2026.84试求:(1)该居民小区平均每户每周食品支出费用,并给出其置信水平为95%的置信区间。(2)计算以单元为群的群内相关系数与设计效应9、某县有300个村,小麦播种面积为23 434亩。全部村子按地势分为平原和山区两种类型,各按
19、10%的抽样比抽样,调查亩产量,经整理得到下表结果,以大写字母表示总体数据,小写字母表示样本数据,Y代表调查变量,为今年的总产量,X代表辅助变量,为去年的总产量,相应的均值为平均亩产量。类型平原1020.34583561568山区1980.66290274271试分别对全县今年的平均亩产量构建分别比率估计量和联合比率估计量。10、一个由N=1000个人构成的总体被划分为两层:第一层由名男性组成,第二层由名女性组成。从中抽取一个样本量为n=250的样本,将样本等比例地分配给各层,使得两层的抽样比都等于n/N=1/4。求各层的样本量分别是多少?11、一公司希望估计某一个月内由于事故引起的工时损失。
20、因工人、技术人员及行政管理人员的事故率不同,因而采用分层抽样。已知下列资料:工人技术人员行政管理人员 若样本量n=30,试用奈曼分配确定各层的样本量。12、某工厂生产的新产品供应国内市场的300家用户,试销售滿一年后,现欲请用户对该厂的新产品进行评价。现把这些用户分成本地区、本省外地区、外省三层。现有资料如下:本地区本省外地区外省若要求估计评价成绩均值的方差,并且费用最省(假定费用为线性形式),求样本量n在各层的分配。13、 某林业局欲估计植树面积,该局共辖240个林场,按面积大小分为四层,用等比例抽取40个林场,取得下列资料(单位:公顷)第一层第二层第三层第四层97 67 42 125 25
21、 92 86 27 43 45 59 53 52 125 155 67 96 256 47 310 236 220 352142 190 142 256 310 440495 510 320 396 196 167 655220 540780试估计该林业局总的植树面积及95%的置信区间。14. 一个县内所有农场按规模大小分层,各层内平均每个年农场谷物(玉米)的英亩数列在下表中。农场规模(英亩)农场数平均每一农场的玉米面积标准差0404180811201211601612002012403944613913341691131485.416.324.334.542.150.163.88.313.3
22、15.119.824.526.035.2总和或均值201026.3-现要抽出一个包含100个农场的样本,目的是估计该县平均每个农场的玉米面积,请问:(1)按比例分配时,各层的样本量为多少?(2)按最优分配时,各层的样本量为多少?(假定各层的单位调查费用相等) 15. 某县欲调查某种农作物的产量,由于平原、丘陵和山区的产量有差别,故拟划分为平原、丘陵和山区三层采用分层抽样。平原区共有150个村庄,丘陵区共有100个村庄,山区共有250个村庄。按照各种地形等比例各抽取5%样本,进行实割实测产量,结果计算如下表。(1)在95.45%的概率保证程度下,试估计该县农作物平均每村产量的区间范围。(2)若村
23、庄的农作物产量低于150吨,县政府并将其归为低产量村,从而对其加强农业补贴政策。因此,试图在95.45%的概率保证程度下估计该县低产量村比例的区间范围。地形村庄总个数样本村个数样本平均产量(吨)样本产量标准差样本低产量村个数平原1407202.582.202丘陵100514736.841山区24012121.1147.357 16.某城市居民小区的食品消费量调查,以每个楼层为群进行整群抽样,每个楼层都有8个住户。用简单随机抽样在N510个楼层中抽取n12个楼层,得到96个样本户人均食品消费额,及按楼层的平均数和标准差,如表。请估计该小区人均食品消费额的户平均值,并给出95置信区间。17. 邮局
24、欲估计每个家庭的平均订报份数,该辖区共有4000户,划分为400个群,每群10户,现随机抽取4个群,取得资料如下表所示:群各户订报数11,2,1,3,3,2,1,4,1,11921,3,2,2,3,1,4,1,1,22032,1,1,1,1,3,2,1,3,11641,1,3,2,1,5,1,2,3,120试估计平均每户家庭订报份数及总的订报份数,以及估计量的方差。 18. 某工业系统准备实行一项改革措施。该系统共有87个单位,现采用整群抽样,用简单随机抽样抽取15个单位做样本,征求入选单位中每个工人对政策改革措施的意见,结果如下:单位总人数赞成人数1514226253349404734551
25、016364831765388493097354106145115851125229136546144937155542(1)估计该系统同意这一改革人数的比例,并计算估计标准误差。(2)在调查的基础上对方案作了修改,拟再一次征求意见,要求估计比例的允许误差不超过8%,则应抽取多少个单位做样本? 19. 某集团的财务处共有48个抽屉,里面装有各种费用支出的票据。财务人员欲估计办公费用支出的数额,随机抽取了其中的10个抽屉,经过清点,整理出办公费用的票据,得到下表资料:抽屉编号票据数费用额(,百元)14283227623384546311257296612587247581458932671041
26、80要求以95%的置信度估计该集团办公费用总支出额度置信区间(=0.05)。20. 某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。全校共有女生宿舍200间,每间6人。学生会的同学运用两阶段抽样法设计了抽样方案,从200间宿舍中抽取了10间样本宿舍,在每间样本宿舍中抽取3位同学进行访问,两个阶段的抽样都是简单随机抽样,调查结果如下表:样本宿舍拍照人数样本宿舍拍照人数126120703181429151100试估计拍摄过个人艺术照的女生比例,并给出估计的标准差。计算题答案:1、解:已知N = 1000,n = 100,估计该住宅区总的用水量Y为:估计该住宅区总的用水量Y的方差和标准差为:
27、 因此,在95%的置信度下,该住宅总的用水量的置信区间估计为: 即,我们可以以95%的把握认为该住宅总的用水量在 5921吨19079吨之间。根据题意,要求估计的相对误差不超过10%,即r0.1,假定置信度为95% 根据公式: 由于,所以需要对进行修正: 若要求估计的相对误差不超过10%,应抽不少于755户作为样本。以95%的可靠性估计超过用水标准的户数;令超过用水标准的户数为A,样本中超过用水标准的户数为a = 40,估计超过用水标准的比例P为:估计超过用水标准的比例P的方差和标准差为:在95%的可靠性下,超过用水标准的比例P的估计区间为: 因此,我们有95%的把握认为,超过用水标准的比例P
28、在30.85%49.15%之间,超过用水标准的户数的点估计为:户,超过用水标准的户数在户户之间,即309户492户之间。2、解:根据题中已知条件,采用按比例分层抽样的方法估计为: 估计的方差和标准误差为: 估计及其方差和标准误差为:采用Neyman分配的方法估计和的方法和与是一样的,即 但是采用Neyman分配估计和的方差的方法不同,分别为: 3、解:已知:N = 630,n = 5,估计该市职工的平均收入为: 估计该市职工平均收入的方差及标准差为: 因此,估计该市职工平均收入为398元,标准差为26.71669元4、解:已知:N = 100 ,n = 10 ,设X,Y分别代表上月兔子总重量和
29、本月兔子总重量,则 ,。由表中数据可得: 因此,对这批兔子较上月末增重的比率估计为:方差的估计为:标准误差的估计为:对现有兔子的平均重量的比率估计为:方差的估计为: 标准误差的估计为:对现有兔子的平均重量的均值估计为:方差的估计为:因此,得到现有兔子平均重量的比率估计量设计效应的估计为: 对于本问题,均值估计方法的效率比比率估计方法的效率要高。原因是:比率估计是有偏的,当样本量足够大时,估计的偏倚才趋于零,而本问题中的样本量较小,使用比率估计量时不能忽视其偏倚,所以无法保证估计的有效,使得估计效率比均值估计方法的效率低。5、解: 所以居民区总用水量的区间为: 根据题中相关数据可得户,由此可得户
30、 即,要满足相应的精度要求,至少得抽922户做样本。 6、解: 所以本科生中暑假参加培训班的95%的置信区间为: 7、解:(1) 由题中相关数据资料: 该地区居民平均收入的95%的置信区间为: (2)按比例分配: 按奈曼分配: 由表中资料: 由上可得根据奈曼分配,各层所需样本容量为: 8、解:(1) ,所以该城市大学生人均月生活费支出95%的置信区间为: (2) 9、解:全县今年的平均亩产量的分别比率估计量 由题可得: 全县今年的平均亩产量的联合比率估计量由题可得:, 10、解:即各层的样本量分别为100和150人11、解: 12、解:=即各层的样本量分别为17、7、4 13、解:=(4204
31、8,59344)分析:略。14. 解:(1)比例分配:根据表中所给的数据,利用公式直接可计算出各层样本量:(2)最优分配:当各层的单位调查费用相等时,最优分配样本量计算公式为:同样将表中的相关数据代入公式即可求出此时各层的样本量为:15. 解:(1) 样本方差: 抽样平均误差 概率保证程度为95.45%,可查表获得t=2, 在95.45%的概率保证程度下,可得该县农作物平均每村产量的置信区间为(150.24-23.12, 150.24+23.12)。 (2) 样本成数 样本方差抽样平均误差概率保证程度为95.45%,可查表获得t=2, 在95.45%的概率保证程度下可得该县低产量村比例的置信区
32、间为(41.67%-18.24%,41.67%+18.24%) 16. 解:已知N510,n12,M8,fn/N=0.0235故:于是 的置信度为95的置信区间为17. 解:由题意得到,故(份)(份)(份)于是由以上的计算结果得到平均每户的订报份数为1.875,估计量方差为0.00391875。该辖区总的订阅份数为7500,估计量方差为62700。18、解:已知,由已知估计同意改革的比例:此估计量的标准差为19、解:已知N=48, n=10, f=, 由题意得,则办公费用的总支出的估计为(元)群总和均值(元)= 182.43590.4= 72765.44=269.7507则的置信度为95%的置信区间为3532.81.96269.7507,即3004.089,4061.511.20、解:已知,在置信度95%下,p的置信区间为=27