抽样调查课件第八章-调查中的复杂样本.ppt

上传人(卖家):三亚风情 文档编号:2781987 上传时间:2022-05-25 格式:PPT 页数:98 大小:1.37MB
下载 相关 举报
抽样调查课件第八章-调查中的复杂样本.ppt_第1页
第1页 / 共98页
抽样调查课件第八章-调查中的复杂样本.ppt_第2页
第2页 / 共98页
抽样调查课件第八章-调查中的复杂样本.ppt_第3页
第3页 / 共98页
抽样调查课件第八章-调查中的复杂样本.ppt_第4页
第4页 / 共98页
抽样调查课件第八章-调查中的复杂样本.ppt_第5页
第5页 / 共98页
点击查看更多>>
资源描述

1、第一节 概述一 、 什 么 是 复 杂 样 本二 、 基 本 思 路1.“ 复 制 ”2“ 迭 代 ”三 特 点不 是 百 分 之 百 准 确 , 但 简 化 了 复 杂 过 程 重抽样(复制样本),泰勒级数,广义方差函数l典型抽样方法?l复杂设计:多种抽样方法结合,多种抽样框l复杂估计:非线性,无回答调整,加权估计,事后分层第二节 随机组法一. 什么是随机组法(Random Group Method) 不同的名称: replicate samples 重复样本 ultimate cluster 末级群 交叉样本 等 不同的术语来自于不同的应用。 设 nyyy,.,21为 来 自 同 一 总

2、体 的 变 量 值 , 则 Y的 方 差 可 用 2)(11yynni估 计 , 记 1 为 的 一 个 估 计 量 , 同 样 方 法 重 复 K次 , 则 可 得 到 k,.,21 记作2)() 1(1)(1kikikkk它是参数 的无偏估计,称估计量).2 , 1(kii为随机组。随机组产生的二种方式:独立和不独立)(V二、独立随机组独立随机组的操作程序:1多次重复2与抽样方式无关,但每个样本抽样方式一致。得到 K 个关于的估计,记为 ),.2, 1(kaakka )(E)()() 1()()(2VEkkka无偏估计 的置信区间为 )(2/ Z 以比率估计为例 XY aaaXY kz/)

3、(2),(2NkaakXYk1 11/kaaakaaaYkYXkX全样本估计对 线 性 估 计 量 , 与 相 同对 非 线 性 估 计 量 ,与 通 常 不 同) 1()()(21kkka) 1()()(22kkka保守估计)()(EE)()(EE因为: 222)()()(Kaa 故有)()(21 研究表明,在复杂调查应用中,)(2E是 微不足道的。 例题: 住户调查,多阶段分层抽样。 抽取样本 S1,放回后再按照同样方式抽取 S2 调查得到1与2 2)(21 22)() 12(21)(a=4)(221 1S2S1y1x2y2x样本样本拒答户数合格调查户数拒答户数合格调查户数城区141150

4、371492401493014833814538150总计119444105447251. 08912242121XXYYR251. 0)235. 0268. 0(21)(2121RRR000274. 0)() 1(1)(211RRkkRvk000274. 0)() 1(1)(212RRkkRvk案例:美国 AAA Motel 的调查 调查内容:意向调查 抽样框:文档卡片 调查设计主要特征: 调查结果:见表一、表二 有放回 表一 各类别回答结果 随机组 经常 很少 没有 无明确回答 未回答 合计 1 16 40 17 2 19 94 2 20 30 17 3 15 85 3 18 35 16

5、1 15 85 4 17 31 14 2 16 80 5 14 32 15 3 18 82 6 15 32 12 4 16 79 7 19 30 17 3 17 86 8 13 37 11 3 18 82 9 19 39 19 2 14 93 10 17 39 15 2 15 88 合计 168 345 153 25 163 854 表二 对无回答子样本访问的结果 随机组 经常 很少 没有 暂时关闭 合计 1 1 2 2 1 6 2 1 2 1 1 5 3 2 2 0 1 5 4 2 1 2 0 5 5 1 3 1 2 7 6 2 2 0 1 5 7 1 3 1 1 6 8 1 2 1 2 6

6、 9 2 2 1 0 5 10 1 2 0 2 5 合计 14 21 9 11 55 问题1:合同汽车旅馆的估计值及方差? 问题2: 回答为“经常”的合同汽车旅馆的数量及方差? 问题3:估计回答“很少”与“没有”的比例及其方差? 总数 11111370nriiriiYYY= 70(16+31) = 1330 权数:入样概率倒数 17211170iiXX = 7094= 6580 597810/101XX12653)9(101)(1012XXXv第一随机组中回答者和无回答者子样本的求和 789. 0161032201300161032201R没有很少经常没有很少737. 010/101RR000

7、1139. 0)9(101)(10121RRRv737. 012602856147012602856R0001139. 0)9(101)(10122RRRv三、非独立随机组 将母样本随机划分为 K 组: m=n/K 从 n-m 中再抽取 m 作为第二组 若 n/k 不是整数,便有 n=km+q q 的处理 关键是划分 K 组的过程: 实际应用中很难实现多次有放回抽样,而是把一次样本随机分为k个随机组,所以随机组相互不独立末级群估计: kka )(V的估计量为 2)() 1(1)(kakk 对 于的 方 差 估 计 有 两 种 方 式 :)()(122)() 1(1)(kakk因 为,)()(2

8、2aa 故 )(2v 保 守 估 计 量由 于 随 机 组 非 独 立 , 故 )(不 是 方 差 的 无 偏 估 计 。) 1(,2)() 1(1)()(12kkCovkkVEbkakabaka 式中 aaE Ekka 若kmmm.21 则,a这时 ,)()(21CovVE 在许多大规模调查中偏差通常都不会很大随机组问题的讨论涉及两个主要问题: 1. 估计量 的方差 2.估计量方差 的精度,即对随机组方差估计 的质量评估。 )(V)(v四、K的选择 )(v也是一个估计量,对其质量进行评估自然想到其方差)(vV,从而引出CV准则)()()(21VVCV定理: 设k,.,21为独立同分布的随机变

9、量, 而)(如公式 ) 1()()(2kkka所定义,则 当N,n很大,抽样比很小时,也可用于不独立随机组211413)()(kkkVCV 其中 2214114)()()(EE )(1E (1)峰度由(1)式看出, 近似地反比于随机组个数K2CVkvCV1)()(142定理说明CV依赖于两个因素, 和K 1. K小,CV则大 2. 大,CV也大)(14)(14)(4a说明,方差的随机组估计的精度,不但依赖 k,而且与 的a分布(从而与 )有关。令m=n/k,如取采用有放回简单随机抽样,取 为a组的样本均值,则 anikaynk11这时2244414/)(/ /)(/ ) 1(3)(NYYNYY

10、mmmNiNi式中若抽样方式为放回PPS抽样,取 为第a组的总体总和的估计量,则 imiazym/12244414/)(/)(/ ) 1(3/11NiNinikaNTTNTTmmmynk式中)(这时上述两种形式蕴含了这样一个事实,从本质上讲, 的形式。bma具有)(14m从1开始增长时,峰度明显减少,但随m越来越大,峰度的递减作用减少,因此对越来越大的m,峰度的边际递减不足以弥补必要的k的递减,K对减少CV和提高方差估计精度比组容量m更重要。C为计算方差预算,21CC、为加法或乘法单位成本,使 )(CV在下列费用约束下达到最小 CCkCkm21) 32(1) 3( )(CV是K的递减函数,最优

11、值为满足约束方程中最大的K值。 要满足需要的精度水平 *CV*)(CVvCV需要什么样的m和k? 估计 听取专家意见根据经验判断)(14K增长时费用会增加,因此最优k的选择应该在费用约束下寻找LhhhyW1LhhhdW12241styvsty)(stRGyv212,)() 12( 21ststyy22 ,1 ,)(41ststyyL2LhhhhhhyyW12211)(,sty1h121hh)(21212,stststLyVyyELLhhhhdW1)(21ststyy,11121)(或hhststLyyL21,21stLLLhhhhyyyW)2/2( )(11212,ststyyLhhhdW12

12、241hLhLhhhhhhhddWW1)()(21hLhLhhhhhhhstddWWyv1)()(21)(一个小的半样本子集(k)尽量保留所有的信息 stkyvkststyyk12,1hLhLhhhhhkhhstddWWkyv 11)()(21)(01)()(khh,如果01)(khstkstyyk1,1则完全正交平衡(full orthogonal balance)半样本 完全正交01)()(khh,如果01)(kh半样本层1234+1+1+1-1-1+1-1-1-1-1+1-1+1-1-1-1)(ihkLkh,01)(Lk GkL)1(h)2(h半样本层1234+1+1+1+1+1-1+1

13、-1部分平衡半样本的方差估计量虽然不如完全平衡半样本精确,但也是无偏的。LhhhhhzYzY1221122LhhYY121221141)(LhhhhhzYzYYvLhhhhhhhzYzYY1222111kkYYkYv121)(XXYXXYkk1kkkv121)(kcckvk121)( 21)(ckkkvvvkckvk12*41)(第四节 Jackknife方法产生于样本观察值(),.,21nyyy,记为n, j的含义 虚拟值:jnjnnn) 1(, (j=1,2,n) n的 Jackknife 形式为 njnJn,1 Pseudo value将样本分为 K 个随机组)(kmn 为母样本关于 的

14、估计量 a 为舍弃第 a 组后关于 的同结构估计量 则虚拟值为:aakk) 1(),.2 , 1(ka 的 Jackknife 形式为: kJka)( 相应的方差估计为 ) 1()()(2kkka Jackknife方差估计有若干种情况 一、wrsrs niyny1 nsynyV22)(,)( 应用Jackknife,,若kmn ,令y,于是 kykykkkaka) 1( yJ 2)() 1(1)(yykkka =2)(1yykkka 并且有)()()(yVVE ykyky) 1(二、WrPPS 中选概率 1),.2 , 1(NiiZNiZ且niiZynY12)(1)(YZYZnYViiNi

15、niiYzynnY2)() 1(1)( 应用,kmnJackknife令,Y于是 KaJYKKYKY) 1(1 21)() 1(1)(kakk 其中, aaYKYK) 1( YYJPPS例yJ前面srs+wr例当k=n时,由于第j个虚拟值为平均值中的第j个变量,因此有)()(1Yvv三 、worsrs nsfyvnSfyVynyni22)1 ()()1 ()(1 )(y是)(yV的无偏估计 母样本被分为mknk组, Jackknife形式yJ仍成立 但)(1不再是无偏估计量 kakk21)()1(1)( 式中,aaykyk)1( nSE21)( nSfyV2)1 ()( 高估量为nSfBias

16、21)( 若(1-f)不能忽略,方差的无偏估计为 )()1 (1f 修正的 Jackknife *)1(aakk 其中 )()1 (*yyfyaa 于是便有ykka*1* 2*1)()1(1)(kakkv 这 时 nSfE21)1 (*)( 当nk 时 )(*)(11y 四、比估计 XYRXYR, 相应地 aaaXYR Jackknife的虚拟值为 Jackknife的估计量为 在非线性估计条件下,aaRKRKR) 1(KaRKR1RRkaRRkkR21)() 1(1)( kaRRkkR22)() 1(1)( 因为2)()(RRRRaa 所以2是保守条件 如果NnRatioWOR,不能忽略时

17、用)( )1 (*RRfRRaa代替aR 五 、 回 归 估 计niniixxyyxx2)()(在Jackknife方 式 下) 1(2) 1()()(kmaikmaiaiaxxyyxx虚拟值 aakk) 1( 相应的估计量为 kak1 一般地, kakk21)() 1(1)( kakk22)() 1(1)( 修正值 )( )1 (*aaf RrrBRv12*) 1(1)(niiniinnnnnxFdyFdyyTxxTTD12111)()(,)(RrRrrrnBTRTRTv121*1) 1(1)(niiniinnnnnbootxFdyFdyyTxxTTv12111)()(,)(*2*1,R中位

18、数165166166.5167167.5168168.5169169.5170170.5171171.5172频数1524015268877391114914418854nN /Nn/1hn)(1)(rmnnwrwihhii)(rmi*rRrrRV12*B)(11)(0016. 0) 1 ( ) (18017100%,23. 1,3725,000018. 0ppxbpsxpba) 1 ( ) ()(2ppxbpvt bt atv20-24岁54499)800510(3725)800510)(00001833. 0(2iiiiiiiiiiiiiiitbtanppNdefftVppNbnppdef

19、fpV22)1 ()()1 ()1 ()()/(nNdbiindaii/iaaibbkttt,21iv2/ )(iittV2)(itCV2)(itCVitiv kijijkijikiiikiiittaatVataV11121,cov2)()()(iSiiqqwVtV1t是抢劫受害者报告的被抢金额,2t是受害者因此耽误的工作日,3t是抢劫受害者支付的医疗费用,假设每工作日损失150美元,对抢劫经济损失的可能是321150ttt。 ),cov(300),cov(2),cov(300)()(150)()150(2331213221321tttttttvtvtvtttv更简便的办法:在观测单元水平上定

20、义新的变量,321150iiiiyyyqikiiktaattth1021),(),.,(1ktthV)(1kiiitaV) ()21 ()()21 () ()(21 ()1 () () 1 ( ) (),(22121pVpppVpphVpppppphppphtaattthkiiiok)()()(axahahxh),(21kttth),(1kUUyyh ia)(),(),(1211jjkjjkkttattthtthijkjjiyaq1iSiiqqwt),(1ktth),(1ktthSiUiiUxnBxyxxByxxByBBxyttxyB/SiiiUBxyVxnBBV)(122应用Taylor定理

21、: xyyxtttthB),(xyyxtttthB),()(1)(1)(1)(2xxxyyxyyxxxxytttBttttttttttBB)(),()(),(),(),(,yyttxxttyxyxttddchttcdchtthtthByxyxcddch/),(222)(1)()(yyxxxxytttttttEBBE),(Cov2)(1)(3242yxxyyxxxytttttVttVtt),(Cov2)()(122yxyxxttBtVtVBt1iixiBxytq)(qtVxxxyttBttBB)(/ )(V)(96. 1V),(21kttth),(21kttth)(1qFq)(1qFqqyF)(

22、不是平滑函数,但假定总体和样本足够大时,近似为连续函数RRrtrqqq) 1()(2自由度为R - 1 )(96. 1qqV)(yF)(96. 1)(yFVyF0.95)(96. 1)()(96. 1)(95. 0qqqqFVFqFVFP)(96. 1)()(96. 1qqqFVqFFVqP)(96. 1)(96. 111qqqFVqFFVqFP)(qFqiiiwuwyF/)(01iiiiyyyy时,时,)(qFq)1 (1)(1)(1)(qqnFFnFVqqq0693. 0200)5 . 0)(5 . 0(96. 1)(96. 15 . 0FV)0693. 05 . 0(1F)0693. 05 . 0(1F中位数的置信下限是置信上限是

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(抽样调查课件第八章-调查中的复杂样本.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|