第十章-其它抽样方法技术课件.ppt_163文库

资源描述

1、第十章第十章其它抽样方法技术其它抽样方法技术本章要点本章要点本章主要对样本轮换、双重抽样、随机化本章主要对样本轮换、双重抽样、随机化装置、交叉子样本等抽样技术原理、方法、装置、交叉子样本等抽样技术原理、方法、特点及应用条件进行了较为全面的介绍。具特点及应用条件进行了较为全面的介绍。具体要求体要求:掌握本章所介绍的几种抽样技术的特点及掌握本章所介绍的几种抽样技术的特点及应用条件，在抽样实际工作中能够正确运用应用条件，在抽样实际工作中能够正确运用该种技术，提高估计的精度与效果。该种技术，提高估计的精度与效果。第一节第一节样本轮换样本轮换第二节第二节双重抽样双重抽样第三节第三节随机化装置

2、随机化装置第四节第四节交叉子样本交叉子样本问题提出时间序列数据以及随后出现的面板数据时间序列数据以及随后出现的面板数据都是经济统计分析和计量分析中非常重要的都是经济统计分析和计量分析中非常重要的数据类型。当我们在研究应该应用什么统计数据类型。当我们在研究应该应用什么统计和计量的方法去分析既定的时间序列数据时，和计量的方法去分析既定的时间序列数据时，是否考虑过以下几个问题？是否考虑过以下几个问题？n 时间序列数据是如何产生的？n 所产生的时间序列数据是否准确？n 如何让时间序列数据更加准确？随着社会经济现象的不断变化和发展，很多调随着社会经济现象的不断变化和发展，很多调查对象的总体也在不

3、断变化和发展。为了能够及时查对象的总体也在不断变化和发展。为了能够及时反映调查总体的这种变化和发展，调查部门就需要反映调查总体的这种变化和发展，调查部门就需要对同一总体在不同时间上进行连续性抽样调查对同一总体在不同时间上进行连续性抽样调查(Successive Sampling Survey)，并定期公布调查结，并定期公布调查结果，形成一系列时序统计数据。因此，社会经济抽果，形成一系列时序统计数据。因此，社会经济抽样调查一般都应该是连续性的定期调查。样调查一般都应该是连续性的定期调查。n 一次性抽样调查与截面数据n 连续性抽样调查与时间序列数据及面板数据抽样调查除了对总体的一次性抽样以外，很

4、多重要的抽样调查除了对总体的一次性抽样以外，很多重要的调查是隔一段时间重复进行的调查是隔一段时间重复进行的,对于这种经常性的抽样问对于这种经常性的抽样问题，就必须重视其样本轮换问题的研究。题，就必须重视其样本轮换问题的研究。对于样本轮换问题，我们至少应考虑以下问题：每次对于样本轮换问题，我们至少应考虑以下问题：每次调查的样本如何组成？是采用固定样本还是采用全新的调查的样本如何组成？是采用固定样本还是采用全新的样本，或者是部分保留部分替换，即样本轮换；在估计样本，或者是部分保留部分替换，即样本轮换；在估计后期的总量或均值时，是否需要利用前期的信息来改进后期的总量或均值时，是否需要利用前期的信息来

5、改进现期的估计，以及如何利用；如果采用样本轮换的方法，现期的估计，以及如何利用；如果采用样本轮换的方法，如何确定最优的保留比例或替换比例。如何确定最优的保留比例或替换比例。第一节第一节样本轮换样本轮换连续性抽样设计方法按抽取样本的不同划分轮换样本轮换样本重复样本重复样本固定样本固定样本单水平轮换单水平轮换不完全的单水平轮换不完全的单水平轮换多水平轮换多水平轮换轮换模式应用举例n加拿大劳动力调查（加拿大劳动力调查（LFS）使用）使用60单水平轮单水平轮换模式换模式n美国现时人口调查（美国现时人口调查（CPS）使用）使用484不完全不完全单水平轮换模式单水平轮换模式n美国消费者支出的季度调查

6、（美国消费者支出的季度调查（CEQ）便采用）便采用40三水平轮换模式三水平轮换模式中国城市住户抽样调查中国城市住户抽样调查n中国规模以下工业企业抽样调查中国规模以下工业企业抽样调查n中国农产量抽样调查中国农产量抽样调查一、样本轮换的原因一、样本轮换的原因如果是单纯地估计现值的情况，当然最好每次重新抽取新如果是单纯地估计现值的情况，当然最好每次重新抽取新样本，这样必然会增加费用；如果要逐期地与上期比较，则采样本，这样必然会增加费用；如果要逐期地与上期比较，则采用固定样本的方法为好，固定样本可以消除样本的因素而只观用固定样本的方法为好，固定样本可以消除样本的因素而只观察动态的变化。然而，样本长

7、期不变，随着时间的推移，固定察动态的变化。然而，样本长期不变，随着时间的推移，固定样本会显露它的弊端，既难以反映总体的变化，而且受访者也样本会显露它的弊端，既难以反映总体的变化，而且受访者也会产生厌烦心理，出现不合作或回答质量下降等问题，从而影会产生厌烦心理，出现不合作或回答质量下降等问题，从而影响调查质响调查质量。另外，无论是采用固定样本还是全新样本都难以量。另外，无论是采用固定样本还是全新样本都难以正确地反映总体在各个不同时间上的水平及变化，因此，一种正确地反映总体在各个不同时间上的水平及变化，因此，一种广泛采用的方法是样本轮换，即每隔一定时间（一个月、一季广泛采用的方法是样本轮换，即每隔

8、一定时间（一个月、一季或一年）更换一定比例的单元，保留其余单元。或一年）更换一定比例的单元，保留其余单元。第一节第一节样本轮换样本轮换与传统的一次性抽样调查相比，轮换的与传统的一次性抽样调查相比，轮换的抽样调查具有以下特有的优势：抽样调查具有以下特有的优势：n 节省调查费用和调查资源节省调查费用和调查资源n 在一定程度上减轻被调查者回答负担在一定程度上减轻被调查者回答负担n 利用前后各期之间的相关关系提高估计精度利用前后各期之间的相关关系提高估计精度n我国我国1996年新修订的年新修订的统计法统计法第十条明确规定：第十条明确规定：“统计调查应当以周期性普查为基础，以统计调查应当以周期性普查

9、为基础，以经常性抽经常性抽样调查样调查为主体，以必要的统计报表、重点调查、综为主体，以必要的统计报表、重点调查、综合分析等为补充，搜集、整理基本统计资料。合分析等为补充，搜集、整理基本统计资料。”n因此，在今后我国政府统计部门开展的统计调查制因此，在今后我国政府统计部门开展的统计调查制度与方法改革的过程中，最重要的就是围绕如何更度与方法改革的过程中，最重要的就是围绕如何更好地好地发挥经常性抽样调查的主体作用发挥经常性抽样调查的主体作用，研究并应用，研究并应用更加符合我国国情的经常性抽样调查方法，以此得更加符合我国国情的经常性抽样调查方法，以此得出更加准确的统计数据，为我国政府部门、研究机出更加

10、准确的统计数据，为我国政府部门、研究机构以及各类企事业单位等社会各界服务。构以及各类企事业单位等社会各界服务。我国抽样调查制度与方法改革的方向二、样本轮换的最优比例二、样本轮换的最优比例第一个时期采用有放回简单随机抽样方式抽出样本量为第一个时期采用有放回简单随机抽样方式抽出样本量为n n的样本；在第二个时期采用有放回简单随机抽样方式选的样本；在第二个时期采用有放回简单随机抽样方式选出样本量为出样本量为nqnq的旧有样本点以便替换掉，即保留的样本的旧有样本点以便替换掉，即保留的样本量为量为npnp，保留样本的比例为，保留样本的比例为p p，同时独立地依有放回简单，同时独立地依有放回简单随机样本方

11、式补充新的随机样本方式补充新的nqnq个新样本点，这里个新样本点，这里p+qp+q=1=1，这样，这样第二个时期的样本量仍旧为第二个时期的样本量仍旧为n n。设。设：第一节第一节样本轮换样本轮换为第一个时期与第二个时期相同的为第一个时期与第二个时期相同的npnp个单元在第一个时期个单元在第一个时期的均值。的均值。为第一个时期为第一个时期nq个单元在第一个时期的均值。个单元在第一个时期的均值。为为np个单元在第二个时期的样本均值。个单元在第二个时期的样本均值。为为nq个补充单元在第二个时期的样本均值。个补充单元在第二个时期的样本均值。为为和和之间的相关系数。之间的相关系数。如果希望估计第

12、二个时期的样本均值并充分利用第一个时如果希望估计第二个时期的样本均值并充分利用第一个时期的信息，令该估计量为期的信息，令该估计量为，那么它应该是充分利用前后期，那么它应该是充分利用前后期中保留样本、不保留样本和后期新补充样本的加权平均数。中保留样本、不保留样本和后期新补充样本的加权平均数。第一节第一节样本轮换样本轮换 xxxxyyxxywy 设我们希望得到的估计量设我们希望得到的估计量是两期估计量的线性函数，即是两期估计量的线性函数，即 =a +b +c +d （10.1）要求估计其参数要求估计其参数a，b，c，d。因为因为E（）=E（）=，E（）=E（）=，所所以以E（）=（a+b）+

13、（c+d）。要使。要使成为成为的无偏估计的无偏估计量，需量，需a+b=0，c+d=1，也即，也即b=-a，d=1-c。代入（。代入（10.1），有），有 =a=a（-）+c +c +（1-c1-c）第一节第一节样本轮换样本轮换 xyyxxywywyxywywyXXYYYwyxxyy第一节第一节样本轮换样本轮换 xxx该估计量的方差可以求得为：该估计量的方差可以求得为：2222221 1(1)2()().yyx yxwccacV yaq p np nqnpn 其中其中是第一个时期的方差，是第一个时期的方差，是第二个时期的方差。我是第二个时期的方差。我们要求出们要求出a a和和c c，使

14、得，使得达到最小，就要以上公式分别对达到最小，就要以上公式分别对a a和和c c求偏微分并使之等于求偏微分并使之等于0 0，即可求出，即可求出a a和和c c的最优值分别为：的最优值分别为：2x2y()wV y第一节第一节样本轮换样本轮换该估计量的方差可以求得为：该估计量的方差可以求得为：22.1yxpqaq221pcq第一节第一节样本轮换样本轮换 xxx将其代入公式（将其代入公式（10.110.1），就得到），就得到 2222222(1)()111ywxpqpqqyxxyyqqq该估计量的方差为该估计量的方差为：22221()1ywqV ynq第一节第一节样本轮换样本轮换如果不

15、利用前期信息，只根据第二期的结果来估如果不利用前期信息，只根据第二期的结果来估计均值，那么计均值，那么：其方差为其方差为：ypyqy2()yVyn第一节第一节样本轮换样本轮换 xxx故利用前期信息后的设计效果为故利用前期信息后的设计效果为：从上式可以看出，当从上式可以看出，当的值比较大时，利用上期信息的值比较大时，利用上期信息可以较大地提高可以较大地提高的效率。表的效率。表10.110.1给出了不同的给出了不同的q q，值值时时的值。的值。222()1()1wVyqVyqwy()()wV yV y第一节第一节样本轮换样本轮换 xxx 表表10.1 10.1 不同的不同的q q，值

16、时值时的值的值 ()()wV yV y 若对上式关于若对上式关于q求偏导，并使之等于求偏导，并使之等于0，那么便可得，那么便可得到最优轮换比：到最优轮换比：2211q第一节第一节样本轮换样本轮换 xxx三、样本轮换方法三、样本轮换方法（一）（一）随机轮换法随机轮换法在进行轮换时按确定的轮换单位数目或比例，从原有样本在进行轮换时按确定的轮换单位数目或比例，从原有样本中随机抽出若干单位不再调查，而从其余未包括在样本中的总中随机抽出若干单位不再调查，而从其余未包括在样本中的总体单位中抽取同样数目的单位来代替。体单位中抽取同样数目的单位来代替。第一节第一节样本轮换样本轮换 xxx （二）（二

17、）等距轮换法等距轮换法在总体抽样框中确定出各个等距抽样的样本，在各次的调在总体抽样框中确定出各个等距抽样的样本，在各次的调查中，按相应位置的等距样本单位进行轮换。我国农村住户调查中，按相应位置的等距样本单位进行轮换。我国农村住户调查就是采用这种轮换方式。查就是采用这种轮换方式。（三）（三）子样本轮换法子样本轮换法从总体中抽出若干套子样本，每次调查一定数量的子样本，从总体中抽出若干套子样本，每次调查一定数量的子样本，逐次轮换其中的部分子样本。逐次轮换其中的部分子样本。第一节第一节样本轮换样本轮换 xxx 子样本轮换实际上就是每次采用交叉子样本，而交叉子子样本轮换实际上就是每次采用交叉子样本

18、，而交叉子样本不仅能有效地减少和控制估计偏差，而且由于每个交叉样本不仅能有效地减少和控制估计偏差，而且由于每个交叉子样本都能代表总体，即使有的子样本资料搜集不到，我们子样本都能代表总体，即使有的子样本资料搜集不到，我们也可以用其他的子样本甚至一个子样本来观察和推断总体。也可以用其他的子样本甚至一个子样本来观察和推断总体。此外，用交叉子样本还可以考察非抽样误差发生的程度。因此外，用交叉子样本还可以考察非抽样误差发生的程度。因此，一般来说，子样本轮换方法是以上三种样本轮换方法中此，一般来说，子样本轮换方法是以上三种样本轮换方法中最好的。最好的。第一节第一节样本轮换样本轮换 xxx五、案例介绍五、

19、案例介绍美国人口现状调查（美国人口现状调查（current population surveycurrent population survey，CPSCPS）是国际上最著名的抽样调查项目之一，已经成为美国以及许多是国际上最著名的抽样调查项目之一，已经成为美国以及许多国家进行居民调查的参考模型，其实施是在每个月包含国家进行居民调查的参考模型，其实施是在每个月包含1919号的号的那一周进行，调查的问题涉及受访者此前一周内的活动。调查那一周进行，调查的问题涉及受访者此前一周内的活动。调查氛围覆盖全美氛围覆盖全美5050个州和哥伦比亚地区。个州和哥伦比亚地区。CPSCPS采用的就是样本轮换采用的就

20、是样本轮换的方法，即每位受访者连续的方法，即每位受访者连续4 4个月接受访问，然后退出样本，个月接受访问，然后退出样本，8 8个月后再进入样本，连续个月后再进入样本，连续4 4个月接受访问，最后永久地退出样本个月接受访问，最后永久地退出样本。第一节第一节样本轮换样本轮换 xxxCPS 在在1995年年7月的抽样设计方案中样本轮换的特征：月的抽样设计方案中样本轮换的特征：1 在任意一个月内，都有在任意一个月内，都有1/8 的住户单元第一次接受调查，的住户单元第一次接受调查，1/8的住户单元第二次接受调查，依次类推。的住户单元第二次接受调查，依次类推。2每个月都由新的样本组代替从样本中永久退出的

21、老样本每个月都由新的样本组代替从样本中永久退出的老样本组。组。3 每个月都有一个样本组在闲置每个月都有一个样本组在闲置8个月后重新接受调查，以个月后重新接受调查，以此代替刚刚进入闲置期的样本组。此代替刚刚进入闲置期的样本组。4通过轮换设计，保证每个样本单元在通过轮换设计，保证每个样本单元在2个年份的个年份的4个相同个相同月份里接受调查。月份里接受调查。5.5.在连续的在连续的2个月内，有个月内，有3/4/的样本点是相同的；在连续的的样本点是相同的；在连续的2年内，有年内，有1/2的样本点是相同的。的样本点是相同的。二维平衡单水平轮换模式的轮换过程 2148 二维平衡单水平轮换模式的轮换过程

22、2148第二节第二节双重抽样双重抽样 xxx 我们可以先从总体中抽取一个大的初始样本，从我们可以先从总体中抽取一个大的初始样本，从而获得总体的辅助信息，然后再从初始样本或从总体而获得总体的辅助信息，然后再从初始样本或从总体中再抽一个子样本，这种方法就是中再抽一个子样本，这种方法就是双重抽样双重抽样。第二节第二节双重抽样双重抽样 xxx一、定义一、定义双重抽样，也称二相抽样或二重抽样双重抽样，也称二相抽样或二重抽样(two-phase(two-phase sampling)sampling)，是指在抽样时分两步抽取样本。一般情况下，先从，是指在抽样时分两步抽取样本。一般情况下，先从总体总体

23、N N中抽取一个较大的样本，称为第一重中抽取一个较大的样本，称为第一重(相相)样本样本(the first(the first phase sample)phase sample)，对之进行调查以获取总体的某些辅助信息，为，对之进行调查以获取总体的某些辅助信息，为下一步的抽样估计提供条件；然后进行第二重抽样下一步的抽样估计提供条件；然后进行第二重抽样(the second(the second phase sampling)phase sampling)。第二重抽样所抽的样本。第二重抽样所抽的样本n n相对较小，但是第相对较小，但是第二重抽样调查才是主调查。二重抽样调查才是主调查。第二节第二节

24、双重抽样双重抽样 xxx 二、双重抽样与两阶段抽样的区别二、双重抽样与两阶段抽样的区别（一）两阶段抽样（一）两阶段抽样（two-stage samplingtwo-stage sampling）是先从总体）是先从总体N N个单个单元元(初级单元初级单元)中抽出中抽出n n个样本单元，却并不对这个样本单元，却并不对这n n个样本单元中个样本单元中的所有小单元的所有小单元(二级单元二级单元)都进行调查，而是在其中再抽出若干都进行调查，而是在其中再抽出若干个二级单元进行调查；双重抽样则不同，要对第一重个二级单元进行调查；双重抽样则不同，要对第一重(相相)样本样本进行调查以获取总体的某些辅助信息，并

25、且要利用这些辅助信进行调查以获取总体的某些辅助信息，并且要利用这些辅助信息进行排序、分层、抽样或估计等。息进行排序、分层、抽样或估计等。第二节第二节双重抽样双重抽样 xxx（二）两阶段抽样的第二阶段抽样单元和第一阶段抽（二）两阶段抽样的第二阶段抽样单元和第一阶段抽样单元往往是不同的；双重抽样要有一份最终单元的样单元往往是不同的；双重抽样要有一份最终单元的完整名册完整名册(总体所有单元的抽样框总体所有单元的抽样框)，而两阶段抽样只，而两阶段抽样只是需要第一阶段单元是需要第一阶段单元(初级单元初级单元)名册，然后在中选的名册，然后在中选的初级单元中构造第二阶段抽样的抽样框初级单元中构造第二阶段抽

26、样的抽样框。第二节第二节双重抽样双重抽样 xxx三、双重抽样的作用三、双重抽样的作用（一）有助于筛选主调查对象（一）有助于筛选主调查对象（二）节约调查费用二）节约调查费用（三）提高抽样效率（三）提高抽样效率（四）可用于研究样本轮换中的某些问题（四）可用于研究样本轮换中的某些问题（五）降低无回答偏倚（五）降低无回答偏倚第二节第二节双重抽样双重抽样 xxx四、双重抽样的应用四、双重抽样的应用（一）为分层的双重抽样（一）为分层的双重抽样分层抽样如果事先无法知道总体的层权，可以采用双重抽分层抽样如果事先无法知道总体的层权，可以采用双重抽样。具体实施过程如下：样。具体实施过程如下：第一步：

27、利用简单随机抽样，从总体的第一步：利用简单随机抽样，从总体的N N个单元中随机抽取第一个单元中随机抽取第一重样本，样本单元数为重样本，样本单元数为；根据已知的分层标志将第一重样本；根据已知的分层标志将第一重样本分层，令分层，令，则，则是总体层权是总体层权的无偏估的无偏估计。计。n(1,2,)hhnwhLnhwhW第二节第二节双重抽样双重抽样第二步：利用分层随机抽样，从第一重样本中抽取出第二重样第二步：利用分层随机抽样，从第一重样本中抽取出第二重样本，样本单元数为本，样本单元数为n n，第，第h h层样本单元数为层样本单元数为，。hn1lhhnn采用双重分层抽样，对总体均值采用双重

28、分层抽样，对总体均值的估计量为：的估计量为：Y1LstDhhhywy 的方差为：的方差为：stDy21)111()()(1)LhhstDhhDW SV ySnNnf第二节第二节双重抽样双重抽样 xxx上式可简化为上式可简化为：的样本估计量为：的样本估计量为：()stDV y222111111()()()()LLstDhhhhstDhhhhv yw sw yynnnN222111()()LLhhstDhhstDhhhw sv yw yynn第二节第二节双重抽样双重抽样 xxx 第一步：从总体的第一步：从总体的N N个单元中随机抽取第一重样本，样本单个单元中随机抽取第一重样本，样本单元数为

29、元数为；对于第一重样本，仅观测辅助变量信息，用辅助；对于第一重样本，仅观测辅助变量信息，用辅助变量的样本均值变量的样本均值估计总体均值估计总体均值。（二）为比率估计的双重抽样（二）为比率估计的双重抽样在实际工作中，如果辅助变量的信息未知，可以利用双重抽在实际工作中，如果辅助变量的信息未知，可以利用双重抽样进行比率估计。具体实施过程如下：样进行比率估计。具体实施过程如下：n11niixxn X第二节第二节双重抽样双重抽样 xxx双重抽样对总体均值双重抽样对总体均值的比率估计：的比率估计：第二步：从第一重样本中随机抽取出第二重样本，样本单元第二步：从第一重样本中随机抽取出第二重样本，样

30、本单元数为数为n n；对于第二重样本，观测目标变量与辅助变量，并用获；对于第二重样本，观测目标变量与辅助变量，并用获得的得的和和，计算，计算，构造比率估计。，构造比率估计。xyyRxYRDyyxx双重抽样比率估计的方差为：双重抽样比率估计的方差为：222111()(2)RDyxyxVySR SRSnnn）第二节第二节双重抽样双重抽样 xxx双重抽样比率估计方差的样本估计：双重抽样比率估计方差的样本估计：22 2111()()(2)RDyxyxv ysR sRsnn n第二节第二节双重抽样双重抽样 xxx（三）为回归估计的二重抽样（三）为回归估计的二重抽样与比率估计相似，在辅助信息未

31、知时可以采用二重抽样进与比率估计相似，在辅助信息未知时可以采用二重抽样进行回归估计。具体实施过程如下：行回归估计。具体实施过程如下：第一步：从总体的第一步：从总体的N N个单元中随机抽取第一重样本，样本单元个单元中随机抽取第一重样本，样本单元数为数为；对于第一重样本，仅观测辅助变量信息；对于第一重样本，仅观测辅助变量信息，用辅助，用辅助变量的样本均值变量的样本均值估计其总体均值估计其总体均值。nix11niixxnX第二节第二节双重抽样双重抽样 xxx 第二步：从第一重样本中随机抽取出第二重样本，样本单元第二步：从第一重样本中随机抽取出第二重样本，样本单元数为数为n n；对于第二重样

32、本，观测目标变量；对于第二重样本，观测目标变量与辅助变量与辅助变量，并，并计算计算、和回归系数和回归系数b b，构造回归估计。，构造回归估计。iyix双重抽样对总体均值的回归估计：双重抽样对总体均值的回归估计：()lrDyy b xx双重抽样回归估计的方差为：双重抽样回归估计的方差为：1212()()lrDlrDlrDVyVEyE Vy）yx第二节第二节双重抽样双重抽样 xxx式中式中：为第一重样本残差方差，其均值近似等于总体残差方差为第一重样本残差方差，其均值近似等于总体残差方差：因此双重抽样回归估计因此双重抽样回归估计方差的样本估计：方差的样本估计：22222221 11 1(

33、)()(1),(1)lrDeyeyV yss ssn nn n）222(1)eySS22211()ylrDySv yr snnn）=第三节第三节随机化装随机化装置置 xxx一、敏感性问题调查一、敏感性问题调查所谓敏感性问题所谓敏感性问题(sensitive question)(sensitive question)是指所调查的内容是指所调查的内容涉及私人机密，受访者不愿或不便于向外界透露的问题。涉及私人机密，受访者不愿或不便于向外界透露的问题。对于这类敏感性问题，必须采取经过特别设计的装置与方对于这类敏感性问题，必须采取经过特别设计的装置与方法，以消除受访者的顾虑，能够如实回答问题，避免调

34、查出现法，以消除受访者的顾虑，能够如实回答问题，避免调查出现严重偏误。这种为敏感性问题调查特别设计的技术，称随机化严重偏误。这种为敏感性问题调查特别设计的技术，称随机化回答技术回答技术(Randomized Response Technique)(Randomized Response Technique)。第三节第三节随机化装随机化装置置 xxx 敏感性问题按总体的特征可分为属性特征和数量敏感性问题按总体的特征可分为属性特征和数量特征问题两类。属性特征的敏感性问题是指受访者是特征问题两类。属性特征的敏感性问题是指受访者是否具有敏感性问题的特征，一般是估计具有敏感性特否具有敏感性问题的特征，

35、一般是估计具有敏感性特征的单位在总体中所占的比例，因此又可称作敏感性征的单位在总体中所占的比例，因此又可称作敏感性比例问题。数量特征的敏感性问题是指受访者具有敏比例问题。数量特征的敏感性问题是指受访者具有敏感性问题数额的多少的特征，一般是估计敏感性数额感性问题数额的多少的特征，一般是估计敏感性数额的均值或总和，也可称作敏感性均值问题。的均值或总和，也可称作敏感性均值问题。二、沃纳随机化回答模型二、沃纳随机化回答模型使用随机化回答技术的第一个模型是由沃纳使用随机化回答技术的第一个模型是由沃纳(S.L.Warner)(S.L.Warner)首先提出的首先提出的。例如，某大学欲调查学生考试的作弊

36、问题，随机抽取例如，某大学欲调查学生考试的作弊问题，随机抽取n n个个学生进行调查，对每位学生显示两个相反的问题，问题可以写学生进行调查，对每位学生显示两个相反的问题，问题可以写在外形完全相同的在外形完全相同的m m张卡片上，其中张卡片上，其中m m1 1个卡片写上个卡片写上“我曾在考我曾在考试中作过弊试中作过弊”，另外，另外m-mm-m1 1个卡片写上个卡片写上“我不曾在考试中作过我不曾在考试中作过弊弊”。然后把这。然后把这m m个卡片折叠好，放在一个盒子里。其中：个卡片折叠好，放在一个盒子里。其中：A问题：我曾在考试中作过弊。问题：我曾在考试中作过弊。B B问题：我不曾在考试中作过弊。问题

37、：我不曾在考试中作过弊。第三节第三节随机化装随机化装置置调查时将调查时将m m种外形完全一致的卡片像洗牌一样充分混合后，种外形完全一致的卡片像洗牌一样充分混合后，由受访者依简单随机抽样中的抽签方式随机抽取一张卡片，对由受访者依简单随机抽样中的抽签方式随机抽取一张卡片，对照自己的情况回答照自己的情况回答“是是”或或“否否”，然后放回盒子中。，然后放回盒子中。设卡片设卡片A A的比例是的比例是P P，则卡片，则卡片B B的比例就是的比例就是1-P1-P。由古典概率。由古典概率可知，在大规模的调查中，抽中卡片的概率为可知，在大规模的调查中，抽中卡片的概率为P P（A A）=P=P，抽中，抽中卡片

38、的概率为卡片的概率为P P（B B）=1-P=1-P。若样本量为。若样本量为n n，回答，回答“是是”的人数的人数为为m m，则，则(是是)的估计值为的估计值为m/nm/n。我们知道，回答。我们知道，回答“是是”的人有两的人有两种情况：一种是抽中了卡片种情况：一种是抽中了卡片A,A,而这些人作过弊；另一种是抽中而这些人作过弊；另一种是抽中了卡片了卡片B B，而这些人没有作过弊。利用全概公式，得：，而这些人没有作过弊。利用全概公式，得：(是是)=P(A)=P(A)(是是|A)+P(B)|A)+P(B)(是是|B)|B)第三节第三节随机化装随机化装置置rPrPrP 不管是抽到卡片不管是抽到卡片A

39、 A还是抽到卡片还是抽到卡片B B，作过弊的概率是相等的，作过弊的概率是相等的，假设这一比例为假设这一比例为，即，即 (是是|A)=,|A)=,则抽到卡片则抽到卡片B B，回答，回答“是是”的概率为的概率为1-1-，即，即P(P(是是|B)=1-|B)=1-。代入上述公式，得。代入上述公式，得的一个估计的一个估计满足满足：第三节第三节随机化装随机化装置置wyrP(1)(1)mPPn因此当因此当时，有时，有：12P 1(1)21mPPn其方差为：其方差为：2(1)(1)()(21)PPVnnP 的一个无偏估计为：的一个无偏估计为：第三节第三节随机化装随机化装置置wy当当n n很大

40、时，很大时，()V2(1)(1)(1)()11(1)(21)mmPPnnvnnnP32(1)(1)(1)()(21)mmPPvnnnP三、西蒙斯三、西蒙斯(Simmons)(Simmons)随机化回答模型随机化回答模型西蒙斯在沃纳模型基础上作了改进，他将其中一张卡片上西蒙斯在沃纳模型基础上作了改进，他将其中一张卡片上的问题改为与所调查的敏感性问题完全无关的另一个非敏感性的问题改为与所调查的敏感性问题完全无关的另一个非敏感性问题。因此西蒙斯模型也称为无关问题的随机化回答模型。问题。因此西蒙斯模型也称为无关问题的随机化回答模型。仍假设敏感性问题的卡片比例为仍假设敏感性问题的卡片比例为P P，无关

41、问题的卡片比例为，无关问题的卡片比例为1-P1-P。对于敏感性问题回答。对于敏感性问题回答“是是”的比例为的比例为，是我们所要调，是我们所要调查的比例，对无关问题回答查的比例，对无关问题回答“是是”的比例的比例要求是已知的，要求是已知的，则根据全概率公式，得则根据全概率公式，得：(是是)=P +(1-P)=P +(1-P)第三节第三节随机化装随机化装置置wyABrPAB 当样本量为当样本量为n n，回答，回答“是是”的人数为的人数为m m，则，则 (是是)的估计值为的估计值为m/nm/n，因此，因此的估计值的估计值满足：满足：第三节第三节随机化装随机化装置置解此方程得解此方程得

42、：它的方差为（若忽略它的方差为（若忽略fpcfpc）：）：rPAA(1)ABmPPn1(1)ABmPPn222(1)(1)(1)(1)(2)()(10.27)AABBABABAPPPVnnPnP V V（）的一个无偏估计为：）的一个无偏估计为：A21()()(1)(1)Ammvnpnn 【例【例10.110.1】某大学对本校大学生考风情况进行调查。利用某大学对本校大学生考风情况进行调查。利用西蒙斯模型，对每个受访者准备了一套同样的西蒙斯模型，对每个受访者准备了一套同样的(40(40张张)卡片，卡卡片，卡片片A A和卡片和卡片B B各各2020张，比例各占张，比例各占1/21/2。卡片上卡片上A

43、 A的问题是：最近学期期末考试你有过作弊行为吗？的问题是：最近学期期末考试你有过作弊行为吗？卡片上卡片上B B的问题是：你的阳历生日日期为奇数吗的问题是：你的阳历生日日期为奇数吗?第三节第三节随机化装随机化装置置wy 【例【例10.110.1】某大学对本校大学生考风情况进行调查。利用某大学对本校大学生考风情况进行调查。利用西蒙斯模型，对每个受访者准备了一套同样的西蒙斯模型，对每个受访者准备了一套同样的(40(40张张)卡片，卡卡片，卡片片A A和卡片和卡片B B各各2020张，比例各占张，比例各占1/21/2。卡片上卡片上A A的问题是：最近学期期末考试你有过作弊行为吗？的问题是：最近学期期

44、末考试你有过作弊行为吗？卡片上卡片上B B的问题是：你的阳历生日日期为奇数吗的问题是：你的阳历生日日期为奇数吗?假如对依简单随机抽样方式抽出的假如对依简单随机抽样方式抽出的400400个人进行调查，在个人进行调查，在n=400n=400人中总共有人中总共有m=115m=115人的答案为人的答案为“是是”，试估计该校大学生，试估计该校大学生考试作弊的比例考试作弊的比例并给出并给出90%90%的置信区间。的置信区间。第三节第三节随机化装随机化装置置wyA 解：解：n=800n=800，m=135m=135，P=0.5P=0.5，为生日日期为奇数的人数比为生日日期为奇数的人数比例。在大规模调查的

45、情况下，可以看作生日为奇数和偶数的各例。在大规模调查的情况下，可以看作生日为奇数和偶数的各占一半，因此占一半，因此 =0.5=0.5。根据公式得：。根据公式得：第三节第三节随机化装随机化装置置wy =BB1(1)ABmPPn11520.5 0.50.07540021()()(1)(1)Ammvnpnn()0.0453Av故故的的90%90%置信区间约为：（置信区间约为：（0.0751.640.04530.0751.640.0453），即），即：A0.07%,14.93%=0.002054=0.002054 四、随机截尾模型四、随机截尾模型现实中我们也经常需要调查定量的敏感性问题，例如调

46、查现实中我们也经常需要调查定量的敏感性问题，例如调查银行存款数额，学生考试作弊的平均次数，在职人员的工资外银行存款数额，学生考试作弊的平均次数，在职人员的工资外收入等。收入等。GreenbergGreenberg等人针对这类问题提出了几种随机化调查等人针对这类问题提出了几种随机化调查方法，但是，这些方法都要求受访者根据自己的实际情况回答方法，但是，这些方法都要求受访者根据自己的实际情况回答敏感性问题或非敏感性问题的具体数值，给受访者敏感性问题或非敏感性问题的具体数值，给受访者/受查者造受查者造成了一定的困扰。成了一定的困扰。近年来提出了所谓随机截尾模型，把对于具体数值的调查近年来提出了所谓随机

47、截尾模型，把对于具体数值的调查转化为对于属性的调查，避免了直接回答，使得受访者心理上转化为对于属性的调查，避免了直接回答，使得受访者心理上比较容易接受。比较容易接受。第三节第三节随机化装随机化装置置wy 设反映敏感性问题的特征量为设反映敏感性问题的特征量为X X，取值范围是，取值范围是，密度，密度函数为函数为，X X的数学期望为的数学期望为，即我们所要估计的值。又设，即我们所要估计的值。又设Y Y是一个服从是一个服从上的均匀分布的随机变量。上的均匀分布的随机变量。第三节第三节随机化装随机化装置置wy 设样本容量为设样本容量为n n，得到的调查数据是，得到的调查数据是，I=1I=1

48、，2 2，n n，即：，即：=,a at()f xx,a ati1,0,iiiiXYXYi，因此，因此()()(1)()a t a txiiiiayaf xEPP XYdxdytt 以样本均值以样本均值 =代替代替，得到，得到的一个无偏估计的一个无偏估计为：为：第三节第三节随机化装随机化装置置wy估计量的方差为：估计量的方差为：的一个估计为：的一个估计为：11niin()iExXta2()()()()xxxa taVt Vn()xV2()()(1)()11xxxa tatvnn五、采用随机化回答技术应注意的问题五、采用随机化回答技术应注意的问题第三节第三节随机化装随机化装置置wy(一一

49、)注意在受访者正式抽取并回答问题前，清楚介绍这种做法注意在受访者正式抽取并回答问题前，清楚介绍这种做法的原理，让受访者充分理解这种方法的特点，以彻底消除受访的原理，让受访者充分理解这种方法的特点，以彻底消除受访者的顾虑，明白自己究竟回答哪个问题别人是不知道的，使其者的顾虑，明白自己究竟回答哪个问题别人是不知道的，使其相信这种设计是建立在科学的基础上，不是哄骗人的。相信这种设计是建立在科学的基础上，不是哄骗人的。(二二)所提问题必须简单明了，防止因有歧义而出现理解不同。所提问题必须简单明了，防止因有歧义而出现理解不同。对涉及问题的解释必须在抽卡片以前进行，否则就暴露了抽到对涉及问题的解释必须在抽

50、卡片以前进行，否则就暴露了抽到的是哪类卡片，也就失去了随机化回答的意义。的是哪类卡片，也就失去了随机化回答的意义。第三节第三节随机化装随机化装置置wy (三三)在应用西蒙斯模型时，无关问题的选择特别重要，一定在应用西蒙斯模型时，无关问题的选择特别重要，一定要隐蔽性强的，使受访者在回答无关问题时不会暴露正在回答要隐蔽性强的，使受访者在回答无关问题时不会暴露正在回答哪个问题。例如哪个问题。例如“你是男生吗你是男生吗?”这类问题就很不妥，因为采用这类问题就很不妥，因为采用随机化回答技术需要当面解释，受访者的性别不可能保密，这随机化回答技术需要当面解释，受访者的性别不可能保密，这样也就失去了无关问题

展开阅读全文