1、敏感性问题调查与随机化回答技术国家CDC卫生统计室陶庄2010敏感性问题(Sensitive Question)是指所调查的内容涉及私人机密而不愿或不便于公开表态或陈述的问题。如:考试作弊;青少年婚前性行为,婚外性伴侣;卖淫嫖娼;吸毒;行贿受贿;偷税漏税;满意度调查等等。直接提问,会出现很多拒绝回答;即便强迫回答,也会出现故意错答。随机化回答技术(Randomized Response Technique,RRT)基本特征是被调查者对所调查的问题采取随机回答的方式,避免在没有任何保护的情况避免在没有任何保护的情况下直接回答敏感性问题,下直接回答敏感性问题,从而既对被调查者的隐私和秘密加以保护,
2、且能获得所需要的真实资料。随机化装置使被调查者随机选择回答敏感性问题。可以是:轮盘;装有不同颜色球的匣子;硬币;骰子;等等。调查员并不知道并不知道任何一个被调查者已回答了哪个问题哪个问题,但却知道知道回答敏感性问题人数的相对概率相对概率。定性问题的定性问题的RRT沃纳(沃纳(S.L.Warner)模型)模型沃纳模型(1)显示两个显示两个与敏感敏感性问题(如具有特征A)有关有关,但完全对立完全对立的问题:1)“你具有特征A么?”2)“你不具有特征A么?”例如问调查对象,1)“你是性服务者,是么?”2)“你不是性服务者,是么?”沃纳模型(2)随机化装置:密闭容器,装有两种颜色,红红球球与黄球黄球,
3、红红黄黄的比例是P/(1-P),通常0.5。使被调查者从容器中随机抽取1球,不向任何不向任何人显示人显示。抽到红球红球回答1),抽到黄球黄球回答2)。答案只有“是”和“否”,除被调查者没人知道回答的是哪一题,所以保护了隐私。沃纳模型(3)设调查了n个调查对象,m个回答“是”,我们要估计总的性服务者的比例。回答“是”有两种情况:抽到1,回答“是”,即被调查者是性服务者,概率是;抽到2,回答“是”,即被调查者不是性服务者,概率是(1-);沃纳模型(4)Pr(是)Pr(抽到1)Pr(是|抽到1)Pr(抽到2)Pr(是|抽到2)Pr(是)P(1-P)(1-)Pr(是)m/nm/n P(1-P)(1-)
4、沃纳模型(5)沃纳模型(6)P的影响沃纳模型(7)两个问题是同一个敏感问题的两个方面,被调查者仍可能有疑虑;P不能等于1/2,当接近1/2时,方差会增大,远离1/2时,被调查者会认为是骗局。西蒙斯(西蒙斯(W.R.Simmons)模型)模型西蒙斯模型(1)显示两个问题,一个与敏感性问题(如具有特征A)有关有关,另一个完全无关无关的非敏感性问题(如具有特征B):1)“你具有特征A么?”2)“你具有特征B么?”例如问调查对象,1)“你是性服务者,是么?”2)“你的生日在阳历上半年,是么?”西蒙斯模型(2)随机化装置:密闭容器,装有两种颜色,红红球球与黄球黄球,红红黄黄的比例是P/(1-P)。使被调
5、查者从容器中随机抽取1球,不向任何不向任何人显示人显示。抽到红球红球回答1),抽到黄球黄球回答2)。答案只有“是”和“否”,除被调查者没人知道回答的是哪一题,所以保护了隐私。西蒙斯模型(3)设调查了n个调查对象,m个回答“是”,生日是在上半年的概率B可认为是1/2,我们要估计性服务者的比例A。回答“是”有两种情况:抽到1,回答“是”,即被调查者是性服务者,概率是A;抽到2,回答“是”,即生日是上半年,概率是B;西蒙斯模型(4)Pr(是)Pr(抽到1)Pr(是|抽到1)Pr(抽到2)Pr(是|抽到2)Pr(是)PA(1-P)BPr(是)m/nm/n PA(1-P)B西蒙斯模型(5)西蒙斯模型(6
6、)P的影响西蒙斯模型(7)西蒙斯模型(8)莫顿(Morton)的改进:没有第二个问题;随机化装置中有三种颜色的球,如红球红球,黄黄球球和黑球黑球,红红黄黄黑黑的比例分别是P1,P2,P3。抽到红球红球回答敏感性问题,抽到黄球黄球回答“是”,抽到黑球黑球回答“否”。此时,B为P2/(P2P3)。例男人的私房钱某社会研究所欲调查已婚男子瞒着妻子存私房钱的情况。利用西蒙斯模型,对随机抽出的n800个已婚男子进行调查,设计的两个题目为:1)你是否存了私房钱?2)你的阳历生日日期是不是奇数?随机化装置:P=0.5800人中420人回答“是”。解男人的私房钱%8.59,48.2%0353.064.10.5
7、4%900353.0001248.011154.051.05.018004205.011151.0,5.0,420,8002:的的解:CIvsnmnmPnvPnmPPmnAAAABAB隐含的随机化回答模型隐含的随机化回答模型提出1977年由K.Takashi和H.Sahasegawa提出;不需要使用任何随机化装置,但仍具有随机化特性。问题的的描述设A是总体中具有敏感性属性A的比例,即分为是A和不是A;与A无关的三分类问题,如:喜欢红色红色(I类);喜欢黄色黄色(II类);喜欢其它颜色(III类)。抽取三个相互独立的样本,样本量分别为n1,n2,n3.调查对象只能回答是(1)和否(0)回答规则样
8、本1样本2样本3有A无A有A无A有A无AI101001II100110III011010333222111321321321332123211321111111iAinnnVarAAAAAAAAAAAAiAAAAAi的比例样本中回答第的比例样本中第充要条件nVarnnniiiA23133221132111:1:1:多分类敏感问题多分类敏感问题以三分类为例三类间相互排斥,分类完全;至少有1类为非敏感项;需要抽取两个相互独立的样本,例数为n1和n2;每个样本的随机装置类似但参数不同;随机装置一套卡片:“你属于A吗?”“你属于B吗?”“你属于C吗?”其各类比例不是不是1/3;A+B+C=1不同参数两
9、个样本的比例不能相同比例不能相同。21322121111131223212322131113112322321131213122321232213111312232232213112232232212321312211321312113113111111nnnnppppppppppppppppppppppppppppppppppxPppppppxPjjjrjjjr 2321131223221311222211121112212223222213111112232122222213121112232221111111111ppppppppKnppnppKVarnppnppKVarnppnppKV
10、ar定性定性RRT的效果检验的效果检验一、Bradburn等人1976实验 比较4种采集数据的方法对4个问题的应答率和歪曲回答率。4个问题是:(所有问题都有总体书面记录)拥有图书馆证;采加选举登记;破产;酒后驾车。4种方法是:面对面访问,电话调查,自填问卷寄回,随机化应答。应答率图书馆证和选举破产酒后驾车合计面对面76.070.357.167.8电话调查89.968.377.876.6自填问卷75.459.347.560.7RRT77.667.258.167.6合计79.766.260.1歪曲回答率图书馆证登记选举破产酒后驾车面对面19153247电话调查21172946自填问卷1812325
11、4RRT2611035二、Gruson等人1975调查某地区高中生使用麻醉剂调查,总数852人;在421名采用面对面询问调查的学生中对关键问题不回答的比例为13.3%;在431名采用随机化应答调查的学生中对关键问题不回答的比例为5.5%;调查涉及到的6种药物,有5种使用频率的估计值RRT高于面对面调查。三、Brown和Harding调查研究军队中使用麻醉剂情况;4个陆军营700名士兵,320名军官,涉及5种麻醉剂;一半样本使用自填问卷寄回,另一半使用随机化应答。在士兵调查中,4种药品两种方法估计一致,另有一种RRT高于自填(17%对10%);在军官调查中,5种药品使用估计值RRT均高于自填。四
12、、Rose等人的调查研究虐待儿童的课题。Rose等随机抽样2000名18岁以上成人,采用双样本随机应答技术;八周后,开展了一项全国抽样调查,采用问卷调查(一半被调查者将信封封口后交给调查员带回,另一半被调查者自己亲自寄回问卷)。应答率与估计值应答率虐待儿童率问卷交给调查员883亲自寄回问卷754随机化应答99和9815定量问题的定量问题的RRT乘法模型乘法模型乘法模型(1)通过计算机产生一均数为Y的随机数Y,可适当界定Y的范围。被调查者回答敏感性问题X与随机产生的Y的乘积,即XY。研究者只能看到最终的乘机,设为Z。研究者最终要估计的是X。乘法模型(2)随机乘法模型随机乘法模型随机乘法模型(1)
13、通过计算机产生一均数为Y的随机数Y,可适当界定Y的范围。随机化装置:密闭容器,装有两种颜色,红红球球与黄球黄球,红红黄黄的比例是P/(1-P)。使被调查者从容器中随机抽取1球,不向任何不向任何人显示人显示。随机乘法模型(2)抽到红球红球回答敏感性问题X与Y 的乘积,即XY。抽到黄球黄球回答敏感性问题X与随机产生的Y的乘积,即XY。研究者只能看到最终的乘机,设为Z。研究者最终要估计的是X。随机乘法模型(3)乘法模型和随机乘法模型的比较例高校教师的隐性收入(1)欲调查某地区高校教师的隐性收入情况,n1000。你平均每月的隐性收入数额大概是多少?设计Y 68的随机数Y,范围为0,136随机化装置:抽
14、到红球红球的比例,P=0.7例高校教师的隐性收入(2)RRT的其它问题的其它问题效果不佳的可能原因被调查者对调查的保密性信任不够,对该技术不理解。“逆反心理”,采用RRT等于在向被调查者暗示该问题是一个隐私问题,反而引起被调查者的警觉或反感,也许直接发问,被调查者还没有这样的感觉。局限性不是万能钥匙,要判断什么时候采取RRT。只能独立于大问卷之外。只能估计样本率,而不能知道具体的个体的行为,所以只能用于生态学研究。调查费用高,现场工作量大,独立的调查室,特殊的设备。培训工作复杂、量大。设备的准备随机装置必需随机,并且不会暴露信息,要向被调查者显示随机的真实性。另外P不能太大,否则被调查者会认为
15、是骗局。如果属于像信封这样不可放回的装置,其数量应该大于被调查者人数。调查环境必需独立,能使被调查者放心。无关问题的设置不能暴露信息,如“是否本地人”,容易泄漏被调查者回答的是哪一题。调查员的培训严格培训调查员,必需进行实兵演练,使其可以熟练掌握RRT。在调查现场,要讲明调查的目的,争取被调查者的充分合作。对问题的解释应该明确,且应在开始回答前完成。必须要向被调查者讲明RRT的原理,以消除顾虑。还可以进行预调查,既让被调查者放心,也熟悉了调查方法,且如果对方确实不想参加,就应放弃,以减少对调查结果的影响。“随机变量和随机变量和”模型模型一般RRT的问题不能像问卷调查那样进行大范围、大规模及分散
16、的调查;调查费用高,调查者的现场工作量大;要求调查者的素质高;要进行大量培训。定性的随机变量和模型定性的随机变量和模型二分变量的随机变量的和mmmimpppmxpixppppqqqxpXXXXX2121212111101,0m=2时的情形21122121212121111102,1,01,0ppxpppppxpppqqxpXXXXXi提出1996年由中国人民大学的孔圣元,孟生旺提出;在一张问卷上直接给出敏感性问题,如“是否作弊”,并同时给出一个不相关的问题,如“是否四月生人”,每题都是1是0否;被调查者不直接回答各题,而是只回答两题的和;如都是“否”写0,一个“是”一个“否”,回答1,都是“是
17、”则写2。估计设调查人数为n,回答0的人数为m0,回答1的人数为m1,回答2的人数为m2;那么,p(x=0)可用m0/n估计,p(x=1)可用m1/n估计,p(x=2)可用m2/n估计;回答伴随问题的概率已知(如1/12),目的是估计敏感性问题的概率p1.nmmppnmppnmppppnmpp21212211122102121111nppnpppVarpnmmpnpppnpppVarnpmppnppnpppVarppnmppnppnpppVarpnmp22111221122121212122210222211111122111210210101020101121121112111111对m2的调整 nppppnppnpppVarpnmEmpppppnZppnmppppnmEVarppnmEadjadjadjadjadj211411211222222221212121221212212示例P2=0.2,n=500,m0=290,m1=200,m2=10;E(m2)=np1p2=24,m2()=19;P1adj=0.296,Var=8.9210-4.p10p11p12p10.2750.3330.1000.2407.6110-413.3310-49.8010-46.8510-4定量的随机变量和模型定量的随机变量和模型敏感问题的非敏感化敏感问题的非敏感化谢谢大家!
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。