1、 医学研究的统计学医学研究的统计学设计设计1.1.掌握医学研究设计的掌握医学研究设计的原则、要素原则、要素2.2.掌握常用的随机概率掌握常用的随机概率抽样方法抽样方法及其应用及其应用3.3.掌握调查表的制定与评价掌握调查表的制定与评价4.4.掌握掌握样本含量的估计及其影响因素样本含量的估计及其影响因素5.5.熟悉调查设计的基本步骤、常用的调查方法熟悉调查设计的基本步骤、常用的调查方法6.6.了解调查研究的分类了解调查研究的分类目的和要求统计工作有四个基本步骤统计工作有四个基本步骤:统计设计、收集资料、整理和分析资料。统计设计、收集资料、整理和分析资料。统计设计统计设计:包括对资料收集、整理和分
2、析包括对资料收集、整理和分析全过程全过程总的统计设想总的统计设想和科学安排。可节省人力、物力和时间;可控制实验误差;可和科学安排。可节省人力、物力和时间;可控制实验误差;可提高实验效率。提高实验效率。科研设计是实验观察过程的依据,是对数据处理的前提,科研设计是实验观察过程的依据,是对数据处理的前提,也是提高科研成果质量的一个重要保证。也是提高科研成果质量的一个重要保证。医学科研医学科研 调查研究调查研究(survey,observational study)实验研究实验研究(experimental study)根据观察者是否主动施加干预而分为实验根据观察者是否主动施加干预而分为实验与调查两类
3、:与调查两类:实验、试验实验、试验(ExperimentExperiment,trialtrial):指由研):指由研究者究者主动主动地决定给予部分实验对象某种处理地决定给予部分实验对象某种处理,给予另部分对象某种对照处理的研究设计,给予另部分对象某种对照处理的研究设计形式,这种处理的分配常常是随机的。形式,这种处理的分配常常是随机的。调查调查(Survey)(Survey):指对特定对象群体进行调查:指对特定对象群体进行调查,影响被调查者的因素是客观存在的,研究,影响被调查者的因素是客观存在的,研究者只能者只能被动被动地观察和如实记录。地观察和如实记录。研究假说研究假说 (Hypothesi
4、s)对研究的现象或规律做出假定性的说明或推断。形成假说的方法:1.求同法2.差异法3.共变法4.类推法5.剩余法实验设计三要素 研究对象(实验单位)研究对象(实验单位)处理因素处理因素 实验效应实验效应研究对象研究对象人(试验,人(试验,trial)动物动物(实验,实验,experiment),器官,组织器官,组织有明确的纳入标准和排除标准有明确的纳入标准和排除标准处理因素处理因素处理效应处理效应实验设计三要素实验设计三要素处理因素处理因素(treatment)人为控制的,根据研究目的施加于研究人为控制的,根据研究目的施加于研究对象的外界干预,是主要的研究因素。对象的外界干预,是主要的研究因素
5、。多水平多水平标准化(标准化(药物的性质、成分、批号、剂型、药物的性质、成分、批号、剂型、剂量、用法)剂量、用法)非研究因素(用对照、随机等方法加以控制)非研究因素(用对照、随机等方法加以控制)协变量协变量混杂变量混杂变量实验设计三要素实验设计三要素实验效应(实验效应(outcome)outcome)结局指标(结局指标(measurement)主观主观客观客观精确(准确度,精确度)精确(准确度,精确度)灵敏(灵敏(sensitive)sensitive)实验设计三要素 调查设计是统计研究设计的很重要组调查设计是统计研究设计的很重要组成部分成部分,是医学科学研究重要手段是医学科学研究重要手段,它
6、的主它的主要特点:要特点:1)1)研究过程中没有人为施加研究过程中没有人为施加干预措施干预措施,而而是客观地观察记录的某些现象的现状的相是客观地观察记录的某些现象的现状的相关特征关特征.这里的这里的研究因素研究因素是是客观存在客观存在的的;2)2)有些混杂因素不能通过有些混杂因素不能通过随机分组随机分组的方法的方法来平衡来平衡,如拟了解和比较甲、乙两地环境条如拟了解和比较甲、乙两地环境条件对食管癌死亡率水平的影响。件对食管癌死亡率水平的影响。将具有这些特点的研究统称为调查研究。将具有这些特点的研究统称为调查研究。调查问卷的评价效度效度(validity)validity):是指问卷所能反映调查
7、对象是指问卷所能反映调查对象真真实情况的程度实情况的程度,又称为,又称为准确度准确度或真实性。或真实性。信度信度(reliability)(reliability):是指在是指在相同条件下对同一调相同条件下对同一调查对象重复测量查对象重复测量结果的结果的一致程度一致程度,又称为精密度或可,又称为精密度或可靠性。靠性。可接受性可接受性(acceptability)(acceptability):被访者对调查表的接:被访者对调查表的接受程度受程度(内容、时间)。内容、时间)。调查问卷的评价2022-10-13公共卫生学院 医学统计与流行病学系12问问卷卷评评价价信度信度效度效度重测信度重测信度测评
8、者间一致性测评者间一致性内部信度内部信度表面效度表面效度内容效度内容效度结构效度结构效度*标准关联效度标准关联效度*区分效度区分效度2022-10-1312调查问卷的评价对照的形式(一一)空白对照空白对照 (二二)实验对照实验对照(三三)标准对照标准对照(四四)自身对照自身对照(五五)相互对照相互对照(一一)对照对照(二二)均衡均衡(三三)随机随机(四四)重复重复 医学研究设计的四原则一、对照的原则有比较才有鉴别。有比较才有鉴别。对照的意义对照的意义 :指设立对照组以排除非处理因素而显示出处理的效应。指设立对照组以排除非处理因素而显示出处理的效应。药物治疗药物治疗例例:老年性慢性支气管炎老年性
9、慢性支气管炎气候转暖气候转暖,自然缓解自然缓解消除和减少实验误差消除和减少实验误差。处理组:处理组:对照组:对照组:比较结果:比较结果:处理因素处理因素非处理因素非处理因素+处理效应处理效应+非处理效应非处理效应非处理因素非处理因素非处理效应非处理效应处理因素处理因素处理效应处理效应(一一)空白对照空白对照 (二二)实验对照实验对照(三三)标准对照标准对照(四四)自身对照自身对照(五五)相互对照相互对照对照的形式对照的形式 (一一)空白对照(略):空白对照(略):对照组不加任何处理因素。对照组不加任何处理因素。例:例:实验组儿童接种疫苗,实验组儿童接种疫苗,对照组儿童不接种疫苗。对照组儿童不接
10、种疫苗。特点:特点:简单易行,但容易引起心理差异,从而影响实验效应的测简单易行,但容易引起心理差异,从而影响实验效应的测定。定。对照的形式(二二)实验对照(略):实验对照(略):施加基础实验条件(非处理因素)。施加基础实验条件(非处理因素)。例例:赖氨酸赖氨酸面包面包+非处理因素非处理因素赖氨酸赖氨酸效应效应+面包效应面包效应+非处理因素效应非处理因素效应 面包面包+非处理因素非处理因素 面包效应面包效应+非处理因素效应非处理因素效应赖氨酸赖氨酸 赖氨酸赖氨酸效应效应对照的形式(三三)标准对照:标准对照:以现有的标准或正常值作对照。以现有的标准或正常值作对照。例例 某种新的方法能否代替传统方法
11、的研究;某种新的方法能否代替传统方法的研究;某病患者与正常人同一项生理、生化指标对照等。某病患者与正常人同一项生理、生化指标对照等。注意:实验条件应一致注意:实验条件应一致 。标准组应能代表当时疗法的水平。标准组应能代表当时疗法的水平。对照的形式 (四四)自身对照:自身对照:在同一受试对象上进行。在同一受试对象上进行。特点:特点:简单易行,使用广泛。但若试验前简单易行,使用广泛。但若试验前后某些环境或自身因素发生改变,并且会影后某些环境或自身因素发生改变,并且会影响试验结果,就难以说明问题。响试验结果,就难以说明问题。(五五)相互对照相互对照:几个实验组互相对照。几个实验组互相对照。例例:比较
12、几种药物治疗同一疾病的疗效。:比较几种药物治疗同一疾病的疗效。二、均衡的原则 指实验组与对照组的非处理因素均衡一致。指实验组与对照组的非处理因素均衡一致。即即对照组除了处理因素外,其它条件应与实验组对照组除了处理因素外,其它条件应与实验组完全一致和基本一致完全一致和基本一致,即所谓保持实验条件的均,即所谓保持实验条件的均衡或齐同原则衡或齐同原则(balance)。均衡性越好越能均衡性越好越能显示出处理因素的作用显示出处理因素的作用,消,消除非处理因素对结果的影响。除非处理因素对结果的影响。均衡的原则 例:试用例:试用ADI药物预防肠道传染病的效果药物预防肠道传染病的效果观察设计。观察设计。方案
13、一:方案一:甲幼儿园甲幼儿园(100人人)服服ADI,肠道传染病,肠道传染病 乙幼儿园乙幼儿园(100人人)不服不服ADI,肠道传染病,肠道传染病 分析:甲乙幼儿园的非处理因素(食堂卫生条件、儿童分析:甲乙幼儿园的非处理因素(食堂卫生条件、儿童卫生习惯)如不相同,则不均衡。卫生习惯)如不相同,则不均衡。均衡的原则 甲幼儿园(甲幼儿园(100人)人)服服ADI(50人)人)不服不服ADI(50人)人)乙幼儿园(乙幼儿园(100人)人)服服ADI(50人)人)不服不服ADI(50人)人)方案二:方案二:三、随机的原则 在实验中,许多混杂因素是没办法完在实验中,许多混杂因素是没办法完全达到均衡的,而
14、且许多因素事先无法预全达到均衡的,而且许多因素事先无法预知会影响实验结果,也就未能在设计时加知会影响实验结果,也就未能在设计时加以控制。这些因素在组间的均衡就依赖于以控制。这些因素在组间的均衡就依赖于随机化随机化来保障。来保障。随机化原则随机化原则 (randomization):随机随机“随便随便”,指每个受试对象以指每个受试对象以机会机会均等均等的原则随机地分配到试验组和对照组。的原则随机地分配到试验组和对照组。目的目的:使各组非实验因素的条件均衡一致,:使各组非实验因素的条件均衡一致,以消除对实验结果的影响。以消除对实验结果的影响。四、重复的原则 重复重复(replication):指各
15、处理组与对照组:指各处理组与对照组的例数要有一定数量,表现为实验例数的例数要有一定数量,表现为实验例数(样本含量)的大小和重复次数的多少。(样本含量)的大小和重复次数的多少。可防止偶然性或巧合的现象。可防止偶然性或巧合的现象。要求要求:必须在保证实验具有一定的可靠:必须在保证实验具有一定的可靠性条件下,确定最少的试验例数。性条件下,确定最少的试验例数。常用随机抽样方法(概率抽样)概率抽样方法主要包括概率抽样方法主要包括:单纯随机抽样单纯随机抽样 系统抽样系统抽样 整群抽样整群抽样 分层抽样分层抽样1.1.单纯随机抽样(单纯随机抽样(simple random sampling)simple r
16、andom sampling)优点:优点:均数、率及其标准误计算简便。均数、率及其标准误计算简便。简便易行,适用小样本。简便易行,适用小样本。缺点:缺点:当总体中例数多时,对观察单位进行编号不易当总体中例数多时,对观察单位进行编号不易操作,在实际工作中有时难以实现。操作,在实际工作中有时难以实现。方法方法:抽签,用随机数字表和随机排列表,用计算机。:抽签,用随机数字表和随机排列表,用计算机。例例14-5 14-5 抽样参加夏令营活动,某班有学生抽样参加夏令营活动,某班有学生100100人,若抽取为人,若抽取为10 10人参加夏令营,试作单纯人参加夏令营,试作单纯随机抽样设计。随机抽样设计。2.
17、2.系统抽样(系统抽样(systematic sampling)systematic sampling)例例14.6 14.6 欲调查某社区贫血患病情况欲调查某社区贫血患病情况,该该社区有居民社区有居民10001000人人,试按系统抽样方法试按系统抽样方法,抽取抽取例数为例数为100100的样本的样本.先将先将10001000名居民按某一特征的顺序编名居民按某一特征的顺序编号号,N为为1000,n=100,抽样间隔抽样间隔1000/100=10,在在110之间随机确定一个数字之间随机确定一个数字,譬如譬如7,每间每间隔隔10个观察单位抽取一个个观察单位抽取一个,即即7、17、27、997组成样
18、本。组成样本。系统抽样的系统抽样的优点:优点:1 1)易于理解,简便易行;)易于理解,简便易行;2 2)容易得到一个)容易得到一个按比例分配的样本;按比例分配的样本;3 3)样本观察单位在总体)样本观察单位在总体中分布均匀,其抽样误差一般小于单纯随机抽中分布均匀,其抽样误差一般小于单纯随机抽机抽样。机抽样。缺点:缺点:1 1)当总体的观察单位按顺序有)当总体的观察单位按顺序有周期趋势周期趋势或或单调单调增(减)趋势增(减)趋势时,容易产生明显的系统误差时,容易产生明显的系统误差(偏倚);(偏倚);2 2)在实际工作中,一般按单纯随机抽样方法估)在实际工作中,一般按单纯随机抽样方法估计其抽样误差
19、,但系统抽样抽取各个观察单位计其抽样误差,但系统抽样抽取各个观察单位并不是彼此独立并不是彼此独立的,因此抽样误差的估计只是的,因此抽样误差的估计只是近似的。近似的。3.3.整群抽样(整群抽样(cluster sampling)cluster sampling)先将总体按照某种与研究无关的特征划分先将总体按照某种与研究无关的特征划分为为K个个“群群”组,每个群组包括若干观察单位,组,每个群组包括若干观察单位,然后抽取然后抽取k个个“群群”,抽取的各个群的全部观,抽取的各个群的全部观察单位组成样本。察单位组成样本。优点优点:便于组织、节省经费,容易控制调查便于组织、节省经费,容易控制调查质量。质量
20、。缺点缺点:当样本含量一定时,其抽样误差一般大:当样本含量一定时,其抽样误差一般大于单纯随机抽样,这是因为样本观察单位不是于单纯随机抽样,这是因为样本观察单位不是均匀散布在总体中。均匀散布在总体中。为降低抽样误差,可采用增加抽取的为降低抽样误差,可采用增加抽取的“群群”数,减少数,减少“群群”内观察单位数的方法进内观察单位数的方法进行抽样,即重新划分行抽样,即重新划分“群群”,使每个,使每个“群群”更更小。小。4.4.分层抽样(分层抽样(stratified sampling)stratified sampling)先按对观察指标影响较大的某种特征,先按对观察指标影响较大的某种特征,将总体分为
21、若干类别,再从每一层内随机抽将总体分为若干类别,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。取一定数量的观察单位,合起来组成样本。分层抽样的分层抽样的优点优点:A A:抽样误差小于前三种,样本的代表性好:抽样误差小于前三种,样本的代表性好B B:便于对不同层采用不同的抽样方法:便于对不同层采用不同的抽样方法C C:便于对各层独立进行分析:便于对各层独立进行分析 在实际调查研究中常常将两种或几种在实际调查研究中常常将两种或几种抽样方法结合起来使用。抽样方法结合起来使用。各抽样方法的抽样误差一般是:整群各抽样方法的抽样误差一般是:整群抽样抽样 单纯随机抽样单纯随机抽样 系统抽样系统抽样
22、 分层抽样分层抽样 样本含量的估计的目的样本含量的估计的目的是在保证一定是在保证一定精度和检验效能的前提下,确定最少的观精度和检验效能的前提下,确定最少的观察单位数察单位数(下章具体讨论)(下章具体讨论)。在实际调查研究中常常将两种或几种在实际调查研究中常常将两种或几种抽样方法结合起来使用。抽样方法结合起来使用。各抽样方法的抽样误差一般是:各抽样方法的抽样误差一般是:整整群群抽样抽样 单单纯随机抽样纯随机抽样 系系统抽样统抽样 分分层抽样层抽样 样本含量的估计的目的样本含量的估计的目的是在保证一定是在保证一定精度和检验效能的前提下,确定最少的观精度和检验效能的前提下,确定最少的观察单位数察单位
23、数(下章具体讨论)(下章具体讨论)。从抽取样本的方式分从抽取样本的方式分概率抽样概率抽样(单纯随机抽样、系统抽样、分层抽样、单纯随机抽样、系统抽样、分层抽样、整群抽样整群抽样)非概率抽样非概率抽样(偶遇抽样、判断抽样、定额抽样、雪球偶遇抽样、判断抽样、定额抽样、雪球抽样抽样)决定样本含量的四要素:第一类错误的概率第一类错误的概率,即检验水准。,即检验水准。检验效能检验效能1-1-。容许误差容许误差。总体变异度总体变异度。样本含量估计的要素 第一类错误的概率第一类错误的概率,即检验水准。,即检验水准。越小,所需样本含量越多越小,所需样本含量越多。一般取一般取=0.05,还应明确单双侧。,还应明确
24、单双侧。检验效能检验效能1-。为第二类错误的概率,即为第二类错误的概率,即H0为假,但错误接受它的概为假,但错误接受它的概率(假阴性)。率(假阴性)。1-表示在特定的表示在特定的 水准下,水准下,H1为真时检为真时检验能正确发现的能力。验能正确发现的能力。1-越大,所需样本含量越多越大,所需样本含量越多。通常取。通常取=0.1或或0.2,即,即1-=0.9或或0.8,一般一般1-不能低于不能低于0.75。容许误差容许误差 :相比较的两个总体间某参数的相比较的两个总体间某参数的差别所允许的限度,如差别所允许的限度,如=1-2,或,或=1-2。越小,所需样本含量越多越小,所需样本含量越多。一般用希
25、望发现或需控制的样本和总体间或一般用希望发现或需控制的样本和总体间或两个样本间某统计量的差别所代替。两个样本间某统计量的差别所代替。的确定:的确定:可作预实验或用专业上有意义的可作预实验或用专业上有意义的差值代替差值代替。总体变异度总体变异度。越大,所需样本含量越多越大,所需样本含量越多。通常根据通常根据预实验、查阅文献和专业知识预实验、查阅文献和专业知识判断。判断。误差来源及其控制方法误差来源误差来源(1 1)非抽样误差非抽样误差(人为因素)(人为因素)过失误差(记录,计算,理解,隐瞒误差或错误)过失误差(记录,计算,理解,隐瞒误差或错误)系统误差(选择偏倚,测量偏倚,混杂偏倚)系统误差(选
26、择偏倚,测量偏倚,混杂偏倚)(2 2)抽样误差)抽样误差抽样误差不可避免,但可控制。抽样误差不可避免,但可控制。误差来源及其控制方法控制误差的方法控制误差的方法(1 1)设计阶段质量控制设计阶段质量控制利用实验设计的原则:均衡、随机,比如采取配对利用实验设计的原则:均衡、随机,比如采取配对或随机区组设计减少混杂偏倚。或随机区组设计减少混杂偏倚。(2 2)资料收集阶段质量控制资料收集阶段质量控制研究人员的选择和培训,盲法观察,定期检查研究研究人员的选择和培训,盲法观察,定期检查研究记录,检查研究对象的依从性记录,检查研究对象的依从性(3 3)资料整理与分析阶段质量控制资料整理与分析阶段质量控制
27、在临床试验中,研究者或受试者均可给实验效应带在临床试验中,研究者或受试者均可给实验效应带来影响,造成偏倚(来影响,造成偏倚(bias)。盲法设计分盲法设计分单盲单盲和和双盲双盲法。法。单盲法单盲法是让受试者不知道自已接受何种处理;是让受试者不知道自已接受何种处理;双盲法双盲法是受试者和实验者都不知受试者接受何种处理。是受试者和实验者都不知受试者接受何种处理。盲法设计(blindness design)安慰剂安慰剂常与双盲法配合使用,它是常与双盲法配合使用,它是清除安慰作用的一种有效方法。清除安慰作用的一种有效方法。保密保密是盲法的关键。是盲法的关键。资料的统计分析资料整理与分析阶段质量控制资料
28、整理与分析阶段质量控制统计分析前进行统计分析前进行(1 1)问卷核对问卷核对(2 2)双机录入双机录入数据数据统计分析统计分析(3 3)分层分析、多因素分析分层分析、多因素分析(调整和控制混(调整和控制混杂因素)杂因素)资料的统计分析数据的质量控制数据的质量控制(1 1)核查核查(人工,计算机逻辑性核查)(人工,计算机逻辑性核查)(2 2)异常值异常值(outlier)(outlier)的处理的处理 有无法纠正的逻辑性错误,删除该数据。有无法纠正的逻辑性错误,删除该数据。剔除、包含异常值各做一次分析,比较结果,如果结果剔除、包含异常值各做一次分析,比较结果,如果结果不互相矛盾,则可不剔除该数据
29、。不互相矛盾,则可不剔除该数据。(3 3)缺失值缺失值(missing value)missing value)缺失比例不能太大,否则数据不完整,质量不可靠。缺失比例不能太大,否则数据不完整,质量不可靠。填补缺失值。填补缺失值。统计分析方法:统计分析方法:定量资料:两组定量资料:两组-t 检验、秩和检验检验、秩和检验 多组多组-方差分析方差分析或或秩和检验秩和检验无序分类资料:两组无序分类资料:两组-2检验或检验或Fishers exact test 多组多组-2检验或检验或Fishers exact test有序分类有序分类(等级等级)资料:资料:-秩和检验秩和检验总体的定义明确研究总体和调
30、查对象 确定抽样方法确定观测指标和调查项目选择调查方式制定调查组织计划制定整理、分析计划统计结论+专业结论根据研究目的预调查修改调查表总结(1 1)实验设计的三要素实验设计的三要素研究对象、处理因素、处理效应研究对象、处理因素、处理效应(2 2)研究设计的四原则研究设计的四原则对照、随机、均衡、重复对照、随机、均衡、重复(3 3)常用的随机抽样方法及应用常用的随机抽样方法及应用单纯随机抽样、系统抽样、整群抽样、分层抽样单纯随机抽样、系统抽样、整群抽样、分层抽样抽样误差排序:整群抽样抽样误差排序:整群抽样 单纯随机抽样单纯随机抽样 系统抽样系统抽样 分层抽样分层抽样总结(4 4)误差来源误差来源
31、非抽样误差、抽样误差非抽样误差、抽样误差(5 5)影响样本量估计的四个要素影响样本量估计的四个要素 第一类错误的概率第一类错误的概率,即检验水准,即检验水准 检验效能检验效能1-1-容许误差容许误差 总体变异度总体变异度 p经常不断地学习,你就什么都知道。你知道得越多,你就越有力量pStudy Constantly,And You Will Know Everything.The More You Know,The More Powerful You Will Be写在最后谢谢大家荣幸这一路,与你同行ItS An Honor To Walk With You All The Way演讲人:XXXXXX 时 间:XX年XX月XX日