1、科研设计的统计学原则科研设计的统计学原则高月求高月求实验设计实验设计 实验(实验(Experiment)指由研究者主动地决定给予)指由研究者主动地决定给予部分实验对象某种处理,给予另一部分对象某种部分实验对象某种处理,给予另一部分对象某种对照处理的研究设计形式,这种处理的分配常常对照处理的研究设计形式,这种处理的分配常常是随机的。是随机的。实验设计(实验设计(Experimental design)是通过对象)是通过对象的选择、处理因素的合理分配、结果指标的准确的选择、处理因素的合理分配、结果指标的准确测量和恰当的资料分析来提高组与组间非处理因测量和恰当的资料分析来提高组与组间非处理因素的一致
2、性,使实验结果有较好的可比性,并且素的一致性,使实验结果有较好的可比性,并且较好地控制误差,用较小的样本获取可靠的结论。较好地控制误差,用较小的样本获取可靠的结论。实验设计三要素实验设计三要素 处理处理 对象对象 效应效应 降压药降压药 高血压病人高血压病人 血压值血压值处理处理 处理(处理(treatment):研究者根据研究目的):研究者根据研究目的欲施加或欲观察的,能作用于受试对象并欲施加或欲观察的,能作用于受试对象并引起效应的因素。引起效应的因素。非处理因素:相应的也能使受试对象产生非处理因素:相应的也能使受试对象产生效应的因素,又称混杂因素效应的因素,又称混杂因素(confoundi
3、ng factor)。处理因素要标准化,处理水平始终一致。处理因素要标准化,处理水平始终一致。对象对象(subjects)指根据研究目的确定的观察对象(动物或指根据研究目的确定的观察对象(动物或人体),必须具备同质性和代表性人体),必须具备同质性和代表性 1)动物的选择:种类、品系、年龄、性别、)动物的选择:种类、品系、年龄、性别、体重、营养体重、营养 2)人的选择:诊断明确、依从性好,反映)人的选择:诊断明确、依从性好,反映主观感觉主观感觉效应效应(effect)是处理因素作用于受试对象的反应和结果,通过观察指标表是处理因素作用于受试对象的反应和结果,通过观察指标表达。指标要求:达。指标要求
4、:1)客观性:主观指标和客观指标。)客观性:主观指标和客观指标。2)精确性:)精确性:准确度准确度(accuracy):观察值与真值的接近程度,受系:观察值与真值的接近程度,受系统误差的影响。统误差的影响。精密度精密度(precision):重复观察时观察值与其均值的接:重复观察时观察值与其均值的接近程度,受随机误差的影响;近程度,受随机误差的影响;3)灵敏性)灵敏性(sensitivity):表示指标检出真阳性的能力,可:表示指标检出真阳性的能力,可减少假阴性率。减少假阴性率。4)特异性)特异性(specificity):表示指标检出真阴性的能力,减表示指标检出真阴性的能力,减少假阳性率。少
5、假阳性率。实验误差及其特点实验误差及其特点 在实验中,由于实验对象自身特点、实验在实验中,由于实验对象自身特点、实验条件的变化和实验结果测量的不确定性造条件的变化和实验结果测量的不确定性造成实验结果与真值的差别称实验误差成实验结果与真值的差别称实验误差(Experimental error)。根据统计分析上)。根据统计分析上的处理不同,实验误差分成两类:的处理不同,实验误差分成两类:随机误差(随机误差(Random error)非随机误差非随机误差 随机误差(随机误差(Random error)随机误差是由大量的、微小的、偶然因素随机误差是由大量的、微小的、偶然因素引起的不易控制的误差。如在实
6、验中,温引起的不易控制的误差。如在实验中,温度、湿度、风向、振动、试剂、仪器、操度、湿度、风向、振动、试剂、仪器、操作员等都可能造成结果的偏差。作员等都可能造成结果的偏差。随机变异是没有倾向性的,在大量观察条随机变异是没有倾向性的,在大量观察条件下,随机误差的分布呈标准正态分布。件下,随机误差的分布呈标准正态分布。随机误差的规律可以用统计方法分析。随机误差的规律可以用统计方法分析。非随机误差非随机误差 又称偏倚(又称偏倚(bias)或系统误差()或系统误差(Systematic error)由于在对象选择、处理因素分配的不随机、测量结果的不由于在对象选择、处理因素分配的不随机、测量结果的不准确
7、造成实验结果有倾向性地偏离称之。(无统计规律、准确造成实验结果有倾向性地偏离称之。(无统计规律、可预防、务必控制)可预防、务必控制)(1)选择偏倚选择偏倚(Selection bias):指在选择研究对象和分组:指在选择研究对象和分组时的非随机化,造成结果的偏倚。如肝癌手术治疗与化疗时的非随机化,造成结果的偏倚。如肝癌手术治疗与化疗的疗效比较中,由于手术对象的选择性造成有利于手术组的疗效比较中,由于手术对象的选择性造成有利于手术组的结果。的结果。(2)信息偏倚(信息偏倚(Information bias):指测量方面的误差,):指测量方面的误差,特别是主观因素造成的有倾向性的偏倚。如在临床试验
8、中,特别是主观因素造成的有倾向性的偏倚。如在临床试验中,实验组是在医院测量,对照组是在家中测量。实验组是在医院测量,对照组是在家中测量。(3)混杂偏倚(混杂偏倚(Confounding):指实验组与对照组在一):指实验组与对照组在一些影响实验结果的非处理因素不均衡造成结果的偏倚。如些影响实验结果的非处理因素不均衡造成结果的偏倚。如病情轻重、并发症、辅助治疗和护理等因素不均衡。病情轻重、并发症、辅助治疗和护理等因素不均衡。实验设计的原则实验设计的原则 对照(对照(Control)随机化(随机化(Randomization)重复(重复(Replication)盲法(盲法(blind method)
9、对照(对照(Control)指设立对照组以排除非处理因素而显示出处理的效指设立对照组以排除非处理因素而显示出处理的效应。应。处理组处理组 处理因素处理因素+非处理因素非处理因素=处理和非处理的效应处理和非处理的效应对照组对照组 非处理因素非处理因素=非处理因素的效应非处理因素的效应对比对比 处理因素处理因素 =处理效应处理效应 对照组设置的三个条件:对照组设置的三个条件:对等:除处理因素外,两组对等的非处理因素对等:除处理因素外,两组对等的非处理因素 同步:两组始终处于同一空间和同一时间同步:两组始终处于同一空间和同一时间 专设:对照组专门设立,一般不能以文献为对照专设:对照组专门设立,一般不
10、能以文献为对照(有时可与(有时可与“常模常模”比较)比较)随机化(随机化(Randomization)随机原则是指随机原则是指“机会均等机会均等”,最简单的方,最简单的方法是抽签法是抽签 随机随机随便,任何随便都不是随机的随便,任何随便都不是随机的 随机化类型随机化类型 随机抽样:每个个体有同等的机会被抽中随机抽样:每个个体有同等的机会被抽中 分组随机:每个实验对象分配到不同处理分组随机:每个实验对象分配到不同处理组的机会相同组的机会相同 随机顺序:每个实验对象接受处理先后的随机顺序:每个实验对象接受处理先后的机会相同机会相同重复(重复(Replication)重复是指在相同实验条件下进行多次
11、研究重复是指在相同实验条件下进行多次研究或多次观察,以提高实验的可靠性与科学或多次观察,以提高实验的可靠性与科学性。性。广义地讲,重复包括:整个实验的重复、广义地讲,重复包括:整个实验的重复、用多个实验单位进行重复、同一实验单位用多个实验单位进行重复、同一实验单位的重复观察。的重复观察。决定重复性的关键是样本含量,故常将重决定重复性的关键是样本含量,故常将重复性简化为复性简化为“样本含量样本含量”盲法(盲法(blind method)按实验方案规定,尽量不让参与临床实验的受试按实验方案规定,尽量不让参与临床实验的受试者、研究者、医务人员、监视员、数据管理和统者、研究者、医务人员、监视员、数据管
12、理和统计分析人员知道患者接受何种治疗。计分析人员知道患者接受何种治疗。单盲法(单盲法(single blind)指受试者不知道自己属于)指受试者不知道自己属于试验组还是对照组试验组还是对照组 双盲法(双盲法(double blind)指受试者和试验医务人)指受试者和试验医务人员都不知道病人属于试验组还是对照组员都不知道病人属于试验组还是对照组 非盲法非盲法(open label):采用单盲或非盲法试验应在采用单盲或非盲法试验应在研究方案中申述理由。研究方案中申述理由。盲法的原则应自始至终地贯彻于整个试验之中盲法的原则应自始至终地贯彻于整个试验之中 针对研究类型选择适当的研究设计 类型目的首选的
13、研究设计治疗研究检验各种干预措施如药物治疗、介入或外科手术的效果随机对照临床试验诊断研究评估新的诊断方法的有效性和可行性横断面调查(须同时进行新方法和金标准方法检验)预后研究了解确诊病人以后可能发生的情况纵向队列研究因果关系研究评估有害因素与疾病发生是否有关队列研究或病例-对照研究,病例报告亦有用筛选研究评估适于大规模人群检验和在疾病呈现症状早期检出该病的各种检查方法横断面调查随机对照临床试验(RCT)n适用RCT解决的临床问题 对某一疾病,研究药物在效果上是否优于安慰剂或另一种药物(对照药)?新的手术方法是否优于传统方法?改变生活习惯是否会影响病人血压水平?RCT的优点n在选定的病人组群中,
14、可严格评价单一变量的效果n前瞻性设计n应用假设推导进行推理n消除偏倚:比较基线指标相同的两个组n可作荟萃分析和系统性评价 RCT被认为是临床科研的“金标准”RCT的缺点n 耗费又耗时:无法完成、样本量不足、研究时间太短n 多数由研究机构或药厂(公司)资助,难免不会影响公正n 常使用“替代终点”n 可出现“潜在的偏倚”随机化不完善 未对所有合格病人进行随机化分配 未避免资料评价人员知道病人随机情况n 其他 排除标准的偏倚 入选标准的偏倚 不适合进行RCT:n预后研究 适于纵向队列研究n筛查研究 适于横断面研究n“保健质量”研究:尚未确定“成功”标准,适于定性研究方法队列研究 选择2组,暴露于某种
15、特定物质(药物、疫苗、环境致病物等)不同的人群,随访,观察每组发生特定疾病结局或人数。研究对象为可能发病或不发病者。关注的是病因,而非疾病治疗适合采用队列研究的临床问题n吸烟导致肺癌吗?n高血压随着时间推移会变好吗?n避孕药导致“乳腺癌”吗?n早产儿在以后的生长发育和学习成绩上情况如何?病例-对照研究 确定有某种特定疾病的病人并与对照组进行匹配,收集其暴露于某种可疑致病因子的资料。关注的是病因而非疾病治疗。对于罕见病的研究可能是唯一选择。横断面调查 对某一研究对象中的代表性样本(或病人)进行访问、检查或研究以获得对某一特定临床问题的答案。资料在单一时间点收集,但可回顾性追溯过去有关健康方面的经
16、历。病例报告 以故事方式描述单一患者病史。可综合形成病例系列,以描述一个以上患有某一特殊情况患者的病史,阐述此种情况的某个方面、治疗情况或对治疗之不良反应。病例报告之优点n可以传递大量在临床试验中或调查中可能丢失的信息n易被普通医师或大众理解n易于完成(数天内)统计工作的步骤统计工作的步骤 第一步设计(design):第二步收集资料(collection of data):第三步整理资料(sorting data):第四步分析资料(analysis of data):设计(设计(design)首先明确研究目的首先明确研究目的,根据研究目的,从统计角度对资料的根据研究目的,从统计角度对资料的搜集
17、、整理和分析全过程提出全面具体的计划和要求,作搜集、整理和分析全过程提出全面具体的计划和要求,作为统计工作实施的依据,以便用尽可能少的人力、物力和为统计工作实施的依据,以便用尽可能少的人力、物力和时间获得准确可靠的结论。时间获得准确可靠的结论。1、明确对象、明确对象 2、明确取得原始资料的方法、明确取得原始资料的方法 3、如何整理资料、如何整理资料 4、计算哪些指标、计算哪些指标 5、用何种统计推断方法、用何种统计推断方法 6、预测结果、预测结果搜集资料搜集资料 搜集及时、准确、完整地搜集原始资料是统计工搜集及时、准确、完整地搜集原始资料是统计工作最重要的一步,它直接关系着统计结论的质量。作最
18、重要的一步,它直接关系着统计结论的质量。统计资料的来源主要有:统计资料的来源主要有:1、报表资料。、报表资料。2、医疗、预防机构的日常工作记录。、医疗、预防机构的日常工作记录。3、专题研究实验数据和现场调查资料。、专题研究实验数据和现场调查资料。整理资料(整理资料(sorting of data)整理资料又称统计归纳:是把搜集到的资整理资料又称统计归纳:是把搜集到的资料进行适当的分组,把性质相同的资料归料进行适当的分组,把性质相同的资料归纳到一起,用表格或图形的方式展示出来,纳到一起,用表格或图形的方式展示出来,以反映研究对象的规律性。以反映研究对象的规律性。1、审核资料、审核资料 2、设计分
19、组:质量分组和数量分组、设计分组:质量分组和数量分组 3、拟整理表、拟整理表 4、归纳汇总、归纳汇总分析资料分析资料 分析资料资料的分析过程是通过计算有关的统计分析资料资料的分析过程是通过计算有关的统计指标,对资料进行概括的、全面的描述,以及从指标,对资料进行概括的、全面的描述,以及从样本信息推断总体特征,分析资料就是从获取的样本信息推断总体特征,分析资料就是从获取的资料中抽取有关信息的过程。资料中抽取有关信息的过程。1、统计指标的计算、统计指标的计算 2、统计图表的绘制、统计图表的绘制 3、估计总体参数、估计总体参数 4、进行假设检验、进行假设检验 5、回归与相关、回归与相关 6、多元分析、
20、多元分析统计资料的类型统计资料的类型v 计量资料计量资料 v 计数资料计数资料v 等级资料等级资料 计量资料(计量资料(measurement data)measurement data)通过对观察单位测量取得数值,其值一般有度量衡单位。如身高、体重、血压、脉搏、白细胞空气中二氧化碳含量等。此类资料具有计量单位,各观察单位常有量的差别。分析计量资料常用平均数、标准差、t检验、方差分析、相关与回归分析等。计数资料计数资料(enumeration data)(enumeration data)将观察单位按某种属性或类别分组,然后清点各组的观察单位数。如性别、血型、民族、职称、某病的治愈和未愈数等。
21、分属于各组的观察单位间有质的差别,不同质的观察单位不能归在同一组内。分析计数资料常用率、构成比、x2检验等。将观察单位按某种属性的不同程度分组,然后清点各组的观察单位数。如疗效可分为治愈、显效、好转、无效;尿蛋白化验结果分为-、+、+、+等。这类资料具有计数资料的性质,但所分各组又是按一定顺序如由轻到重、由小到大排列的。分析等级资料常用率、构成比、秩和检验等。等级资料等级资料 (ranked data)ranked data)医学统计中的几个基本概念医学统计中的几个基本概念 数据与变量 总体和样本 随机化 统计量与参数 抽样误差 概率 变量(variable)具有变异性的数据称为变量。1数值变
22、量(numerical variable):为连续变量,如身高、体重、血压等。数值变量均可通过对观察单位测量取得数值,其值一般有度量衡单位。数值变量资料也称作计量资料。2分类变量(categorical variable):可能取值是离散的,表现为互不相容的类别。比如性别、血型、民族、职称等。分类变量资料又称为计数资料。分类变量有两种:无序分类变量和有序分类变量 总体与样本总体与样本 总体(population):是根据研究目的确定的同质的观察单位的某个变量值的全体。分有限总体和无限总体。样本(sample):通常是从总体中随机抽取有代表性的一部分观察单位。注意其代表性 和可靠性。抽样误差抽样
23、误差(sampling errorsampling error)用于描述样本特征的指标称为统计量,而用于描述总体特征的指标称为参数。我们把由随机抽样引起的样本指标与总体指标的差异称为抽样误差。由于个体变异的普遍存在,抽样误差是不可避免的。只要遵循随机化的原则,抽样误差的大小就可以用统计方法进行估计。一般情况下样本越大,抽样误差越小,反映事物客观规律的准确性越高,反之,样本越小,抽样误差越大。概率(概率(probability)描述随机事件发生的可能性大小的数值称概率。随机事件的概率随机事件的概率P取值在取值在0 1之间,之间,P越接近越接近1,说明某事,说明某事件发生的可能性越大;件发生的可能
24、性越大;P越接近越接近0,说明某事件发生的可能性,说明某事件发生的可能性越小。越小。如果某事件的概率如果某事件的概率P=0,表示该事件不可能发生,称其为,表示该事件不可能发生,称其为不可能事件;如果不可能事件;如果P=1,表示该事件必然发生,称其为必然,表示该事件必然发生,称其为必然事件。事件。随机事件是可能发生也可能不发生的事件。如果某随机随机事件是可能发生也可能不发生的事件。如果某随机事件发生的概率事件发生的概率P0.05,或,或P0.01表示该事件发生的可能表示该事件发生的可能性很小,我们称其为小概率事件。其意义为在一次试验中不性很小,我们称其为小概率事件。其意义为在一次试验中不发生事件
25、。发生事件。数值变量资料的统计描述数值变量资料的统计描述 统计图表统计图表 统计指标统计指标 平均数平均数v 均数v 几何均数v 中位数和百分数均数均数(meanmean)均数是算术平均数均数是算术平均数 (arithmetic mean)(arithmetic mean)的简的简称。总体均数用希腊字母称。总体均数用希腊字母()表示,样本均数表示,样本均数用用()表示。表示。1 1、应用条件、应用条件:均数反映同质的一组观察:均数反映同质的一组观察值在数量上的平均水平,样本所代表总体为正值在数量上的平均水平,样本所代表总体为正态分布。态分布。x2 2、计算方法:、计算方法:(1)直接法直接法
26、当样本中观察值个数不多时,通常可用直接法,公式当样本中观察值个数不多时,通常可用直接法,公式为:为:式中式中是希腊字母,读作是希腊字母,读作sigma,为求和的符号。,为求和的符号。nxx(2)加权法加权法当观察值个数较多时。通常可用加权法,公式为:当观察值个数较多时。通常可用加权法,公式为:式中式中X为各组的组中值,组中值等于该组的上限加为各组的组中值,组中值等于该组的上限加下限之和除以下限之和除以2。f为各组的频数,它相当于为各组的频数,它相当于权数权数权衡了各组中值由于频数不同对均数的影响,故权衡了各组中值由于频数不同对均数的影响,故本法也称为加权法。本法也称为加权法。nfxx几何均数(
27、geometric mean)geometric mean)1 1、应用条件、应用条件:观察的数据是呈倍数关系的资料观察的数据是呈倍数关系的资料,采用几何均数,采用几何均数简记为(简记为(G)表示其平均水平。)表示其平均水平。2 2、计算方法:、计算方法:如果观察的数据个数不多可以采用直接算法。如果观察的数据个数不多可以采用直接算法。公式为:公式为:如果样本量很大,或只掌握频数表资料可以按下式计算分组资料如果样本量很大,或只掌握频数表资料可以按下式计算分组资料的几何均数。公式为:的几何均数。公式为:)lg(lg1nxG)lg(lg1nxfG百分位数(percentile)(percentile
28、)百分位数是一种位置指标,用于描述一组观察百分位数是一种位置指标,用于描述一组观察值在某百分位置上的水平。第百分位数以值在某百分位置上的水平。第百分位数以 PX表示表示。PX 是一个数,其意义是将某变量的观察值按从是一个数,其意义是将某变量的观察值按从小到大的顺序排列,比小到大的顺序排列,比PX 小的观察值的个数占小的观察值的个数占x%,比,比 PX 大的观察值的个数占(大的观察值的个数占(100-x)%。百分位数用于描述观察值序列在某百分位位置百分位数用于描述观察值序列在某百分位位置的水平,公式为:的水平,公式为:中位数简记为中位数简记为M M,中位数是一个位置指标,用于中位数是一个位置指标
29、,用于描述一组资料的平均水平,其含义是将一组观察值描述一组资料的平均水平,其含义是将一组观察值按从小到大的顺序排列,位置居中的数就是中位数按从小到大的顺序排列,位置居中的数就是中位数,中位数即第中位数即第50百分位数。公式为:百分位数。公式为:应用条件为:应用条件为:分布呈明显偏态;分布呈明显偏态;分布的一端或两端无确定数值;分布的一端或两端无确定数值;分布不清等资料。分布不清等资料。中位数(medianmedian))2(50CnfiLpxu极差(R)u四分位间距(Q)u标准差(S)u变异系数(CV)u标准误(SE)变异指标变异指标 极差简记为(极差简记为(R)又称全距。是一组观察)又称全距
30、。是一组观察值中最大值与最小值之差。值中最大值与最小值之差。四分位数,简记为(四分位数,简记为(Q)是特定的百分位)是特定的百分位数,是上四分位数与下四分位数之差。可以数,是上四分位数与下四分位数之差。可以看成是全部观察值的位于中间的一半的极差看成是全部观察值的位于中间的一半的极差。Q=P75-P25极差(极差(rangerange)和四分位间距(和四分位间距(quartilequartile)标准差标准差(standard deviation)(standard deviation)标准差每个观察值到均数的平均距离,总体标准差用希腊字母()表示,样本标准差用()表示。1、应用条件:反映同质的
31、一组观察值在数量 上的变异程度,样本所代表总体为正态分布。s2、计算方法:、计算方法:(1)直接法直接法 当样本中观察值个数不多时,通常可用直接法,公当样本中观察值个数不多时,通常可用直接法,公式为:式为:(2)加权法加权法当观察值个数较多时。通常可用加权法,公式为:当观察值个数较多时。通常可用加权法,公式为:1)(1)(222nnXXnXXs3 3、标准差应用、标准差应用v 标准差的大小反应变异程度的大小,标准 差大,表示变异程度大,即观察值较分散,反之则表示变异程度小,较集中。v 结合均数确定医学参考值范围。v 结合均数计算变异系数。v 计算标准误。当两组资料单位不同或均数相差较大时,变异
32、大小不能当两组资料单位不同或均数相差较大时,变异大小不能直接用标准差进行比较,应计算标准差对均数的百分比,即直接用标准差进行比较,应计算标准差对均数的百分比,即变异系数变异系数(coefficient of variation,简记为简记为CV)。公式为:公式为:当观察值为统计量时,描述其变异程度的大小用标准误当观察值为统计量时,描述其变异程度的大小用标准误(standard error简记为简记为SE)。)。公式为:公式为:变异系数和标准误变异系数和标准误%100XSCVnSSxnppSp)1(计量资料的统计推断计量资料的统计推断 (总体均数的估计与假设检验总体均数的估计与假设检验)v均数的
33、抽样误差与标准误均数的抽样误差与标准误v总体均数估计总体均数估计v假设检验假设检验v抽样研究抽样研究:由样本推断总体的过程。v抽样误差抽样误差:由抽样引起的样本指标与总体指标的差异称为抽样误差。抽样误差是不可避免的,但只要样本是随机抽取的,就可以用统计方法来估计它的大小。均数的抽样误差与标准误均数的抽样误差与标准误v均数标准误均数标准误:样本均数变异程度的大小,反映了均数的抽样误差的大小。我们以样本均数的标准差作为衡量均数抽样误差大小的尺度,即均数的标准误。公式为:nSSxv均数标准误和标准差相同,都是说明变异程度大小的指标。不同的是标准差表示的是某变量个体观察值变异程度的大小,而标准误表示的
34、是样本均数变异程度的大小。样本含量越小,抽样误差越大,即标准误越大;反之样本含量越大,抽样误差越小,即标准误越小。根据研究设计类型选择分析方法 在成组比较设计中,若是两组比较在成组比较设计中,若是两组比较需要应用需要应用t检验或检验或X2检验。多组比较需检验。多组比较需应用方差分析、行应用方差分析、行列表列表X2检验或分级检验或分级的分析方法。的分析方法。成组比较的设计成组比较的设计 把除处理因素外,其他条件基本相似的受试对象把除处理因素外,其他条件基本相似的受试对象配成对子,每对中的两个随机分配到两个处理组。配成对子,每对中的两个随机分配到两个处理组。在同一受试对象上进行两种不同的处理。上述
35、在同一受试对象上进行两种不同的处理。上述 两两种情况其目的是推断两种处理的效果有无差别。种情况其目的是推断两种处理的效果有无差别。在某项处理前后观察受试对象的某指标值,通过在某项处理前后观察受试对象的某指标值,通过处理前后该指标值的差推断该处理是否有效。处理前后该指标值的差推断该处理是否有效。这种类型的设计需要按照配比的这种类型的设计需要按照配比的t检验,检验,X2检验及检验及配对的病例对照研究方法进行数据分析。配对的病例对照研究方法进行数据分析。配对设计配对设计重复测量的设计重复测量的设计 这类设计方法是在给定一个处理因素这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的后
36、在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的疫学效果,在接种后的2周、周、4周、周、6周和周和8周测定抗体滴度,即为此类设计类型。对周测定抗体滴度,即为此类设计类型。对于这种设计类型的数据需应用重复测量的于这种设计类型的数据需应用重复测量的方差分析方法进行数据的分析。方差分析方法进行数据的分析。多因素设计多因素设计 若在研究设计中有多个自变量,则可根若在研究设计中有多个自变量,则可根据因变量的性质选择合适的多因素分析方法。据因变量的性质选择合适的多因素分析方法。如果自变量是数值变量,则可考虑应用多元如果自变量是数
37、值变量,则可考虑应用多元回归分析方法、协方差分析方法。如果是分回归分析方法、协方差分析方法。如果是分类变量,则可选择类变量,则可选择logistic回归分析方法、判回归分析方法、判别分析方法及聚类分析方法等。别分析方法及聚类分析方法等。根据变量的类型选择分析方法 区别与明确研究的因变量和自变量具有重要区别与明确研究的因变量和自变量具有重要的流行病学与生物统计学意义,首先它有助的流行病学与生物统计学意义,首先它有助于选择拟研究的变量,对调查表的设计具有于选择拟研究的变量,对调查表的设计具有指导作用。指导作用。其次数据分析阶段可以指导数据分析方法的其次数据分析阶段可以指导数据分析方法的选择及模型的
38、建立。若因变量是分类变量,选择及模型的建立。若因变量是分类变量,则常考虑应用分类变量的分析方法,如卡方则常考虑应用分类变量的分析方法,如卡方检验,检验,logistic回归分析等。如果因变量是数回归分析等。如果因变量是数值变量,则考虑应用数值变量的分析方法如值变量,则考虑应用数值变量的分析方法如t检验、方差分析,协方差分析、多元回归等。检验、方差分析,协方差分析、多元回归等。同时明确自变量与因变量可以建立正确的统同时明确自变量与因变量可以建立正确的统计学分析模型。计学分析模型。因变量应该放在模型的左侧,自变量则放在模型因变量应该放在模型的左侧,自变量则放在模型的右侧。的右侧。例如欲评价不同治疗
39、方法(口服药物、注射胰岛例如欲评价不同治疗方法(口服药物、注射胰岛素及膳食控制)对糖尿病人的治疗效果(血糖水素及膳食控制)对糖尿病人的治疗效果(血糖水平),在分析时要求调整病人的性别、年龄和病平),在分析时要求调整病人的性别、年龄和病程的影响。对本例的处理需要进行协方差分析,程的影响。对本例的处理需要进行协方差分析,在应用在应用SAS进行分析时,要将血糖水平(因变量)进行分析时,要将血糖水平(因变量)放在模型的左则,而治疗方法或其它协变量放在模型的左则,而治疗方法或其它协变量(covariate)即性别、年龄和病程放在模型的右)即性别、年龄和病程放在模型的右侧。又如分析脂蛋白(侧。又如分析脂蛋
40、白(a)与冠心病发生的关系,)与冠心病发生的关系,则冠心病是否发生为因变量,脂蛋白(则冠心病是否发生为因变量,脂蛋白(a)则为自)则为自变量,不可颠倒这种关系。变量,不可颠倒这种关系。不同变量类型的数据分析方法选择因变量自变量数值变量分类变量有序变量数值变量相关分析,多元回归分析t检验,方差分析,协方差分析,多元回归分析相关分析,多元回归分析分类变量t检验,方差分析,logistic回归分析,判别分析,聚类分析c2检验,logistic回归分析c2检验有序变量方差分析,logistic回归分析,判别分析,聚类分析c2检验,logistic回归分析相关分析,c2检验生存时间生存分析不同研究设计和
41、数据类型的数据分析方法选择 研究设计类型变量类型两组比较两组以上比较实验前后比较重复测量两变量间的联系重复测量的方 差 分析线性回归,Pearson相关系数 数值变量 t检验方差分析配对t检验 分类变量 c2检验c2检验配对c2检验列联表相关系数 有序变量Mann-Whitney秩 和 检验Kruskal-Wallis分析Wilcoxon符号秩和检验Spearman相关系数 生存时间生存分析数据的分析程序 数据的转换1)非正态数据的变量转换非正态数据的变量转换 多数的统计学分析方法是建立在数据正态多数的统计学分析方法是建立在数据正态分布的基础上的,若数据不符合正态分分布的基础上的,若数据不符合
42、正态分布,则不能够应用参数检验布,则不能够应用参数检验(parametric test)的方法,只能应用非参数检验的方法,只能应用非参数检验(non-parametric test)的方法,而非参数的方的方法,而非参数的方法不是对原始数据的检验,如秩和检验法不是对原始数据的检验,如秩和检验就是非参数检验方法之一,它是对原始就是非参数检验方法之一,它是对原始数据的秩次数据的秩次(rank)进行检验,这样可能损进行检验,这样可能损失数据信息,降低检验效率失数据信息,降低检验效率 在对数值变量进行分析时,需首先根据统计分在对数值变量进行分析时,需首先根据统计分析方法析方法/统计分析公式的限制性使用条
43、件对数据统计分析公式的限制性使用条件对数据进行进行“条件条件”检验,如正态性检验和方差齐性检验,如正态性检验和方差齐性检验等。很多统计学软件具有方便的正态性检检验等。很多统计学软件具有方便的正态性检验、方差齐性检验功能如验、方差齐性检验功能如SAS软件等软件等.若经过检若经过检验数据不符合使用条件,就需要进行数据的变验数据不符合使用条件,就需要进行数据的变量变换,变换后符合条件就可以应用参数检验量变换,变换后符合条件就可以应用参数检验的方法,否则,只有应用非参数检验的方法。的方法,否则,只有应用非参数检验的方法。数据变量转换的方法很多,可以根据数据的分数据变量转换的方法很多,可以根据数据的分布
44、特征,选择合适的数据转换方法。常用的方布特征,选择合适的数据转换方法。常用的方法有对数变换,平方根变换或倒数变换等。法有对数变换,平方根变换或倒数变换等。2)分类变量转换成哑变量分类变量转换成哑变量 若分类变量是二分类尺度及顺序尺度,则可若分类变量是二分类尺度及顺序尺度,则可直接应用其原有的数量化数值,但对于名义直接应用其原有的数量化数值,但对于名义尺度因为各类别间没有顺序关系,在进行不尺度因为各类别间没有顺序关系,在进行不同分析(包括多元分析、同分析(包括多元分析、logistic回归、回归、Cox回归等)时,不能使用原始的计算机录回归等)时,不能使用原始的计算机录入数值,必经进行变量转换。
45、即将该变量转入数值,必经进行变量转换。即将该变量转换成(水平数换成(水平数-1)个哑变量,再将这些新转)个哑变量,再将这些新转换的变量放入多因素模型中。换的变量放入多因素模型中。t检验的应用条件 两组数据的比较两组数据的比较 1样本量比较小(样本量比较小(n50)2样本来自正态总体样本来自正态总体 3两样本总体方差齐同两样本总体方差齐同 当两样本方差不齐时可以采用当两样本方差不齐时可以采用t检验,变量检验,变量变换,或者秩和检验。变换,或者秩和检验。方差分析的应用条件 两组以上数据的比较两组以上数据的比较 1各样本是相互独立的随机样本;各样本是相互独立的随机样本;2各样本要来自正态总体;各样本
46、要来自正态总体;3要求各个样本的总体方差齐同。要求各个样本的总体方差齐同。多个样本均数间的两两比较 NewmanKeuls检验,亦称检验,亦称StudentNewmanKeuls(SNK)检验,简称检验,简称q检验。检验。最小显著性差距最小显著性差距(LSD)t检验。检验。协方差分析 定量分析中,进行两个样本或者多个样本定量分析中,进行两个样本或者多个样本的均数比较时,不仅需要使用假设检验判的均数比较时,不仅需要使用假设检验判断其差异是否具有统计学差异,还应该考断其差异是否具有统计学差异,还应该考虑他们之间是否存在混杂因素(协变量)虑他们之间是否存在混杂因素(协变量)的影响。若存在协变量,则应
47、该通过协方的影响。若存在协变量,则应该通过协方差分析进行校正。协方差分析是定量变量差分析进行校正。协方差分析是定量变量分析中控制混杂因素的重要手段分析中控制混杂因素的重要手段 影响观察指标的其他非研究性因素(混杂因影响观察指标的其他非研究性因素(混杂因素)在统计分析中又称之为协变量;考虑协变量素)在统计分析中又称之为协变量;考虑协变量影响的方差分析即为协方差分析。协方差分析是影响的方差分析即为协方差分析。协方差分析是解决以上问题的分析方法,它将线性回归与方差解决以上问题的分析方法,它将线性回归与方差分析结合起来,检验分析结合起来,检验2个或者多个修正均数之间有个或者多个修正均数之间有无差别的假
48、设检验方法。一般是先用直线回归的无差别的假设检验方法。一般是先用直线回归的方法找出各组因变量与协变量之间的数量关系,方法找出各组因变量与协变量之间的数量关系,求得修假定协变量相等时的修正系数,然后用方求得修假定协变量相等时的修正系数,然后用方差分析比较修正均数间的差别。差分析比较修正均数间的差别。协方差分析的条件1各个样本来自方差齐同的正态总体各个样本来自方差齐同的正态总体2各组的总体直线回归系数相同,且都不为各组的总体直线回归系数相同,且都不为0。协方差分析的判别步骤:1正态性和方差齐性检验;正态性和方差齐性检验;2判断协变量与因变量有无线性关系;判断协变量与因变量有无线性关系;3判断各组回
49、归直线是否平行。判断各组回归直线是否平行。直线回归与相关的区别与联系区别区别直线相关直线相关直线回归直线回归变量变量地位地位变量变量 x 变量变量 y 处于处于平等的地位,彼此平等的地位,彼此相关关系相关关系变量变量 y 称为因变量,处称为因变量,处在被解释的地位,在被解释的地位,x 称称为自变量,用于预测因为自变量,用于预测因变量的变化变量的变化变量变量性质性质所涉及的变量所涉及的变量 x 和和 y 都是随机变量,都是随机变量,要求两个变量服从要求两个变量服从双变量正态分布双变量正态分布因变量因变量 y 是随机变量,是随机变量,自变量自变量 x 可以是随机变可以是随机变量,也可以是非随机的量
50、,也可以是非随机的确定变量确定变量实际实际作用作用主要是描述两个变主要是描述两个变量之间线性关系的量之间线性关系的密切程度密切程度(相关系数(相关系数无单位)无单位)揭示变量揭示变量 x 对变量对变量 y 的影响大小的影响大小(回归系数(回归系数有单位),有单位),还可以由回还可以由回归方程进行预测和控制归方程进行预测和控制 多元线性回归的基本概念 事物间的相互联系往往是多方面的,在很多情况事物间的相互联系往往是多方面的,在很多情况下对应变量下对应变量y 发生影响的自变量往往不止一个发生影响的自变量往往不止一个。多。多元线性回归的目的就是用一个多元线性回归方程表元线性回归的目的就是用一个多元线