1、科研统计分析的原则与科研统计分析的原则与步骤步骤刘启贵刘启贵科研设计 在研究问题确立后,研究者按研究目的而进行科研设计,选择和确定具体的研究方法,科研设计也是科学研究中具体内容和方法的设想及计划安排,从而获得有意义的资料和结果。研究设计的主要内容有:科研设计 实验设计其特点有人为的干预,即通过施加一个或多个因素,通过观实验观察评价这些因素那个起作用。调查设计其特点无人为的干预,即用设计好的调查表,去了解现实的情况,分析相关因素的关系。4统计学分析统计学分析 医学数据的统计处理涉及到医学专业知识医学数据的统计处理涉及到医学专业知识、统计专业知识、处理数据的经验和技巧、统计专业知识、处理数据的经验
2、和技巧等,是一项综合的工作。等,是一项综合的工作。在数据处理过程中,在数据处理过程中,原始数据的采集和录原始数据的采集和录入,数据的管理,恰当的选取统计方法,入,数据的管理,恰当的选取统计方法,熟练使用统计软件等熟练使用统计软件等,都是必须重视的关都是必须重视的关键环节。键环节。5例例1:冠心病病人冠心病病人编脂肪摄体重家族总胆编脂肪摄体重家族总胆号入量指数史固醇号入量指数史固醇非冠心病人非冠心病人编脂肪摄体重家族总胆编脂肪摄体重家族总胆号入量指数史固醇号入量指数史固醇1低低2高高3中中 30 高高26.527.024.523.4有有7.88有有9.16无无5.67有有 6.831低低2中中3
3、中中 30 高高24.123.524.625.2无无5.68有有3.21无无3.15无无3.066或如下形式或如下形式:编脂肪摄体重家族总胆冠心病编脂肪摄体重家族总胆冠心病号入量指数史固醇否号入量指数史固醇否1低低2高高3中中 30 高高1低低2中中3中中 30 高高26.527.024.523.424.123.524.625.2有有7.881有有9.161无无5.671 有有6.831无无5.680有有3.210无无3.150 无无3.0607例例2:WBC前前 后后体温体温前前 后后病情病情前后前后 阴阳性阴阳性前后前后12.5610.349.528.478.567.345.526.473
4、8.537.936.839.236.5.37.035.936.2 8例例3WBC治疗前治疗后治疗前治疗后1天治疗后天治疗后3天治疗后天治疗后7天天12.5610.349.528.478.567.347.526.476.566.347.527.475.567.346.526.40原始资料的收集和处理 通过各种测量、问卷、调查和观察等方法从研究对象处直接收集到的科研资料,称之为原始资料,也叫第一手资料,记录必须可靠,不可自行更改并应完整保存。在原始资料整理后再进一步分析资料的价值和意义。原始资料的收集和处理 通常研究中得到的资料可分为计量资料(定量资料)和计数资料(定性资料),介于其中的为等级资料
5、(半定量资料)。统计学分析定量资料和定性资料时选用的检验方法和计算公式都不同。分析整理研究资料多用计算的方法,如用百分率()、均数、标准差、标准误,还可用统计图和表格来归纳研究结果。原始资料的收集和处理 资料的要求 完整、准确、及时原始数据的记录形式 医学研究的原始数据常列成类似下表的二维结构,即行与列结构的数据集形式。在表中,每一行称为一个记录(record),或一个观察单位(case);每一列称为一个变量(variable),用以表示变量、项目或观察指标等。原始数据录入 在进行统计分析前,原始数据需录入计算机。录人的文件类型大致有:数据库文件,如dBASE、FoxBASE、Lotus、EP
6、I info、Excel文件。文本文件(如word文件、WPS文件等)等,统计应用软件的相应文件,如SPSS数据文件、SAS数据文件、STATA数据文件等。目前,上述文件类型绝大多数都可以相互转换。原始数据录入 录人数据时,应遵循便于录入,便于核查,便于录入,便于核查,便于转换,便于分析便于转换,便于分析的原则。1.便于录入是指尽可能地减少录入工作量2.便于核查是指一定要设有标识变量,以方便数据核查 3.便于转换是指录入数据时要考虑不同软件对字节和字符的要求 4.便于分析是指每项研究最好录成一个数据文件,录入的格式最好满足各种统计分析的需要,这样才能保证分析数据时的高效和全面。数据处理中的几个
7、问题 数据核查数据核查 数据录入后,首先须对数据进行核查,以确保录入数据的准确性和真实性。核查准确性可分两步进行。第一步 逻辑检查,通过运行统计软件中的基本统计量过程,列出每个变量的最大值和最小值,如果某变量的最大值或最小值不符合逻辑,则数据有误。数据处理中的几个问题 第二步 数据核对,将原始数据与录入的数据一一核对,错者更正。有时,为慎重起见,采用双份录入的方式,然后用程序作一一比较,不一致者一定是录错的数据。数据核查的另一项任务是对数据的真实性作出初步判断 数据处理中的几个问题 离群数据的处理 当个别数据与群体数据严重偏离时,被称为离群数据(outlier)或极端数据(extreme va
8、lue)。统计软件一般都有判断离群数据的方法。判断离群数据有多种方法,最常用的方法是采用箱式图来判定.28N=EDGE20806040200-208数据处理中的几个问题 若有离群数据出现,可分为两种情况若有离群数据出现,可分为两种情况处理。处理。1.如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。例如,若某一数据中某病例的身高变量为“1755”cm,且原始记录亦如此,又无法再找到该病例时,显然这是一个错误的记录,只能删除。2.若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,并需要剔除,必须给以充分合理的解释,例如用何种方法确定偏离数据,该数据
9、在实验中何种干扰下产生等 数据处理中的几个问题 统计方法前提条件的检验统计方法前提条件的检验 应用参数方法进行假设检验往往要求数据满足某些前提条件,如两个独立样本比较t检验或多个独立样本比较的方差分析,均要求方差齐性,因此需要做方差齐性检验。如果要用正态分布法估计参考值范围,首先要检验资料是否服从正态分布。在建立各种多重回归方程时,常需检验变量间的多重共线性和残差分布的正态性。科研资料的分析 研究问题的目的在于认识客观规律。试验只在少数受试者身上(样本)进行,而结论却要推至研究对象的全体(总体)。由于生物的变异性大,个体差异普遍存在,所以研究资料只有通过统计学方法来进行分析才能找出规律性的答案
10、,得到有意义的结论。选择统计方法的思路 数据处理中,正确选择统计方法至关重要。选择统计方法可以沿着以下思路进行:第一个层面:看属于三种资料类型中的哪 一种;第二个层面:看单因素还是多因素;第三个层面:看单样本、两样本或多样本;第四个层面:看是否是配对或配伍设计;第五个层面:看是否满足检验方法所需的 前提条件;分析目的 比较差异:比较两组或多组均值、率或中位数有无差异(单因素单指标)。研究相关与回归:每两个变量间的变化是否有关系,其数量上的函数形式如何(两个指标或多个指标之间关系)。多因素分析:研究多个因素对一个变量的影响。计量资料或等级资料比较差异计量资料或等级资料比较差异 t检验检验t检验检
11、验F检验检验配对配对t检验检验配伍配伍F检验检验秩和检验秩和检验偏态分布或等级资料偏态分布或等级资料正态分布正态分布频数表频数表5点法点法最小值最小值P25MP75最大值最大值正态分布正态分布等级资料等级资料偏态分布偏态分布统计推断统计推断统计描述统计描述计量资料或等级资料计量资料或等级资料XS计数或分类资料比较差异计数或分类资料比较差异 样本与总体率的比较样本与总体率的比较u样本率与构成的比较样本率与构成的比较2配对差异性比较配对差异性比较2趋势性趋势性2检验检验率率构成比构成比相对比相对比(OR值值或或RR值值)统计推断统计推断统计描述统计描述计数资料计数资料相关与回归 当资料是正态分布时
12、:研究两者在变化时的关联或趋势用相关系数r,若问数量上的函数关系用普通线性回归。当资料不是正态分布时:研究两者在变化时的关联或趋势用等级相关rs,若问数量上的函数关系用秩回归。相关与回归 曲线回归分析 分析两变量的回归关系时,若两变量呈曲线趋势,可按曲线类型选择指数曲线、多项式曲线、生长曲线、Logistic曲线等。也可选用非线性回归分析方法。若因变量Y为生存时间,并含有截尾数据,自变量只有一个处理因素,可选用Kaplan-Meier法做生存分析。多变量分析 多变量资料大致可规结为有无因变量两种类型。多变量资料大致可规结为有无因变量两种类型。因变量Y是连续性正态分布,用多重线性回归或多重线性逐
13、步回归。因变量Y是两分类的(发生与不发生),且以分析危险因素为主要目的,用Logistic回归分析。若因变量Y为分类变量(二分类或多分类),且以判别分类为主要目的,自变量近似满足多元正态分布,可选用选用判别分析。因变量Y是时间变量(随访资料),用COX回归分析。多变量分析 无因变量的多变量分析 欲将变量或观察单位划分为性质相近的k类,可选用聚类分析。若将n个观察单位聚为k类,则选样品(Q型)聚类方法;若将m个观察单位聚为k类,则选指标(R型)聚类方法 为达到既降低变量维数,又对变量进行分类的目的,选用主成份分析或因子分析。归纳归纳 选统计方法 1看目的 2看资料 3看条件 没有对错之分,只有效率高低的区别,因此选用效率不高或低的方法,就是不恰当的,应选用高效率的方法,提高研究结论的可靠性与质量。谢谢 谢谢