ImageVerifierCode 换一换
格式:PPT , 页数:67 ,大小:2.51MB ,
文档编号:3566522      下载积分:28 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-3566522.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(三亚风情)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(医学科研数据统计分析策略课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

医学科研数据统计分析策略课件.ppt

1、1医学科研数据统计分析策略郑州大学公共卫生学院郑州大学公共卫生学院 张卫东教授张卫东教授2医学科研数据分析前的准备工作医学科研数据分析方法的选择医学科研数据分析中存在的问题3一、数据分析前要的准备工作1.原始数据的检查 错误,遗漏的研究变量 采取补救措施更改,再次询问,查阅档案,重新检测2.选择合适的数据管理与分析软件 数据管理软件EpidataMicrosoft AcessMicrosoft Excel 数据分析软件SASSPSSEpi-InfoSTATA 通常应用数据管理软件管理数据,应用数据分析软件分析数据563.数据的计算机录入 给每一个问卷或研究对象编码 识别录入的数据与问卷或研究对

2、象的对应关系,方便以后对输入数据的检查、核对与修改错误 给输入的变量定义名称 中文 拼音 英文:gender(sex),age,height(ht),weight(wt)变量取值的数量化7 字符型(character type)日期型(date type)数值型(numerical type)数值变量和有序变量(ordinal variable)分类变量(categorical variable)先按照类别编码数量化,如编码为1,2,3,4,多因素分析模型中转换为哑变量(dummy variable)建议除日期型变量外,尽量设计为数值型84.数据的检查与核对 检查数据的结构 观测数,变量名称、

3、数量 检查各变量的取值情况 取值范围 数值变量 最小值(minimum),最大值(maximum)均值(mean),中位数(median),发现异常值(outlier)Proc means n mean median min max data=?;var x1 x2 x3;run;分类变量列表法、列表法、图示法,回归诊断95.数据的整理 数据的分组 分类变量/有序变量 按照实际的类别进行分组 若有必要和合理,可将性质相近的类别合并 数值变量 按照实际的生理,病理,临床和公共卫生意义分组 分位数分组 四分位数(quartiles),五分位数(quintiles)使用的方便程度/专业惯例分组 例:

4、年龄在某一适宜范围内每5或10岁一组种族原变量取值(x1)新变量X1_1X1_2X1_3X1_4White10000Black21000Hispanic30100Asian-pacific40010Others5000110 数据的转换非正态数据的变量转换 正态性(normality)检验 对数、平方根和倒数变换分类变量转换为哑变量与分析有关的新变量的产生116.确定拟分析的自变量(independentvariable)和因变量(dependent variable)研究设计阶段有助于选择拟研究的变量,指导问卷设计 数据分析阶段指导数据分析方法的选择 因变量是分类变量 因变量是数值变量 建立

5、正确的统计学分析模型 不同教育水平糖尿病病人的血糖控制效果:消除性别、年龄、治疗方法(饮食、口服药物、胰岛素)HbA1C=教育水平、治疗方法、性别、年龄12proc glm data=?noprint;class edu type sex;model HbA1C=edu typesex age/SS3;Lsmean type/pdiff stderr;run;quit;157.缺失数据(missing data)的处理 缺失数据是指其测量结果缺失 在问卷调查时遗漏出生日期和年龄,调查结束后又无法补救而使个别研究对象的年龄成为缺失数据;血脂或血糖因为血清量不足或研究对象拒绝采血而导致某些研究对象

6、实验室的检测结果成为缺失数据 分析时仅用无任何缺失数据的样本进行分析,或是对缺失数据进行合理的赋值,但这些均具有不合理的一面。因为前者损失了样本量,后者则是在不知其取值情况下进行人为的赋值16现在的数据分析处理件软能够很好地处理这个问题,如SAS软件。SAS可以自动分析处理具有缺失数据的样本,如一个数据库中有性别和年龄等变量,性别有10个缺失数据,年龄有3个缺失数据,则在分析性别时SAS会不包括这10个个体,分析年龄时则不包括缺失年龄的3个个体,当在分析中(如多因素分析)共同使用了性别和年龄这两个变量,则分析的实际样本数量是性别和年龄这两个变量均不含缺失数据的样本221.根据变量的类型选择变量

7、的类型数值变量,numerical(continuous)variable分类变量,categorical(nominal)variable有序变量,ordinal variable生存时间,survival variable二、医学科研数据数据分析方法的选择指南17二、医学科研数据数据分析方法的选择指南1.根据变量的类型选择18192.根据研究设计类型选择成组比较的设计若是两组比较需要应用t检验或2检验多组比较需应用方差分析、行列表2检验配对(自身实验前后)设计配比的t检验,2检验及配对的病例对照研究方法进行数据分析20 重复测量的设计 这类设计方法是在给定一个处理因素后在不同的时间重复测量

8、某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的2周、4周、6周和8周测定抗体滴度,即为此类设计类型 应用重复测量的方差分析方法进行数据的分析ValueTime21多因素设计若在研究设计中有多个自变量,则可根据因变量的性质选择合适的多因素分析方法如果自变量是数值变量,则可考虑应用多元回归分析方法、协方差分析方法如果是分类变量,则可选择logistic回归分析方法、判别分析方法及聚类分析方法等变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归,Pearson相关系数分类变量2 检验2 检

9、验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择l 例 某地区随机抽取12名贫血儿童的家庭,实行健康教育干预三个月,干预前后儿童的血红蛋白(%)测量结果如表所示,试问干预前后该地区贫血儿童血红蛋白(%)平均水平有无变化?变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相

10、关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择l 配对设计两样本均数t检验 l配对设计有两种情况:(1)自身配对:同一对象接受两种处理,如同一标本用两种方法进行检验,同一患者接受两种处理方法;(2)异体配对:将条件相近的实验对象配对 l 例4-4 某妇产医院的研究者欲探索孕妇在孕期补充钙制剂对血清骨钙素(ng/ml)的影响,选取孕妇的年龄、基础骨钙素值接近,孕周在26-28周的30名孕妇,随机分成两组,每组15人。试验组孕妇补充选定的某种钙制

11、剂,对照组孕妇采用传统膳食。产后40-50天内测定两组孕妇血清骨钙素的改变值(产后骨钙素和产前骨钙素的差值),结果如下:l 试验组:10.2,8.9,10.1,9.2,-0.8,10.6,6.5,11.2,9.3,8.0,10.7,9.5,12.7,14.4,11.9l 对照组:5.0,6.7,-1.4,4.0,7.1,-0.6,2.8,4.3,3.7,5.8,4.6,6.0,4.1,5.1,4.7l 问孕期补钙和传统膳食的产妇骨钙素改变值的总体均数差别有无统计学意义?变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线

12、 性 回 归,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析244.不同研究设计和数据类型的数据分析方法选择l 2.4 两样本均数比较的t检验 t检验对两样本均数进行比较时,要求原始数据满足以下三个条件:独立性(independence):各观察值间是相互独立的,不能相互影响;正态性(normality):两组均数比较时,要求两组数据服从正态分布;配对设计时,要求差值服从正态分布。可用正态性检验来确认。方差齐性(homoge

13、neity):两样本所对应的正态总体的方差相等,可由方差齐性检验来认定。如果两样本方差齐性检验认为两总体方差不等t检验就不适用,此时须用t 检验 l 例例5-1:为研究钙离子对体重的影响作用,某研:为研究钙离子对体重的影响作用,某研究者将究者将36只肥胖模型大白鼠只肥胖模型大白鼠随机分为三组随机分为三组,每组,每组12只,分别给予高脂正常剂量钙(只,分别给予高脂正常剂量钙(0.5%)、高)、高脂中剂量钙(脂中剂量钙(1.0%)和高脂高剂量钙()和高脂高剂量钙(1.5%)三种不同的饲料,喂养三种不同的饲料,喂养9周,测其喂养前后体重周,测其喂养前后体重的差值。问三组不同喂养方式下大白鼠体重改变的

14、差值。问三组不同喂养方式下大白鼠体重改变是否不同?如表是否不同?如表5-1所示。所示。变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择 基本概念基本概念完全随机化设计完全随机化设计单因素设计单因素设计 研究对象研究对象随机地分配随机地分配到各

15、处理组,各组分别到各处理组,各组分别接受不同的处理,比较接受不同的处理,比较各组均数之间的差别各组均数之间的差别有无统有无统计学意义,推断处理因素的效应。计学意义,推断处理因素的效应。应用条件:应用条件:l 符合正态分布且方差齐符合正态分布且方差齐单因素方差分析(单因素方差分析(one-way classification ANOVA)l 不符合正态分布或不符合正态分布或/和方差不齐和方差不齐变量变换或选变量变换或选择非参数检验法(择非参数检验法(Kruskal-Wills H检验)。检验)。完 全 随 机 设 计 单 因 素 方 差 分 析完 全 随 机 设 计 单 因 素 方 差 分 析其

16、结果如下:其结果如下:变异变异组间变异组间变异组内变异组内变异SSMSF值值P值值S Y.X方差分析结果:方差分析结果:2.2.2 均数两两比较均数两两比较首先进入单因素方差分析对话框,显示如下:首先进入单因素方差分析对话框,显示如下:单击单击Means单击单击OK返回上一级窗口返回上一级窗口单击单击OK即显示结果即显示结果 字母相同,无差异字母相同,无差异字母不同,有差异字母不同,有差异例例5-2 为探索丹参对肢体缺血再灌注损伤的影响,将为探索丹参对肢体缺血再灌注损伤的影响,将30只纯种新西兰只纯种新西兰实验用大白兔,按实验用大白兔,按窝别窝别相同分为相同分为10个区组。每个区组的个区组。每

17、个区组的3只大白兔随只大白兔随机接受三种机接受三种不同的处理不同的处理,即在松止血带前分别给予丹参,即在松止血带前分别给予丹参2ml/kg、丹参、丹参1ml/kg、生理盐水、生理盐水2ml/kg,并分别测定松止血带前及松后,并分别测定松止血带前及松后1小时后血小时后血中白蛋白含量(中白蛋白含量(g/L),算出白蛋白的减少量如表),算出白蛋白的减少量如表5-2所示。问三种处所示。问三种处理效果是否不同?理效果是否不同?3种处理因素种处理因素 每因素每因素10个个数据集名为数据集名为eg5_23 随机区组设计两因素方差分析随机区组设计两因素方差分析应用条件与单因素相同应用条件与单因素相同 存在总的

18、变异。存在总的变异。A:不同区组差异无统计学意义,不同区组差异无统计学意义,B:三种不同的处理组差异有统计学意义。三种不同的处理组差异有统计学意义。结果显示有相同字母的两均数之间比较的差异无统计学意义,不同显示有相同字母的两均数之间比较的差异无统计学意义,不同水平下均数由大到小排列,水平下均数由大到小排列,结果在左侧显示字母不同,有统计学意义结果在左侧显示字母不同,有统计学意义 5.2 两组重复测量两组重复测量 例例5-5 某研究者欲研究青光眼结膜成纤维细胞增殖某研究者欲研究青光眼结膜成纤维细胞增殖表达情况,在某医院随机抽取了表达情况,在某医院随机抽取了20例青光眼患者例青光眼患者和和24例对

19、照,取两组研究对象眼角膜细胞进行培例对照,取两组研究对象眼角膜细胞进行培养,分别在养,分别在3、6、9、12天四个时间点观察平均细天四个时间点观察平均细胞数(表胞数(表5-6)。)。变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择主效应主效应

20、交互作用交互作用重复测量方差分析l 例例7-4 为了研究与糖尿病患者脂联素相关的因素,某医师收集了为了研究与糖尿病患者脂联素相关的因素,某医师收集了30名确诊的糖尿病患者的相关资料,见表名确诊的糖尿病患者的相关资料,见表7-2,包括体重指数,包括体重指数BMI(kg/m2)、病程)、病程DY(年年)、瘦素、瘦素LEP(ng/ml)、空腹血糖)、空腹血糖FPG(mmol/L)、脂联素)、脂联素ADI(ng/ml),试分析糖尿病患者脂),试分析糖尿病患者脂联素相关因素。联素相关因素。变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的

21、方差分析线 性 回 归,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择参数估计及检验参数估计及检验 BMI、LEP偏回归系数均为负值,有显偏回归系数均为负值,有显著性,脂联素随瘦素和体重指数的增加而减小,著性,脂联素随瘦素和体重指数的增加而减小,LEP、BMI标准化回归系数的绝对值分别为标准化回归系数的绝对值分别为0.52548、0.3622,瘦素对脂瘦素对脂联素的影响大于体重

22、指数;联素的影响大于体重指数;脂联素回归方程为:脂联素回归方程为:利用此回归方程可以根据每位糖尿病患者的瘦素和体重指数利用此回归方程可以根据每位糖尿病患者的瘦素和体重指数对其脂联素进行点估计。对其脂联素进行点估计。偏回归系数偏回归系数标准化回归系数标准化回归系数LEPBMIY753.0087.1481.53多元线性回归分析多元线性回归分析 回归分析前提条件回归分析前提条件(1)线性()线性(linear):应变量与自变量呈线性变化趋势,用偏回归:应变量与自变量呈线性变化趋势,用偏回归图、残差图判断;图、残差图判断;(2)独立性()独立性(independence):个体间相互独立,通过专业知识

23、:个体间相互独立,通过专业知识和经验来判断,也可计算和经验来判断,也可计算Durbin-Watson 统计量,取值统计量,取值04,在在2附近认为满足独立性;附近认为满足独立性;(3)正态性()正态性(normality):X为某一定值时,应变量为某一定值时,应变量Y服从正态分服从正态分布,即残差服从正态分布,通过残差图或正态概率图考察;布,即残差服从正态分布,通过残差图或正态概率图考察;(4)等方差()等方差(equal variance):各:各X水平下水平下Y的总体变异相同,的总体变异相同,通过残差图判断。通过残差图判断。例:在二乙基亚硝胺诱发大白鼠鼻咽癌的实验中,一组单纯用亚硝胺例:在

24、二乙基亚硝胺诱发大白鼠鼻咽癌的实验中,一组单纯用亚硝胺用亚硝胺向鼻腔滴注(鼻注组),另一组在鼻注基础上加注维生素用亚硝胺向鼻腔滴注(鼻注组),另一组在鼻注基础上加注维生素B12,实验结果见下表。问两组发癌率的差别有无统计学意义?实验结果见下表。问两组发癌率的差别有无统计学意义?表表8-1 8-1 二乙基亚硝胺诱发大白鼠鼻咽癌实验结二乙基亚硝胺诱发大白鼠鼻咽癌实验结果果变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-

25、Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择l四格表四格表2检验检验 四格表四格表2检验的应用条件:检验的应用条件:四个格子的理论数四个格子的理论数T5且四个格子的合且四个格子的合计计n40。l四格表校正四格表校正2检验检验 当当1T5,n40时,需计算校正时,需计算校正2值。值。l四格表四格表Fisher的精确概率检验的精确概率检验 当当n40或有或有T ChiSq:P值;值;Point Estimate:比值比的点估计值:比值比的点估计值95%Confiden

26、ce Limits:比值比的:比值比的95%可信区间上限和下限可信区间上限和下限215261.08856.09099.01)(logxxppInpitLogistic回归l 例例1 某研究者收集了两组急性淋巴细胞白血病患者治疗后某研究者收集了两组急性淋巴细胞白血病患者治疗后的随访资料,淋巴细胞浸润组(的随访资料,淋巴细胞浸润组(LA)18人,无淋巴细胞人,无淋巴细胞浸润组(浸润组(NLA)25人,生存时间数据如下,不带人,生存时间数据如下,不带“”者者表示已经死亡,即完全数据,带表示已经死亡,即完全数据,带“”者表示尚存活,即者表示尚存活,即删失数据。试作生存分析。生存时间单位为月。删失数据。

27、试作生存分析。生存时间单位为月。l LA组:组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19+,20+,21+,23l NLA组:组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,20+,21,23,26,28,31,37,66,73,124+变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxo

28、n 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择 LA(1)与NLA(2)组急性淋巴细胞白血病患者生存曲线 生存分析-生存率比较l 例例10-3 30例大肠癌患者手术后生存资料见表例大肠癌患者手术后生存资料见表9-3。术。术后生存时间后生存时间time以月为单位,以月为单位,status表示随访结局表示随访结局(status1表示病例死亡,为完全数据;表示病例死亡,为完全数据;status0表示表示病例失访或尚存活,为删失数据)病例失访或尚存活,为删失数据)3个协变量分别为:个协变量分别为:性别性别sex(sex0表示女,表示女,sex

29、1表示男)、年龄表示男)、年龄age(岁)和确诊到进行手术的时间(岁)和确诊到进行手术的时间dtime(月)。试进行(月)。试进行Cox回归分析,找出影响患者生存的因素。回归分析,找出影响患者生存的因素。timestatussexagedtimetimestatussexagedtimetimestatussexagedtime610662331105810161156871067214110539191158981063164400568221154101110661054115262911607151065155910489351155712105910811661944115561510

30、6212101165184511518181064915116222560155520105881211641658115062610567141155156001573变量(Varaible)、自由度(DF)、偏回归系数(Parameter Estimate)、偏回归系数标准误(Standard Error)、2值、P值、HR值(Hazard Ratio)、HR95%可信区间(95%Hazard Ratio Confidence Limits)生存分析-Cox回归三、数据分析中存在的问题1.不重视人口学数据及描述性统计量的分析2.忽视分析方法的应用条件 ANCOVA因变量要求符合正态分布自变

31、量为数值变量,分布类型不做要求 Multiple regression analysis因变量要求符合正态分布自变量为数值变量,分布类型不做要求 Logistic regression analysis49503.数据的分组方法不合理表现为不同组别的分组界值互相包括,组间距过大或过小,掩盖了数据的规律较为合理的分组方法可考虑应用4分位数、5分位数或数值的生理、病理及临床意义4.在多因素分析中分类变量未转换为哑变量5.多因素分析中未进行模型拟合度的检验536.忽视对协变量作用的校正(adjustedfor covariates effect)ANCOVA Multiple regression analysis Logstic regression Cox regression Partial correlation analysis56谢谢

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|