1、讲座内容讲座内容医学医学文章中统计分析的应用现状文章中统计分析的应用现状如何避免误用统计分析方法如何避免误用统计分析方法临床科研中临床科研中常用的统计分析方法误用辨析常用的统计分析方法误用辨析样本量估算样本量估算相关与偏相关分析介绍及相关与偏相关分析介绍及SPSSSPSS的实现的实现生存分析及生存分析及SPSSSPSS实现实现减少减少医学论文中统计学错误的对策医学论文中统计学错误的对策1第1页,共132页。医学论文中统计分析的应用现状医学论文中统计分析的应用现状在医学事业迅速发展的今天,医学研究论文已成为主要的交流方式。但医在医学事业迅速发展的今天,医学研究论文已成为主要的交流方式。但医学论文
2、中尚存在各种统计分析方法应用上的问题,统计学缺陷涉及面:国学论文中尚存在各种统计分析方法应用上的问题,统计学缺陷涉及面:国外约外约50%50%,国内,国内80%80%以上。主要有:以上。主要有:研究研究设计不合理设计不合理(设计水平低下设计水平低下)分析分析方法选用不得当方法选用不得当(方法使用错误方法使用错误)应用应用条件不条件不遵循遵循样本样本含量不满足统计学要求含量不满足统计学要求结果结果解释不合理解释不合理(推断过于肯定推断过于肯定)统计统计报告报告(报告项目不全报告项目不全)2第2页,共132页。由于计算机应用的普及和统计分析软件的发展,统计分析的过程和由于计算机应用的普及和统计分析
3、软件的发展,统计分析的过程和步骤主要由统计软件实现,随之步骤主要由统计软件实现,随之普遍普遍出现出现乱用计算机统计软件乱用计算机统计软件现象现象不管统计分析方法的前提条件不管统计分析方法的前提条件是否满足是否满足,将数据直接代入计算机软件中,使得出,将数据直接代入计算机软件中,使得出的结果与实际相差甚远的结果与实际相差甚远 现有的统计软件使用不太方便,造成用户的现有的统计软件使用不太方便,造成用户的误用误用作为医学学术刊物的主要读者一定要正确地评价、参考和利用这些作为医学学术刊物的主要读者一定要正确地评价、参考和利用这些发表的医学发表的医学论著论著3医学论文中统计分析的应用现状医学论文中统计分
4、析的应用现状第3页,共132页。中国医学杂志的调查结果中国医学杂志的调查结果Jia He a,Zhichao Jin a,Danghui Yu.Statistical reporting Statistical reporting in Chinese biomedical journalsin Chinese biomedical journals.The Lancet,Volume 373,Issue 9681,Pages 2091-2093,20 June 2009 通过对我国医学期刊20余年来的审稿经验总结,指出我国医学统计方法应用中存在的问题结合国际大部分医学杂志的具体要求:提出改进
5、医学期刊中统计学应用水平及发表研究论文质量的对策呼吁建立中文期刊的临床试验注册规定与报告规范4第4页,共132页。如何避免误用如何避免误用统计分析统计分析方法方法明确研究设计的类型明确研究设计的类型判别数据资料的分类判别数据资料的分类选择恰当的统计分析方法选择恰当的统计分析方法遵循统计分析方法的应用条件遵循统计分析方法的应用条件合理应用软件实现统计分析合理应用软件实现统计分析对分析结果的正确解释和表达对分析结果的正确解释和表达5第5页,共132页。计量资料统计方法的合理选择计量资料统计方法的合理选择统计分析:参数法、非参数法统计分析:参数法、非参数法准确判定资料所对应的实验设计类型准确判定资料
6、所对应的实验设计类型检查资料是否具备参数检验的前提条件检查资料是否具备参数检验的前提条件独立性独立性正态性正态性方差齐性方差齐性实验设计类型:包括单因素、多因素设计,实验设计类型:包括单因素、多因素设计,具体细分:单组设计、配对设计、成组设具体细分:单组设计、配对设计、成组设计、单因素多水平设计、随机区组设计、计、单因素多水平设计、随机区组设计、析因设计、正交设计析因设计、正交设计 6第6页,共132页。设计类型与统计分析方法的匹配设计类型与统计分析方法的匹配7设计名称前提条件是否满足及假设检验方法的选定满足满足不满足不满足单组设计或配对设计t检验检验符号检验或符号秩和检验符号检验或符号秩和检
7、验成组设计t检验检验Wilcoxon秩和检验秩和检验单因素k水平设计方差分析方差分析Kruskal-Wallis秩和检验秩和检验随机区组设计方差分析方差分析Friedman秩和检验秩和检验其他各种设计方差分析方差分析最好找变量变换方法最好找变量变换方法第7页,共132页。计数资料统计方法选择计数资料统计方法选择82 22 2表表有序(配对)有序(配对)无序(成组)无序(成组)2 2C C表表有序有序无序无序R R2 2表表有序有序无序无序多维列联表多维列联表单向有序单向有序R RC C表表有序有序无序无序双向有序双向有序属性相同属性相同属性不同属性不同分组变量有序分组变量有序指标变量有序指标变
8、量有序一般一般2 2检验检验FisherFisher精确检验精确检验McNemarMcNemar2 2检验检验秩和检验或秩和检验或RiditRidit分析分析有序变量的有序变量的logisticlogistic回归分析回归分析相关性相关性-Spearman-Spearman秩相关或典型相关秩相关或典型相关一致性检验(一致性检验(KappaKappa)第8页,共132页。9第9页,共132页。10第10页,共132页。多元统计分析方法的选择多元统计分析方法的选择11因变量的类型可选用回归分析的类型非时间连续变量多重线性、反应曲面回归分析二值变量多重logistic回归分析多值有序变量有序变量的多
9、重logistic回归分析多值名义变量对数线性模型分析或扩展的多重logistic回归分析生存时间变量COX回归分析或参数回归分析时变协变量 时间序列分析第11页,共132页。临床科研中常用的统计分析方法误用辨临床科研中常用的统计分析方法误用辨析析一、实验设计存在的典型错误一、实验设计存在的典型错误二、计量资料分析常见的统计问题二、计量资料分析常见的统计问题三、计数资料分析常见的统计问题三、计数资料分析常见的统计问题四四、统计表与统计图方面的问题、统计表与统计图方面的问题五、统计分析方法表述问题五、统计分析方法表述问题12第12页,共132页。一、实验设计存在的典型错误一、实验设计存在的典型错
10、误1.1 1.1 没有遵循随机原则没有遵循随机原则1.2 1.2 缺乏对照组缺乏对照组1.3 1.3 对照不全对照不全1.4 1.4 实验分组不合理实验分组不合理1.5 1.5 没有按设计类型进行实验和收集数据没有按设计类型进行实验和收集数据1.6 1.6 组间基线资料的均衡性检验组间基线资料的均衡性检验1.7 1.7 用用“重复取样重复取样”替代替代“独立重复实验独立重复实验”1.8 1.8 样本含量过少样本含量过少13第13页,共132页。1.3 1.3 对照不全对照不全文题:文题:姜黄素抑制晶状体上皮细胞姜黄素抑制晶状体上皮细胞增殖的信号转导增殖的信号转导机制机制设计:设计:3 3个实验
11、分组:个实验分组:1.1.模型组模型组加入加入5050g gL L重组人表重组人表皮生长因子皮生长因子(rhEGF)(rhEGF);2.2.姜黄素姜黄素(Cur)(Cur)组组加入终浓度为加入终浓度为1010g gL L的的CurCur和和5050g gLrhEGFLrhEGF;3.3.空白对照组空白对照组加入等体积硝酸盐缓加入等体积硝酸盐缓冲冲液液请问:此设计正确吗请问:此设计正确吗?14辨析:辨析:本实验实际上涉及了本实验实际上涉及了“rhEGFrhEGF用用否否”、“CurCur用否用否”两个实验因素。两个实验因素。正确的实验设计应是这两个实验正确的实验设计应是这两个实验因素的全面组合,
12、所以应设因素的全面组合,所以应设4 4个组个组(2 22 2析因设计)析因设计)作者仅设立作者仅设立3 3个组,缺了个组,缺了1 1个单个单用用1010g gLCurLCur的实验组,犯了的实验组,犯了“对对照不全照不全”的错误的错误第14页,共132页。1.4 1.4 实验分组不合理实验分组不合理15文题:文题:参芪扶正注射液联合化疗治疗恶性肿瘤参芪扶正注射液联合化疗治疗恶性肿瘤8686例临床例临床观察观察问题:问题:作者选取作者选取20022002年年1212月月20042004年年5 5月住院治疗的恶性肿瘤患者月住院治疗的恶性肿瘤患者8686例,例,其中男其中男4646例,女例,女404
13、0例;年龄例;年龄26266969岁,平均岁,平均5353岁;其中岁;其中肺癌肺癌2626例,例,大肠癌大肠癌2222例,例,鼻咽癌鼻咽癌1616例,例,乳腺癌乳腺癌1212例,例,卵巢癌卵巢癌6 6例,例,恶性淋巴瘤恶性淋巴瘤4 4例。采用例。采用随机交叉试验设计随机交叉试验设计,将,将8686例患者随机等分成例患者随机等分成A A、B B两两组组请问:此设计正确吗请问:此设计正确吗?第15页,共132页。文文题:题:参芪扶正注射液联合化疗治疗恶性肿瘤参芪扶正注射液联合化疗治疗恶性肿瘤8686例临床观察。作者采用交叉实验设例临床观察。作者采用交叉实验设计,获得的实验数据见表计,获得的实验数据
14、见表1 1 请问请问:这样做正确吗:这样做正确吗?161.5 没有按设计类型进行实验和收集数据没有按设计类型进行实验和收集数据第16页,共132页。1.6 1.6 组间基线资料的均衡性检验组间基线资料的均衡性检验文题:文题:止痛如神汤对慢性非特异性溃疡性直肠炎的临床疗效止痛如神汤对慢性非特异性溃疡性直肠炎的临床疗效 组间均衡性检验:组间均衡性检验:破盲后经比较破盲后经比较试验试验前两组间性别、年龄、病程、病情、前两组间性别、年龄、病程、病情、临床类型构成等,认为两组基线特征均衡性好,具有可比性,见表临床类型构成等,认为两组基线特征均衡性好,具有可比性,见表2 2请问:下表是否有不妥之处请问:下
15、表是否有不妥之处?17第17页,共132页。1.71.7用用“重复取样重复取样”替代替代“独立重复实验独立重复实验”文题:文题:姜黄素抑制晶状体上皮细胞增殖的信号转导姜黄素抑制晶状体上皮细胞增殖的信号转导机制机制问题:问题:作者取健康小牛眼晶状体的混合消化液消化后,收集细胞,作者取健康小牛眼晶状体的混合消化液消化后,收集细胞,进行传代培养,取第三代细胞进行实验进行传代培养,取第三代细胞进行实验实验分实验分3 3组:空白对照组、模型组、姜黄素组,每组设组:空白对照组、模型组、姜黄素组,每组设6 6个个样本样本请问:此设计正确吗请问:此设计正确吗?18第18页,共132页。1.8 1.8 样本含量
16、过少样本含量过少文题:文题:芪众颗粒预防老年人上呼吸道感染临床研究芪众颗粒预防老年人上呼吸道感染临床研究问题:问题:三组之间证型分布比较,经三组之间证型分布比较,经R RC C卡方检验,无统计学意义,具有可比性(卡方检验,无统计学意义,具有可比性(2 20.8090.809,P0.05P0.05),排前三位的证型依次为:脾肺气虚(),排前三位的证型依次为:脾肺气虚(62.42%62.42%),脾肾阳虚(),脾肾阳虚(17.45%17.45%),心脾两),心脾两虚(虚(6.71%6.71%),见表),见表3 319组别组别例数例数脾肺脾肺气虚气虚脾肾脾肾阳虚阳虚心脾心脾两虚两虚肺肾肺肾阴虚阴虚心
17、肾心肾阳虚阳虚肝肾肝肾阴虚阴虚芪众颗粒组(芪众颗粒组(A A)505043433 31 11 11 11 1玉屏风颗粒组(玉屏风颗粒组(B B)494932325 55 53 33 31 1空白对照组(空白对照组(C C)5050323210101 13 33 31 1(0.980.98)合计合计14914910710718187 77 77 73 3%62.4262.4217.4517.456.716.716.046.045.375.372.012.01表表3 三组证型之间比较三组证型之间比较第19页,共132页。二、计量资料分析常见的统计问题二、计量资料分析常见的统计问题2.1 2.1 忽
18、视忽视t t检验的前提条件检验的前提条件2.2 2.2 误用成组设计资料的误用成组设计资料的t t检验分析配对设计资料检验分析配对设计资料2.3 2.3 忽视方差分析的前提条件忽视方差分析的前提条件2.4 2.4 误用误用t t检验分析等级资料检验分析等级资料2.5 2.5 误用误用t t检验处理重复测量的两因素试验设计检验处理重复测量的两因素试验设计2.6 2.6 误用配对设计的误用配对设计的t t检验处理单因素检验处理单因素k(k3)k(k3)水平设计的资料水平设计的资料2.7 2.7 多因素非平衡组合设计的统计错误多因素非平衡组合设计的统计错误2.8 2.8 正确处理析因设计或嵌套设计定
19、量资料正确处理析因设计或嵌套设计定量资料20第20页,共132页。2.1 2.1 忽视忽视t t检验的前提条件检验的前提条件 文题:文题:重症急性胰腺炎并发肝功能不全的临床研究。实验数据见表重症急性胰腺炎并发肝功能不全的临床研究。实验数据见表5 5。原文。原文作者用作者用t t检验分析此资料。检验分析此资料。请问:这样做正确吗请问:这样做正确吗?21辨析:辨析:1.1.对表对表5 5数据进行方差齐性检验,可发现两组患者的血清淀粉酶和肌酐指标不能满足方差数据进行方差齐性检验,可发现两组患者的血清淀粉酶和肌酐指标不能满足方差齐性的要求,故不能采用齐性的要求,故不能采用t t检验进行检验进行分析分析
20、正确的做法:正确的做法:采用变量变换使数据服从正态分布且方差齐,然后进行采用变量变换使数据服从正态分布且方差齐,然后进行t t检验,否则,采用非参检验,否则,采用非参数检验数检验2.2.给出确切的统计量和给出确切的统计量和P P值值第21页,共132页。2.2 2.2 误用成组设计资料的误用成组设计资料的t t检验分析配对设计资料检验分析配对设计资料22辩析:辩析:1.1.考虑到对数据进行变换是正确的。但是如果考虑到对数据进行变换是正确的。但是如果采用成组采用成组t t检验,还需要两总体方差齐检验,还需要两总体方差齐性性 但本研究是配对设计,如果采用成组但本研究是配对设计,如果采用成组t t检
21、验,会降低检检验,会降低检验效率。验效率。应该采用配对应该采用配对t t检验进行分析。注意配对检验进行分析。注意配对t t检检验的条件:要对每对数据的差值(验的条件:要对每对数据的差值(d d)进行正态性检验。)进行正态性检验。如果不满足,改用如果不满足,改用WilcoxonWilcoxon符号秩检验。符号秩检验。2.2.应给出确切的统计量和应给出确切的统计量和P P值值第22页,共132页。2.3 2.3 忽视方差分析的前提条件忽视方差分析的前提条件23确切的统计量和确切的统计量和P P值值文题:文题:姜黄素抑制晶状体上皮细胞增殖的信号转导姜黄素抑制晶状体上皮细胞增殖的信号转导机制机制问题:
22、问题:作者取健康小牛眼晶状体的混合消化液消化后,收集细胞,进行传代培养,作者取健康小牛眼晶状体的混合消化液消化后,收集细胞,进行传代培养,取第三代细胞进行取第三代细胞进行实验实验实验分实验分3 3组:组:空白对照组、模型组、姜黄素组,每组设空白对照组、模型组、姜黄素组,每组设6 6个样本个样本请问:请问:采用方差分析正确吗采用方差分析正确吗?均数均数标准标准差?差?第23页,共132页。2.4 2.4 误用误用t t检验分析等级资料检验分析等级资料文题:文题:止痛如神汤保留灌肠治疗止痛如神汤保留灌肠治疗CNUPCNUP:双盲随机安慰剂对照试验:双盲随机安慰剂对照试验24表表4 4 两组临床主要
23、症状和结肠镜肠粘膜病变评分(两组临床主要症状和结肠镜肠粘膜病变评分()xs症状症状G1组组(n=60)G2组组(n=60)治疗前治疗前治疗后治疗后治疗前治疗前治疗后治疗后腹痛腹痛2.01+0.680.85+0.561.98+0.721.29+0.69腹泻腹泻2.09+0.821.26+0.752.11+0.731.56+0.68脓血便脓血便1.82+0.420.51+0.321.91+0.411.02+0.39下坠感下坠感2.22+0.571.41+0.652.29+0.621.67+0.59充血、水肿充血、水肿1.89+0.371.11+0.411.92+0.421.59+0.38粘膜糜烂粘
24、膜糜烂1.58+0.600.50+0.491.62+0.621.01+0.48粘膜溃疡粘膜溃疡1.81+0.620.59+0.561.79+0.591.21+0.60总评分总评分15.76+3.116.87+3.0815.98+2.988.87+3.21:与对照组(与对照组(G G2 2)比较,)比较,P0.05P0.05,组间差异无统计学意义,组间差异无统计学意义;:与治疗前比较,与治疗前比较,P0.05P0.05,组内差异有统计学意义;,组内差异有统计学意义;:与对照组(与对照组(G G2 2)比较,)比较,P0.05P3)设计的资料设计的资料第41页,共132页。2.72.7多因素非平衡
25、组合设计的统计错误多因素非平衡组合设计的统计错误1 1|文题:文题:某研究者研究某研究者研究A A药对高脂血症性脂肪肝大鼠的作用药对高脂血症性脂肪肝大鼠的作用|设计:设计:建立高脂血症性脂肪肝大鼠模型,以高、中、低剂量去脂胶建立高脂血症性脂肪肝大鼠模型,以高、中、低剂量去脂胶囊进行干预,通过血液生化检查,观察其对脂肪肝大鼠血脂的囊进行干预,通过血液生化检查,观察其对脂肪肝大鼠血脂的影响影响|结果:结果:去脂胶囊能明显降低脂肪肝大鼠血脂,与对照组比较差异有去脂胶囊能明显降低脂肪肝大鼠血脂,与对照组比较差异有显著性意义显著性意义(P0.05)(P0.05)|结论:结论:去脂胶囊对大鼠脂肪肝有去脂胶
26、囊对大鼠脂肪肝有肯定肯定治疗作用治疗作用42第42页,共132页。2.72.7多因素非平衡组合设计的统计错误多因素非平衡组合设计的统计错误1 1表表 各组大鼠血清脂质比较各组大鼠血清脂质比较(均数均数标准差标准差)mmolL)mmolL-1-1组别组别TCTCTGTGHDL-CHDL-C自然恢复自然恢复2.102.100.150.152.322.320.310.310.9330.9330.0700.070A A药低剂量药低剂量2.012.010.100.102.122.120.180.180.9790.9790.0700.070A A药中剂量药中剂量1.821.820.170.171.821.
27、820.130.131.0401.0400.0800.080A A药高剂量药高剂量1.681.680.180.181.721.720.210.211.0651.0650.0670.067甲硫氨酸片甲硫氨酸片1.951.950.130.132.062.060.160.160.9630.9630.0720.07243与自然恢复组比较,与自然恢复组比较,P0.01P0.01,P0.05P0.05,与甲硫氨酸片组比较,与甲硫氨酸片组比较,P0.01 P0.01,P 0.05;n=10P 0.05;n=10本设计方案,研究者将本设计方案,研究者将A A药高、中、低药高、中、低3 3个剂量组与甲硫氨酸片组
28、和自然恢复组按个剂量组与甲硫氨酸片组和自然恢复组按多因多因素一水平素一水平的统计方法进行方差分析。其各处理组间关系的实质是的统计方法进行方差分析。其各处理组间关系的实质是两个因素两个因素:A A药治疗药治疗与甲硫氨酸片治疗,而与甲硫氨酸片治疗,而A A药高、中、低药高、中、低3 3个剂量组是个剂量组是A A药的药的3 3个水平,而不是与甲硫氨个水平,而不是与甲硫氨酸片平等的酸片平等的3 3个个因素因素第43页,共132页。2.72.7多因素非平衡组合设计的统计错误多因素非平衡组合设计的统计错误2 2 某研究者欲研究乳宁方及其拆方药物血清对体外细胞侵袭能力的影响,选用某研究者欲研究乳宁方及其拆方
29、药物血清对体外细胞侵袭能力的影响,选用SDSD大鼠大鼠2424只,只,等分成等分成6 6组:组:正常对照组正常对照组、乳宁方治疗组乳宁方治疗组(可拆解为温肾方可拆解为温肾方+疏肝活血方疏肝活血方)、温肾方治疗组温肾方治疗组、疏疏肝活血方治疗组肝活血方治疗组、三苯氧胺治疗组三苯氧胺治疗组、环磷酰胺治疗组环磷酰胺治疗组,分别接受相应药物的灌胃或注射,分别接受相应药物的灌胃或注射,然后在末次给药后进行主动脉采血,制成相应药物的血清。进行体外然后在末次给药后进行主动脉采血,制成相应药物的血清。进行体外MDA-MB-435MDA-MB-435细胞侵细胞侵袭能力试验,见表袭能力试验,见表6 6。若采用单因
30、素六。若采用单因素六水平定量资料方差分析处理此资料正确吗水平定量资料方差分析处理此资料正确吗?44第44页,共132页。2.72.7多因素非平衡组合设计的统计错误多因素非平衡组合设计的统计错误3 3文题:文题:开胃理脾口服液对脾虚小鼠肠功能的开胃理脾口服液对脾虚小鼠肠功能的影响影响实验设计:实验设计:7070只小白鼠随机分为只小白鼠随机分为7 7组,每组组,每组1010只,第只,第1 1组为组为空白组空白组,给等容生理盐水,其余各组给等容生理盐水,其余各组用大黄水造成用大黄水造成脾虚脾虚模型。模型。停食停食24h24h后,第后,第1 1、2 2组静脉注射含有组静脉注射含有10%10%炭末的冷开
31、水,第炭末的冷开水,第3 35 5组给组给含含10%10%炭末的不同剂量的开胃理脾口服液炭末的不同剂量的开胃理脾口服液,第第6 6 组给含组给含10%10%炭末的开胃理脾丸剂,第炭末的开胃理脾丸剂,第7 7 组给组给含有含有10%10%炭末的儿康宁。给药炭末的儿康宁。给药30min 30min 后处死小鼠,测量并计算炭末在小肠内的推进百分率。具后处死小鼠,测量并计算炭末在小肠内的推进百分率。具体剂量和推进率见下体剂量和推进率见下表表45第45页,共132页。辨析:辨析:(1 1)实验设计各对比组间混乱)实验设计各对比组间混乱l各剂量组、儿康宁组与各剂量组、儿康宁组与空白组空白组是否具有可比性?
32、是否具有可比性?l不同剂量的口服液、丸剂和儿康宁之间是否具有可比性?不同剂量的口服液、丸剂和儿康宁之间是否具有可比性?(2 2)分析方法误用。多次重复进行)分析方法误用。多次重复进行t t检验,增大假阳性错误的检验,增大假阳性错误的概率概率(3 3)确切的统计量和确切的统计量和P P值值 原作者对各组数据采取成组原作者对各组数据采取成组t t检验处理。开胃理脾口服液低、中、检验处理。开胃理脾口服液低、中、高剂量与模型组比较差异有统计学意义,提示本品具有促进小鼠高剂量与模型组比较差异有统计学意义,提示本品具有促进小鼠小肠运动功能的作用,其作用强度较丸剂小肠运动功能的作用,其作用强度较丸剂好好2.
33、72.7多因素非平衡组合设计的统计错误多因素非平衡组合设计的统计错误3 346第46页,共132页。2.8 2.8 正确处理析因设计或嵌套正确处理析因设计或嵌套设计计量资料设计计量资料文题:文题:丹参对骨骼肌缺血再灌注损伤低氧诱导因子一丹参对骨骼肌缺血再灌注损伤低氧诱导因子一lmRNAlmRNA表达和血液流变学的影响表达和血液流变学的影响设计:设计:研究者将研究者将6666只只SDSD大鼠随机抽取大鼠随机抽取6 6只作为正常组,对照组只作为正常组,对照组(即模型组即模型组)和丹参组各和丹参组各3030只,此只,此两组造模后分别取两组造模后分别取l0l0、2020、4040、6060、90 mi
34、n 590 min 5个时点进行观测,每个时点上个时点进行观测,每个时点上6 6只,只,处死后处死后测量相应的指标,丹参对骨骼肌缺血再灌注损伤肌肉肿胀系数的影响见表测量相应的指标,丹参对骨骼肌缺血再灌注损伤肌肉肿胀系数的影响见表8 847n=30n=30,各时点,各时点n ni i=6=6第47页,共132页。三、计数资料分析方法的常见问题三、计数资料分析方法的常见问题3.1 3.1 计算相对数时分母太小计算相对数时分母太小3.2 3.2 误用误用2 2 检验分析结果变量为有序变量的资料检验分析结果变量为有序变量的资料3.3 3.3 误用误用2 2检验回答相关性问题检验回答相关性问题3.4 3
35、.4 多值有序变量的高维列联表资料多值有序变量的高维列联表资料3.5 3.5 不满足连续性不满足连续性2 2检验条件时未做校正检验条件时未做校正3.6 3.6 误用误用2 2检验取代检验取代FisherFisher精确检验(未举例说明)精确检验(未举例说明)3.7 3.7 对对R RC C表直接分割进行两两比较(未举例说明)表直接分割进行两两比较(未举例说明)48第48页,共132页。3.1 3.1 计算相对数时分母太小计算相对数时分母太小 文文题:疏肝利胆中药防治胆固醇结石形成的实验研究。实验数据见表题:疏肝利胆中药防治胆固醇结石形成的实验研究。实验数据见表4 4。请问:在表达资料方面有何不
36、妥之处请问:在表达资料方面有何不妥之处?49辨析:辨析:计算相对数时,分母过小,相对数很不稳定,易失真,不但不能正确反映事实真相,还往往计算相对数时,分母过小,相对数很不稳定,易失真,不但不能正确反映事实真相,还往往会造成会造成错觉错觉 在表在表4 4中,各组样本例数都小于中,各组样本例数都小于2020,样本例数偏小,不宜计算率,直接给出例数就,样本例数偏小,不宜计算率,直接给出例数就可以可以确切的统计量和确切的统计量和P P值值第49页,共132页。3.2 3.2 误用误用2 2 检验分析结果变量为有序变量的资料检验分析结果变量为有序变量的资料某医生用某医生用A A、B B两药治疗某病各两药
37、治疗某病各240240例例,其疗效分为四个等级:痊愈、显效、好转、无效其疗效分为四个等级:痊愈、显效、好转、无效,见表见表4 4。经。经R RC C表表2 2检验检验,2 2=53.33,=53.33,P P 0.01,0.01,认为两组疗效之间的差异有统计学认为两组疗效之间的差异有统计学意义意义50辨析:辨析:u 本资料属于单项有序的本资料属于单项有序的R RC C表,临床疗效有等级之分,对于等级资料可采用表,临床疗效有等级之分,对于等级资料可采用RiditRidit分析或分析或秩和检验。而不应用秩和检验。而不应用R RC C的的2 2检验,检验,R RC C表表2 2 检验只能检验两组内部
38、构成是否相同或检验只能检验两组内部构成是否相同或频数的分布是否相同,不能检验疗效有无差别。不难看出,若对表频数的分布是否相同,不能检验疗效有无差别。不难看出,若对表4 4资料任意两列数资料任意两列数字进行对换字进行对换,可以清楚地发现可以清楚地发现,2 2值仍为值仍为53.33,53.33,不会有改变不会有改变确切的统计量确切的统计量P P值值第50页,共132页。3.3 3.3 误用误用2 2检验回答相关性问题检验回答相关性问题l上述资料上述资料用用2 2检验得:检验得:2 2=163=163.0101,P P 0.050.05或或P P0.05 0.05、P P0.010.01便称结果无显
39、著差异,或结果非常便称结果无显著差异,或结果非常显著,对吗?显著,对吗?65五、统计分析方法表述问题五、统计分析方法表述问题5 5u假设检验结果正确的表达方法是:假设检验结果正确的表达方法是:应写出描述性统计量,如样本均数、率、相关系数、回归系数、相对危险应写出描述性统计量,如样本均数、率、相关系数、回归系数、相对危险度、半数效量等,及其可信区间、检验统计量,如度、半数效量等,及其可信区间、检验统计量,如2 2、t t、u u、F F 值等值等)、P P值;然后值;然后根据根据P P值大小作出统计学推断,并作出相应的医学专业值大小作出统计学推断,并作出相应的医学专业结论结论第65页,共132页
40、。u北京血液中心北京血液中心XXXXXX主任介绍:香港医务人员用已康复者血浆治疗主任介绍:香港医务人员用已康复者血浆治疗2020例非典病例非典病人无一例死亡,而其对照组人无一例死亡,而其对照组2020例中,有例中,有3 3人人死亡死亡这这表明用康复病人血浆治表明用康复病人血浆治疗非典病人是有效疗非典病人是有效的的 -摘自摘自 2003.5.282003.5.28u用康复病人血浆治疗非典病人真有效吗?用康复病人血浆治疗非典病人真有效吗?66五、统计分析方法表述问题五、统计分析方法表述问题6 6第66页,共132页。样本量的估算样本量的估算样本含量的估计样本含量的估计在实验开始前,应确定需要多少实
41、验对象或观在实验开始前,应确定需要多少实验对象或观察对象察对象检验效能检验效能判断在已有样本量条件下,有多大把握判断在已有样本量条件下,有多大把握(检验检验效能效能)可以发现总体间存在的差异可以发现总体间存在的差异一般的临床研究根据主要疗效指标的预估一般的临床研究根据主要疗效指标的预估进行样本量的估算进行样本量的估算假设检验的第假设检验的第类错误概率类错误概率,即检验水平,即检验水平(一般取(一般取0.050.05)假设检验的第假设检验的第类错误概率类错误概率?,或检验效能,或检验效能1-1-?(检验效能应不低于(检验效能应不低于0.750.75预测值)预测值)两总体率两总体率p1p1,p2p
42、2(或者两总体均数(或者两总体均数11,22,或均数之差或均数之差1-21-2;两总体标准差;两总体标准差11,22。可通过预实验、查阅文献和专业知识判断)可通过预实验、查阅文献和专业知识判断)另外其他统计分析的要求另外其他统计分析的要求生存分析生存分析因子分析因子分析67第67页,共132页。样本量估算相关软件样本量估算相关软件StataStata软件用于样本含量和检验效能的估计主要命软件用于样本含量和检验效能的估计主要命令令:sampsi:sampsi,可用于以下五种情形,可用于以下五种情形两样本均数的比较两样本均数的比较单样本均数与已知总体均数的比较单样本均数与已知总体均数的比较单样本率
43、与已知总体率的比较单样本率与已知总体率的比较两样本率的比较两样本率的比较重复测量设计重复测量设计68第68页,共132页。样本量估算样本量估算PASSPASS软件软件PASSPASS软件相对软件相对StataStata软件更专业,包括以下软件更专业,包括以下统计分析方法的样本量估算:统计分析方法的样本量估算:等效性检验等效性检验非劣效性检验非劣效性检验生存分析生存分析 69第69页,共132页。第70页,共132页。相关与偏相关分析介绍及相关与偏相关分析介绍及SPSSSPSS实现实现 :仅是研究变量之间的相互关系的密切程度和变化趋势,并用适当的统计指标描述:把变量间相互关系用函数表达出来,用一
44、个或多个变量的取值来估计另一个变量的取值变量和变量之间的关系可以分为:确定性关系:变量之间的关系可以用精确的函数描述出来不确定性关系:变量之间存在某种联系,但是这种联系是不能用精确的函数描述出来 可见相关分析是研究变量间不确定性关系的一种统计方法,而回归分析更倾向于研究变量间的确定性关系 第71页,共132页。1 1 两变量相关分析两变量相关分析两变量相关分析简介 两样本相关分析即是研究两个变量之间相关关系的统计方法。它主要由相关系数来刻画。二维随机变量(X,Y)的相关系数(,)()()XYCov X YE XEX YEYDXDYDXDY第72页,共132页。2 2 常用相关系数常用相关系数P
45、earsonPearson相关系数:用于对定距变量的数据进行计算,即分析两个连相关系数:用于对定距变量的数据进行计算,即分析两个连续性数据之间的关系续性数据之间的关系 SpearmanSpearman秩相关系数秩相关系数 :用于描述分类或等级变量之间、分类或等级:用于描述分类或等级变量之间、分类或等级变量与连续变量之间的相关关系变量与连续变量之间的相关关系 KendallKendall相关系数相关系数 :用于描述分类或等级变量之间、分类或等:用于描述分类或等级变量之间、分类或等级变量与连续变量之间的相关关系级变量与连续变量之间的相关关系73第73页,共132页。3 3 偏相关分析偏相关分析在实
46、际问题中,两变量间的相关关系往往还要受到其它因素的影响。这些影响有时候会使相关分析的结果变得不那么可靠所谓偏相关分析,即是指在研究两变量之间的相关关系的时候,所谓偏相关分析,即是指在研究两变量之间的相关关系的时候,将与这两个变量有联系的其它变量控制不变的统计方法将与这两个变量有联系的其它变量控制不变的统计方法根据控制变量的个数,将偏相关分析分为:零阶偏相关分析:没有控制变量的相关分析,这就等同于一般的相关分析一阶偏相关分析:有一个控制变量的相关分析二阶偏相关分析:有两个控制变量的偏相关分析,第74页,共132页。从中国30个省区抽样的文盲率(单位:1)和各省人均GDP(单位:元),问文盲率与人
47、均GDP之间是否相关?是正相关还是负相关?4 4 相关分析实例相关分析实例第75页,共132页。执行【Analyze】/【Correlate】/【Bivariate】命令,弹出【Bivariate】对话框 第76页,共132页。结果解读结果解读利用散点图确定变量间关系首先通过散点图判断变量间是否有相关关系第77页,共132页。相关系数表第78页,共132页。已知有某河流的一年月平均流量观测数据和该河流所在地区当年的月平均雨量和月平均温度观测数据,如表所示。试分析温度与河水流量之间的相关关系5 5 偏相关分析实例偏相关分析实例第79页,共132页。执行【Analyze】/【Correlate】/
48、【Partial】命令,弹出【Partial】对话框 第80页,共132页。结果解读结果解读相关分析偏相关分析相关分析和偏相关分析结论相反!第81页,共132页。生存分析及生存分析及SPSSSPSS的实现的实现 生存分析生存分析(survival analysis)定义:是将定义:是将事件的结果(终点事件)事件的结果(终点事件)和出现结果经历的时间结合起来分析的一种统计分析和出现结果经历的时间结合起来分析的一种统计分析方法方法 生存分析的目的:生存分析的目的:描述生存过程:描述生存过程:估计不同时间的总体生存率,估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线计算中位生存期,绘制生存
49、函数曲线 比较比较:比较不同处理组的生存率,如比较不:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优案较优 影响因素分析影响因素分析:研究某个或某些因素对生:研究某个或某些因素对生存率或生存时间的影响作用存率或生存时间的影响作用 预测预测:建立:建立coxcox回归预测模型回归预测模型 相对应的统计方法:相对应的统计方法:Kaplan-MeierKaplan-Meier(K-MK-M)法、寿)法、寿命表法命表法 log-ranklog-rank检验等检验等coxcox比例风险回归模型等比例风险回归模型等建立建立coxcox
50、回归预测模型回归预测模型第82页,共132页。生存分析生存分析(Survival Analysis(Survival Analysis)菜单菜单83第83页,共132页。寿命表寿命表(Life TablesLife Tables)过程过程Life tables 过程用于(小样本和大样本资料):估计某生存时间的生存率,以及中位生存时间 绘制各种曲线:如生存函数、风险函数曲线等 对某一研究因素不同水平的生存时间分布的比较 控制另一个因素后对研究因素不同水平的生存时间分布的比较 对多组生存时间分布进行两两比较(比较总体生存时间分布采用wilcoxon检验)84第84页,共132页。实例分析实例分析例