1、临床研究资料常用统计分析方法临床研究资料常用统计分析方法1统计数据分析是一门综合技术,统计数据分析是一门综合技术,也是一门高超的艺术!也是一门高超的艺术!?医学专业知识医学专业知识?医学统计学理论知识医学统计学理论知识?计算机统计软件技术计算机统计软件技术2?学习了统计学理论知识,并不代表已经有学习了统计学理论知识,并不代表已经有能力进行统计数据分析。要不断进行实践。能力进行统计数据分析。要不断进行实践。?实际科研工作中的实际科研工作中的“原型原型”资料与教科书上资料与教科书上的的“标准型标准型”例子有一定差距。例子有一定差距。?应用统计软件进行计算分析一定要有正确的应用统计软件进行计算分析一
2、定要有正确的综合的统计理论方法的后台背景指导。综合的统计理论方法的后台背景指导。?不但要注重对统计方法的选择,而且要注重不但要注重对统计方法的选择,而且要注重对分析结果的解释。对分析结果的解释。3一、概述一、概述二、原始数据的录入二、原始数据的录入三、数据处理的几个基本问题三、数据处理的几个基本问题四、统计方法选择的基本思路四、统计方法选择的基本思路五、统计分析结果的表述五、统计分析结果的表述4研究研究设计设计观察性研究观察性研究(调查调查)实验性研究实验性研究统计描述统计描述统计推断统计推断医学统医学统计计学学数据数据处理处理参数估计参数估计假设检验假设检验5简单随机简单随机普查普查系统系统
3、研究目的研究目的概概率率按范围按范围分层随机分层随机抽样抽样非概率非概率整群整群调查方法调查方法调查设计调查设计横向横向(现况调查现况调查)按时间按时间队列研究队列研究调查对象调查对象纵向纵向 病例对照研究病例对照研究调查指标调查指标调查工具调查工具调查员调查员nested case control study6实验设计实验设计动物实验动物实验实验分类实验分类临床试验临床试验社区干预试验社区干预试验处理因素处理因素基本要素基本要素受试对象受试对象实验效应实验效应7诊断试验诊断试验疾病防治疾病防治病因病因疾病预后疾病预后实验设计实验设计原则:原则:专设、同步、均衡专设、同步、均衡对对 照照平行:
4、平行:无治疗无治疗安慰剂安慰剂随机化、盲法随机化、盲法阳性治疗阳性治疗不同剂量不同剂量?形式形式自身处理前后自身处理前后基本原则基本原则重重复复(样本含量样本含量)1-1-?、?、?8统计描述统计描述计数计数(无序分类无序分类)等级等级(有序分类有序分类)统计统计定比定比(0表示无,如体重表示无,如体重kg)计量计量资料资料定距定距(0不表示无,如温度不表示无,如温度0C)类型类型数学数学连续型连续型(计量计量)离散型:计数离散型:计数计量:脉搏次数计量:脉搏次数/分分9统计描述统计描述一张表表达一个中心内容一张表表达一个中心内容制表原则制表原则主辞在左、宾辞在右主辞在左、宾辞在右简单明了简单
5、明了统计表统计表制表要求制表要求标题标题标目标目线条线条数字数字备注备注10统计描述统计描述离散型资料离散型资料(计数、计量计数、计量)制图原则制图原则统计图统计图制图要求制图要求条图、圆图、百分比条图条图、圆图、百分比条图连续型资料连续型资料(计量计量)线图、直方图、散点图线图、直方图、散点图标题标题标目标目纵轴、横轴纵轴、横轴刻度刻度图例图例11统计描述统计描述中心中心位置位置正态:正态:X、M对数正态:对数正态:XG非正态:非正态:M正态正态量纲相同量纲相同:S量纲不同量纲不同:CV计量资料计量资料(单变量单变量)统计统计指标指标计量资料计量资料(双变量双变量)离散离散程度程度个体值个体
6、值非正态非正态:QRX样本均数:样本均数:S偏度:偏度:g1峰度:峰度:g212统计描述统计描述计量资料计量资料(单变量单变量)统计统计指标指标计量资料计量资料(双变量双变量)r、b离散程度:离散程度:Sb、Sr13统计描述统计描述中心位置:均数向量中心位置:均数向量统计统计指标指标计量资料计量资料(多变量多变量)离散程度:离均差平方离散程度:离均差平方和矩阵和矩阵协方差矩阵协方差矩阵相互关系:相关矩阵相互关系:相关矩阵14统计描述统计描述计数资料计数资料统计统计指标指标率、构成比、相对比率、构成比、相对比RR(OR)标准误标准误离散程度:离散程度:等级等级资料资料双变量:双变量:rs秩号、秩
7、和秩号、秩和单变量单变量离散程度:离散程度:秩和的标准误秩和的标准误15统计描述统计描述正态正态参参 考考 值值范围估计范围估计偏态偏态双侧:双侧:X?u?/2S单侧:单侧:X?u?S或或X?u?S双侧:双侧:px p100?x单侧:单侧:px或或p100?x16统计推断统计推断点估计点估计参数参数估计估计X?、p?、r?、b?S?、S?22SX?X、Sp?p单侧:单侧:X?t?,?SX或或X?t?,?SX区间区间双侧:双侧:p?u?/2Sp?估计估计p?u Sp?u S或或?p单侧:单侧:?pg1?1、g2?2双侧:双侧:X?t?/2,?SX?RR(OR):RR(OR)21?u?/2?MH?
8、17统计推断统计推断1.进行检验假设进行检验假设假设样本来自某一特定总体假设样本来自某一特定总体2.确定检验水准确定检验水准确定最大允许误差确定最大允许误差3.选定检验方法计算检验统计量选定检验方法计算检验统计量计算样本与总体的偏离程度计算样本与总体的偏离程度4.根据某一特定分布计算与检验统根据某一特定分布计算与检验统计量对应的计量对应的P值值5.作出结论作出结论根据小概率反证法思想作出推断根据小概率反证法思想作出推断假设假设检验检验步骤步骤18统计推断统计推断比较差别:比较差别:?2、t、F、q、log-rank、秩和检验等秩和检验等联系:相关、回归分析联系:相关、回归分析分类:回归分析、判
9、别分析分类:回归分析、判别分析推测:回归分析推测:回归分析筛选影响因素:回归分析筛选影响因素:回归分析综合变量信息:主成分分析综合变量信息:主成分分析寻找潜在支配因素:因子分析寻找潜在支配因素:因子分析19假设假设检验检验方法方法统计分析软件统计分析软件?SPSS(有人称有人称“鼠标软件鼠标软件”)?SAS(Statistical Analysis System)?Stata?R(方法新、提供源程序、免费方法新、提供源程序、免费)20?SPSS软件软件Statistical Package for Social Science(社会科学统计软件包社会科学统计软件包)后改名为后改名为:Stati
10、stical Product and Service Solutions(统计产品与服务解决方案统计产品与服务解决方案)?现改名为现改名为PASWPredictive Analytics Software预测分析软件预测分析软件21一、概述一、概述二、原始数据的录入二、原始数据的录入三、数据处理的几个基本问题三、数据处理的几个基本问题四、统计方法选择的基本思路四、统计方法选择的基本思路五、统计分析结果的表述五、统计分析结果的表述22原始数据的记录形式原始数据的记录形式肾衰病人预后研究的临床资料记录肾衰病人预后研究的临床资料记录 病人编病人编号号 病案号病案号 性性别别 年年龄龄 生理评生理评分
11、分 肾毒肾毒性性 黄黄疸疸 昏昏迷迷 肌酐肌酐 胆固胆固醇醇 肾功能预肾功能预后后 1 2 3 4 274 004757 男男 26 007950 女女 31 011093 男男 55 017555 男男 25 14 13 17 9 15 无无 无无 无无 无无 有有 有有 无无 无无 无无 无无 无无 520 523 209 4.5 3.3 治愈治愈 治愈治愈 治愈治愈 治愈治愈 丧失丧失 无无 无无 1303 4.1 无无 无无 331 6.1 279183 女女 88 行:观察单位行:观察单位列:变量列:变量23肾衰病人预后研究的临床资料记录肾衰病人预后研究的临床资料记录 病人病人编号编
12、号 生理生理病案号病案号 性别性别 年龄年龄 评分评分 肾毒肾毒性性 黄疸黄疸 昏迷昏迷 肌酐肌酐 胆固胆固醇醇 肾功能肾功能预后预后 1 2 3 4 274 004757 007950 011093 017555 279183 男男 女女 男男 男男 女女 26 31 55 25 88 14 13 17 9 15 无无 无无 无无 无无 有有 有有 无无 无无 无无 无无 无无 无无 无无 无无 无无 520 523 209 1303 331 4.5 3.3 4.1 6.1 治愈治愈 治愈治愈 治愈治愈 治愈治愈 丧失丧失 标识变量标识变量分析变量分析变量24肾衰病人预后研究的临床资料记录肾
13、衰病人预后研究的临床资料记录 病人病人编号编号 病案号病案号 性别性别 年龄年龄 生理生理评分评分 肾毒肾毒性性 黄疸黄疸 昏迷昏迷 肌酐肌酐 胆固胆固醇醇 肾功能肾功能预后预后 1 2 3 4 274 004757 007950 011093 017555 279183 男男 女女 男男 男男 女女 26 31 55 25 88 14 13 17 9 15 无无 无无 无无 无无 有有 有有 无无 无无 无无 无无 无无 无无 无无 无无 无无 520 523 209 1303 331 4.5 3.3 4.1 6.1 治愈治愈 治愈治愈 治愈治愈 治愈治愈 丧失丧失 自变量自变量(解释变量解
14、释变量)反应变量反应变量25标识变量标识变量分析变量分析变量原始数据的录入原始数据的录入文件类型:文件类型:数据库文件:数据库文件:EpiDataExcel文件:文件:Excel统计软件数据文件:统计软件数据文件:SPSS(PASW)、SAS、Stata 变量名及标签:变量名及标签:变量值及标签:变量值及标签:名义变量值的量化:名义变量值的量化:有序、无序分类资料有序、无序分类资料26高血压患者治疗前后的舒张压高血压患者治疗前后的舒张压(mmHg)顺序号顺序号 1 2 3 4 5 6 7 8 9 10 处理组处理组 治疗前治疗前 130 124 136 128 122 118 116 138
15、126 124 治疗后治疗后 114 110 126 116 102 100 98 122 108 106 顺序号顺序号 11 12 13 14 15 16 17 18 19 20 对照组对照组 治疗前治疗前 118 132 134 114 118 128 118 132 120 134 治疗后治疗后 124 122 132 96 124 118 116 122 124 128 27标题栏标题栏菜单栏菜单栏工具按钮栏工具按钮栏数据单元格显示数据单元格显示数据文件建立原则数据文件建立原则一个观测占一行一个观测占一行一个变量占一列一个变量占一列数据编辑窗口数据编辑窗口数据窗数据窗2728变变量量名
16、名变变量量类类型型变变量量宽宽度度保保留留小小数数位位数数变变量量名名标标签签变变量量值值标标签签缺缺失失值值显显示示数数据据列列宽宽数数据据对对齐齐方方式式变变量量度度量量类类型型数据编辑窗口数据编辑窗口变量窗变量窗2829定量变量定量变量Scale等级变量等级变量 Ordinal 名义变量名义变量 Nominal2930标准数值型标准数值型逗号数值型逗号数值型圆点数值型圆点数值型科学记数法科学记数法日日期期自自定定字字符符型型义义型型带美元符号数值型带美元符号数值型3130名义变量的哑变量化名义变量的哑变量化原资料原资料姓名姓名性别性别年龄年龄X1X2疗法疗法X3疗疗 法法西西 医医中西医
17、中西医中中 医医X31100X32010张三张三李四李四115020中西医中西医西医西医哑变量化哑变量化姓名姓名张三张三李四李四X111X25020X3101X3210王五王五刘六刘六赵七赵七孙八孙八001018703529中医中医中医中医中西医中西医西医西医王五王五刘六刘六赵七赵七孙八孙八0010187035290001001032一、概述一、概述二、原始数据的录入二、原始数据的录入三、数据处理的几个基本问题三、数据处理的几个基本问题四、统计方法选择的基本思路四、统计方法选择的基本思路五、统计分析结果的表述五、统计分析结果的表述33数据的净化数据的净化逻辑检查逻辑检查计算检查计算检查离群数据
18、的处理离群数据的处理离群值离群值(outliner)与与P25或或P75的距离为的距离为“四分位数间距四分位数间距”的的1.53.0倍。倍。极端值极端值(extreme value)与与P25或或P75的距离的距离为为“四分位数间距四分位数间距”的的3.0 倍以上。倍以上。剔除离群或极端值要予以合理解释。剔除离群或极端值要予以合理解释。34数据质量有问题,数据质量有问题,使用的统计方法越高级,使用的统计方法越高级,欺骗性越大欺骗性越大!35一、概述一、概述二、原始数据的录入二、原始数据的录入三、数据处理的几个基本问题三、数据处理的几个基本问题四、统计方法选择的基本思路四、统计方法选择的基本思路
19、五、统计分析结果的表述五、统计分析结果的表述36设计类型:设计类型:完全随机、随机区组、拉丁方、完全随机、随机区组、拉丁方、交叉、析因、正交、嵌套、裂区设计交叉、析因、正交、嵌套、裂区设计处理因素:处理因素:单因素、双因素、多因素单因素、双因素、多因素水平:水平:单水平、两水平、多水平单水平、两水平、多水平处理效应:处理效应:单变量、双变量、多变量单变量、双变量、多变量资料类型:资料类型:计量、无序分类、有序分类计量、无序分类、有序分类数据情况:数据情况:完全数据、不完全数据、完全数据、不完全数据、重复测量数据、层次结构数据重复测量数据、层次结构数据假设检验方法前提条件:假设检验方法前提条件:
20、重要重要独立、方差齐性、正态分布独立、方差齐性、正态分布37A 与与 B 药联用产妇分娩镇痛时间药联用产妇分娩镇痛时间(min)A 药物剂量药物剂量 1.0mg 2.5mg 5.0mg 5g 105 80 65 75 115 80 85 120 125 B 药物剂量药物剂量 15g 115 105 80 125 130 90 65 120 100 30g 75 95 85 135 120 150 180 190 160 二个处理因素,观测指标为单变量。二个处理因素,观测指标为单变量。38三组慢性胃炎儿童外周血三组慢性胃炎儿童外周血T细胞百分比细胞百分比()编编治疗治疗组组 T4 编编治疗治疗组
21、组 T4 编编对照组对照组 T4 T8 号号 T3 T8 号号 T3 T8 号号 T3 1 63.6 30.2 31.2 1 53.4 22.5 25.0 1 72.4 42.5 29.9 2 60.0 30.0 33.4 2 46.5 20.0 14.6 2 75.0 49.5 29.3 3 63.2 35.3 27.9 3 38.1 25.9 18.1 3 75.9 30.0 40.0 4 32.1 12.1 11.8 4 70.0 32.0 36.4 5 72.8 36.7 33.1 39一个处理因素,观测指标为三个变量。一个处理因素,观测指标为三个变量。(一一)单变量计量资料单变量计量
22、资料1.样本均数与总体均数比较样本均数与总体均数比较单因素单因素服从正态分布服从正态分布单样本单样本t检验检验可信区间法可信区间法不服从正态分布不服从正态分布单个样本中位数与总体中位数比较单个样本中位数与总体中位数比较40(一一)单变量计量资料单变量计量资料2.两个相关样本均数的比较两个相关样本均数的比较单因素单因素配对设计或自身前后对照设计配对设计或自身前后对照设计差值服从正态分布差值服从正态分布(1-)可信区间不可信区间不成对成对t t检验检验包括包括 d=0,P T?1Pearson?检验检验(Yates 校正公式校正公式)N40 或或 T 1Fisher 确切概率法确切概率法(2)配对
23、设计配对设计2 McNemar?检验检验55两种疗法降低颅内压有效率的比较两种疗法降低颅内压有效率的比较 组组 别别 试验组试验组 对照组对照组 合合 计计 有有 效效 无无 效效 合合 计计 有效率(有效率(%)104 96 200 95.20 78.13 87.00 99(90.48)5(13.52)75(83.52)21(12.48)174 26 Y(疗效疗效)=1 有效有效1 新疗法新疗法0 无效无效X1(疗法疗法)=0 传统疗法传统疗法数据输数据输入格式入格式组别组别 疗效疗效 频数频数1 1 991 0 50 1 750 0 2156(二二)计数资料计数资料3.病例对照研究成组资料
24、分层分析病例对照研究成组资料分层分析饮酒与食道癌关系的病例对照研究饮酒与食道癌关系的病例对照研究(按吸烟分层按吸烟分层)饮酒史饮酒史 饮饮 酒酒 不饮酒不饮酒 合合 计计 吸烟组吸烟组 病例病例 对照对照 69 9 78 191 257 448 合计合计 病例病例 260 266 526 102 20 122 不吸烟组不吸烟组 对照对照 190 138 328 合计合计 292 158 450 57(1)检验病例组与对照组有暴露史检验病例组与对照组有暴露史(饮酒饮酒)的比例的比例2 是否有差异是否有差异:分层分层Pearson?检验检验(2)剔除混杂因素剔除混杂因素(吸烟吸烟)影响后分析饮酒与
25、食管影响后分析饮酒与食管癌关联癌关联:Mantel-Haenszel?2 检验检验(3)计算暴露与疾病的关联强度计算暴露与疾病的关联强度?病例组暴露于危险因素病例组暴露于危险因素 比不暴露的优比不暴露的优a/bOR?对照组暴露于危险因素对照组暴露于危险因素 比不暴露的优比不暴露的优c/d分层分层OR值计算值计算;分层分层OR值一致性检验值一致性检验;如一致,计算如一致,计算Mantel-Haenszel公共公共OR值。值。58(二二)计数资料计数资料4.R?C列联表列联表相关、相差相关、相差(1)双向有序双向有序备择假设:行变量与列变量为非零相关备择假设:行变量与列变量为非零相关2 Cochr
26、an-Mantel-Haenszel?检验检验有序分组资料的线性趋势检验有序分组资料的线性趋势检验?2 回归回归59双向有序的双向有序的RC表资料表资料278例死亡尸解患者年龄与冠状动脉硬化的关系例死亡尸解患者年龄与冠状动脉硬化的关系 年龄年龄(岁岁)(X)20 30 40 50 合计合计 70 27 16 9 122 冠状动脉硬化等级冠状动脉硬化等级(Y)+22 24 23 20 89 合计合计+2 3 7 14 26 98 63 59 58 278 60+4 9 13 15 41(二二)计数资料计数资料4.R?C列联表列联表相关、相差相关、相差(2)单向单向(反应变量反应变量)有序有序分组
27、变量无序分组变量无序备择假设:行平均得分不同备择假设:行平均得分不同2 Cochran-Mantel-Haenszel?检验检验Wilcoxon 秩和检验秩和检验61单向有序单向有序(仅指反应变量仅指反应变量)的的RC表资料表资料两组受检者晶体混浊程度的比较两组受检者晶体混浊程度的比较 比比 较较 组组 接触射线组接触射线组 对对 照照 组组 合合 计计 晶晶 体体 混混 浊浊 程程 度度 9 9 18+50 36 86 +54 14 68+14 12 26+15 3 18 142 74 216 62合计合计 (二二)计数资料计数资料4.R?C列联表列联表相关、相差相关、相差(3)双向无序双向
28、无序备择假设:行变量与列变量有一般关联备择假设:行变量与列变量有一般关联Cochran-Mantel-Haenszel?2 检验检验Pearson?2 检验检验63双向无序的双向无序的RC表资料表资料某地某地 5801 人的血型人的血型 MN 血型血型 ABO 血型血型 M O A B AB 合计合计 431 388 495 137 1451 N 490 410 587 179 1666 MN 902 800 950 32 2684 1823 1598 2032 348 5801 64合计合计 (三三)等级资料等级资料1.配对设计配对设计Wilcoxon符号秩检验符号秩检验2.两组独立样本两组
29、独立样本Wilcoxon两样本秩和检验两样本秩和检验3.完全随机设计多个样本比较完全随机设计多个样本比较Kruskal-Wallis H 检验检验4.随机区组设计多个样本比较随机区组设计多个样本比较Friedman M 检验检验65(四四)双变量计量资料双变量计量资料1.相关分析相关分析X1与与X2服从二元正态分布服从二元正态分布Pearson积差相关分析积差相关分析X1与与X2不服从二元正态分布不服从二元正态分布Spearman秩相关分析秩相关分析2.回归分析回归分析Y与与X服从二元正态分布服从二元正态分布或或 Y服从正态分布而服从正态分布而X为控制变量为控制变量Y与与X间呈直线趋势间呈直线
30、趋势直线回归分析直线回归分析663.曲线回归分析(曲线回归分析(SPSS)1.Linear 线性模型线性模型 Y?b0?b1X 2.Quadratic 二次模型二次模型 Y?b0?b1X?b2X3.Compound 复合模型复合模型 Y?b0 b4.Growth 生长模型生长模型 Y?e(b0?b1 X)X125.Logarithmic 对数模型对数模型 Y?b0?b1lnX6.Cubic 三次模型三次模型 Y?b0?b1X?b2X?b3X23673.曲线回归分析(曲线回归分析(SPSS)Y?e S型模型型模型 7.S (b0?b1/X)b1 XY?b0 e 指数模型指数模型l 8.Expon
31、entiaY?b0?b1/X 逆模型逆模型 9.InverseY?b0 X 幂模型幂模型10.Power b1 1Y?模型模型Logistic 11.Logistica?bX1?e684.协方差分析协方差分析比较带有协变量比较带有协变量(Xj)的各组均数的各组均数()Yj间的差别间的差别协变量协变量Xj对对Yj有影响有影响分为完全随机设计与随机区组设计分为完全随机设计与随机区组设计三种饲料喂养猪的初始体重三种饲料喂养猪的初始体重(X,kg)与增重与增重(Y,kg)nj j)(Xj 、YA 饲料饲料 X1 15 13 11 12 12 16 14 17 8 13.750 Y1 85 83 65
32、76 80 91 84 90 8 81.750 X2 17 16 18 18 21 22 19 18 8 18.625 B 饲料饲料 Y2 97 90 100 95 103 106 99 94 8 98.000 X3 22 24 20 23 25 27 30 32 8 C 饲料饲料 Y3 89 91 83 95 100 102 105 110 8 96.875 25.375 69(五五)多变量资料多变量资料1.有应变量的多元分析有应变量的多元分析有应变量的多元分析数据类型有应变量的多元分析数据类型 应变量应变量 case Y 1 2 3 n Y1 Y2 Y3 Yn X1 X11 X21 X31
33、 Xn1 X2 X12 X22 X32 Xn2 X3 X13 X23 X33 Xn3 X4 X14 X24 X34 Xn4 Xm X1m X2m X3m Xnm 70 自自 变变 量量 (五五)多变量资料多变量资料1.有应变量的多元分析有应变量的多元分析Y为计量资料且服从正态分布为计量资料且服从正态分布自变量服从多元正态分布自变量服从多元正态分布多元线性回归或多元逐步回归分析多元线性回归或多元逐步回归分析Y?X?X?X01122kk?j的意义为在其它自变量保持不变时,的意义为在其它自变量保持不变时,Xj增加或减少一个单位时增加或减少一个单位时Y的平均变化量。的平均变化量。?可排除混杂因素影响。
34、可排除混杂因素影响。71(五五)多变量资料多变量资料1.有应变量的多元分析有应变量的多元分析Y为二分类或多分类变量为二分类或多分类变量以分析影响以分析影响Y的危险因素为主要目的的危险因素为主要目的Logistic 回归分析回归分析?P?ln?X?X?X?01122kk1?P?ORj?e?j72(五五)多变量资料多变量资料1.有应变量的多元分析有应变量的多元分析Y为生存时间且含有截尾数据为生存时间且含有截尾数据以分析影响以分析影响Y的危险因素为主要目的的危险因素为主要目的Cox比例风险回归分析比例风险回归分析?h(t,X)?ln?X?X?X1122kk?h?(t)?0?7310年间年间346例大
35、肠癌患者手术后的生存时间记录例大肠癌患者手术后的生存时间记录 患者患者 性性年年 确诊到确诊到 手术开手术开 编号编号 别别 龄龄 手术时手术时 始时间始时间 (岁岁)间间(月月)1 2 3 4?男男 女女 女女 男男?32 48 26 55?58 10 12 6 3?8 终止随终止随 访时间访时间 结局结局 生存生存 时间时间(月月)11 10 37 25?9 74+94.01.23 94.12.24 死亡死亡 98.02.14 99.01.01 失访失访 92.03.04 95.04.12 死亡死亡 99.08.20 01.09.21 死于其他疾病死于其他疾病?346 女女 01.03.1
36、0 01.12.31 存活存活 开始观察时间开始观察时间:1992.01.01 终止随访时间终止随访时间:2001.12.31(五五)多变量资料多变量资料1.有应变量的多元分析有应变量的多元分析Y为二分类或多分类变量为二分类或多分类变量根据判别对象若干个指标的观测值判定其根据判别对象若干个指标的观测值判定其应属于哪一类为主要目的应属于哪一类为主要目的Bayes 判别分析判别分析Y?X?X?1?10111?122?1kXkY?X?X?2?20211?222?2kXk?Y?X?X?Xi?i0?i11?i 22?i kk75(五五)多变量资料多变量资料2.无应变量的多元分析无应变量的多元分析无应变量
37、的多元分析数据类型无应变量的多元分析数据类型 变变 量量 case X1 1 2 3 n X11 X21 X31 Xn1 X2 X12 X22 X32 Xn2 X3 X13 X23 X33 Xn3 X4 X14 X24 X34 Xn4 X5 X15 X25 X35 Xn5 Xm X1m X2m X3m Xnm 76(五五)多变量资料多变量资料2.无应变量的多元分析无应变量的多元分析?主成分分析主成分分析将所有变量化为少数几个互不相关的综合将所有变量化为少数几个互不相关的综合变量变量?因子分析因子分析从所有变量中找出有限个不可观测的潜在从所有变量中找出有限个不可观测的潜在因素因素?典型相关分析典
38、型相关分析分析两组集团变量之间的相关关系分析两组集团变量之间的相关关系77一、概述一、概述二、原始数据的录入二、原始数据的录入三、数据处理的几个基本问题三、数据处理的几个基本问题四、统计方法选择的基本思路四、统计方法选择的基本思路五、统计分析结果的表述五、统计分析结果的表述78(一一)统计分析结果的表述与理解统计分析结果的表述与理解1.统计分析结果的正确表述统计分析结果的正确表述?在报告结论时,最好列出检验统计量的在报告结论时,最好列出检验统计量的值,尽量写出具体值,尽量写出具体P值,而不简单写成值,而不简单写成P0.05,以便读者与同类研究进行比较,以便读者与同类研究进行比较或进行循证医学时
39、采用或进行循证医学时采用Meta分析。分析。?经常遇到经常遇到PASW软件计算结果中软件计算结果中P=0.000的的情况,这是由于情况,这是由于P值小于值小于0.0005或更小,因或更小,因保留保留3 位小数四舍五入所致,在论文中可位小数四舍五入所致,在论文中可写为写为P0.0005。79(一一)统计分析结果的表述与理解统计分析结果的表述与理解1.统计分析结果的正确表述统计分析结果的正确表述?统计结论统计结论P?,按,按?检验水准,拒绝检验水准,拒绝H0,接受,接受H1差别有统计学意义差别有统计学意义the difference was statistically significant.We
40、 coulddraw the conclusion that?专业结论专业结论可以认为可以认为不同,不同,高于高于(低于低于)。结论较肯定,因知犯第一类错误概率范围。结论较肯定,因知犯第一类错误概率范围。80(一一)统计分析结果的表述与理解统计分析结果的表述与理解?统计结论统计结论P?,按,按?检验水准,不拒绝检验水准,不拒绝H0差别无统计学意义差别无统计学意义 the difference was not statistically significant.?专业结论专业结论还不能认为两总体均数或率不同。还不能认为两总体均数或率不同。结论不肯定,因不知犯第二类错误概率范结论不肯定,因不知犯第
41、二类错误概率范围。不拒绝围。不拒绝H0不意味能证实不意味能证实H0是正确的是正确的(两两总体均数或率相同总体均数或率相同)。81(一一)统计分析结果的表述与理解统计分析结果的表述与理解2.统计学结论与医学专业结论有分岐时统计学结论与医学专业结论有分岐时?统计结论统计结论“有意义有意义”,专业结论,专业结论“无意义无意义”,最终结论为无临床意义。最终结论为无临床意义。?统计结论统计结论“无意义无意义”,专业结论,专业结论“有意义有意义”,可能原因:样本含量较小;可能原因:样本含量较小;试验误差较大;试验误差较大;误用统计分析方法。误用统计分析方法。82?统计学上有意义,但无临床意义实例统计学上有
42、意义,但无临床意义实例体重体重均数均数标准差标准差最小值最小值最大值最大值对照组对照组疗前疗前68.91 8.7942 52 99(111例例)疗后疗后68.95 8.7992 51 99差值差值0.0450 0.9666 -2 3前后比较前后比较t=0.4905 P=0.6248试验组试验组疗前疗前68.97 7.7875 55 92(114例例)疗后疗后68.72 7.8679 53 95差值差值-0.1930 0.9855 -3 4前后比较前后比较t=2.0921 P=0.0387两组差值比较两组差值比较t=1.1372 P=0.256783?统计学上无意义,但有临床意义实例统计学上无意
43、义,但有临床意义实例?研究某药物对脑梗塞患者的作用,采用欧洲研究某药物对脑梗塞患者的作用,采用欧洲脑卒中评分脑卒中评分(ESS),试验组与对照组各,试验组与对照组各50例。例。试验组疗后比疗前试验组疗后比疗前ESS增加增加37.9029.75;对照组疗后比疗前对照组疗后比疗前ESS增加增加28.37 27.91。?两组差异无统计学意义两组差异无统计学意义(t=1.652,P=0.102)。试验组试验组ESS增加比对照组多增加比对照组多9.35分,有临床分,有临床意义。意义。?但目前的检验效能只有但目前的检验效能只有37.9,要达到,要达到90的的检验效能,估计各组需检验效能,估计各组需193例
44、。例。84(二二)科技论文中试验设计与统计分析表述科技论文中试验设计与统计分析表述以随机对照临床试验为例以随机对照临床试验为例?要定性描述研究的类型要定性描述研究的类型(探索性、验证性探索性、验证性研究;前瞻性、回顾性、横断面研究研究;前瞻性、回顾性、横断面研究)。?清楚陈述研究目的及研究假设清楚陈述研究目的及研究假设(优效、非优效、非劣效或等效性检验劣效或等效性检验)。?描述目标人群情况如人口、地理、医院性描述目标人群情况如人口、地理、医院性质、是否转诊、诊断等。质、是否转诊、诊断等。?明确诊断标准、入选标准与排除标准。明确诊断标准、入选标准与排除标准。?确定样本量及确定理由。确定样本量及确
45、定理由。85(二二)科技论文中试验设计与统计分析表述科技论文中试验设计与统计分析表述?确定有临床意义的最小差值或比值。确定有临床意义的最小差值或比值。?说明抽样或分组的具体方法、说明抽样或分组的具体方法、如何进行如何进行“随机分组随机分组”。?试验的实施与评价是否实行盲法及试验的实施与评价是否实行盲法及如何如何“盲盲”,试验和对照因素盲法效果的描述,试验和对照因素盲法效果的描述如如外观、剂量、用法、时程等。外观、剂量、用法、时程等。?实施者和实验过程可比性的说明如术者经实施者和实验过程可比性的说明如术者经验、个体化干预等。验、个体化干预等。86(二二)科技论文中试验设计与统计分析表述科技论文中
46、试验设计与统计分析表述?研究的单位如人、肿瘤、眼等。研究的单位如人、肿瘤、眼等。?各组人口统计学及临床特征的基线水平的各组人口统计学及临床特征的基线水平的可比性与不同。可比性与不同。?效果评价的效果评价的主要指标主要指标,主要指标的测量方,主要指标的测量方法与精确度。法与精确度。?负性反应或事件的测量范围与方法。负性反应或事件的测量范围与方法。?数据收集的方法与质量保证措施。数据收集的方法与质量保证措施。?个体观察终点与整体研究终点的定义。个体观察终点与整体研究终点的定义。87(二二)科技论文中试验设计与统计分析表述科技论文中试验设计与统计分析表述?控制可能偏倚(如混杂变量)的努力。控制可能偏
47、倚(如混杂变量)的努力。?统计学分析使用的统计软件名称及版本。统计学分析使用的统计软件名称及版本。?对主要指标拟行比较的统计学方法,对主对主要指标拟行比较的统计学方法,对主要指标拟行单侧还是双侧检验(单侧检验要指标拟行单侧还是双侧检验(单侧检验应说明理由),对主要指标进行检验的应说明理由),对主要指标进行检验的水平。水平。88信信?忠实执行科学研究的规则忠实执行科学研究的规则?忠实执行试验设计方案忠实执行试验设计方案?忠实于研究数据忠实于研究数据达达?正确的理解统计分析方法正确的理解统计分析方法?正确的运用统计分析工具正确的运用统计分析工具?正确的表达研究结果正确的表达研究结果雅雅?规范数据管理过程规范数据管理过程?规范统计分析过程规范统计分析过程?规范统计分析报告规范统计分析报告89Thank you!90