1、常用医学统计学方法 胸外四病区 叶曼 常用医学统计学方法 胸外内容提要内容提要 为什么要学统计学?内容提要 为什么要学统计学?统计学(statistics)从数据中提取信息的一门学科 医学统计学(medical statistics)用统计学的原理和方法研究医学中的问题 什么是医学统计学什么是医学统计学?统计学(s t a t i s t i c s)从数据中提取信息的一门学4 医学统计工作的内容 1.科研设计:包括调查设计、实验设计 2.收集资料:取得准确可靠的原始资料 3.整理资料:对资料进行清理、改错,数量化 4.分析资料:统计描述、统计推断 4 医学统计工作的内容 1.科研设计:包括调
2、查设计、1.1.采用统计学方法,发现不确定现象背后隐藏的规律。象背后隐藏的规律。图 1-1 120名正常成年男子 红细胞计数直方图05101520252.63.23.84.45.05.66.2红细胞计数(10/L)比率%1.采用统计学方法,发现不确定现象背后隐藏的规律。2.2.用统计学思维方式考虑有关医学研用统计学思维方式考虑有关医学研究中的问题 “阳性”结果能否说明干预有效?某感冒药治疗1周后,治愈率为90%,能否说该感冒药十分有效?(时间效应)“阴性”结果是否说明干预无效?样本含量是否足够?(吸烟与肺癌的相关性)干预时间是否足够?(心理护理与心理健康)2.用统计学思维方式考虑有关医学研究中
3、的问题 “阳3.3.保证你的论文能通过统计学审查 中华医学会杂志对来稿都有统计学要求或统计学指导。科学的科研设计 正确的统计分析 准确的结论推断 3.保证你的论文能通过统计学审查 4.4.获得循证医学证据的主要手段获得循证医学证据的主要手段 “以证据 为基础 的医学”(evidence-based medicine,EBM)需要运用 最好的统计学证据 可靠“证据”:随机对照试验 4.获得循证医学证据的主要手段 “以证据为基础的医学”?1.了解医学统计学的基本概念?2.掌握医学统计数据的分类?3.掌握统计学分析方法的选择?4.了解SPSS统计学软件的使用?1.了解医学统计学的基本概念?2.掌握医
4、学统计数据的分类10 变量及变量值变量及变量值 胆管癌患者部分指标 编号 性别 年龄(岁)部 位 分化程度 分期 肝转移 PCNA 指数 生存时间(月)(1)(2)(3)(4)(5)(6)(7)(8)(9)1 男 61 上 低分化 阳性 52 14 2 女 58 中 高分化 阴性 89 20 3 女 63 上 高分化 阴性 93 19 4 女 71 下 中分化 阳性 78 5 5 男 59 上 高分化 阴性 85 35 1 0 变量及变量值 胆管癌患者部分指标 编号 性别 年龄(岁总体与样本总体与样本 population and sample 总体:根据研究目的确定的同质研究对象的全体(集合
5、)。样本:从总体中随机抽取的部分研究对象 总体与样本 p o p u l a t i o n a随机抽样随机抽样 random sampling 为了保证样本的可靠性和代表性,需要采用随机的方法抽取样本(在总体中每个个体具有相同的机会被抽到)。随机抽样 13 随机抽样的方法:?抽签法:编号、抽签?机械抽样法:又称等间隔抽样,按比例分配?分层抽样法:先分层,每层内按比例抽样?随机数字:随机数字表、软件产生随机数字 1 3 随机抽样的方法:?抽签法:编号、抽签?机14 研究研究目的目的 总体 湘雅二医院2011年全体住院年全体住院患者满意度得分值 观测单位 每个住院患者每个住院患者 观测值观测值
6、每个住院患者满意度得分每个住院患者满意度得分 了解湘雅二医院20112011年全体住院患者满意度情况 样本样本 从湘雅二医院从湘雅二医院2011年全体住院患者中随机抽取中随机抽取1000人测得满意度得分人测得满意度得分 1 4 研究目的 总体 湘雅二医院2 0 1 1 年全体住院患者满意度 样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。概率:随机事件发生的可能性大小,用大写的P 表示;取值00,1。频率与概率频率与概率 frequency and probability 样本的实际发生率称为频率。设在相同条件下,独立重复进 频率与
7、概率间的关系:频率与概率间的关系:1.样本频率总是围绕概率上下波动 2.样本含量n越大,波动幅度越小,频率越接近概率。频率与概率间的关系:1.样本频率总是围绕概率上下波动 必然事件 P=1 随机事件 0 P 1 不可能事件 P=0 P 0.05(5)或P 0.01(1)称为小概率事件(习惯),统计学上认为不大可能发生。小概率事件 Certain Impossible 0.5 0 1 必然事件 P =1 随机事件 100%?某一组成部分的观察单位数构成比 同一事物各组成部分的观察单位总数=(100%)?甲指标相对比乙指标?某时期内发生某现象的观察单位数率比例基数 同期可能发生某现象的观察单位总数
8、1 0 0%?某一组成部分的观察单位数构成比 同一事物1.不能以构成比代率不能以构成比代率 放环情况 (1)放环人数 (2)失败人数 (3)失败人数比(%)(4)失败率(%)(5)人工流产后 255 78 61.9 30.6 月经后 87 39 31.0 44.8 哺乳期 17 9 7.1 52.9 合 计 359 126 100.0 35.1 表 已婚育龄妇女不同情况下放环失败率的比较 1.不能以构成比代率 放环情况(1)放环人数(2)年龄组(岁)患者人数 患者构成比(%)0 9 3.8 10 36 15.3 20 34 14.4 30 37 15.7 40 45 19.1 50 39 16
9、.5 60 21 8.9 70 15 6.3 合计 236 100.0 表表 口腔门诊龋齿患者年龄构成口腔门诊龋齿患者年龄构成 例如例如某医师对口腔门诊不同年龄龋齿患病情况进行了分析,得出 4049岁组患病率高,09岁组和70岁及以上组患病率低的错误结论。年龄组(岁)患者人数 患者构成比(%)0 如果例数较少会使相对数波动较大。如某种疗法治疗5例病人5例全部治愈,则计算治愈率为5/5100%=100%,若4例治愈,则治愈率为4/5100%=80%,由100%至80%波动幅度较大,但实际上只有1例的变化。2.计算相对数分母不宜太小计算相对数分母不宜太小 如果例数较少会使相对数波动较大。如某种疗法
10、治疗53.正确计算合计率正确计算合计率 1112221212,pXnpXnXXpnn?若则合计率例如用某疗法治疗肝炎,甲医院治疗 150人,治愈30人,治愈率为20%;乙医院治疗100人,治愈30人,治愈率为30%。两个医院合计治愈率应该是(30+30)/(150+100)100%=24%。3.正确计算合计率 1 1 1 2 2 2 1 2 1 2 ,p X n p X n4.注意资料的可比性注意资料的可比性 (1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。(2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以
11、分别进行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。4.注意资料的可比性 (1)观察对象是24 问:流脑的预防工作1990年不如1985年吗?死亡人数 构成()死亡人数构成()伤寒-副伤寒 3310.961410.61流 脑278.972317.42痢 疾21069.777153.79白 喉268.64139.85百日咳51.66118.33合 计301100.00132100.00病 名1985年1990年表4 某地区 5种急性传染病的死亡情况案例案例 2 4 问:流脑的预防工作1 9 9 0 年不如1 9 8 5 年吗?死亡人25 统计资料的类型 根据变量值的性质可
12、将资料分为:计量资料、计数资料、等级资料 2 5 统计资料的类型 根据变量值的性质可将资料分为:26 1.1.计量资料-数值变量资料 定义:用定量的方法对观察单位准确测量后所得的资料。特点:有度量衡单位,多为连续性资料。连续数据:例:身高、体重、年龄、体温、血压 离散数据:例:心率、白细胞计数、24小时早博次数 2 6 1.计量资料-数值变量资料 定义:用定量的方法对27 定义:用定性的方法得到的资料。将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:没有度量衡单位;多为间断性资料。2.2.计数资料计数资料-分类变量资料 2 7 定义:用定性的方法得到的资料。将全体
13、观测单位按照某种性28 两分类数据(binary data):例:男/女;怀孕/未怀孕;糖尿病/非糖尿病;吸烟/不吸烟;高血压/血压正常 多分类数据(polytomous data):名义数据(nominal):已婚/单身/离婚/分居/鳏寡;A/B/AB/O 有序数据(ordinal categories):轻/中/重;治愈、好转、无效;2 8 两分类数据(b i n a r y d a t a):例:男/女29 定义:将观察单位按某种属性的不同程度分成等级后分组计数所得的资料,是介于计量资料和计数资料之间的一种资料。特点:其变量值具有半定量性质,表现为等级大小或属性程度。3.等级资料 2 9
14、 定义:将观察单位按某种属性的不同程度分成等级后分三类数据间的相互转化三类数据间的相互转化 例:一组20?40岁成年人的血压 以12kPa为界分为正常(0)与异常(1)两组,统计每组例数 8 低血压 1 8?正常血压 2 12?轻度高血压 3 15?中度高血压 4 17?重度高血压 5 计量数据 等级数据 计数数据 三类数据间的相互转化 例:一组2 0?4 0 岁成年人的血压 以31 三类数据间的相互转化三类数据间的相互转化 不同资料转化举例(每分钟脉搏次数)计量资料 计数资料 等级资料 75 缓 脉(60)82 正常(60 100)125 正常脉(60100)96 异常(100)56 速 脉
15、(100)3 1 三类数据间的相互转化 不同资料转化举例(每分钟脉搏次住院号住院号 年龄年龄 身高 体重 住院天数 职业 文化程度 分娩方式 妊娠结局 2025655 27 165 71.5 5 无 中学 顺产 足月 2025653 22 160 74.0 5 无 小学 助产 足月 2025830 25 158 68.0 6 管理员 大学 顺产 足月 2022543 23 161 69.0 5 无 中学 剖宫产 足月 2022466 25 159 62.0 11 商业 中学 剖宫产 足月 2024535 27 157 68.0 2 无 小学 顺产 早产 2025834 20 158 66.0
16、4 无 中学 助产 早产 2019464 24 158 70.5 3 无 中学 助产 足月 2025783 29 154 57.0 7 干部 中学 剖宫产 足月 观察单位observations 个体individuals 变量variables Quantitative data 计量资料 Qualitative data 计数资料 住院号 年龄 身高 体重 住院天数 职业 文化程度 分娩方式怎样选择统计学方法?怎样选择统计学方法?三类数据的统计分析 1.计量数据:计算均数、标准差等(可采用t、F检验等)2.计数数据:编码是任意的,不能对编码执行均数标准差等计算,但可计算 率或比(可采用卡方
17、检验等)3.等级数据:允许基于顺序的计算,如计算 中位数、百分位数(可当做计数数据处理)三类数据的统计分析 1.计量数据:计算均数、标准差等(可采用李炜制作李炜制作 变量关系的显著性检验类型变量关系的显著性检验类型 定类定序定距定类卡方类测量(卡方检验)卡方类测量(卡方检验)方差分析(F 检验)定序Spearman 相关系数(Z 检验)Spearman 相关系数(Z 检验)定距Pearson 相关(F 检验)回归系数(T 检验)等 级 计 数 计 量 计 数 等 级 计 量 李炜制作 变量关系的显著性检验类型 定类定序定距定类卡方类测表4-1 g个处理组的试验结果 处理分组 测量值 统计量 1
18、水平 X11 X12 X1j 1nX1 n1 1X S1 2水平 X21 X22 X2j 2nX2 n2 2X S2 g水平 Xg1 Xg2 Xgj ggnX ng gX Sg 完全随机设计资料的方差分析的基本思想完全随机设计资料的方差分析的基本思想 合计 N S XijX表4-1 g 个处理组的试验结果 处理分组 测量值 统计量 完全随机设计统计分析方法选择:完全随机设计统计分析方法选择:1.对于正态分布且方差齐同的资料,常采用 单因素方差分析 的单向分类的方差分析 或成组资料的 t 检验(g=2);2.对于非正态分布或方差不齐的资料,可进行 数据变换或采用Wilcoxon秩和检验。完全随机
19、设计统计分析方法选择:1.对于正态分布且方差齐同 例 某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择 120名高血脂患者,采用完全随机设计方法将患者等分为4组(具体分组方法见表 5),进行双盲试验。6周后测得低密度脂蛋白 作为试验结果,见表 4-3。问4个处理组患者的低密度脂蛋白含量总体均数有无差别?完全随机设计完全随机设计 例 某医生为了研究一种降血脂新药的临床疗效,按统一纳入标统计量 分 组 测量值 n iX X?2X?3.53 4.59 4.34 2.66 3.59 3.13 2.64 2.56 3.50 3.25 3.30 4.04 3.53 3.56 3.85 4.07
20、3.52 3.93 4.19 2.96 安慰剂组 1.37 3.93 2.33 2.98 4.00 3.55 2.96 4.3 4.16 2.59 30 3.43 102.91 367.85 降血脂新药 2.42 3.36 4.32 2.34 2.68 2.95 1.56 3.11 1.81 1.77 1.98 2.63 2.86 2.93 2.17 2.72 2.65 2.22 2.90 2.97 2.4g 组 2.36 2.56 2.52 2.27 2.98 3.72 2.80 3.57 4.02 2.31 30 2.72 81.46 233.00 2.86 2.28 2.39 2.28
21、2.48 2.28 3.21 2.23 2.32 2.68 2.66 2.32 2.61 3.64 2.58 3.65 2.66 3.68 2.65 3.02 4.8g 组 3.48 2.42 2.41 2.66 3.29 2.70 3.04 2.81 1.97 1.68 30 2.70 80.94 225.54 0.89 1.06 1.08 1.27 1.63 1.89 1.19 2.17 2.28 1.72 1.98 1.74 2.16 3.37 2.97 1.69 0.94 2.11 2.81 2.52 7.2g 组 1.31 2.51 1.88 1.41 3.19 1.92 2.47
22、1.02 2.10 3.71 30 1.97 58.99 132.13 表5 4个处理组低密度脂蛋白测量值(mmol/L)统计量 分 组 测量值 n i X X?2 X?3.5完全随机设计分析步骤 H0:1234?,即4个试验组的总体均数相等 H1:4个试验组的总体均数不全相等 0.05?按表4-4中的公式计算各离均差平方和SS、自由度?、均方MS和F值。H0:即4个试验组总体均数相等 H1:4个试验组总体均数不全相等 1234?0.05?2.计算检验统计量 1.建立检验假设,确定检验水准 完全随机设计分析步骤 H 0:1 2 3 4?,即4 个0.05?3.确定P值,作出推断结论:按 水准
23、如果P0.05,则不能拒绝H0,不能认为4个试验组ldl-c 总体均数有差别。0.0 5?3.确定P 值,作出推断结论:分组 观测值 记得一定要是计量资料 建立数据库 分组 观测值 记得一定要是计量资料 建立数据库 2个或者2个以上组之间某观测值的比较 2个组之间某观测值的比较 2 个或者2 个以上组之间某观测值的比较 2 个组之间某观测值的比观测值观测值 分组分组 观测值 分组 两两比较时选择两两比较时选择 两两比较时选择 常用医学统计分析方法教材课件47 案例案例?1.不同科室护士实施静脉输液操作所用工 时是否差别??2.不同科室患者满意度是否有差别??3.不同科室护士职业倦怠感和生活质量
24、得分是否有差别??4.实施护理干预组与未实施护理干预组患者满意度、住院时间、住院费用、康复时间等是否有差别?4 7 案例?1.不同科室护士实施静脉输液操作所 推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别 多个样本率的多重比较 两个分类变量之间有无关联性 频数分布拟合优度的检验 统计学方法:卡方检验 目的:检验统计量:应用:计数资料或等级资料 2?推断两个总体率或构成比之间有 例例 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将 78例脑血管疾病患者随机分为两组,结果见表。问两种药物治疗脑血管疾病的有效率是否相等?组别 有效 无效 合计 有效率(%)胞磷胆碱组 4
25、6 6 52 88.46 神经节苷酯组 18 8(4.67)26 69.23 合计 64 14 78 82.05 表 两种药物治疗脑血管疾病有效率的比较 四格表资料 42 55 3 48 13 52 90 16 107 例 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的常用医学统计分析方法教材课件常用医学统计分析方法教材课件常用医学统计分析方法教材课件常用医学统计分析方法教材课件常用医学统计分析方法教材课件常用医学统计分析方法教材课件常用医学统计分析方法教材课件常用医学统计分析方法教材课件常用医学统计分析方法教材课件行列表资料 多个样本率比较时,有R行2列,称为R 2表;两个样本的构成比比较
26、时,有 2行C列,称2C表;多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为R C表。行 列表资料 多个样本率比较时,有R 行2 列,称为R 2 疗法 有效 无效 合计 有效率(%)物理疗法组 199 7 206 96.60 药物治疗组 164 18 182 90.11 外用膏药组 118 26 144 81.94 合计 481 51 532 90.41 例例 某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见表。问三种疗法的有效率有无差别?表 三种疗法有效率的比较 R2表资料 疗法 有效 无效 合计 有效率(%)物理疗法组 例 某医师在研究血
27、管紧张素 I转化酶(ACE)基因I/D多态与2型糖尿病肾病(DN)的关系时,将 249例2型糖尿病患者按有无糖尿病肾病分为两组,资料见表7-9。问两组2型糖尿病患者的 ACE基因型总体分布有无差别?组别 DD ID II 合计 DN组 42(37.8)48(43.3)21(18.9)111 无DN组 30(21.7)72(52.2)36(26.1)138 合计 72(28.9)120(48.2)57(22.9)249 表表 DN组与无DN组组2型糖尿病患者ACE基因型分布的比较基因型分布的比较 2 C 表表 例 某医师在研究血管紧张素I 转化酶(A C E)基例 测得某地5801人的ABO血型
28、和MN血型结果如表7-10,问两种血型系统之间是否有关联?表表 某地某地5801人的血型人的血型 MN血型 ABO血型 M N MN 合计 O 431 490 902 1823 A 388 410 800 1598 B 495 587 950 2032 AB 137 179 32 348 合计 1451 1666 2684 5801 R C 表 例 测得某地5 8 0 1 人的A B O 血型和MN 血型结果如表7-1 0李炜制作李炜制作 变量关系的显著性检验类型变量关系的显著性检验类型 定类定序定距定类卡方类测量(卡方检验)卡方类测量(卡方检验)方差分析(F 检验)定序Spearman 相关
29、系数(Z 检验)Spearman 相关系数(Z 检验)定距Pearson 相关(F 检验)回归系数(T 检验)等 级 计 数 计 量 计 数 等 级 计 量 李炜制作 变量关系的显著性检验类型 定类定序定距定类卡方类测64 P=0.061 案例案例 表1 络合碘与赛肤润治疗压疮疗效对比 组别 显效 有效 无效 合计 络合碘 9 25 6 40 赛肤润 19 18 5 42 6 4 P=0.0 6 1 案例 表1 络合碘与赛肤润治疗压疮65 案例案例 表2 不同科室护士职称的比较 科室 护士 护师 主管护师 副主任护师 科室1 7 4 2 1 科室2 6 5 3 0 科室3 5 8 2 0 6 5 案例 表2 不同科室护士职称的比较 科室 护士 护THE END THE END T H E E N D