1、2022-12-27医学统计学1第二军医大学卫生统计学教研室第二军医大学卫生统计学教研室 张罗漫张罗漫2022-12-27医学统计学22022-12-27医学统计学32022-12-27医学统计学4研究研究设计设计数据数据处理处理观察性研究观察性研究实验性研究实验性研究统计描述统计描述统计推论统计推论假设检验假设检验参数估计参数估计(调查调查)2022-12-27医学统计学5调查方法调查方法调查对象调查对象 调查指标调查指标研究目的研究目的按范围按范围按时间按时间抽样抽样普查普查横向横向(现况调查现况调查)非概率非概率概概 率率简单随机简单随机系统系统 分层随机分层随机 整群整群纵向纵向病例对
2、照研究病例对照研究队列研究队列研究 调查工具调查工具 调查员调查员2022-12-27医学统计学6实验分类实验分类动物实验动物实验临床试验临床试验社区干预试验社区干预试验基本要素基本要素处理因素处理因素受试对象受试对象实验效应实验效应2022-12-27医学统计学7随机化随机化基本原则基本原则对对 照照重重 复复(样本含量样本含量)设置设置原则:原则:均衡可比均衡可比 类型:类型:配对、组间配对、组间 1-1-、空白空白实验实验安慰剂安慰剂标准标准相互相互2022-12-27医学统计学8统计表统计表制表原则制表原则制表要求制表要求 简单明了简单明了主语在左、宾语在右主语在左、宾语在右一张表表达
3、一个中心内容一张表表达一个中心内容备注备注数字数字 线条线条 标目标目标题标题2022-12-27医学统计学9统计图统计图制图原则制图原则制图要求制图要求 连续性资料:连续性资料:间断性资料:间断性资料:图例图例刻度刻度 纵轴、横轴纵轴、横轴 标目标目标题标题 条图、圆图、百分比条图条图、圆图、百分比条图 线图、直方图、散点图线图、直方图、散点图2022-12-27医学统计学10 统计统计指标指标计量资料计量资料(单变量单变量)中心中心位置位置 正态:正态:MX、非正态:非正态:GXM对数正态:对数正态:SQR 离散离散 程度程度 个体值个体值 样本均数:样本均数:正态正态非正态非正态:XS
4、量纲相同量纲相同:CV量纲不同量纲不同:计量资料计量资料(双变量双变量)离散程度:离散程度:r、brbSS、2022-12-27医学统计学11 中心位置:均数向量中心位置:均数向量离散程度:离均差矩阵离散程度:离均差矩阵 协方差矩阵协方差矩阵相互关系:相关矩阵相互关系:相关矩阵计量资料计量资料(多变量多变量)统计统计指标指标2022-12-27医学统计学12等级等级资料资料统计统计指标指标计数资料计数资料绝对数、率、构成比、绝对数、率、构成比、相对比相对比 、RR(OR)离散程度:离散程度:标准误标准误离散程度:离散程度:秩号、秩和秩号、秩和秩和的标准误秩和的标准误单变量单变量双变量:双变量:
5、rs2022-12-27医学统计学13参参 考考 值值 范围估计范围估计正态正态偏态偏态或或SuX 双侧:双侧:单侧:单侧:SuX2/SuX 双侧:双侧:单侧:单侧:x100 xpp xp或或x100p 2022-12-27医学统计学14参数参数估计估计区间区间估计估计点估计点估计ppXX22SSSSbrpX 、双侧:双侧:单侧:单侧:X,2/StX X,StX 或或X,StX 双侧:双侧:单侧:单侧:p2/Sup pSup 或或pSup RR(OR):2MH2/u1)OR(RR 2022-12-27医学统计学15假设假设检验检验步骤步骤1.进行检验假设进行检验假设 假设样本来自某一特定总体假
6、设样本来自某一特定总体2.确定检验水准确定检验水准 确定最大允许误差确定最大允许误差3.选定检验方法计算检验统计量选定检验方法计算检验统计量 计算样本与总体的偏离程度计算样本与总体的偏离程度4.根据一特定分布计算与检验统计根据一特定分布计算与检验统计 量对应的量对应的P值值5.作出结论作出结论 根据小概率反证法思想作出推断根据小概率反证法思想作出推断2022-12-27医学统计学16比较比较差别:差别:2、t、u、F、q、log-rank 、秩和检验等秩和检验等联系:相关、回归分析联系:相关、回归分析分类:聚类、回归分析分类:聚类、回归分析鉴别:判别分析鉴别:判别分析推测:回归分析推测:回归分
7、析筛选影响因素:回归分析筛选影响因素:回归分析综合变量信息:主成分分析综合变量信息:主成分分析寻找潜在支配因素:因子分析寻找潜在支配因素:因子分析假设假设检验检验方法方法2022-12-27医学统计学17第二节第二节原始数据的录入原始数据的录入2022-12-27医学统计学18肾衰病人预后研究的临床资料记录肾衰病人预后研究的临床资料记录 病人编病人编号号 病案号病案号 性性别别 年年龄龄 生理评生理评分分 肾毒肾毒性性 黄黄疸疸 昏昏迷迷 肌酐肌酐 胆固胆固醇醇 肾功能预肾功能预后后 1 004757 男男 26 14 无无 有有 无无 520 治愈治愈 2 007950 女女 31 13 无
8、无 无无 无无 523 4.5 治愈治愈 3 011093 男男 55 17 无无 无无 无无 209 3.3 治愈治愈 4 017555 男男 25 9 无无 无无 无无 1303 4.1 治愈治愈 274 279183 女女 88 15 有有 无无 无无 331 6.1 丧失丧失 行:观察单位行:观察单位 列:变量列:变量2022-12-27医学统计学19肾衰病人预后研究的临床资料记录肾衰病人预后研究的临床资料记录 病人病人编号编号 病案号病案号 性别性别 年龄年龄 生理生理评分评分 肾毒肾毒性性 黄疸黄疸 昏迷昏迷 肌酐肌酐 胆固胆固醇醇 肾功能肾功能预后预后 1 004757 男男 2
9、6 14 无无 有有 无无 520 治愈治愈 2 007950 女女 31 13 无无 无无 无无 523 4.5 治愈治愈 3 011093 男男 55 17 无无 无无 无无 209 3.3 治愈治愈 4 017555 男男 25 9 无无 无无 无无 1303 4.1 治愈治愈 274 279183 女女 88 15 有有 无无 无无 331 6.1 丧失丧失 标识变量标识变量分析变量分析变量2022-12-27医学统计学20肾衰病人预后研究的临床资料记录肾衰病人预后研究的临床资料记录 病人病人编号编号 病案号病案号 性别性别 年龄年龄 生理生理评分评分 肾毒肾毒性性 黄疸黄疸 昏迷昏迷
10、 肌酐肌酐 胆固胆固醇醇 肾功能肾功能预后预后 1 004757 男男 26 14 无无 有有 无无 520 治愈治愈 2 007950 女女 31 13 无无 无无 无无 523 4.5 治愈治愈 3 011093 男男 55 17 无无 无无 无无 209 3.3 治愈治愈 4 017555 男男 25 9 无无 无无 无无 1303 4.1 治愈治愈 274 279183 女女 88 15 有有 无无 无无 331 6.1 丧失丧失 标识变量标识变量分析变量分析变量解释变量解释变量反应变量反应变量2022-12-27医学统计学21文件类型:文件类型:数据库文件:数据库文件:EpitaDa
11、 dBASE、FoxBASE、Foxprow Oracle Excel文件:文件:Excel文本文件:文本文件:Word统计软件数据文件:统计软件数据文件:SPSS、SAS、STATA变量名的定义:变量名的定义:变量值的量化:变量值的量化:2022-12-27医学统计学222022-12-27医学统计学23 逻辑检查逻辑检查 计算检查计算检查 离群值离群值(outliner)与与P25或或P75的距离为的距离为“四分位数间距四分位数间距”的的1.53.0倍。倍。极端值极端值(extreme value)与与P25或或P75的距的距离为离为“四分位数间距四分位数间距”的的3.0倍以上。倍以上。剔
12、除离群或极端值要予以合理解释。剔除离群或极端值要予以合理解释。2022-12-27医学统计学24 多样本比较的方差分析:多样本比较的方差分析:独立独立 正态分布正态分布 方差齐性方差齐性 多重线性回归分析:多重线性回归分析:变量间无多重共线变量间无多重共线 残差分布正态残差分布正态 2022-12-27医学统计学252022-12-27医学统计学26医学专业知识医学专业知识医学统计学知识医学统计学知识计算机统计软件技术计算机统计软件技术2022-12-27医学统计学27设计类型:设计类型:完全随机、随机区组、拉丁方、完全随机、随机区组、拉丁方、交叉、析因、正交、嵌套、裂区设计交叉、析因、正交、
13、嵌套、裂区设计处理因素:处理因素:单因素、双因素、多因素单因素、双因素、多因素反应变量:反应变量:单变量、双变量、多变量单变量、双变量、多变量资料类型:资料类型:计量、无序分类、有序分类计量、无序分类、有序分类样本数目:样本数目:单样本、两样本、多样本单样本、两样本、多样本数据提供信息:数据提供信息:完全数据、不完全数据、完全数据、不完全数据、重复测量数据重复测量数据假设检验方法前提条件:假设检验方法前提条件:独立、方差齐性、正态分布独立、方差齐性、正态分布重要重要2022-12-27医学统计学281.样本均数与总体均数比较样本均数与总体均数比较 单因素单因素 服从正态分布服从正态分布 单样本
14、单样本t检验检验 可信区间法可信区间法 不服从正态分布不服从正态分布 单个样本中位数与总体中位数比较单个样本中位数与总体中位数比较2022-12-27医学统计学292.两个相关样本均数的比较两个相关样本均数的比较 单因素单因素 配对设计或自身前后对照设计配对设计或自身前后对照设计 差值服从正态分布差值服从正态分布 成对成对t t检验检验 可信区间法可信区间法 差值不服从正态分布差值不服从正态分布 Wilcoxon符号秩检验符号秩检验1-可信区间不可信区间不包括包括 d=0,P T 1 Pearson 2 检验检验 (Yates 校正公式校正公式)N40 或或 T 1 Fisher 确切概率法确
15、切概率法 (2)配对设计配对设计 McNemar 2 检验检验Logistic回归分析回归分析2022-12-27医学统计学40两种疗法降低颅内压有效率的比较两种疗法降低颅内压有效率的比较 组组 别别 有有 效效 无无 效效 合合 计计 有效率有效率(%)试验组试验组 99(90.48)5(13.52)104 95.20 对照组对照组 75(83.52)21(12.48)96 78.13 合合 计计 174 26 200 87.00 Y(疗效疗效)=1 有效有效0 无效无效X1(试验因素试验因素)=1 有有0 无无组别组别 疗效疗效 频数频数 1 1 99 1 2 5 2 1 75 2 2 2
16、1数据输数据输入格式入格式2022-12-27医学统计学413.R C列联表列联表 相关、相差相关、相差 (1)双向有序双向有序备择假设:行变量与列变量为非零相关备择假设:行变量与列变量为非零相关 Cochran-Mantel-Haenszel 2 检验检验有序分组资料的线性趋势检验有序分组资料的线性趋势检验 2 回归回归 (2)单向单向(反应变量反应变量)有序有序备择假设:行平均得分不同备择假设:行平均得分不同 Cochran-Mantel-Haenszel 2 检验检验Wilcoxon 秩和检验秩和检验2022-12-27医学统计学423.R C列联表列联表 相关、相差相关、相差 (3)双
17、向无序双向无序备择假设:行变量与列变量有一般关联备择假设:行变量与列变量有一般关联 Cochran-Mantel-Haenszel 2 检验检验Pearson 2 检验检验2022-12-27医学统计学431.配对设计配对设计 Wilcoxon符号秩检验符号秩检验2.两组独立样本两组独立样本 Wilcoxon两两样本秩和检验样本秩和检验3.完全随机设计多个样本比较完全随机设计多个样本比较 Kruskal-Wallis H 检验检验4.随机区组设计多个样本比较随机区组设计多个样本比较 Friedman M 检验检验2022-12-27医学统计学441.相关分析相关分析 X1与与X2服从二元正态分
18、布服从二元正态分布 Pearson积差相关分析积差相关分析 X1与与X2不服从二元正态分布不服从二元正态分布 Spearman秩相关分析秩相关分析2.回归分析回归分析 Y与与X服从二元正态分布服从二元正态分布 或或 Y服从正态分布而服从正态分布而X为控制变量为控制变量 Y与与X间呈直线趋势间呈直线趋势 直线回归分析直线回归分析2022-12-27医学统计学453.曲线回归分析(曲线回归分析(SPSS)33221010 X)b(bX10221010XbXbXbbY Cubic.6XlnbbY cLogarithmi.5eY Growth.4b bY Compound.3XbXbbY Quadra
19、tic 2.XbbY Linear.110 三次模型三次模型对数模型对数模型生长模型生长模型复合模型复合模型二次模型二次模型线性模型线性模型2022-12-27医学统计学463.曲线回归分析(曲线回归分析(SPSS)bXa b010 Xb0 X)/b(be11Y Logistic Logistic.11 XbY Power.10X/bbY Inverse.9e bY lExponentia.8eY S S .71110 模型模型幂模型幂模型逆模型逆模型指数模型指数模型型模型型模型2022-12-27医学统计学474.协方差分析协方差分析比较带有协变量比较带有协变量(Xj)的各组均数的各组均数(
20、)间的差别间的差别协变量协变量Xj对对Yj有影响有影响分为完全随机设计与随机区组设计分为完全随机设计与随机区组设计三种饲料喂养猪的初始体重三种饲料喂养猪的初始体重(X,kg)与增重与增重(Y,kg)A 饲料饲料 B 饲料饲料 C 饲料饲料 X1 Y1 X2 Y2 X3 Y3 15 85 17 97 22 89 13 83 16 90 24 91 11 65 18 100 20 83 12 76 18 95 23 95 12 80 21 103 25 100 16 91 22 106 27 102 14 84 19 99 30 105 17 90 18 94 32 110 nj 8 8 8 8
21、8 8 )Y(j 13.750 81.750 18.625 98.000 25.375 96.875 iY2022-12-27医学统计学481.有应变量的多元分析有应变量的多元分析有应变量的多元分析数据类型有应变量的多元分析数据类型 应变量应变量 自自 变变 量量 case Y X1 X2 X3 X4 Xm 1 Y1 X11 X12 X13 X14 X1m 2 Y2 X21 X22 X23 X24 X2m 3 Y3 X31 X32 X33 X34 X3m n Yn Xn1 Xn2 Xn3 Xn4 Xnm 2022-12-27医学统计学491.有应变量的多元分析有应变量的多元分析 Y为计量资料且
22、服从正态分布为计量资料且服从正态分布 自变量服从多元正态分布自变量服从多元正态分布 多元线性回归或多元逐步回归分析多元线性回归或多元逐步回归分析kk22110XXXY 2022-12-27医学统计学501.有应变量的多元分析有应变量的多元分析 Y为判别分类变量为判别分类变量 自变量服从多元正态分布自变量服从多元正态分布 判别分析或逐步判别分析判别分析或逐步判别分析kgk22g11g0ggkk2222121202kk1212111101XXXY XXXYXXXY 2022-12-27医学统计学511.有应变量的多元分析有应变量的多元分析 Y为二分类或多分类变量为二分类或多分类变量 以分析危险因素
23、为主要目的以分析危险因素为主要目的 条件或非条件条件或非条件Logistic回归分析回归分析kk22110XXXP1Pln 2022-12-27医学统计学521.有应变量的多元分析有应变量的多元分析 Y为生存时间且含有截尾数据为生存时间且含有截尾数据 Cox比例风险回归分析比例风险回归分析kk22110XXX)t(h)X,t(hln 2022-12-27医学统计学532.无应变量的多元分析无应变量的多元分析无应变量的多元分析数据类型无应变量的多元分析数据类型 变变 量量 case X1 X2 X3 X4 X5 Xm 1 X11 X12 X13 X14 X15 X1m 2 X21 X22 X23
24、 X24 X25 X2m 3 X31 X32 X33 X34 X35 X3m n Xn1 Xn2 Xn3 Xn4 Xn5 Xnm 2022-12-27医学统计学542.无应变量的多元分析无应变量的多元分析 将将n个观察单位聚为个观察单位聚为k类类(n k)Q型聚类型聚类 将将m个变量聚为个变量聚为k类类(m k)R型聚类型聚类 2022-12-27医学统计学552.无应变量的多元分析无应变量的多元分析 将所有变量化为少数几个互不相关的综合将所有变量化为少数几个互不相关的综合 变量变量 主成分分析主成分分析 从所有变量中找出有限个不可观测的潜在从所有变量中找出有限个不可观测的潜在 因素因素 因子分析因子分析 2022-12-27医学统计学562.无应变量的多元分析无应变量的多元分析 分析一个变量与一组变量的相关关系分析一个变量与一组变量的相关关系 多元线性相关分析多元线性相关分析 分析一组变量与另一组变量的相关关系分析一组变量与另一组变量的相关关系 典型相关分析典型相关分析2022-12-27医学统计学572022-12-27医学统计学58