1、2023-1-11临床统计学介绍临床统计学介绍39关于总体的临床研究问题关于总体的临床研究问题在发展中国家,人工喂养相比母乳喂养能否增加母亲为HIV阳性的婴儿生存率?如何建立一个心脏搭桥手术后生存率模型?病人的特征能否预测术后生存率?相比内科治疗,搭桥手术后1,3,5年的生存率能否改善?局部治疗小肝癌能否代替外科手术切除?根治术后应用大剂量的干扰素能否降低肝癌复发率?20046今天的主题 n总体,样本和个体n资料的类型:Continuous vs.categoricaln如何描述资料?统计量 和图n测量集中趋势和离散趋势n标准误和95%可信区间n根据数据选择合适的统计方法n诊断试验评价2004
2、6总体,样本和个体“Aristotle maintained that women have fewer teeth than men;although he was twice married,it never occurred to him to verify this statement by examining his wives mouths.”-Sir Bertrand Russell,The Impact of Science on Society,1952.“It is a capital mistake to theorize before you have data.”-S
3、ir Arthur Conan Doyle,Scandal in Bohemia.20046总体,样本和个体And,for another viewpoint:“If your experiment needs statistics,you ought to have done a better experiment.”Ernest Rutherford.The bench science perspective:you can control all the variables!Clinicians,however,know better human variation is large,a
4、nd often inexplicable.Statistics help us describe it and generalize at least enough to improve our ability to practice medicine.20046总体,样本和个体Aristotle 推测了一个女性总体女性总体(比较男性总体).他实际上手头就有一个包含2个女人的样本个女人的样本,他能对这个样本中的2个个体个体进行数牙。The population is the collection of all people about whom you would like to ask a
5、 research question.This might be a fairly clear-cut easily defined set of people:“What proportion of people 65 or older in the US today have Alzheimers disease?”Or it might be a more hypothetical group:“How much of a reduction in symptomatic days could a person expect if treated with a new antiviral
6、 for flu?”20046总体,样本和个体实际上,我们不可能去研究总体中的每一个对象。所以,我们研究一个样本样本,并将其推广到整个人群。样本样本量量 是样本中个体个体 的数目(而不是对每个研究对象的测量指标数目!)好的研究设计能帮助我们得到一个 代表性好的样本。好的统计分析能帮助我们获得关于总体问题的答案。20046例子:HCC的裸鼠转移模型免疫重建对照组CD331.5%14.2%CD4 XX XXCD8 XX XX*2个水平:裸鼠 细胞20046今天的主题 n总体,样本和个体n资料的类型:Continuous vs.categoricaln如何描述资料?统计量 和图n测量集中趋势和离散趋
7、势n标准误和95%可信区间n根据数据选择合适的统计方法n诊断试验评价20046数据类型n计量资料 Quantitative:“how much?”连续的变量连续的变量:年龄,体重,身高,血压 实际数值实际数值:家庭的子女数,住院天数n分类资料 Categorical:“what type?”等级变量:肿瘤分期(I,II,III);好 中 差名义变量:男/女;健康/生病;ABO血型20046数据类型数据类型的转换n计量数据可转换成分类数据:normal(value)vs.abnormal;“young,middle-aged,old”n将连续变量转换成等级变量减少了资料的信息量,从而造成统计学检
8、验的敏感度或把握度下降20046今天的主题 n总体,样本和个体n资料的类型:Continuous vs.categoricaln如何描述资料?统计量 和图n测量集中趋势和离散趋势n标准误和95%可信区间n根据数据选择合适的统计方法n诊断试验评价20046Notes:vertical axis can be count or percent in the above example,counts do not add to 74 individuals can have multiple risk factors tabular presentation may be more parsimon
9、ious for such dataN=74分类资料的统计描述计数百分比20046分类数据的统计描述n构成比n率n比例 vs 率n标化20046下面是一组年龄数据(11例)21,32,34,34,42,44,46,48,52,56,64年龄是一个计量的变量,所以如果用条图就不合适。我们更感兴趣的是年龄分布的一些特征:年龄分别的中心点在哪里?如平均数年龄的变异又是如何?是不是有些数据跟绝大部分数据差得很多(outliers)借助视觉工具帮助我们回答这些问题.定量数据的统计描述定量数据的统计描述20046计量数据的统计描述计量数据的统计描述 图表1.Stem and Leaf plot2.Hist
10、ogram3.Boxplot 数字1.Location-mean,median,mode.2.Spread-range,variance,standard deviation,percentile3.Shape-skewness*例外:生存资料的描述20046We could group the data and tally the frequencies:But why“hide”the details?Instead,well use the 10s place as stems and the units as leaves:20:X30:XXX40:XXXX50:XX60:X2*|13
11、*|2444*|24685*|266*|4Stem and Leaf Diagramstem&leaf plotFor small datasets20046Examples平均数方差中位数百分位数outlier20046今天的主题 n总体,样本和个体n资料的类型:Continuous vs.categoricaln如何描述资料?统计量 和图n测量集中趋势和离散趋势n标准误和95%可信区间n根据数据选择合适的统计方法n诊断试验评价20046集中趋势n算术平均数:n几何平均数n中位数20046平均数和中位数比较平均数和中位数比较n Mean is sensitive to a few very
12、large(or small)values-“outliers”n Median is“resistant”to outliersn Mean is attractive mathematicallyn 50%of sample is above the median,50%of sample is below the median.20046离散趋势Variation is important!20046离散趋势n方差n标准差n百分位数:IQR=Q.75-Q.25 20046今天的主题 n总体,样本和个体n资料的类型:Continuous vs.categoricaln如何描述资料?统计量
13、和图n测量集中趋势和离散趋势n标准误和95%可信区间n根据数据选择合适的统计方法n诊断试验评价20046标准误和95%可信区间n描述样本:平均数,标准差n?总体:n为了估计总体的平均数,需要计算标准误n标准误标准差/样本量n总体均数的95CI:n样本的平均数1.96*标准误 论文中常用20046标准差 vs均数的标准误(when do you use one,but not the other?)n标准差标准差用于描述:量化样本均数周围的变异.当确定两个样本是否来自于同一总体时,标准差是一个重要的统计量。nCentral limit theorem;“同一总体中的样本均数呈正态分布”n样本均数
14、的标准误标准误用于样本均数估计总体的均数。标准误是一个重要的统计量,用于计算样本均数的可信度,取决于标准差和样本量。但实际上两者并不独立,当样本量增加时,标准差往往减少。20046正态分布(basis of statistical inference for many populations )Mean=median=mode.all=same value in the distribution remember:68.3%of data is between -1.00 s.d.and +1.00 s.d.95.0%“-1.96 s.d.and +1.96 s.d.95.5%“-2.00 s
15、.d.and +2.00 s.d.99.7%“-3.00 s.d.and +3.00 s.d.20046今天的主题 n总体,样本和个体n资料的类型:Continuous vs.categoricaln如何描述资料?统计量 和图n测量集中趋势和离散趋势n标准误和95%可信区间n根据数据选择合适的统计方法n诊断试验评价20046推断性统计推断性统计推广结论:样本总体评价证据的强度比较预测20046计量资料的统计方法正态分布非正态分布配对资料(配对资料(2组组)配对t检验符号检验符号等级检验成组比较成组比较 (2组)组)成组比较t检验Wilcoxon Mann&Whitney中位数检验配伍组比较配伍
16、组比较随机区组方差分析非参数配伍组比较M检验多组比较多组比较完全随机设计方差分析非参数多组比较H检验20046列联表分析行名义变量等级变量名义变量一般联系:Pearsons 2行平均得分:(趋势分析)等级变量行平均得分:2 (趋势分析)相关分析:cmh:2 列*四格表是全一致20046Make predictions:回归分析n应变量:n一般定量变量 线性分析n等级或名义变量Logistic 回归n时间变量 Cox回归20046Descriptive epidemiology:pattern of occurrencePrevalence of HIV+and community Mosqui
17、to indexr =.83 r-squared=.92 *p .001 p .001 *201510 5 00 2 4 6 8 10 12 14 16 18 20 22Index of community mosquito infestation HIV+20046今天的主题 n总体,样本和个体n资料的类型:Continuous vs.categoricaln如何描述资料?统计量 和图n测量集中趋势和离散趋势n标准误和95%可信区间n根据数据选择合适的统计方法n诊断试验评价20046诊断试验评价n试验的设计20046诊断试验的设计20046诊断试验的评价金标准有病金标准无病试验ab试验cd敏
18、感度a/a+c特异度d/b+d阳性预测值a/a+b阴性预测值d/c+d阳性拟然比敏感度/1特异度阴性拟然比1敏感度/特异度20046医学论文中通常报道哪些?大多数研究报道平均数(正态)或中位数(非正态)有些研究报道标准差和/或标准误。Be careful!有时会看到图中有一个error bar,could be either.如果资料非正态(偏态,多峰,尾巴很长或很短等),往往报道中位数和百分位数,而不是均数和标准差.写文章时一定有根主线研究所要回答的问题:Do you want to ask about the average or typical person?Or do you want
19、 to figure out how unusual your patient might be?20046通常的流行病学(科学的)途径n1.确定一个问题问题:clinical suspicion;case series;review of medical literaturen2.组织一个假设假设 (asking the right question);good hypotheses are:Specific,Measurable,and Plausiblen3.检验假设检验假设 (assumptions vs.type of data)n4.再验证验证 always Question th
20、e VALIDITY of the result(s):Chance;Bias;and Causality 20046结论的准确性nChance:role of random error in outcome measure(s)(p-value;power of the study and the confidence interval)-largely determined by sample sizenBias:role of systematic error in outcome measure(s)nSelection bias -subjects not representativnInformation bias -error(s)in subject data/classificationnConfounding -3rd variable(causal)assoc.w/both X and Y20046