1、描述性统计描述性统计-Descriptive Statistics一、一、Frequencies过程过程Frequencies过程专门为产生频数表而设计的. 某地某地101101例健康男子血清总胆固醇值测定结果如下例健康男子血清总胆固醇值测定结果如下4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 4.12 5.18 5.77 4.79
2、5.12 5.39 6.30 5.21 7.22 5.54 3.93 5.21 4.12 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30
3、4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91
4、2.70 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.055.18 6.14 3.24 4.90 3.05 Frequencies过程过程Format对话框对话框用于定义输出频数表的格式根据频数的多少作频数分布选择两个以上变量作频数表限制频
5、数表的分组数 输出结果(略)输出结果(略)Descriptives过程过程/iiZXXS标准化值Options对话框对话框Descriptive Statistics1012.707.224.6995.86162101血清总胆固醇Valid N (listwise)NMinimumMaximumMeanStd. Deviation输出结果输出结果Explore过程过程对数据进行初步检查,判断有无离群点或极端值;对前提条件假定,如正态分布和方差齐性进行检验,不满足正态分布和方差齐性时,提示数据转换方法,然后决定使用参数方法或非参数方法;了解组间差异的特征.Explore过程过程选入分组变量Sta
6、tistics对话框对话框显示集中趋势、离散趋势及分布形状的统计量显示总体均数的可信区间显示5个最高和最低的变量值计算M估计量Plots对话框对话框方差齐性检验Options对话框对话框剔除含有缺失值的全部记录只剔除此分析中含有缺失值的记录报告缺失值输出结果(略)输出结果(略)5.2假设检验的基本思想:女士和奶 女士说她可以辨认出加奶和水的顺序女士说她可以辨认出加奶和水的顺序 需要验证的假设:她在耍我们。需要验证的假设:她在耍我们。 如果该假设不成立,那么就认为她真的有这个能力如果该假设不成立,那么就认为她真的有这个能力 。 让她对十杯牛奶做出判断,如果她是瞎猜的,却全让她对十杯牛奶做出判断,
7、如果她是瞎猜的,却全部正确,几率为部正确,几率为0.50.510100.0010.001。 现在试验的结果是十杯全部说对了现在试验的结果是十杯全部说对了 认为在假设成立时在一次试验中出现小概率事件是认为在假设成立时在一次试验中出现小概率事件是不可能的,故断定假设不成立。不可能的,故断定假设不成立。Yang Zhao, Department of Epidemiology & Biostatistics假设检验的基本思想 提出一个假设提出一个假设 如果假设成立,得到现有样本的可能性如果假设成立,得到现有样本的可能性 可能性很小(可能性很小(小概率事件小概率事件),在一次试验中本不),在一次试验中
8、本不该得到,居然得到了,说明我们的假设有问题,该得到,居然得到了,说明我们的假设有问题,拒绝之。拒绝之。 有可能得到手头的结果,故根据现有的样本无法有可能得到手头的结果,故根据现有的样本无法拒绝事先的假设(没理由)拒绝事先的假设(没理由)Yang Zhao, Department of Epidemiology & Biostatistics4. 4. 结论的概率性结论的概率性 无论做出何种推断结论,总是有风险的!无论做出何种推断结论,总是有风险的! 拒绝拒绝H H0 0时可能犯时可能犯I I类错误;类错误; 不拒绝不拒绝H H0 0时可能犯时可能犯IIII类错误类错误; ; 检验统计量位于检
9、验统计量位于检验界值的附近时检验界值的附近时,下结论更应慎重,下结论更应慎重; ; 不拒绝不拒绝H H0 0,并不意味着接受,并不意味着接受H H0 0。 不拒绝不拒绝H H0 0,只是说明现有的样本不足以拒绝,只是说明现有的样本不足以拒绝H H0 0假设,或者说,假设,或者说,两个总体差异并不大,假设检验不能从现有的样本中发现两个总体差异并不大,假设检验不能从现有的样本中发现差别。所以不能拒绝差别。所以不能拒绝H H0 0。 结论不能绝对化。结论不能绝对化。统计学已证明统计学已证明由此可以肯定由此可以肯定T 检验一、统计方法复习 t检验的应用条件l独立的随机样本l资料服从正态分布l方差齐性l
10、可比性 资料形式单样本资料:样本均数与总体均数比较成组设计的两样本资料:两样本均数比较配对资料: 差值均数d与总体均数0比较二、二、Compare Means-均数比较均数比较Means过程过程Options对话框对话框对分组变量进行单因素方差分析,并计算Eta统计量线性趋势检验结果输出结果输出Case Processing Summary15100.0%0.0%15100.0%体重 * 疾病NPercentNPercentNPercentIncludedExcludedTotalCasesReport体重50.285774.1115452.500082.2038951.4667153.313
11、75疾病是否TotalMeanNStd. DeviationT Test 例 正常成年男子血小板计数的均数为225109/L,今测得20名男性油漆作业工人的血小板计数值(109/L):220,188,162,230,145,160,238,188,247,113,126,245,164,231,256,183,190,158,224,175。问油漆作业工人的血小板计数与正常成年男子有无差异?One-Sample T Test 过程过程填入已知总体均数统计学结论与专业推断 pp,差别没有统计学意义(或差异无显著性),差别没有统计学意义(或差异无显著性),不拒绝不拒绝H H0 0(不等于接受(不等
12、于接受H H0 0 ),),现有样本暂不能认现有样本暂不能认为为油漆作业工人的血小板计数与正常成年男子有油漆作业工人的血小板计数与正常成年男子有差异。差异。 pp,差别有统计学意义(或差异有显著性),差别有统计学意义(或差异有显著性),拒绝拒绝H H0 0,接受,接受H H1 1,认为,认为油漆作业工人的血小板计油漆作业工人的血小板计数与正常成年男子有差异。数与正常成年男子有差异。 例 某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下, 问该地急性克山病患者与健康人的血磷值是否不同? 患者: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80
13、 1.87 2.07 2.11健康人 : 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87T TestIndependent-Sample T Test 过程过程 结果输出(略)例例1 1 下表是某疾病在医改前后下表是某疾病在医改前后1212家医院的平均家医院的平均费用,问改革前后医疗费用有无差别费用,问改革前后医疗费用有无差别? ? T Test 练 习 某医院用某新药与常规药物治疗婴幼儿贫血某医院用某新药与常规药物治疗婴幼儿贫血, ,将将2020名贫血患儿随机等分为名贫血患儿随机等分为2 2组组, ,分别接受两
14、种药物分别接受两种药物治疗,测得血红蛋白增加量治疗,测得血红蛋白增加量(g/L)(g/L)如下,问新药如下,问新药与常规药物的疗效有无差别与常规药物的疗效有无差别? ?新药组新药组24 36 25 14 26 34 23 20 15 19 常规药物组常规药物组14 1820 15 22 24 21 25 27 23 表表 某疾病医改前和医改后某疾病医改前和医改后12家医院的平均费用家医院的平均费用被测者号(1)医改后(2)医改前(3)差值d(4)=(3)-(2)d2(5)11490152535122521397141518324315121508-41641401144443184951470
15、150030900614151460452025714311390-41168181429143239914201420001012751227-482304111165126810310609121421144322484合计20621426不同地区农村合作医疗自负部分(元)不同地区农村合作医疗自负部分(元)苏苏 中中苏苏 北北50504040202010106565353555552525202020201515151580803030353530301051052525757570703030656560604545454550506060353530301515问该法测得的问该法测得的
16、CaCOCaCO3 3含量是否偏高?含量是否偏高?20.9920.9920.4120.4120.1020.1020.0020.0020.9120.9122.6022.60已知某水样中含已知某水样中含CaCO3的真值为的真值为20.7mg/L,现用某法,现用某法重复测定该水样重复测定该水样11次,次,CaCO3的含量(的含量(mg/L)为:)为:20.4120.4120.0020.0023.0023.0022.0022.0020.9920.99 例例 2020例某病患者随机分为两组例某病患者随机分为两组, ,分别用甲、分别用甲、乙两药治疗,测得治疗前后(治疗后乙两药治疗,测得治疗前后(治疗后1
17、1个月)的个月)的血沉(血沉(mm/hmm/h),问甲、乙两药是否有效?),问甲、乙两药是否有效?拆分文件Paired-Sample T Test 过程过程输出结果(略)输出结果(略)三个不同地区农村合作医疗自负部分(元)三个不同地区农村合作医疗自负部分(元)苏苏 南南苏苏 中中苏苏 北北60605050404030302020101010010065653535858555552525202020202020555515151515454580803030303035353030757510510525251051057575707030306565606045454545505060603
18、535303015151. 问题的提出 t t检验的局限性检验的局限性单因素单因素两水平两水平问题的提出 t t检验实例检验实例南京中医药大学的学工部门想知道南京中医药大学的学工部门想知道20082008年南年南京市进入南中医就读学生中,市区的学生和郊京市进入南中医就读学生中,市区的学生和郊区的学生成绩是否有差异。区的学生成绩是否有差异。因素:学生所来自的区域因素:学生所来自的区域水平:市区,郊区水平:市区,郊区单因素两水平问题的提出江苏、安徽、浙江三省的平均入学成绩江苏、安徽、浙江三省的平均入学成绩?单因素三水平安徽X=571.23江苏X=592.79浙江X=569.83方差分析方差分析(A
19、nalysis of Variance, ANOVA)2 2ANOVAANOVA优点优点 不受比较的组数限制不受比较的组数限制 可同时分析多个因素的作用可同时分析多个因素的作用 可分析因素间的交互作用可分析因素间的交互作用方差分析的概念方差分析的概念 方差分析(方差分析(ANOVAANOVA)又称变异数分析或)又称变异数分析或F F检验,其目的是推断两组或多组资料的总检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。数的差异是否有统计学意义。方差分析的基本思想 某克山病区测得某克山病区测得1111例克山病患者和
20、例克山病患者和1313名健康人的名健康人的血磷值(血磷值(mmolmmol/L/L)如下,)如下, 患者:患者:0.84 1.05 1.20 1.200.84 1.05 1.20 1.20 1.39 1.53 1.67 1.39 1.53 1.67 1.80 1.87 2.07 2.111.80 1.87 2.07 2.11 健康人:健康人:0.54 0.64 0.640.54 0.64 0.64 0.75 0.76 0.81 1.16 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.871.20 1.34 1.35 1.48 1.56 1.87
21、问该地克山病患者与健康人的血磷值是否不同?问该地克山病患者与健康人的血磷值是否不同? 总变异有以下两个来源:总变异有以下两个来源: (1 1)组内变异,即由于随机误差的原因使)组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;得各组内部的血磷值各不相等; (2 2)组间变异,即由于克山病的影响使得)组间变异,即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。患者与健康人组的血磷值均数大小不等。一、统计方法复习一、统计方法复习单因素方差分析SSSSSS总组间组内双因素方差分析SSSSSSSS总处理因素配伍因素误差方差分析表变异来源SSvMSF组间 SS组间k-1SS组间/v组间
22、MS组间MS组内组内 SS组内N-kSS组内/v组内总SS总N-1一方差分析的意义一方差分析的意义 因素因素(factors)(factors):将试验对象随机分为若干个组,:将试验对象随机分为若干个组,加以不同的干预,称为处理因素。加以不同的干预,称为处理因素。医保对就诊率的影响医保对就诊率的影响是否手术治疗对生存率的影响是否手术治疗对生存率的影响医改对医疗费用的影响医改对医疗费用的影响 在相同的因素下的不同干预,称为不同的水平在相同的因素下的不同干预,称为不同的水平(level)(level)性别:男、女性别:男、女是否手术:是、否是否手术:是、否 例 用二氧化硅(SIO2)50mg使大鼠
23、染尘后,测量不同时期全肺湿重的变化,试比较染尘后1月、3月、6月三个时期的全肺湿重有无差别?二、单因素方差分析二、单因素方差分析Means过程过程One-Way ANOVA 过程过程趋势检验和精确两两比较各组之间的多重比较Contrasts对话框对话框Post Hoc对话框对话框满足方差齐性要求Options对话框对话框方差齐性检验输出结果(略)输出结果(略)三、两因素方差分析三、两因素方差分析 General Linear Model -一般线性模型一般线性模型Univariate 过程过程最小二乘法权重系数选入固定因素Model对话框对话框分析所有的主效应和交互作用自定义模型Post Ho
24、c对话框对话框Contrasts对话框l因素内水平间差值比较 None:不进行因素内不同水平之间的平均值比较; Deviation:各个因素每个水平的平均值都进行交互比较; Simple:各个因素变量的每一水平都与指定的参考水平进行比较; Difference:将因素变量的每一水平的平均值,除第一水平以外,都与其前面各水平的平均值进行比较; Helmert:将因素变量的每一水平的平均值,除最后一个水平以外,都与后续的各水平的平均值进行比较; Repeated:只对相邻的水平进行比较; Polynomial:多项式比较,比较因素变量平均值水平的线性、二次、三次以及高次影响。Plots 、Save
25、、 Options对话框对话框输出结果(略)输出结果(略)练习:某医师将20名失眠患者随机等分为两组,一组服用安眠药,另一组服用安慰剂,研究者要评价该安眠药的催眠效果 ,试作统计分析。 安眠药组病例号12345678910疗前3.5 3.2 4.3 2.5 3.8 3.7 3.0 4.1 2.8 3.6疗后4.7 5.6 5.6 3.5 5.6 4.6 5.2 5.3 4.0 6.1安慰剂组 病例号12345678910疗前2.4 2.8 3.2 4.0 3.9 2.6 2.9 3.4 3.8 4.2疗后3.8 5.1 4.5 5.2 6.0 3.9 5.3 4.2 5.4 6.2练习:某医师
26、将20名失眠患者随机等分为两组,一组服用安眠药,另一组服用安慰剂,研究者要评价该安眠药的催眠效果 ,试作统计分析。 安眠药组病例号12345678910疗前3.5 3.2 4.3 2.5 3.8 3.7 3.0 4.1 2.8 3.6疗后4.7 5.6 5.6 3.5 5.6 4.6 5.2 5.3 4.0 6.1差值1.2 2.4 1.3 1.0 1.9 0.9 2.2 1.2 1.2 2.5安慰剂组 病例号12345678910疗前2.4 2.8 3.2 4.0 3.9 2.6 2.9 3.4 3.8 4.2疗后3.8 5.1 4.5 5.2 6.0 3.9 5.3 4.2 5.4 6.2
27、差值1.4 2.3 1.3 1.2 2.1 1.3 2.4 0.8 1.6 2.0分析思路 研究目的:观察安眠药是否有催眠效果 主要观察指标:睡眠时间的改变 数据类型:数值变量资料 分析思路1. 疗前两组同质性比较,以分析可比性;2. 各组疗前疗后差值比较,分别确定各自的效疗;3. 两组疗前疗后差值相互比较,分析两组的效果是否相同?同时估计差值总体均数的可信区间。两组药物治疗失眠效果(小时)的比较 疗前 疗后 差值安眠药组 3.45 0.57 5.02 0.81 1.57 0.60 安慰剂组 3.32 0.64 4.96 0.83 1.64 0.53 疗前两组比较 :t=0.481,P=0.6
28、37 可以认为两组具有可比性。 2121XXsXXt=n1n22=18t0.05,18=2.101t0.50,18=0.688安眠药组服药前后比较: t=8.248,P=0.0000 可以认为服药安眠药后睡眠时间延长。nsdtd=n-1=9t0.05,9=2.262t0.001,9=4.781安慰剂组服药前后比较: t=9.745,P=0.0000可以认为服药安慰剂后睡眠时间延长。nsdtd=n-1=9t0.05,9=2.262t0.001,9=4.781两组服药前后差值相互比较: t=0.276,P=0.786 尚且不能认为两组延长睡眠时间的效果有差别。2121XXsXXt=n1n22=18t0.05,18=2.101t0.50,18=0.688综合结论 统计分析结果表明服药前两组具有可比性( t =0.481,P=0.637);服用安眠药和安慰剂均有延长睡眠时间的效果(t =8.248,P0.001;t =9.745,P0.001);但服用安眠药与服用安慰剂平均延长的睡眠时间无差别(t =0.276,P=0.786)。即安眠药无效。