SAS显著性检验原理及应用课件.ppt_163文库

资源描述

1、显著性检验显著性检验n显著性检验即用于实验处理组与对照组或两种不同处理的效应之间是否有差异，以及这种差异是否显著的方法。n常把一个要检验的假设记作H0,称为原假设（或零假设）(null hypothesis)，与H0对立的假设记作H1，称为备择假设(alternative hypothesis)。n 在原假设为真时，决定放弃原假设，称为第一类错误，其出现的概率通常记作；n 在原假设不真时，决定接受原假设，称为第二类错误，其出现的概率通常记作。n通常只限定犯第一类错误的最大概率，不考虑犯第二类错误的概率。这样的假设检验又称为显著性检验，概率称为显著性水平。n最常用的值为0.01、0.05、0.

2、10等。一般情况下，根据研究的问题，如果放弃真假设损失大，为减少这类错误，取值小些，反之，取值大些。显著性检验原理显著性检验原理无效假设n显著性检验的基本原理是提出“无效假设”和检验“无效假设”成立的机率（P）水平的选择。所谓“无效假设”，就是当比较实验处理组与对照组的结果时，假设两组结果间差异不显著差异不显著，即实验处理对结果没有影响或无效。经统计学分析后，如发现两组间差异是抽样引起的，则“无效假设”成立，可认为这种差异为不显著（即实验处理无效）。若两组间差异不是由抽样引起的，则“无效假设”不成立，可认为这种差异是显著的（即实验处理有效）。“无效假设”成立的机率水平n检验“无效假设”成立的机

3、率水平一般定为5%，其含义是将同一实验重复100次，两者结果间的差异有5次以上是由抽样误差抽样误差造成的，则“无效假设”成立，可认为两组间的差异为不显著，常记为p0.05。若两者结果间的差异5次以下是由抽样误差造成的，则“无效假设”不成立，可认为两组间的差异为显著，常记为p0.05。如果p0.01，则认为两组间的差异为非常显著。/*注：显著性水平通常是指能够犯第一类错误（原假设为真而拒绝原假设）的水平，假设P检验值的概率为0.07，是指犯第一类错误的概率为7%，高于5%，故接受原假设。*/显著性检验基本思想显著性检验基本思想显著性检验的基本思想可以用小概率原理来解释。n1 1、小概率原理：小概

4、率事件在一次试验中是几乎不可能发生的，假若在一次试验中事件事实上发生了。那只能认为事件不是来自我们假设的总体，也就是认为我们对总体所做的假设不正确。n2 2、观察到的显著水平：由样本资料计算出来的检验统计量观察值所截取的尾部面积为。这个概率越小，反对原假设，认为观察到的差异表明真实的差异存在的证据便越强，观察到的差异便越加理由充分地表明真实差异存在。n3 3、检验所用的显著水平：针对具体问题的具体特点，事先规定这个检验标准。n4 4、在检验的操作中，把观察到的显著性水平与作为检验标准的显著水平标准比较，小于这个标准时，得到了拒绝原假设的证据，认为样本数据表明了真实差异存在。大于这个标准时，

5、拒绝原假设的证据不足，认为样本数据不足以表明真实差异存在。n5 5、检验的操作可以用稍许简便一点的作法：根据所提出的显著水平查表得到相应的值，称作临界值，直接用检验统计量的观察值与临界值作比较，观察值落在临界值所划定的尾部内，便拒绝原假设；观察值落在临界值所划定的尾部之外，则认为拒绝原假设的证据不足。几种常见的假设检验方法几种常见的假设检验方法nT T检验检验：适用于计量资料、正态分布、方差具有齐性的两组间小样本比较。包括配对资料间、样本与均数间、两样本均数间比较三种，三者的计算公式不能混淆。（处理时不用判断分布类型就可以使用t检验）nTT检验：检验：应用条件与t检验大致相同，但t检验用于两

6、组间方差不齐时，t检验的计算公式实际上是方差不齐时t检验的校正公式。nU U检验检验：应用条件与t检验基本一致，只是当大样本时用U检验，而小样本时则用t检验，t检验可以代替U检验。n方差分析方差分析：用于正态分布、方差齐性的多组间计量比较。常见的有单因素分组的多样本均数比较及双因素分组的多个样本均数的比较，方差分析首先是比较各组间总的差异，如总差异有显著性，再进行组间的两两比较，组间比较用q检验或LST检验等。nX2X2检验检验：是计数资料主要的显著性检验方法。用于两个或多个百分比(率)的比较。常见以下几种情况：四格表资料、配对资料、多于2行*2列资料及组内分组X2检验。n零反应检验零反应检验

7、：用于计数资料。是当实验组或对照组中出现概率为0或100%时，X2检验的一种特殊形式。属于直接概率计算法。n非参数统计方法非参数统计方法：符号检验、秩和检验和Ridit检验。三者均属非参数统计方法，共同特点是简便、快捷、实用。可用于各种非正态分布的资料、未知分布资料及半定量资料的分析。其主要缺点是容易丢失数据中包含的信息。所以凡是正态分布或可通过数据转换成正态分布者尽量不用这些方法。nHotellingHotelling检验检验：用于计量资料、正态分布、两组间多项指标的综合差异显著性检验。以下主要介绍了四类检验方法以下主要介绍了四类检验方法T T检验检验U U检验检验方差检验方差检验非参数检验

8、非参数检验T T检验检验nT T检验检验，亦称student t检验（Students t test），主要用于样本含量较小（例如n30），总体标准差未知的正态分布资料。nT检验是用于小样本（样本容量小于30）的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率，从而判定两个平均数的差异是否显著。T T检验公式检验公式n计算公式：t统计量：,S 代表标准差，代表均值;自由度：v=n-1适用条件：(1)已知一个总体均数；(2)可得到一个样本均数及该样本标准误；(3)样本来自正态或近似正态总体。T T检验示例检验示例n例1 难产儿出生体重n=35,=3.42,S=0.40,一般婴儿

9、出生体重0=3.30（大规模调查获得），问相同否？解：1.建立假设、确定检验水准H0：=0（无效假设，null hypothesis）H1：（备择假设,alternative hypothesis，）双侧检验，检验水准:=0.05 2.计算检验统计量，v=n-1=35-1=343.查相应界值表，确定P值，下结论查附表1，t0.05/2,34=2.032,t 0.05，按照=0.05水准，不拒绝H0，两者的差别无统计学意义T T检验检验SASSAS程序（程序（1/21/2）nSAS代码proc ttest data=数据集;class 分组变量;Paried variable1*variable

10、2;/*配对变量*/var 待分析的数值变量;By 分组变量;Alpha=定义可信区间的alpha水平，默认为0.05；H0=定义特定的总体均数，默认为0；run;T T检验检验SASSAS程序（程序（2/22/2）n Paired定义配对变量T T检验结果（检验结果（1/21/2）StatisticsVariablexN（统计个数）Lower CL（下限）Mean（均值）Upper CL（上限）Lower CL（下限）Std Dev（标准差）Upper CL（上限）Std Err（标准误差）MinimumMaximumMeanMeanStd DevStd Devy145.16 18.75 3

11、2.34 4.84 8.54 31.84 4.27 1030y247.23 17.50 27.77 3.66 6.46 24.07 3.23 1025yDiff(1-2)-11.85 1.25 14.35 4.88 7.57 16.67 5.35 该表格为数值型变量的统计性描述。T T检验结果（检验结果（2/22/2）T-TestsVariableMethodVariancesDFt ValuePr|t|yPooledEqual60.230.8231ySatterthwaiteUnequal5.580.230.8237该表格为T检验结果，有两个T检验结果，要用哪个需要依赖于方差齐性检验。Equ

12、ality of VariancesVariableMethodNum DFDen DFF ValuePr FyFolded F331.750.6571该表格方差齐性（方差等价）：P0.05表示不拒绝H0假设，无统计学意义，这时看T检验方法Pooled的检验结果，否者看T检验方法Satterthwaite的检验结果。U U检验原理检验原理1.适用条件：两个样本含量大于50。2.已知条件：两组的样本含量、样本均数和标准差，即：3.检验统计量计算公式：4.H0：两样本无差异；H1：两样本有差异；如果P值大于0.05，则接受原假设，否则拒绝原假设。U U检验检验SASSAS代码代码DATADATA

13、P33;N1=156156;MEAN1=4.654.65;SD1=0.550.55;N2=7474;MEAN2=4.224.22;SD2=0.440.44;U=(MEAN1-MEAN2)/SQRT(SD1*2 2/N1+SD2*2 2/N2);/*计算u值*/P=(1 1-PROBNORM(ABS(U)*2 2;/*计算概率p*/PUT U P;/*在LOG窗口输出*/RUNRUN;U U检验检验SASSAS结果说明结果说明n6.3710214676 1.877734E-10 nNOTE:The data set WORK.P33 has 1 observations and 8 variab

14、les.nNOTE:The DATA statement used 0.05 seconds.n结果为：u=6.371,p=1.87810-10。按0.05水平,拒绝H0接受H1,可认为该地男、女红细胞数不同，男性高于女性。方差分析介绍方差分析介绍n方差分析(Analysis of Variance，简称ANOVA)，又称“变异数分析”或“F检验”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。n只能用于分类变量，对于连续型变量可

15、以转置，做T（U）检验。n数据需符合以下条件：（1）各处理条件下的样本是随机的。（2）各处理条件下的样本是相互独立的，否则可能出现无法解析的输出结果。（3）各处理条件下的样本分别来自正态分布总体，否则使用非参数分析。（4）各处理条件下的样本方差相同，即具有齐效性。方差分析原理方差分析原理方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个：(1)随机误差，如测量误差造成的差异或个体间的差异，称为组内差异，用变量在各组的均值与该组内变量值之偏差平方和的总和表示，记作SSw，组内自由度dfw。(2)实验条件，即不同的处理造成的差异，称为组间差异。用变量在各组的均值与总均值之偏差平方和表示

16、，记作SSb，组间自由度dfb。总偏差平方和 SSt=SSb+SSw。组内SSw、组间SSb除以各自的自由度(组内dfw=n-m，组间dfb=m-1，其中n为样本总数，m为组数)，得到其均方MSw和MSb，一种情况是处理没有作用，即各组样本均来自同一总体，MSb/MSw1。另一种情况是处理确实有作用，组间均方是由于误差与不同处理共同导致的结果，即各样本来自不同总体。那么，MSbMSw(远远大于)。MSb/MSw比值构成F分布。用F值与其临界值比较，推断各样本是否来自相同的总体。方差分析方差分析SASSAS代码代码n正态性检验proc univariate normal;class g;var

17、x;run;n方差分析（单因素/多因素）proc anova;class g;model x=g;Means g/hovtest snk bon;/*homogeneity of variance*/run;方差分析结果解释方差分析结果解释结果解释：1、三组数据正态性检验作出判断2、方差齐性检验：F=1.45，P=0.2567 0.05，方差齐；3、方差分析：F=4.28，P=0.0275，拒绝H0,差别有统计学意义，三组小鼠FDP酶活力不全相等。4、两两比较：可以认为对照与水层RNA组间，对照组与酚层RNA组间均有差别，而还不能认为水层RNA组与酚层RNA组间有差别。非参数检验介绍非参数检验

18、介绍n非参数检验(Nonparametric tests)是统计分析方法的重要组成部分，它与参数检验共同构成统计推断的基本内容。参数检验是在总体分布形式已知的情况下，对总体分布的参数如均值、方差等进行推断的方法。但是，在数据分析过程中，由于种种原因，人们往往无法对总体分布形态作简单假定，此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑，在总体方差未知或知道甚少的情况下，利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数，因而得名为“非参数”检验。n常用的非参数检验有：符号检验、秩和检验和Ridit检验。符号检验理论符号检验理论n符号

19、检验（sign test）是一种最简单的非参数检验方法。它是根据正、负号的个数来假设检验。首先需要将原始原始观察值按设定的观察值按设定的规则规则，转换成正、负号，然后计数正、负号的个数作出检验。该检验可用于样本中位数和总体中位数的比较，数据的升降趋势的检验，特别适用于总体分布不服从正态分布或分布不明的配对资料，有时当配对比较的结果只能定性的表示，如试验前后比较结果为颜色从深变浅、程度从强变弱，成绩从一般变优秀，即不能获得具体数字，也可用符号检验，例如用正号表示颜色从深变浅，用负号表示颜色从浅变深。n用于配对资料时，符号检验的计算步骤为：首先首先定义成对数据指定正号或负号的定义成对数据指定正号或

20、负号的规则规则，然后计数正号的个数S+及负号的个数S-，由于在具体比较配对资料时，可能存在配对资料的前后没有变化，或等于假设中的中位数，此时仅需要将这些观察值从资料中剔除，当然样本大小n也随之减少，故修正样本大小n=S+S-。当样本n较小时，应使用二项分布确切概率计算法，当样本n较大时，常利用二项分布的正态近似。单变量符号检验概率计算单变量符号检验概率计算n单变量符号检验举例（单变量符号检验举例（1/41/4）单变量符号检验举例（单变量符号检验举例（2/42/4）二项分布的概率函数为：原假设H0和H1单变量符号检验举例（单变量符号检验举例（3/43/4）由二项分布的概率函数计算出发生次数的概率

21、：正号出现次数正号出现次数正号出现概率正号出现概率正号出现累计概率正号出现累计概率00.0001 0.0001 10.0009 0.0009 20.0056 0.0065 30.0222 0.0287 40.0611 0.0898 50.1222 0.2120 60.1833 0.3953 70.2095 0.6047 80.1833 0.7880 90.1222 0.9102 100.0611 0.9713 110.0222 0.9935 120.0056 0.9991 130.0009 0.9999 140.0001 1.0000 原假设原假设H H0 0：P=0.5P|t|0.0100符

22、号检验（sign）M4Pr=|M|,双侧检验0.0574符号秩检验(sgn rank)S38Pr=|S|0.0154单变量符号检验单变量符号检验SASSAS结果解释结果解释分位数（定义 5）分位数估计值100%最大值299%295%290%275%Q3250%中位数225%Q1010%-15%-21%-20%最小值-2极值观测最小值最大值值观测值观测-29210-113211-132120521418215单变量符号检验说明单变量符号检验说明结果说明：符号检验统计量M(Sign)=4，它是取正符号和负符号两者之间的小者作为检验统计量，Pr=|M|计算的概率是二项分布的两尾概率之和，因此它是双侧检验，检验正符号和负符号是否相同，结果为0.0574。在显著水平设定为0.1时，由于0.05740.05，改变为不能拒绝原假设。但是，如果我们用考虑差值d大小的信息的Wilcoxon符号秩检验，即Sgn Rank，由于0.0154=0.05，故应接受零假设，即有95%把握认为男生和女生的gpa无显著性差异。结果2结果解释：

展开阅读全文