SAS软件应用之行×列表分析课件.ppt

上传人(卖家):晟晟文业 文档编号:4990110 上传时间:2023-01-31 格式:PPT 页数:65 大小:451.50KB
下载 相关 举报
SAS软件应用之行×列表分析课件.ppt_第1页
第1页 / 共65页
SAS软件应用之行×列表分析课件.ppt_第2页
第2页 / 共65页
SAS软件应用之行×列表分析课件.ppt_第3页
第3页 / 共65页
SAS软件应用之行×列表分析课件.ppt_第4页
第4页 / 共65页
SAS软件应用之行×列表分析课件.ppt_第5页
第5页 / 共65页
点击查看更多>>
资源描述

1、第第13章章 行行列表分析列表分析学习目标v掌握四格表普通卡方检验和配对卡方检验方法以及相应的SAS程序;v了解FREQ过程语句格式;v熟悉RC表资料的分类类型以及相应的统计检验方法;v掌握行均分检验以及SAS程序;v掌握行列均为顺序变量的相关检验以及SAS程序;v掌握分层行列表的分析以及SAS程序;v掌握趋势卡方检验方法以及SAS程序;v了解卡方分割与卡方合并;v熟悉Fishers确切概率计算方法。概述v前面已介绍了两个率比较的检验,在观察例数不够大或拟对多个率进行比较时,检验就不适宜了,因为直接对多个样本率作两两间的检验有可能增加第一类误差。2检验可解决此类问题。v卡方检验是用途很广的一种

2、假设检验方法,这里我们主要学习它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。四格表资料四格表资料v定性指标分为有序的(如:疗效分为“治愈、显效、好转、无效、死亡”)和名义的(如:血型分为“O、A、B、AB”型)类,对于每个受试者来说,有序指标的观测结果只能是该有序指标若干等级中的级(如某人的疗效为“显效”);名义指标的观测结果只能是该名义指标若干标志中的个(如某人的血型为型),显然,无法像处理定量指标那样去直接分析定性指标,故这类资料常被整理成列联表的形式后再进行分析。v当表中只有个定性指标时,称为维列联表;有个

3、或个以上定性指标时,称为多维列联表。常用R、C表示维列联表的行数和列数,并称为RC表;当R=C=时,称为表(或四格表)。表看起来很简单,但根据资料所具备的条件有许多不同的处理方法。四格表卡方检验 v为了解不同致癌剂的致癌作用,分别在两组大白鼠皮肤涂以不同致癌剂,观察不同致癌剂作用下的发癌率,结果如下表13-1,问两组发癌率有无差别?v表13-1 不同致癌剂作用下大白鼠的发癌率v 处理发癌数未发癌数合计发癌率%甲组52(57.18)19(13.82)71 73.24乙组39(33.82)3(8.18)42 92.86合计9122113 80.33四格表卡方检验v这四个格子是表中最基本的数据,其余

4、数据都是由这四个数据推算出来的,因此上表资料又被称之为四格表资料。v2检验的基本思想及计算步骤如下:假设两总体率相等 H0:,即两总体发癌率相等;H1:,即两总体发癌率不等;。212105.0四格表卡方检验v不妨将H0看作 两样本合并的发癌率(Pc80.33),按合计率推算,本例第一行第一列理论上的致癌数为:v此结果称为理论频数,简称理论数,记为T。由上述过程可推导出理论数的计算公式为:2118.57%33.80711139171nnnTcrrc四格表卡方检验v式中Trc即第r行第c列的理论数,nr为Trc所在行合计,nc为Trc所在列合计。相应地,表中的4个基本数据为实际频数,简称为实际数,

5、记为A。4个基本格子的实际数都不等于理论数。v经上述推导,两样本率的差别就演绎为实际数与理论数之间的差别。即:两样本率相差越大,则实际数与理论数的差别就愈大。四格表卡方检验v卡方检验的统计量是2值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,故2值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。v TTA22)(四格表卡方检验v实际数与理论数的差值服从2分布:在H0条件下,上述 差值属于随机误差,可获得统计量:6.477718.8)18.83(82.33)82

6、.3339(82.13)82.1319(18.57)18.5752(22222TA四格表卡方检验v差2分布表,确定P值并作出推论,以1查2界值表得:v本例26.4777,故0.05P0.01,按水平拒绝H0,接受H1,因而可以认为两种致癌剂作用于大白鼠的发癌率有差别(统计学推论)。结果说明乙组致癌剂的发癌率高于甲组(结合样本率作实际推论)。63.6,84.3201.0205.0连续性校正公式 v2分布是正态变量的一种分布。设 是k个独立的标准正态变量,则 。2界值表就是根据这种连续性分布计算出来的。2统计量计算公式实质上是正态近似法。分类资料是间断性的,由此计算的2值不连续,尤其自由度为1的四

7、格表,求出的概率可能偏小,此时需要对2值进行连续性校正,公式为v kXXX,21kXXXk,222212TTA22)5.0(2检验的应用条件 v连续性校正主要针对四格表资料,尤其理论数较小时,连续性校正不可忽略。v四格表2检验的应用条件为:v当n40且所有T5时,用普通的2检验,若所得,改用确切概率法;v当n40但有1T5时,用校正的2检验;v当n40或有T1时,不能用2检验,改用确切概率法。四格表卡方检验的SAS程序 v在SAS/STAT模块中FREQ、TABULATE和SUMMARY等过程可用于分类资料的统计描述,其中FREQ过程兼具统计描述和统计推断的功能,对分类变量计算频数分布,产生从

8、一维到n维的频数表和列联表;对于二维表,可进行2检验,对于三维表,可作Mentel-Hanszel分层分析。FREQ过程是SAS用于分析分类资料的一个常用过程。本节将先向大家介绍FREQ过程的语句及其格式。vFREQ过程的语句基本格式如下:Proc freq data=order=;Table 分类变量*分类变量/;Weight 变量;Run;四格表卡方检验的SAS程序vDATA数据集:规定PROC FREQ语句使用的数据集;vORDERFREQ,按频数递减顺序排列;ORDERDATA,按数据集中出现的顺序排列;ORDERINTERNAL,按内部值排列(缺省);ORDERFORMATTED,按

9、外部格式值排列;vTable语句指定构成表格的变量和表格结构。表格的结构由变量个数和变量排列顺序决定,一个table语句允许列出多个表格结构。PROC FREQ过程中可有多条TABLES语句,TABLES语句后可接多个表格请求式,每个请求式可包含任何数量的变量,从而得到所需的表格。四格表卡方检验的SAS程序v如果TABLES语句缺省,则FREQ过程对数据集中的所有变量都给出相应的一维频数表。不规定任何选项时,若需某变量的一维频数,FREQ给出该变量每一水平的频数、累积频数、频数的百分比和累积百分比;若需二维频数表,FREQ产生交叉分组列表,即包括各格的频数、总频数的格百分数、行频数的格百分数和

10、列频数的格百分数。v请求式由一个或多个用“*”连接起来的变量名组成。几个变量可放在括号中,如:vTABLES A*(B C);等价于TABLES A*B A*C;vTABLES(A-C)*D;等价于TABLES A*D B*D C*D;四格表卡方检验的SAS程序v下列选项可用于TABLES语句中“/”的后面:vOUT数据集:建立一个包含变量值和频数计数的输出数据集。如果TABLES语句中不止一个请求式,数据集的内容相应于TABLES语句中最后一个请求。vCHISQ对每层作c2检验,包括Pearson c2、似然比c2和Mantel-Haenszel c2。此外还给出与c2检验有关的关联指标包括

11、Phi系数、列联系数和Cramers V。对于22表,给出Fisher精确概率。vAGREE 进行配对c 2检验。vEXACT 对大于22的列联表计算Fisher精确概率。同时也给出CHISQ选项的全部统计量。四格表卡方检验的SAS程序vMEASURES对每层的二维表计算一系列关联指标及相应的标准误,包括Pearson和Spearman相关系数,以及Gamma和Kendall系数等。对于22表,还给出常用的危险度指标及其标准误。vCMH 给出Cochran-Mantel-Haenszel统计量,可检验在调整了TABLES语句中其它变量后,行变量与列变量之间的关联程度。对于22表,FREQ过程给

12、出相对危险度估计及其可信区间,还给出各层关联度指标是否齐性的Breslow检验。vALL 给出CHISQ、MEASURES、CMH所请求的全部统计量。vALPHAp给出检验水准。缺省为0.05。四格表卡方检验的SAS程序vEXPECTED给出期望频数。vDEVIATION给出每格的实际频数与期望频数的差值。vCELLCHISQ给出每格对总c2的贡献,即计算每格的(实际频数-期望频数)2/期望频数。vCUMCOL给出累积列百分数。vNOFREQ不给出列联表中的格频数。vNOPERCENT不给出列联表中的格百分数。四格表卡方检验的SAS程序vNOROW不给出列联表中各格的行百分数。vNOCOL不给

13、出列联表中各格的列百分数。vNOCUM不给出频数表的累积频数和累积百分数。vNOPRINT不给出表格,但给出CHISQ、MEASURES或CMH等语句所指定的统计量。vTrend指令系统对2C频数表的C个百分率进行Cochran-Armitage趋势检验;vWEIGHT语句:通常每个观察值提供数值1给频数计数,当WEIGHT语句出现时,每个观察值提供的是该观察值的加权变量值。该值必须非负,但可不必为整数。只能使用一个WEIGHT语句,且该语句作用于所有的表。配对计数资料的卡方检验 v把每一份样本平均分成两份,分别用两种方法进行化验,比较此两种化验方法的结果(两类计数资料)是否有本质的不同;或者

14、分别采用甲、乙两种方法对同一批病人进行检查,比较此两种检查方法的结果(两类计数资料)是否有本质的不同,此时要用配对卡方检验。配对计数资料的卡方检验v现有198份痰标本,每份标本分别用A、B两种培养基培养结核菌,结果如下表。A培养基的培养率为36.36%,B培养基的阳性培养率为34.34%,试问A、B两种培养基的阳性培养率是否相等?v AB合计+-+48(a)24(b)72-20(c)106(d)126合计68130198配对计数资料的卡方检验v本例为配对设计的计数资料。计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。其特点是对样本中各观察单位分别用两种方法处理,然后观察两种处理

15、方法的某两分类变量的计数结果。观察结果有四种情况,可整理成表13-4的形式:两种培养基的培养结果皆为阳性(a);两种培养基的培养结果皆为阴性数(d);A培养基的培养结果为阳性,B培养基的培养结果为阴性(b);A培养基的培养结果为阴性,B培养基的培养结果为阳性(d)。配对计数资料的卡方检验v比较两法结果有无差别,要着眼于两法结果不一致的部分。表中观察变量是对子中两法的差值或差别,由b和c两格数据来反映,总体中与b和c对应的数据可用B和C表示(a格和d格表示两法差值为0,不予考虑)。v当40时,v当50时)这时可利用秩和分布的正态近似法作出判断。已知H0成立时,近似地有v其中,v统计量的计算公式为

16、:),(2TTNT配对设计资料的非参数检验 v配对设计有两种情况:一种是同对的两个受试对象分别给予两种处理,目的是推断两种处理的效果有无差别。如取同窝别、体重相近的2只动物配对。临床试验疗效比较时,常将病种、病型、病情及其它影响疗效的主要因素一致的病人配成对子,以构成配对的研究样本。另一种是同一受试对象处理前后的比较,目的是推断该处理有无作用。例如观察某指标的变化,用同一组病人治疗前后作比较;用同一批动物处理前后作比较;或用同一批受试对象的不同部位、不同器官作比较等,也属于配比试验。配对设计资料的非参数检验v配对设计资料一般采用配对t检验方法进行分析,但若配对数据差数的分布非正态分布,但其总体

17、分布基本对称,则可采用符号秩检验作为配对t检验的替代方法。符号秩检验功效很高,在数据满足配对t检验的要求时,符号秩检验的功效可达配对t检验功效的95%。配对设计资料的非参数检验v配对设计资料的检验步骤为:v求差值求各对数据 的差值 ;v检验假设vH0:差值的总体中位数等于零,即 vH1:差值的总体中位数不等于零,即v编秩按差值的绝对值由小到大编秩,并按差值的正负给秩次加上正负号。编秩时,若差值为0,舍去不计;若差值的绝对值相等,取平均秩次。v求秩和并确定统计量T将所排的秩次冠以原差数的符号,分别求出正、负差值秩次之和,分别以T+和 T-表示。),(iiyxiiyxd0dM0dM配对设计资料的非

18、参数检验v在H0成立时,如果当观察例数比较多,正差值的秩和与负差值的秩和理论上应相等,即使有些差别,也只能是一些随机因素造成的。换句话说,如果H0成立,一份随机样本中“不太可能“出现正差值的秩和与负差值的秩和相差悬殊的情形;如果样本的正差值的秩和与负差值的秩和差别太大,我们有理由拒绝H0,接受H1,即认为两种处理效应不同;反之,没有理由拒绝H0,还不能认为两种处理效应不同。配对设计资料的非参数检验v统计量v双侧检验时,以绝对值较小者为统计量T值,即T=min(T+,T-);单侧检验时,任取正差值的秩和或负差值的秩和为统计量T。记正、负差值的总个数为n(即n为差值不等于0的对子数),则T+与T-

19、之和为n(n+1)/2。v确定P值和作出推断结论。两组定量资料的非参数检验 vWilcoxon秩和检验,用于推断计量资料或等级资料的两个样本所来自的两个总体分布是否有差别。在理论上假设H0应为两个总体分布相同,即两个样本来自同一总体。由于秩和检验对于两个总体分布的形状差别不敏感,对于位置相同、形状不同但类似的两个总体分布,推断不出两个总体分布有差别,故对立的备择假设H1不能认为两个总体分布不同,而只能为两个总体分布位置不同。v不管两个总体分布的形状有无差别,秩和检验的目的是推断两个总体分布的位置是否有差别,这正是实践中所需要的,如要推断两个不同人群的某项指标值的大小是否有差别或哪个人群的大,可

20、用其指标值分布的位置差别反映,而不关心其指标值分布的形状有无差别。两组定量资料的非参数检验v求检验统计量T值:把两样本数据混合从小到大编秩,遇数据相等者取平均秩;以样本例数小者为n1,其秩和(T1)为T,若样本例数相等,可取任一样本的秩和(T1或T2)为T。v确定P值,作出推断结论:当n110和n2-n110时,查T界值表。若T值在界值范围内,其P值大于相应概率水平;若T值刚好等于界值,其P值等于相应概率水平;若T值在界值范围外,其P值小于相应概率水平。v若n110或者n2-n110,超出界值表的范围,可用正态近似法作检验,令n1n2=N,按下式计算值。v)(1(12)1(2/)1(33211

21、NNttNnnNnTjj两组定量资料非参数检验的SAS程序 vSAS中对于非参数分析方法功能的实现主要由npar1way过程来完成,npar1way过程属于SAS的STAT模块,对于统计学上所涉及的非参数统计方法几乎都可以通过此过程完成。Npar1way过程的基本语句格式如下:vPROC NPAR1WAY ;vBY 变量名;vCLASS变量名;vEXACT 统计量选项;vFREQ变量名;vOUTPUT ;vVAR 变量名;vRUN;两组定量资料非参数检验的SAS程序vDATA=数据集名:指定要进行分析的数据集;vMEDIAN:运用中位数评分进行分析,即进行中位数检验vNOPRINT:禁止所有的

22、输出,用在仅需要创建输出数据集时;vST:运用Siegel-Tukey评分进行分析;vANOVA:对原始数据进行方差分析;vEDF:要求计算基于经验分布的统计量;vMISSING:指定分组变量的缺失值为一有效的分组水平;vSAVAGE:运用Savage评分进行分析;vVW:运用Van der Waerden评分进行分析计算;两组定量资料非参数检验的SAS程序vCORRECT=NO:在两样本时,禁止Wilcoxon和Siegel-Tukey检验的连续性校正过程;vKLOTZ:运用Klotz评分进行分析;vMOOD:运用Mood评分进行分析;vSCORES=DATA:以原始数据为评分值进行分析;v

23、WILCOXON:对两样本进行Wilcoxon秩和检验,对多样本进行Kruskal-Wallis检验;vexact语句:要求SAS对指定的统计量(选项)进行精确概率的计算。其后的统计量选项可为以下项目,分别对应相应的统计计算方式。两组定量资料非参数检验的SAS程序vAB,KLOTZ,KS,MEDIAN,MOOD,SAVAGE,SCORES=DATA,ST,WILCOXON,VW等。v运算选项为精确概率的计算过程指定一些控制项目,如选项“mc”要求以Monte Carlo方法计算精确概率。voutput语句:与其它过程中相应的语句大同小异,不同之处在于语句最后的选项。此处的选项绝大多数包括在表6

24、.1中,指定在输出数据集中包含所指定项目所对应的统计量。vvar语句:与其它过程的也基本相同,用以指定要进行分析的变量,变量必须为数值型。若省略此语句,SAS将对除by语句、class语句以及freq语句中指定的变量之外的所有数值型变量进行分析。多组定量资料的非参数检验 v这一部分的内容相当于参数检验中的方差分析,依据的方法是Kruskal-Wallis秩和检验,此方法的基本思想与Wilcoxon秩和检验基本相同,都是基于各组混合编秩后,各组秩和应相等的假设。两者的不同点就在于Kruskal-Wallis秩和检验是针对多组数据的分析,而Wilcoxon秩和检验则只用于对两组数据的比较。vKru

25、skal-Wallis H检验,用于推断计量资料或等级资料的多个独立性样本所来自的多个总体分布是否有差别。在理论上检验假设H0应为多个总体分布相同,即多个样本来自同一总体。由于H检验多个总体分布的形状差别不敏感,故在实际应用中检验假设H0可写作多个总体分布位置相同。对立的备择假设H1为多个总体分布位置不全相同。等级相关(秩相关)v秩相关或等级相关是用双变量等级数据作直线相关分析,这类方法由于对原变量分布不作要求,故而属于非参数统计方法。适用于下列资料:不服从双变量正态分布而不宜作积差相关分析;总体分布型未知;原始数据是用等级表示。当两变量不符合双变量正态分布的假设时,需用Spearman秩相关

26、来描述变量间的相互变化关系。此时,散点图上散点的分布形态不能完全描述两变量间的相关关系,故此时一般不需再绘制散点图。等级相关(秩相关)v类似前述积差相关,它是用等级相关系数rs来说明两个变量间直线相关关系的密切程度与相关方向。将n对观察值Xi、Yi(i=1,2,n)分别由小到大编秩,Pi表示Xi的秩,Qi表示Yi的秩,其中每对Pi、Qi可能相等,也可能不等。用Pi与Qi之差反映X、Y两变量秩排列一致性的情况。等级相关(秩相关)v按以下公式计算Spearman等级相关系数vrs值界于-1与1之间,rs为正表示正相关,rs为负表示负相关,rs为零表示为零相关。样本等级相关系数rs是总体相关系数的估

27、计值。)1(6122nndrs本章小节 v非参数检验方法简便,不依赖于总体分布的具体形式因而适用性强,但灵敏度和精确度不如参数检验。一般而言,非参数检验适用于以下三种情况:顺序类型的数据资料,这类数据的分布形态一般是未知的;虽然是连续数据,但总体分布形态未知或者非正态,这和卡方检验一样,称自由分布检验;总体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下(虽然检验被称为小样本统计方法,但样本容量太小时,代表性毕竟很差,最好不要用要求较严格的参数检验法)。因为这些特点,加上非参数检验法一般原理和计算比较简单,因此常用于一些为正式研究进行探路的预备性研究的数据统计中。当然,由于非参数检验许多牵涉不到参数计算,对数据中的信息利用不够,因而其统计检验力相对参数检验也差得多。本章小节 v本章介绍了编秩的基本步骤,平均秩的计算及相等秩的校正,详细讲解了非参数检验的几种基本类型和检验的基本方法,包括配对及单样本秩和检验、两组样本比较的秩和检验、多组样本比较的秩和检验、等级分组资料的非参数检验和随机区组设计资料比较的秩和检验。我们在学习的过程中掌握各种资料的编秩以及秩和检验方法。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(SAS软件应用之行×列表分析课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|