1、第五讲 非参数检验1.1.等级相关系数等级相关系数2.2.列联表分析列联表分析3.3.单样本非参数检验单样本非参数检验4.4.双样本非参数检验双样本非参数检验南京财经大学统计学系 管于华MBA课程-管理统计学等级相关系数等级相关系数 一、假设检验的分类二、问题的提出三、假设检验的步骤参数检验(参数检验(parametric testsparametric tests)对总体参数对总体参数(平均数、成数、方差等平均数、成数、方差等)所作的假设进行检验所作的假设进行检验非参数检验(自由分布检验)非参数检验(自由分布检验)对总体分布形式的假设进行检验对总体分布形式的假设进行检验我们想去检验的论述如下
2、:我们想去检验的论述如下:1、经过西弗吉尼亚公路150号里程碑的汽车平均时速为68英里/小时。2、租用雪佛龙Trail Blazer(一款中型SUV车)三年,平均行驶里程为32000英里。3、美国家庭居住在一座独幢住宅的平均时间为11.8年。4、2005年四年制大学毕业生的平均起薪为37 130美元/年。5、中西部偏北地区35%的退休人员会在退休后的1年内卖掉他们的住房,搬到气候温暖的地方居住。6、80%的经常购买州彩票的彩民,从未在一次下注中赢得超过100美元的奖金。假设:须经证实的有关总体参数的论述。假设:须经证实的有关总体参数的论述。假设检验背后的哲学:假设检验背后的哲学:企图肯定什么事
3、物很难,而否定却要企图肯定什么事物很难,而否定却要相对容易(小概率事件发生就拒绝)。相对容易(小概率事件发生就拒绝)。假设检验遵循的原理:假设检验遵循的原理:小概率事件在一次试验或观察中不会小概率事件在一次试验或观察中不会发生。发生。案例1案例3案例2案例4假设:班长从不骂人(班长很少骂人)假设:班长从不骂人(班长很少骂人)调查一个同学:调查一个同学:“他昨天还骂我的!他昨天还骂我的!”(小概率事件发生,否定假设,怀疑假设)(小概率事件发生,否定假设,怀疑假设)调查一个同学:调查一个同学:“班长没骂过我。班长没骂过我。”(不能拒绝假设,但不能肯定班长不骂人,(不能拒绝假设,但不能肯定班长不骂人
4、,只是没理由认为他骂人。)只是没理由认为他骂人。)假定某经销商承诺他的这批货中不假定某经销商承诺他的这批货中不合格品率在合格品率在1以下,即平均以下,即平均1000件里件里面只有一件不合格品,为检验经销商的面只有一件不合格品,为检验经销商的说法是否可靠,从这批货中随机抽出一说法是否可靠,从这批货中随机抽出一件,如果抽出的这件样品,经检查发现件,如果抽出的这件样品,经检查发现是不合格品,则有理由认为经销商的承是不合格品,则有理由认为经销商的承诺是值得怀疑的。诺是值得怀疑的。经过西弗吉尼亚公路经过西弗吉尼亚公路150号里程碑的汽车平均时号里程碑的汽车平均时速为速为68英里英里/小时。小时。情况一:
5、对情况一:对100辆经过里程碑的汽车进行测速,发辆经过里程碑的汽车进行测速,发现速度只有现速度只有30英里英里/小时。小时。情况二:对情况二:对100辆经过里程碑的汽车进行测速,发辆经过里程碑的汽车进行测速,发现速度只有现速度只有67英里英里/小时。小时。假如雪碧瓶的标签上标明的容量为假如雪碧瓶的标签上标明的容量为500毫升。毫升。如果你从市场上随机抽取如果你从市场上随机抽取25瓶,发现其平均含瓶,发现其平均含量为量为499.5毫升,标准差毫升,标准差s为为2.63毫升毫升。问:是否有显著不同?问:是否有显著不同?区间估计区间估计问:是否能断定饮料厂商欺骗了消费者?问:是否能断定饮料厂商欺骗了
6、消费者?区间估计区间估计97.50003.49825/63.2797.25.499)1(2nsntx81.50025/63.2492.25.499)1(nsntx)81.500,(1.1.提出提出 原假设原假设(Null HypothesisNull Hypothesis)备择假设备择假设(Alternative Hypothesis)(Alternative Hypothesis)2.2.选择选择显著性水平显著性水平3.3.设计检验统计量设计检验统计量 4.4.建立决策规则(确定建立决策规则(确定临界值临界值)5.5.做出结论(做出结论(判断判断:是否拒绝原假设):是否拒绝原假设)0H1H1
7、.1.提出提出 原假设与备择假设原假设与备择假设2.2.设计检验统计量设计检验统计量 3.3.计算与统计量对应的概率,并与显著计算与统计量对应的概率,并与显著性水平进行比较性水平进行比较4.4.依据规则判断:是否拒绝原假设依据规则判断:是否拒绝原假设数据集3如果公司所在市平均受教育年限为:13问:是否有所不同 是否高于如果公司所在市平均薪水为:35000问:是否有所不同 是否低于注意:原假设和备择假设在假设检验中并不对称。所设计的检验统计量与原假设相关,即与待检验的参数相关。我们需要知道当原假设为真时该统计量的具体分布。举例 假如雪碧瓶的标签上标明的容量为假如雪碧瓶的标签上标明的容量为500毫
8、升。如毫升。如果你从市场上随机抽取果你从市场上随机抽取25瓶,发现其平均含量为瓶,发现其平均含量为499.5毫升,标准差毫升,标准差s为为2.63毫升。据此可否断定饮毫升。据此可否断定饮料厂商欺骗了消费者?料厂商欺骗了消费者?检验统计量:检验统计量:nsxuxtx两类错误的关系两类错误以法庭对被告进行审判为例 内曼皮尔生原则原假设:被告无罪,备择假设:被告有罪。原假设:被告无罪,备择假设:被告有罪。法庭可能犯的第法庭可能犯的第类错误是:类错误是:被告无罪但判他有罪,即冤枉了好人;被告无罪但判他有罪,即冤枉了好人;法庭可能犯的第法庭可能犯的第类错误是:类错误是:被告有罪但判他无罪,即放过了坏人。
9、被告有罪但判他无罪,即放过了坏人。为了减少冤枉好人的概率,应尽可能接受原为了减少冤枉好人的概率,应尽可能接受原假设,判被告无罪,这可能增大了放过坏人假设,判被告无罪,这可能增大了放过坏人的概率。的概率。法庭采用无罪推定的审判准则法庭采用无罪推定的审判准则 在控制犯第类错误的概率 的条件下,尽可能使犯第类错误的概率 减小。在假设检验实践中,该原则的含义是:在假设检验实践中,该原则的含义是:原假设要受到维护,使它不致被轻易否定,若要否定原假设,必须有。这个就是!双侧检验单侧检验表一注意:查表表二表三也是不同的,如下图2。单样本假设检验单样本假设检验案例1案例2运行图案例3图示图示图示图示图示图示双
10、样本假设检验双样本假设检验独立样本的双样本检验独立样本的双样本检验配对样本的双样本检验配对样本的双样本检验两独立样本平均数差异两独立样本平均数差异T T检验检验 独立样本(Independent Sample)是指两个样本彼此独立,没有任何关联。例如实验组与控制组、男生组与女生组、高收入组与低收入组、大学数学系与物理系等。两个独立样本均值之间差异一般用t统计量进行检验。两独立样本平均数差异两独立样本平均数差异T T检验检验2221212121unknown are and if and30 sizes sample if UsensnsXXz2221212121known are and if
11、or 30 sizes sample if UsennXXz2)1()1(212222112nnsnsnsp2122111nnsXXtp操作实现操作实现AnalyzeAnalyzeCompare MeansCompare MeansIndependent Sample T testIndependent Sample T test案例一案例一案例二案例二两配对样本平均数差异两配对样本平均数差异T T检验检验 配对样本(Paired Sample),指两个样本的观测值之间彼此关联,如实验前和实验后的测量,研究者感兴趣的是二次测量之间是否存在差异。对应个别样本的顺序不可以变化的。两个配对样本均值之
12、间差异用t统计量进行检验。操作实现操作实现AnalyzeAnalyzeCompare MeansCompare MeansPaired-Samples T testPaired-Samples T test案例一案例一方差分析方差分析一、方差分析中的常用术语二、方差分析的基本思想三、方差分析的基本假定四、方差分析的基本步骤因素均衡交互作用水平单元元素 因素是指所要研究的变量,它可能对因变量产生影响。在例9.1中,要分析不同销售方式对销售量是否有影响,所以,销售量是因变量,而销售方式是可能影响销售量的因素。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方
13、差分析。本章介绍单因素方差分析和双因素方差,它们是方差分析中最常用的。水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。有时水平是人为划分的,比如质量被评定为好、中、差。单元指因素水平之间的组合。如销售方式一下有五种不同的销售业绩,就是五个单元。方差分析要求的方差齐就是指的各个单元间的方差齐性。元素指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。如果一个试验设计中任一因素各水平在所有单元格中出现的次数相同,且每个单元格内的元素数相同,则称该试验是为均衡,否则,就被称为不均衡。不均衡试验中获得的数据在分析时较为复杂。如果一个因素的效应大小在另一个因素不同水平
14、下明显不同,则称为两因素间存在交互作用。当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一个因素的不同水平研究该因素的作用大小。如果所有单元格内都至多只有一个元素,则交互作用无法测出。方差分析的基本思想是利用方差的可分解性,方差分析的基本思想是利用方差的可分解性,检查所讨论因素是否作为系统性因素来影响试验结果。检查所讨论因素是否作为系统性因素来影响试验结果。所谓所谓“系统性因素系统性因素”是指由于试验因素的变异而产生是指由于试验因素的变异而产生的试验结果的数量差异,例如,利用四种配料生产某的试验结果的数量差异,例如,利用四种配料生产某种产品,其使用寿命差异就是备料方法不同所造成的
15、种产品,其使用寿命差异就是备料方法不同所造成的类型差异和许多未能控制的类型差异和许多未能控制的“偶然因素偶然因素”所造成的随所造成的随机差异(也称为残差)的总和。进行方差分析的目的,机差异(也称为残差)的总和。进行方差分析的目的,就是要认识产品使用寿命的差异主要是由类型差异引就是要认识产品使用寿命的差异主要是由类型差异引起的还是由随机差异引起的。起的还是由随机差异引起的。方差分析中通常要有以下假定:首先是各样本的独立性,即各组观察数据,是从相互独立的总体中抽取的,只有是独立的随机样本,才能保证变异的可加性;其次要求所有观察值都是从正态总体中抽取,且方差相等。在实际应用中能够严格满足这些假定条件
16、的客观现象是很少的,在社会经济现象中更是如此。但一般应近似地符合上述要求。()将各不同水平间的总离差分成两个部分()将各不同水平间的总离差分成两个部分组间差异组间差异和和组内差异组内差异()构造检验统计量()构造检验统计量F=F=MSR MSR/MSEMSE()判断()判断在零假设为真时,在零假设为真时,F F(k-l),(n-k)(k-l),(n-k)的的F F分布。分布。若各样本平均数的差异很大,则分子组间差异会随之变大,若各样本平均数的差异很大,则分子组间差异会随之变大,而而F F值也随之变大,故值也随之变大,故F F检验是右尾检验。检验是右尾检验。当检验统计量当检验统计量F F大于临界
17、值时则拒绝原假设。大于临界值时则拒绝原假设。SSR与MSR组间差异(组间平方和,简称组间差异(组间平方和,简称SSRSSR):):各组平均值与总平均值离差的平方和,各组平均值与总平均值离差的平方和,反映了各水平之间的差异程度或不同的反映了各水平之间的差异程度或不同的处理造成的差异。处理造成的差异。组间均方组间均方:MSR=SSR/(MSR=SSR/(自由度自由度k-l)k-l)SSE与MSE组内差异(组内平方和、残差平方和,组内差异(组内平方和、残差平方和,简称简称SSESSE):):每个样本数据与其组平均值离差的平方和,每个样本数据与其组平均值离差的平方和,反映了随机误差造成差异的大小。反映
18、了随机误差造成差异的大小。组内均方组内均方:MSE=SSE/(MSE=SSE/(自由度自由度n-k)n-k)1,1,单因素方差分析假设单因素方差分析假设2.2.单因素方差分析数据结构表单因素方差分析数据结构表3,3,单因素方差分析表单因素方差分析表4.4.单因素方差分析单因素方差分析SPSSSPSS界面界面例子例子例子例子(不考虑交互作用)(不考虑交互作用)1.1.双因素方差分析假设双因素方差分析假设2.2.双因素方差分析数据结构表双因素方差分析数据结构表3.3.双因素方差分析表双因素方差分析表4.4.双因素方差分析双因素方差分析SPSSSPSS界面界面例子例子(考虑交互作用)(考虑交互作用)
19、1,1,双因素方差分析假设双因素方差分析假设2.2.双因素方差分析数据结构表双因素方差分析数据结构表3,3,双因素方差分析表双因素方差分析表4.4.双因素方差分析双因素方差分析SPSSSPSS界面界面单因素方差分析假设单因素方差分析假设单因素方差分析数据结构表单因素方差分析数据结构表单因素方差分析表单因素方差分析表单因素方差分析单因素方差分析SPSSSPSS界面界面 有40个学生入学成绩成绩没有差异,现用5种不同的教学方法组织教学,每组8人。期末考试成绩如下表,假定学生成绩服从正态分布,且具有方差齐性,问不同教学方法对学生成绩有无影响?五个商店以各自的销售方式卖出新型健身器,连续五天各商店健身
20、器的销售量如下表所示。销售量服从正态分布,且具有方差齐性,试考察销售方式对销售量有无显著影响,并对销售量作两两比较。双因素方差分析假设双因素方差分析假设双因素方差分析数据结构表双因素方差分析数据结构表双因素方差分析表双因素方差分析表双因素方差分析双因素方差分析SPSSSPSS界面界面 西方国家有一种说法,认为精神病与月亮有关,月西方国家有一种说法,认为精神病与月亮有关,月圆时,人盯着州亮看,看得太久,就会得精神病。中医圆时,人盯着州亮看,看得太久,就会得精神病。中医也有一种说法,认为精神病与季节有关,特别是春季,也有一种说法,认为精神病与季节有关,特别是春季,人最容易得精神病。为了检验这两种说
21、法是否有道理,人最容易得精神病。为了检验这两种说法是否有道理,对某地平均每日精神病发病人数统计如下:对某地平均每日精神病发病人数统计如下:问问:(1)季节对精神病是否有显著的影响季节对精神病是否有显著的影响?(=0.05)(2)月亮对精神病是否有显著的影响月亮对精神病是否有显著的影响?(=0.05)双因素方差分析假设双因素方差分析假设双因素方差分析数据结构表双因素方差分析数据结构表双因素方差分析表双因素方差分析表双因素方差分析双因素方差分析SPSSSPSS界面界面例子某新产品制造企业欲研究不同的包装和不同类型商店对该某新产品制造企业欲研究不同的包装和不同类型商店对该产品的销售影响。选取了三类商店,副食品店、食品店、产品的销售影响。选取了三类商店,副食品店、食品店、超市。每包产品的包装不同,但价格和数量相同,其他因超市。每包产品的包装不同,但价格和数量相同,其他因素可以认为大致相同。若以素可以认为大致相同。若以A A表示商店,表示商店,B B表示包装,调查表示包装,调查时销售额如下表。需分析不同包装和商店类型对该产品销时销售额如下表。需分析不同包装和商店类型对该产品销售是否有显著影响。售是否有显著影响。例子