1、第五章非参数非参数检验检验主要内容主要内容5.1 参数检验与非参数检验参数检验与非参数检验的比较的比较5.2单样本的非参数检验单样本的非参数检验非参数检验非参数检验 非参数检验是在总体分布未知的情况下,利用样本数据对总体分布形态等进行推断的方法,在推断过程中不涉及有关总体分布的参数,而是检验总体某些有关的性质,如总体的分布位置、分布形状之间的比较等。 与参数检验的原理相同,非参数检验过程也是先根据问题提出原假设,然后利用统计学原理构造出适当的统计量,最后利用样本数据计算统计量的概率P值,与显著性水平进行比较,得出拒绝或者接受原假设的结论。 非参数检验包括单样本(O)、独立样本(I)、相关样本(
2、R)的非参数检验。 5.1 参数检验及非参数检验参数检验及非参数检验的区别的区别1参数检验和非参数检验的区别 参数检验和非参数检验最本质的区别是:参数检验需要事先确定或假定总体的分布,非参数检验则不需要假定总体的分布,而是直接用样本来推断总体的分布。 除此之外,二者之间还可以从很多方面来区分。研究的对象和目标不同。 研究的统计量有所不同。 2非参数检验的优点(1)它对总体分布一般不做过多的限制,任何分布都可以用非参数检验进行研究,其应用范围大于参数检验。(2)由于非参数检验不依赖于总体分布形态,因而它天然具有稳健特性。(3)对资料的测量水平 要求不高。(4)非参数检验 比较直观,容易理解。 5
3、.1 参数检验及非参数检验参数检验及非参数检验的区别的区别3 非参数检验的缺点(1)二者效率有差距。(2)当样本容量较大时,非参数检验的计算比较复杂、困难。(3)参数检验与非参数检验有各自特点,并非所有的参数检验都可转化为非参数检验。 5.1 参数检验及非参数检验参数检验及非参数检验的区别的区别主要内容主要内容5.1参数检验与非参数检验参数检验与非参数检验比较比较5.2单样本的非参数检验单样本的非参数检验 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.1 .1 基本概念及统计原理基本概念及统计原理 单样本非参数检验使用一个或多个非参数检验方法来识别单个总体的分布情况,不需要待检验
4、的数据呈正态分布。 SPSS的单样本非参数检验方法包括卡方检验、二项分布检验、游程检验、K-S检验及Wilcoxon符号检验五种。 在SPSS 23中,所有单样本的非参数检验有一些共同的设置。单样本非参数检验的对话框有三个选项卡,分别为“目标”、“字段”和“设置”,具体设置如下:0H0H 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.1 .1 基本概念及统计原理基本概念及统计原理(1)“目标”选项卡:用于设置非参数检验的目标,每个不同的选项对应于“设置”选项卡上不同的默认配置,如下图所示。0H0H 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.1 .1 基本概念及统
5、计原理基本概念及统计原理(2)“字段”选项卡:用于设定待检验变量。0H0H 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.1 .1 基本概念及统计原理基本概念及统计原理(3)“设置”选项卡:用于设定检验方法及对应的选项,如下图所示。0H0H5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.2 .2 卡方检验卡方检验1卡方检验的概念 也称卡方拟合优度检验,它是K.Pearson给出的一种最常用的非参数检验方法,用于检验观测数据是否与某种概率分布的理论数值相符合,进而推断观测数据是否是来自于该分布的样本的问题。 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.2
6、 .2 卡方检验卡方检验1卡方检验的概念 也称卡方拟合优度检验,它是K.Pearson给出的一种最常用的非参数检验方法,用于检验观测数据是否与某种概率分布的理论数值相符合,进而推断观测数据是否是来自于该分布的样本的问题。2统计原理 为检验实际分布是否与理论分布(期望分布一致),可采用卡方统计量,典型的卡方统计量是Pearson卡方统计量,其公式为: 221()kiiiinnpnp 5.2 单样本的非参数检验单样本的非参数检验0H0H5.5.2 2.2 .2 卡方检验卡方检验3.分析步骤第第1 1 步步 提出零假设:提出零假设:卡方检验的零假设H0是“总体服从某种理论分布”,其对立假设H1是“总
7、体不服从某种理论分布”。第第2 2步步 选择检验统计量:选择检验统计量:卡方分布选择的是Pearson卡方统计量。已证明,当n充分大时,它近似地服从自由度为k-1的卡方分布。第第3 3步步 计算检验统计量的观测值和概率计算检验统计量的观测值和概率p p值。值。第第4 4步步 给出显著性水平,作出决策。给出显著性水平,作出决策。 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.2 .2 卡方检验卡方检验4卡方检验SPSS实例分析【例5-1】 某公司质检负责人欲了解企业一年内出现的次品数是否均匀分布在一周的五个工作日中,随机抽取了90件次品的原始记录,其结果如下表,问该企业一周内出现的
8、次品数是否均匀分布在一周的五个工作日中?( ) 0.05工作日12345次品数2515816265.2 单样本的非参数检验单样本的非参数检验5.5.2 2.2 .2 卡方检验卡方检验第第1 1步步 分析:分析:由于考虑的是次品是否服从均匀分布的问题,故用卡方检验。第第2 2步步 数据组织数据组织:建立SPSS数据文件,建立两个变量:“工作日”、“次品数”,录入相应数据,保存为文件data5-4.sav。第第3 3步步 “ “次品数次品数”字段加权处理:字段加权处理:通过分析“工作日”及“次品数”两个字段的含义及度量标准,确定“工作日”为被分析字段,而“次品数”表示各工作日出现的频数,所以应该对
9、“次品数”进行加权处理。执行“数据”“加权个案”,打开“加权个案”对话框,按图5-10所示进行设置。 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.2 .2 卡方检验卡方检验第第4 4步步 单因素的非参数检验设置:单因素的非参数检验设置:选择菜单“分析非参数检验单样本”,在“目标”选项卡选择“自定义分析”;在“字段”选项卡中选择“使用定制字段分配”,并将“工作日”字段选入“检验字段”;“设置”选项卡中选择“自定义检验”,并选中“比较观察可能性和假设可能性(卡方检验)”,“检验选项”及“用户缺失值”保持默认选项。第第5 5步步 卡方检验的选项设置:卡方检验的选项设置:打开“卡方检验
10、选项”对话框,选择” 所有类别概率相等(V)“选项。 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.2 .2 卡方检验卡方检验第第6 6步步 运行结果及分析运行结果及分析:卡方检验的假设检验数据摘要 给出了卡方检验给出了卡方检验的原假设为的原假设为“工作日的工作日的类别以相同的概率发类别以相同的概率发生生”,其,其相伴概率值相伴概率值Sig. = 0.014 0.05,说明应说明应拒绝原假设拒绝原假设,因此图,因此图5-12的的“决策者决策者”给出给出“拒绝原假设拒绝原假设”的决策,的决策,认为工作日的类别是以认为工作日的类别是以不同概率发生的,即认不同概率发生的,即认为为该企业
11、一周内出现的该企业一周内出现的次品数次品数不不是均匀分布在是均匀分布在一周的五个工作日中一周的五个工作日中。 5.5.2 2.3 .3 二项分布检验二项分布检验1基本概念基本概念二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为p的二项分布,其零假设H0是:样本来自的总体与指定的二项分布无显著性差异。2统计原理二项分布检验在样本小于等于30时,按下式计算概率值: 1xiin iniP XxC p q5.2 单样本的非参数检验单样本的非参数检验5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.3 .3 二项分布检验二项分布检验在大样本的情况下,计算的是Z统计量,认为在
12、零假设下,Z统计量服从正态分布,其计算公式如下: 0.5(1)xnpZnpp 当x小于n/2时,取加号;反之取减号,p为检验概率,n为样本总数。5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.3 .3 二项分布检验二项分布检验3分析步骤分析步骤 二项分布检验亦是假设检验问题,检验步骤同前。SPSS会自动计算上述精确概率和近似概率值。如果概率值小于显著性水平,则拒绝零假设,认为样本来自的总体与指定的二项分布有显著差异,反之样本来自的总体与指定的二项分布无显著差异。 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.3 .3 二项分布检验二项分布检验SPSSSPSS实例分析实
13、例分析【例5-4】有20名学生经过新型教学法后测试成绩如下表,以90分及以上为优秀,请检验这20名同学的优秀率是否达到了10%。 成绩 78 75 84 76 89 93 94 88 95 87 88 73 84 82 80 84 87 91 95 83第第1步步 分析:分析:由于成绩分为优秀与非优秀两种状态,故应用二项分布检验。第第2步步 数据的组织:数据的组织:数据分成一列,其变量名为“成绩”,输入数据并保存。5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.3 .3 二项分布检验二项分布检验SPSSSPSS实例分析实例分析 第第3步步 单因素的非参数检验设置:单因素的非参数检验
14、设置:选择菜单“分析非参数检验单样本”:将“目标”选项卡选择“自定义分析”;在“字段”选项卡中选择“使用定制字段分配”,并将“成绩”字段选入“检验字段”;在“设置”选项卡中选择“自定义检验”,并选中“比较观察二分类可能性和假设可能性(二项式检验)(O)”,“检验选项”及“用户缺失值”保持默认选项;第第4步步 进行二项分布检验选项设置:进行二项分布检验选项设置:打开“二项式选项”对话框,设置“假设比例”为0.9,选择“定义连续字段的成功值”中的“定制割点”选项,并设置割点为99。5.2 单样本的非参数检验单样本的非参数检验 5.5.2 2.3 .3 二项分布检验二项分布检验SPSSSPSS实例分
15、析实例分析第第5步步 主要结果及分析:主要结果及分析:二项式假设检验数据摘要 单尾检测的相伴概率Sig.=0.0430.05,因此应拒绝零假设,即小于90分的学生所占的比例与总体分布存在显著差异,即小于90分的学生所占比例比90%小。这说明优秀学生所占的比重是大于10%的。5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.4 .4 游程检验游程检验 1基本概念 一 个游程(Run)就是某序列中位于一种符号之前或之后的另一种符号持续的最大主序列,或者说,一个游程是指某序列中同类元素的一个持续的最大主集。 主要用于检验一个变量两个值的分布是否呈随机分布,即检验前一个个案是否影响下一个个案
16、的值,如果没有影响,这一组个案便是随机的。 例如,30次掷硬币出现正反面的序列为000011100000110000011111100000,如果称连在一起的0或连在一起的1为一个游程,则共有4个0游程和3个1游程,共7个游程(R = 7)。5.2.4 游程检验游程检验2统计原理 SPSS单样本变量随机性检验中,利用游程数构造检验统计量。如果设n1为出现1的个数,n2为出现0的个数,当n1, n2较大时,游程抽样分布的均值为 ,方差为 。在大样本条件下,游程近似服从正态分布,即 其中,r为游程数。5.2 单样本的非参数检验单样本的非参数检验1 2122rn nnn21 21 212212122
17、(2)() (1)rn nn nnnnnnn rrrZ5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.4 .4 游程检验游程检验3分析步骤 游程检验也是假设检验问题,检验步骤同前。SPSS会根据上面式子自动计算Z统计量,并依据正态分布表给出对应的概率P值。如果概率值小于显著性水平,则拒绝原假设,认为变量的分布不是随机的,反之认为变量值的出现是随机的。 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.4 .4 游程检验游程检验4游程检验游程检验SPSS实例分析实例分析【例5-5】 某股票连续20天的收盘价如下表所示,在显著性水平0.05下,判断此价格是否是随机的?(数据来
18、源:M.R.斯皮格尔,统计学(第3版),科学出版社;参见数据文件:data5-7.sav。)10.37511.12510.87510.62511.50011.62511.25011.37510.75011.00010.87510.75011.50011.25012.12511.87511.37511.87511.12511.750 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.4 .4 游程检验游程检验第第1 1步步 分析:分析:由于判断的是价格是否随机分布,可用游程检验对统计量进行随机性检验。该检验的原假设H0:样本是随机的。第第2 2步步 数据组织:数据组织:将这些数据组织成
19、一列,变量名为“price”,输入数据并保存为文件data5-7.sav。第第3 3步步 单因素的非参数检验设置:单因素的非参数检验设置:选择菜单“分析非参数检验单样本”,按以下步骤进行设置:在“目标”选项卡选择“自定义分析”。在“字段”选项卡中选择“使用定制字段分配”,并将“price”字段选入“检验字段”或使用默认设置。在“设置”选项卡中选择“自定义检验”,并选中“检验随机序列(游程检验)”,“检验选项”及“用户缺失值”保持默认选项。 5.2 单样本的非参数检验单样本的非参数检验5.5.2 2.4 .4 游程检验游程检验第第4步步 游程检验的选项设置:游程检验的选项设置:在“单样本非参数检
20、验”对话框中单击“检验随机序列(游程检验)”对应的“选项”按钮,打开“游程检验选项”对话框,选择“定义连续字段的割点”中的“样本中位数”选项。第第5步步 主要结果及分析:主要结果及分析:游程检验的数据摘要 上图显示其本例显著性水平为上图显示其本例显著性水平为0.05,相伴概率值相伴概率值Sig.=0.01411.25定义的值定义的值”的序列不的序列不是随机序列。是随机序列。5.2.4 游程检验游程检验5.5.2 2.4 .4 游程检验游程检验3分析步骤 游程检验也是假设检验问题,检验步骤同前。SPSS会根据上面式子自动计算Z统计量,并依据正态分布表给出对应的概率P值。如果概率值小于显著性水平,则拒绝原假设,认为变量的分布不是随机的,反之认为变量值的出现是随机的。