1、l 在初等统计学中,最基本的概念是什么在初等统计学中,最基本的概念是什么?l如如:总体,样本,随机变量,分布,估计总体,样本,随机变量,分布,估计和假设检验和假设检验等等l其很大一部分内容是和其很大一部分内容是和正态理论正态理论相关的。相关的。在那里,总体的在那里,总体的分布形式或分布族分布形式或分布族往往是往往是给定的或者是假定了的,所不知道的仅仅给定的或者是假定了的,所不知道的仅仅是一些参数的值或他们的范围。是一些参数的值或他们的范围。(主要工主要工作是什么作是什么?)l 1.1 非参数统计非参数统计l然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的。l数据并不是来自所假定分布
2、的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。l于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。l因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于总体分布的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论。这时,非参数方法往往优于参数方法。l在不知总体分布的情况下如何利用数据所包含的信息呢?l一组数据的最基本的信息就是次序。如果可以把数据点按大小次序排队,每一个具体数目都有它的在整个数据中(从最小的数起)的位置或次序,称为该数据的
3、秩(rank)。数据有多少个观察值,就有多少个秩。在一定的假定下,这些秩和它们的统计量的分布是求得出来的,而且和原来的总体分布无关。这样就可以进行所需要的统计推断。l注意:注意:非参数统计的名字中的非参数统计的名字中的“非参数非参数(nonparametric)”(nonparametric)”意味着其方法不涉及描述意味着其方法不涉及描述总体分布的有关参数;它被称为总体分布的有关参数;它被称为和分布无关和分布无关(distribution(distributionfree)free),是因为其推断方法和,是因为其推断方法和总体分布无关;不应理解为与所有分布总体分布无关;不应理解为与所有分布(例
4、如有例如有关秩的分布关秩的分布)无关无关 l什么是非参数统计什么是非参数统计?l不假定总体分布的具体形式,从数据本身获得不假定总体分布的具体形式,从数据本身获得所需要的信息,通过推断方法得到相关结论的所需要的信息,通过推断方法得到相关结论的一种分析方法。一种分析方法。1.总体参数总体参数Example:Population Mean2.假定数据的形态为假定数据的形态为 Whole Numbers or Fractions Example:Height in Inches(72,60.5,54.7)3.有很强的假定有很强的假定Example:正态分布,正态分布,F分布分布4.例子例子:Z Tes
5、t,t Test,2 Test对两组学生进行语法测试,如何比较两对两组学生进行语法测试,如何比较两组学生的成绩是否存在差异?组学生的成绩是否存在差异?甲甲乙乙25302934242513322430323744332284731403033351821352822RANK of SCORE25.020.015.010.05.00.0HistogramFor GROUP=Group1Frequency6543210Std.Dev=6.28 Mean=13.0N=12.00原始数据原始数据秩秩2530293424251332243032379.514.012.021.07.59.52.017.57
6、.514.017.524.04433228473140303335182135282226.019.55.51.027.016.025.014.019.522.53.04.022.511.05.5RANK of SCORE25.020.015.010.05.00.0HistogramFor GROUP=Group2Frequency6543210Std.Dev=9.17 Mean=14.8N=15.001.不涉及总体的分布不涉及总体的分布 Example:Probability Distributions,Independence2.数据的形态各异数据的形态各异 定量数据定量数据 定序数据定序
7、数据 Example:Good-Better-Best 名义数据名义数据 Example:Male-Female3.例子例子:Wilcoxon Rank Sum Test/Run TestF,F,F,F,F,F,F,F,M,M,M,M,M,M,MF,M,F,M,F,M,F,M,F,M,F,M,F,M,F参数统计与非参数统计的比较问题:参数统计与非参数统计的比较问题:一种统计方法是否比其它方法更好,通常要从几个方面来考虑。有效性或效率(efficiency)。在其他条件相同情况下,一种方法需要的样本容量越小,则效率越高,通常用二者的样本容量比值来度量相对效率。在假设检验中,样本均值是检验总体均值
8、的一个好的检验统计量,它对总体均值的不同十分敏感,但是的分布取决于总体的分布,而这通常是未知的。XXX稳健性(robust)。如果一种方法背后的某个假设条件不成立,但它还是近似有效的,则可认为这一方法对这一条件是稳健的。通常来说,稳健是指基于正态假设的方法(即使潜在的总体分布是非正态的)检验统计量也有近似相同的零分布。比如单样本的t检验,当样本容量很大时,对于正态假设是稳健的。没有一个总体是精确的服从正态分布或其他已知分布,如果总体是近似正态分布的,那么基于正态分布来进行推断是安全的,反之,我们就要考虑非参数方法。t t检验这一方法是稳健的,当总体是非正态分检验这一方法是稳健的,当总体是非正态
9、分布时,它是否象正态分布一样有效?一种方法布时,它是否象正态分布一样有效?一种方法固然应该是稳健的,更应该是有效的。固然应该是稳健的,更应该是有效的。相合性或渐进性(相合性或渐进性(consistentconsistent),多数参数检,多数参数检验对于非正态分布条件是稳健的,相合的,即验对于非正态分布条件是稳健的,相合的,即随着样本容量的增加,方法将更为稳健,对于随着样本容量的增加,方法将更为稳健,对于无限样本而言,方法是精确的且不依赖于总体无限样本而言,方法是精确的且不依赖于总体分布。分布。对总体假定较少,有广泛的适用性,对总体假定较少,有广泛的适用性,结果稳定性较好。结果稳定性较好。1.
10、1.假定较少假定较少 2.2.不需要对总体参数的假定不需要对总体参数的假定 3.3.与参数结果接近与参数结果接近针对几乎所有类型的数据形态。针对几乎所有类型的数据形态。容易计算容易计算 在计算机盛行之前就已经发展在计算机盛行之前就已经发展起来。起来。1.可能会浪费一些信息可能会浪费一些信息n特别当数据可以使用参数模型的时特别当数据可以使用参数模型的时候。候。2.大样本手算相当麻烦大样本手算相当麻烦3.一些表不易得到一些表不易得到因此我们实际上给出了一个没有实际意义的结果:没有一种方法是万能的。第第 一一 章章S S-P Pl lu us s 基基 础础第第 二二 章章非非 参参 数数 统统 计
11、计 基基 础础第第 三三 章章单单 一一 总总 体体 的的统统 计计 推推 断断第第 四四 章章两两 总总 体体 位位 置置和和 尺尺 度度 推推 断断第第 五五 章章多多 总总 体体 位位 置置和和 尺尺 度度 推推 断断第第 六六 章章定定 性性 数数 据据 的的独独 立立 性性第第 七七 章章定定 量量 数数 据据 的的 相相关关 性性 和和 回回 归归第第 八八 章章非非 参参 数数 密密 度度 估估 计计第第 九九 章章非非 参参 数数 回回 归归本学期内容结构体系本学期内容结构体系非参数统计的主要内容内容内容非参数检验非参数检验相应的参数检验相应的参数检验独立样本中位数检验秩和检验
12、独立样本t检验2 配对样本/单一样本符号检验Wilcoxon 检验成对样本 t-检验2独立样本Kruskal-Wallis 检验单一因素ANOVA两因素Friedman检验双因素ANOVA相关性检验Spearman秩相关Pearson相关性检验 分布的检验Kolmogorov-Smirnov一、顺序统计量一、顺序统计量 因为非参数方法通常并不假定总体分布。因此,观测值的顺序及性质则作为研究的对象。顺序统计量顺序统计量:对于样本X1,X2,X3,Xn,如果按照升幂排列,得到称为第k个顺序统计量。)()2()1(nXXX)(kX中位数为偶数为奇数nXXnXMnnnd2)12/()2/()21(极差
13、)1()(XXRn3 3、顺序统计量分布函数、顺序统计量分布函数 设总体的分布函数F(X),则第r个顺序统计量的分布函数为)()()()(xXrPxXPxFirr小于或等于个至少)()()()(xXrPxXPxFirr小于或等于个至少()1()nniiinirC FxF x(4 4)顺序统计量密度函数)顺序统计量密度函数(如果分布密度存在如果分布密度存在)()(1)()!()!1(!)(1xfxFxFrnrnxfrnrr同样我们可以得到顺序统计量X(r)和X(s)的联合密度函数为:snrsrsryFyfxFyFxfxFsnrsrnyxf)(1)()()()()()!()!1()!1(!),(1
14、1,特别地,极差特别地,极差)1()(XXRn的分布函数为:的分布函数为:1()()()()nRFynf xF xyF xdx对于离散数据,给定n个值X1,Xn,则p分位数定义为为:()()(1)(),11(1),11kpkkkkXpnmkkXXXnpkpnn(),01,()()()ppXf xpF xp XmpmF x假定令满足等式=的唯一根称为的分位数。定义(连续分布)定义(连续分布)二、秩统计量1、秩统计量设X1,X2,X3,Xn 来自总体的样本,记Ri为样本点Xi的秩,即样本中小于或等于Xi的样本点的个数,即njijiXXIR1)(其中 ijijijXXXXXXI01)(例如:例如:观
15、测值5.61.42.75.22.64.82.3秩7146352显然,X(Ri)=X(i),记R=(R1,R2,Rn),称R为由样本产生的统计量,也称秩统计量定义:设X1,X2,X3,Xn 来自总体的简单随机样本,将数据排序后,相同的数据点形成一个结,重复数据的个数为结长。此时秩定义为对应秩(无重复数据时)的平均数。如:85,87,87,92,83,83,83,95,结为多少?结长为多少?对应秩?答案:5个结,结长为1,2,1,3,1,对应秩为4,5.5,5.5,7,1,2,3,82 2、秩统计量的分布和数字特征、秩统计量的分布和数字特征 的联合分布为:nRRR,21!1),(21niiipnR 的概率分布为:iR),4,3,2,1(1)(nrnrRpi 的数学期望:iRninREi,2,121)(的方差:iRninnRVari,2,112)1)(1()(的协方差:iRjR121),(nRRCovji特别地)1(1),(nnsRrRpji1,了解非参数统计的历史(查阅相关文献)2,熟悉Rl非参数统计非参数统计吴喜之 编著中国统计出版社l实用非参数统计(第三版)实用非参数统计(第三版)美美W.J.ConoverW.J.Conover 崔恒建 译 人民邮电出版社