1、教材:王星教材:王星。非参数统计非参数统计 。清华大学出版社清华大学出版社 ,2009参考书:参考书:1孙山泽。非参数统计讲义。北京大学出版社,孙山泽。非参数统计讲义。北京大学出版社,1997 2吴喜之,王兆军。非参数统计方法。高等教育出版社,吴喜之,王兆军。非参数统计方法。高等教育出版社,19963王静龙王静龙,梁小筠,梁小筠。非参数统计分析。非参数统计分析 。高等教育出版社。高等教育出版社4 陈希孺,方兆本等陈希孺,方兆本等。非参数统计非参数统计 。中国科技大学出版社。中国科技大学出版社5 Jean Dickinson Gibbons,Subhabrata Chakraborti.Nonp
2、arametric Statistical Inference.MARCEL DEKKER,INC.第二章第二章 基本概念基本概念主要内容主要内容1.非参数统计方法简介非参数统计方法简介 2.参数统计过程与非参数统计的比较参数统计过程与非参数统计的比较3.非参数统计的历史非参数统计的历史4.必要的准备知识必要的准备知识1.非参数统计方法简介非参数统计方法简介参数方法参数方法定义:样本被视为从分布族的某个参数族抽取出来的定义:样本被视为从分布族的某个参数族抽取出来的总体的代表,而未知的仅仅是总体分布具体的参数值,总体的代表,而未知的仅仅是总体分布具体的参数值,推断问题就转化为对分布族的若干个未知
3、参数的估计推断问题就转化为对分布族的若干个未知参数的估计问题,用样本对这些参数做出估计或者进行某种形式问题,用样本对这些参数做出估计或者进行某种形式的假设检验,这类推断方法称为的假设检验,这类推断方法称为。比如:比如:(1)研究保险公司的索赔请求数时,可能假定索赔请求)研究保险公司的索赔请求数时,可能假定索赔请求数来自泊松分布数来自泊松分布P(a);(2)研究化肥对农作物产量的影响效果时,平均意义)研究化肥对农作物产量的影响效果时,平均意义之下,每测量单元(可能是)产量服从正态分布之下,每测量单元(可能是)产量服从正态分布N(a,b).一个典型的参数检验过程一个典型的参数检验过程分布族假定分布
4、族假定抽样抽样统计量和抽样分布统计量和抽样分布估计和检验估计和检验评价模型评价模型一个例子:一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否存在差异?RANK of SCORE25.020.015.010.05.00.0HistogramFor GROUP=Group1Frequency6543210Std.Dev=6.28 Mean=13.0N=12.00原始数据原始数据秩秩2530293424251332243032379.514.012.021.07.59.52.017.57.514.017.524.04433228473140303335182135282226.019.5
5、5.51.027.016.025.014.019.522.53.04.022.511.05.5RANK of SCORE25.020.015.010.05.00.0HistogramFor GROUP=Group2Frequency6543210Std.Dev=9.17 Mean=14.8N=15.00非参数检验过程非参数检验过程1.不涉及总体的分布不涉及总体的分布 Example:假定连续型分布或关于某点对称假定连续型分布或关于某点对称2.数据的形态各异数据的形态各异 定量数据定量数据 顺序数据顺序数据 Example:Good-Better-Best 类别数据类别数据 Example:Ma
6、le-Female3.例子例子:随机游程检验随机游程检验F,F,F,F,F,F,F,F,M,M,M,M,M,M,MF,M,F,M,F,M,F,M,F,M,F,M,F,M,F3.参数统计与非参数统计比较参数统计与非参数统计比较对总体假定较少,有广泛的适用对总体假定较少,有广泛的适用性,结果稳定性较好。性,结果稳定性较好。1.假定较少假定较少 2.不需要对总体参数的假定不需要对总体参数的假定 3.与参数结果接近与参数结果接近针对几乎所有类型的数据形态。针对几乎所有类型的数据形态。容易计算容易计算 在计算机盛行之前就已经发展起来。在计算机盛行之前就已经发展起来。非参数统计的优点1.可能会浪费一些信息
7、可能会浪费一些信息特别当数据可以使用参数模型的时候。特别当数据可以使用参数模型的时候。2.大样本手算相当麻烦大样本手算相当麻烦3.一些表不易得到一些表不易得到非参数统计的弱点第第一一章章S S-P Pl lu us s 基基础础第第二二章章非非参参数数统统计计基基础础第第三三章章单单一一总总体体的的统统计计推推断断第第四四章章两两总总体体位位置置和和尺尺度度推推断断第第五五章章多多总总体体位位置置和和尺尺度度推推断断第第六六章章定定性性数数据据的的独独立立性性第第七七章章定定量量数数据据的的相相关关性性和和回回归归第第八八章章非非参参数数密密度度估估计计第第九九章章非非参参数数回回归归本学期内
8、容结构体系本学期内容结构体系非参数统计的主要内容内容内容非参数检验非参数检验相应的参数检验相应的参数检验2独立样本中位数检验秩和检验独立样本t检验2 配对样本/单一样本符号检验Wilcoxon 检验成对样本 t-检验2独立样本Kruskal-Wallis 检验单一因素ANOVA两因素Friedman检验双因素ANOVA相关性检验Spearman秩相关Pearson相关性检验 分布的检验Kolmogorov-Smirnov4.非参数统计的历史非参数统计的历史非参数统计的历史非参数统计的历史非参数统计的形成主要归功于非参数统计的形成主要归功于20世纪世纪40年代年代50年代化学家年代化学家F.Wi
9、lcoxon等人的工作。等人的工作。Wilcoxon于于1945年提出两样本秩和检验,年提出两样本秩和检验,1947年年Mann和和Whitney二人将结果推广到两组样二人将结果推广到两组样本量不等的一般情况;本量不等的一般情况;Pitman于于1948年回答了非参数统计方法相对于年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题;参数方法来说的相对效率方面的问题;非参数统计的历史(续)非参数统计的历史(续)60年代中后期,年代中后期,Cox和和Ferguson最早将非参数方法应最早将非参数方法应用于生存分析。用于生存分析。70年代到年代到80年代,非参数统计借助计算机技术和大量年代
10、,非参数统计借助计算机技术和大量计算获得更稳健的估计和预测,以计算获得更稳健的估计和预测,以P.J.Huber以及以及 F.Hampel为代表的统计学家从计算技术的实现角度,为代表的统计学家从计算技术的实现角度,为衡量估计量的稳定性提出了新准则。为衡量估计量的稳定性提出了新准则。90年代有关非参数统计的研究和应用主要集中在非参年代有关非参数统计的研究和应用主要集中在非参数回归和非参数密度估计领域,其中较有代表性的人数回归和非参数密度估计领域,其中较有代表性的人物是物是Silverman和和J.Fan。5.必要的准备知识必要的准备知识(1)假设检验假设检验(2)检验的相对效率检验的相对效率(3)
11、秩检验统计量秩检验统计量(4)U统计量统计量(1)假设检验回顾假设检验回顾考察样本是否支持对总体的某种猜测,这些没有被考察样本是否支持对总体的某种猜测,这些没有被数据验证的猜测是假设,求证的过程是假设检验。数据验证的猜测是假设,求证的过程是假设检验。比如问题:比如问题:(a)新引进的生产过程是否优于旧过程?新引进的生产过程是否优于旧过程?(b)几种不同的肥料哪一种更有效?)几种不同的肥料哪一种更有效?(c)大学生的就业率与城市失业率之间是否存在关)大学生的就业率与城市失业率之间是否存在关系?系?内容内容 (a)如何选择零假设和备择假设)如何选择零假设和备择假设(b)两类错误)两类错误(c)显著
12、性水平和检验的)显著性水平和检验的p-值的作用值的作用 (d)检验的势(功效函数)检验的势(功效函数)单边检验和双边检验的单边检验和双边检验的p值值?例例2:Poisson分布 H0:1 H1:按照假设检验的步骤,可以选取统计量 为检验统计量,检验的目的是使得 1iX足够小)()(CXPi足够小)()(CXPi的变化)随(和)(lamdapp0.00.51.01.52.00.00.20.40.60.81.0C=5C=7的变化)随(和)()()()((2)检验的相对效率)检验的相对效率渐近效率的概念渐近效率的概念秩检验统计量秩检验统计量无结点秩的定义无结点秩的定义例题:某学院本科三年级有例题:某
13、学院本科三年级有9个专业组成,统计每个专业学个专业组成,统计每个专业学生每月消费数据如下,用生每月消费数据如下,用S-Plus求消费数据的秩和顺序统计求消费数据的秩和顺序统计量的现值:量的现值:300 230 208 580 690 200 263 215 520 2.有结数据的秩有结数据的秩设样本设样本 取自总体取自总体X的简单随机抽样,的简单随机抽样,将数据排序后将数据排序后,相同的数据点组成一个相同的数据点组成一个“结结”,称重复数据的个数为结长。称重复数据的个数为结长。例例1:3.8 3.2 1.2 1.2 3.4 3.2 3.23.8 3.2 1.2 1.2 3.4 3.2 3.2解
14、:结长为解:结长为3 3。nXX,.,1分位数和非参数置信区间分位数和非参数置信区间顺序统计量顺序统计量非参数方法通常并不假定总体分布。因此,观测值的顺序及性质则作为研究的对象。1 1、顺序统计量、顺序统计量:对于样本X1,X2,X3,Xn 如果按照升幂排序得到称 为第k个顺序统计量.(1)(2)()nXXX()kX顺序统计量分布函数顺序统计量分布函数设总体的分布函数F(X),则第r个顺序统计量的分布函数为)()()()(xXrPxXPxFirr小于或等于个至少nrjnxjXXXP),(21个小于中恰好有innriiinxFxFC)(1)(dtttrnrnxFrnr)(01)1()!()!1(
15、!)()(1)()!()!1(!)(1xfxFxFrnrnxfrnrr其密度函数为U统计量统计量核的概念核的概念例:总体期望有无偏估计例:总体期望有无偏估计X1,总体期望是,总体期望是1可估的,可估的,X1是是总体期望的核。总体期望的核。对称核和对称核和U统计量的概念统计量的概念其中求和表示对1,2,n中所有可能的k个数的组合求和求和表示对(1,2,k)的所有排列求和U统计量的特征计算统计量的特征计算U统计量的大样本性质统计量的大样本性质U统计量举例统计量举例本章内容回顾本章内容回顾1.统计的实践统计的实践2.非参数统计方法简介非参数统计方法简介 3.参数统计过程与非参数统计的比较参数统计过程与非参数统计的比较4.非参数统计的历史非参数统计的历史5.必要的准备知识必要的准备知识