第1章-非参数统计概述课件.ppt-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

第1章-非参数统计概述课件.ppt

1、非参数统计非参数统计吕光明吕光明WELCOME TO NONPARAMETRIC STATISTICS教科书易丹辉、董寒青，易丹辉、董寒青，非参数统计：方法与非参数统计：方法与应用应用，中国统计出版社，中国统计出版社2009年版。年版。其他参考书其他参考书1.吴喜之吴喜之，非参数统计非参数统计，中国统计出，中国统计出版社版社2006年第年第2版版。2.希尔德布兰德等，希尔德布兰德等，社会统计方法与技社会统计方法与技术术，社会科学文献出版社，社会科学文献出版社2005年版。年版。3.王星，王星，非参数统计非参数统计，清华大学出版，清华大学出版社社2009年版。年版。先修课先修课最好熟练掌握以下

2、课程：最好熟练掌握以下课程：统计学统计学、经济学经济学、高等数学高等数学、概率论与数理统计概率论与数理统计、抽样理论与方抽样理论与方法法等。等。1 导论1.1 1.1 测量的层次（数据的计量尺度）测量的层次（数据的计量尺度）1.2 1.2 统计检验统计检验1.3 1.3 参数统计参数统计1.4 1.4 非参数统计非参数统计1.1 1.1 测量的层次（数据的计量尺度）测量的层次（数据的计量尺度）定类尺度定类尺度定序尺度定序尺度定距尺度定距尺度定比尺度定比尺度精精确确程程度度良好良好19801980141141公斤公斤休斯顿火箭休斯顿火箭俱乐部俱乐部：健康状况健康状况：出生年份出生年份:体重

3、体重：1 1、定类尺度、定类尺度（Nominal ScaleNominal Scale）p例如：性别、民族、职业例如：性别、民族、职业p数据表现为数据表现为“类别类别” p各类之间无等级次序各类之间无等级次序 p各类别可以用数字代码表示各类别可以用数字代码表示p根据定类尺度得到的数据为分类根据定类尺度得到的数据为分类数据。数据。定类尺度实例定类尺度实例编码意见男女同意不同意人种白黄棕黑1234定类尺度数据没有顺序和大小区别定类尺度数据没有顺序和大小区别2 2、定序尺度（、定序尺度（Ordinal ScaleOrdinal Scale）p例如健康状况、质量等级、教育程度例如健康状况、

4、质量等级、教育程度p数据表现为数据表现为“类别类别”，有顺序差异，有顺序差异p可对等级、大小等排序可对等级、大小等排序p未测量出类别之间的准确差值未测量出类别之间的准确差值p根据定序尺度得到的数据为顺序数据。根据定序尺度得到的数据为顺序数据。定序尺度实例定序尺度实例编码编码定序尺度数据不能测量差别的多定序尺度数据不能测量差别的多少少产品等级一等品一等品二等品二等品三等品三等品123对事物的态度很满意很满意满满意意中中立立不满意不满意反反对对123453 3、定距尺度、定距尺度 Interval ScaleInterval Scalep例如年份、摄氏温度、海拔、时钟、智商得分例如年份、摄氏

5、温度、海拔、时钟、智商得分p数据表现为数据表现为“数值数值”，且有计量单位，且有计量单位p可以进行加减运算可以进行加减运算p“0 0”是只是尺度上的一个点，不代表是只是尺度上的一个点，不代表“不存在不存在”p根据定距尺度得到的数据为间距数据。根据定距尺度得到的数据为间距数据。定距尺度实例定距尺度实例4 4、定比尺度、定比尺度 Ratio ScaleRatio Scalep例如体重、身高例如体重、身高p数据表现为数据表现为“数值数值”p可以进行加减、乘除运算可以进行加减、乘除运算p“0 0”表示表示“没有没有”或或“不存在不存在”p根据定比尺度得到的数据为比率根据定比尺度得到的数据为比率数据。数

6、据。定比尺度实例定比尺度实例定比尺度数据可以计算比值定比尺度数据可以计算比值6枚枚3枚枚定距尺度与定比尺度的区别定距尺度与定比尺度的区别p定距尺度中定距尺度中“0 0”表示一个具体数值，不表示表示一个具体数值，不表示“没有没有”或或“不存在不存在”，定比尺度中，定比尺度中“0 0”表示表示“没有或一无所没有或一无所有有”、“不存在不存在” 。p5 5（F- 50F- 50）= 9(C-10= 9(C-10) ) 摄氏与华氏温度转换摄氏与华氏温度转换定距尺度- 273.15 -123.15 0 26.85定比尺度 0K 150K 300K四种计量尺度的比较四种计量尺度的比较p1 1、四种尺度所包

7、含的信息量是依次递增的，级别由、四种尺度所包含的信息量是依次递增的，级别由低到高。低到高。p2 2、根据较高层次的计量尺度可以获得较低层次的计、根据较高层次的计量尺度可以获得较低层次的计量尺度。量尺度。p3 3、不同的尺度数据对应这不同数据显示方法和分析、不同的尺度数据对应这不同数据显示方法和分析方法。方法。测量测量精度精度计算计算方法方法信息信息数量数量某甲某某甲某乙的生乙的生命现象命现象甲、乙有生命甲、乙有生命很低很低不能计算，不能计算，只能判断只能判断、甲、乙有生命甲、乙有生命定类测量定类测量甲为中年人，乙甲为中年人，乙为少年人。为少年人。较低较低、、、、+ 、甲、乙有生命甲、乙有

8、生命甲生命时间较乙长甲生命时间较乙长甲比乙大甲比乙大4545岁岁甲年龄约为乙的甲年龄约为乙的3 3倍倍定比测量定比测量典型的数据分析方法（部分）典型的数据分析方法（部分）集中趋势集中趋势离散趋势离散趋势相关回归相关回归假设检验假设检验众众数数定类变量定类变量品质相关品质相关Q检验检验异众比异众比中位数中位数等级相关等级相关异众比异众比 2检验检验定序变量定序变量均值均值相关回归相关回归标准差标准差Z、t检验检验定距变量定距变量均值均值相关回归相关回归标准差标准差Z、t检验检验定比变量定比变量非参数统计非参数统计参数统计参数统计1.2 1.2 统计检验（参数的假设检验）统计检验（参数的假设检验）

9、 1.基本思想基本思想 2.零假设和备择假设零假设和备择假设 3.两类错误两类错误 4.假设检验的基本步骤假设检验的基本步骤1.假设检验的基本思想小概率原理小概率原理如果对总体的某种假设是真实的，那么不如果对总体的某种假设是真实的，那么不利于或不支持这一假设的事件利于或不支持这一假设的事件A（小概率事（小概率事件）在一次试验中几乎不可能发生；如果件）在一次试验中几乎不可能发生；如果在一次试验中在一次试验中A竟然发生了，就有理由怀疑竟然发生了，就有理由怀疑该假设的真实性，拒绝这一假设。该假设的真实性，拒绝这一假设。假设检验的推断类似于反证法。假设检验的推断类似于反证法。分析：分析：若假设引例若假

10、设引例3中次品率中次品率4，则事件，则事件“抽取抽取10件产品有件产品有4件次品件次品”发生的概率为：发生的概率为： 00042. 004. 0104. 0464410CXP 只有万分之四可能的事件在一次试验中居然只有万分之四可能的事件在一次试验中居然发生了，这是不合理的，因而假设发生了，这是不合理的，因而假设P4是不是不能成立的，故按质检部门的规定，该批产品能成立的，故按质检部门的规定，该批产品不能出厂。不能出厂。xnxxnqpCxXP)(二项分布二项分布2. 原假设与备择假设原假设原假设备择假设备择假设又称又称零假设零假设，指正在被检验，指正在被检验的假设，记为的假设，记为 0H指拒绝原假

11、设后打算要接受指拒绝原假设后打算要接受的假设，记为的假设，记为 1H基本形基本形式式双侧检验双侧检验单侧检验单侧检验右侧检验右侧检验左侧检验左侧检验p检验假设是设的总体而不是样本。检验假设是设的总体而不是样本。p零假设和备择假设是互斥的，它们中零假设和备择假设是互斥的，它们中仅有一个正确；等号必须出现在零假仅有一个正确；等号必须出现在零假设中；设中；p最常用的有三种情况：双侧检验、左最常用的有三种情况：双侧检验、左侧检验和右侧检验。侧检验和右侧检验。双侧检验双侧检验左侧检验左侧检验右侧检验右侧检验H0m m = m m0 0m m m m0 0m m m m0 0H1m m m m0 0m m

12、 m m0 0p检验时，假定零假设为真，构造检验统计量、检验时，假定零假设为真，构造检验统计量、拒绝域和接受域。拒绝域和接受域。p检验统计量：我们用来决策（拒绝或不能拒绝检验统计量：我们用来决策（拒绝或不能拒绝零假设）时依据的样本统计量。不同的总体参零假设）时依据的样本统计量。不同的总体参数适用的检验统计量不同。数适用的检验统计量不同。p拒绝域和接受域：检验统计量取值的集合称为拒绝域和接受域：检验统计量取值的集合称为拒绝域，当根据样本得到的检验统计量的值属拒绝域，当根据样本得到的检验统计量的值属于该集合时，拒绝零假设。不能拒绝零假设的于该集合时，拒绝零假设。不能拒绝零假设的检验统计量取值的集合

13、称为接受域；检验统计量取值的集合称为接受域；p划分拒绝域和接受域的数值称为临界值。划分拒绝域和接受域的数值称为临界值。双侧检验的形式双侧检验的形式0100:mmmmHH【例例】某生产线出产的产品单位重量正常某生产线出产的产品单位重量正常水平应为水平应为100克，某日随机抽查克，某日随机抽查100个产品，个产品，测得其平均重量为测得其平均重量为101.5克，标准差为克，标准差为8克。克。这个抽查结果是否意味着生产过程处于失这个抽查结果是否意味着生产过程处于失控状态？控状态？H0：m m = 100H1：m m100拒绝域和接受域（双侧检验）概率概率 /2 概率（概率（ 1- ）接受域接受域拒绝

14、域拒绝域概率概率 /2 拒绝域拒绝域假设的总体假设的总体抽样分布抽样分布右侧检验的形式右侧检验的形式0100:mmmmHH【例例】某型号汽车每升汽油平均行驶里程为某型号汽车每升汽油平均行驶里程为10公里。生产厂家研制了一种新型汽化器以公里。生产厂家研制了一种新型汽化器以求提高燃料效率。目前正在进行行驶实验，求提高燃料效率。目前正在进行行驶实验，以求通过实验证明新型汽化器可以提高燃料以求通过实验证明新型汽化器可以提高燃料效率。效率。H0：m m 10H1：m m 10拒绝域和接受域（右侧检验）拒绝域和接受域（右侧检验）概率概率概率（概率（ 1- ）接受域接受域拒绝域拒绝域假设的总体假设的总体抽

15、样分布抽样分布左侧检验的形式左侧检验的形式0100:mmmmHH【例例】某品牌方便面包装袋上标明，其油炸某品牌方便面包装袋上标明，其油炸面饼的重量不少于面饼的重量不少于 100 克。现通过抽取的样克。现通过抽取的样本，实际称量面饼重量，检验生产厂家的说本，实际称量面饼重量，检验生产厂家的说明是否有效。明是否有效。H0：m m 100H1：m m 24，因此零假设和备择假设因此零假设和备择假设的选择为：的选择为： mm24 mm24思考题哲学上，可以说哲学上，可以说“接受接受”和和“拒绝拒绝”两个概两个概念对称的，那么，在统计实践中，零假设和备择念对称的，那么，在统计实践中，零假设和备择假设对

16、称吗？假设对称吗？p统计上两者不对称，显著性检验的主要目的是拒统计上两者不对称，显著性检验的主要目的是拒绝零假设。绝零假设。p这与科学领域的理论发展类似这与科学领域的理论发展类似p物理上物理上日心说日心说牛顿定律牛顿定律相对论。相对论。第一类错误第一类错误指拒绝了一个本来是真实的指拒绝了一个本来是真实的原假设，又称为原假设，又称为“弃真弃真”错错误或误或“拒真拒真”错误错误犯第一类错误的概率为假设检验的显著性犯第一类错误的概率为假设检验的显著性水平水平，即，即 3、两类错误与显著性水平、两类错误与显著性水平00/PHH拒绝为真通常通常取取0.01,0.05,0.1。根据。根据确定检

17、验统计量确定检验统计量的临界值，从而进一步根据样本观测值和临界的临界值，从而进一步根据样本观测值和临界值得出检验结论。值得出检验结论。双侧检验时双侧检验时概率概率 /2 概率（概率（ 1- ）拒绝域拒绝域概率概率 /2 拒绝域拒绝域接受域接受域犯第一类错犯第一类错误的概率误的概率左侧检验时左侧检验时概率概率概率（概率（ 1- ）犯第一类错犯第一类错误的概率误的概率拒绝域拒绝域右侧检验时右侧检验时概率概率概率（概率（ 1- ）拒绝域拒绝域犯第一类错犯第一类错误的概率误的概率第二类错误第二类错误指接受了一个本来是不真实指接受了一个本来是不真实的原假设，又称为的原假设，又称为“采伪采伪”错

18、误或错误或“取伪取伪”错误错误记犯第二类错误的概率为记犯第二类错误的概率为，即，即00/PHH接受为不真 1- 为该检验检验不真实零假设的为该检验检验不真实零假设的检验功效，又称检验效能（检验功效，又称检验效能（power of a test）/把握度：把握度：其意义是：当两总体确有差别，其意义是：当两总体确有差别，按规定的检验水准按规定的检验水准 a 能发现该差别的能发现该差别的能力（概率）。能力（概率）。例如例如1- =0.90，即说明，即说明H0不成立，不成立，则理论上每则理论上每100次检验中，在次检验中，在的水准的水准上，平均有上，平均有90次能拒绝次能拒绝H0（能认为有（能认

19、为有统计学意义）。统计学意义）。接受接受区域区域假设的总体假设的总体抽样分布抽样分布实际的总体实际的总体抽样分布抽样分布样本均值落在此区间，原样本均值落在此区间，原假设便不能被拒绝假设便不能被拒绝犯第二类错犯第二类错误的概率误的概率 m mam mbZ以左侧检验为例以左侧检验为例接受接受区域区域m mam mb实际的总体抽样分布越接近实际的总体抽样分布越接近假设的总体抽样分布，犯第假设的总体抽样分布，犯第二类错误的可能性就越大二类错误的可能性就越大假设的总体假设的总体抽样分布抽样分布实际的总体实际的总体抽样分布抽样分布Z以左侧检验为例以左侧检验为例接受接受区域区域m mam mb假设的总体假

20、设的总体抽样分布抽样分布实际的总体实际的总体抽样分布抽样分布在样本容量一定的情况下，增大犯第一类错误在样本容量一定的情况下，增大犯第一类错误的概率，则可以缩小犯第二类错误的概率，但的概率，则可以缩小犯第二类错误的概率，但不可能两个概率同时减少。不可能两个概率同时减少。Z以左侧检验为例以左侧检验为例希望所用的检验方法尽量少犯错误，但不能完希望所用的检验方法尽量少犯错误，但不能完全排除犯错误的可能性。理想的检验方法应使全排除犯错误的可能性。理想的检验方法应使犯两类错误的概率都很小，但在样本的容量给犯两类错误的概率都很小，但在样本的容量给定的情形下，不可能使两者都很小，降低一个定的情形下，不可能使两

21、者都很小，降低一个，往往使另一个增大。，往往使另一个增大。与与的反向关系m ma- Z m mbm mbm mb ？当实际分布当实际分布的均值为未知时，的均值为未知时，无法计算出犯第二无法计算出犯第二类错误的概率。因类错误的概率。因此，我们通常只控此，我们通常只控制犯第一类错误的制犯第一类错误的概率。概率。假设的总体假设的总体抽样分布抽样分布以左侧检验为例以左侧检验为例找一个不犯找一个不犯错误错误的检验！？的检验！？控制两种错误概率的方法：增加样本量和控制两种错误概率的方法：增加样本量和N-P原则原则。N-P原则：原则：控制犯第一类错误的概率不超过控制犯第一类错误的概率不超过。显著水平：

22、犯第一类错误的最大概率。显著水平：犯第一类错误的最大概率。 Neymann-Pearson原则原则两类错误总结两类错误总结结论正确（功效）结论正确（功效）H1 为真为真拒绝拒绝 H0结论正确结论正确不能拒绝不能拒绝 H0H0 为真为真总体实际情况总体实际情况结论结论例例1 某厂生产的螺钉某厂生产的螺钉, ,按标准强度为按标准强度为6868克克/mm/mm2 2, , 而实际生产的螺钉强度而实际生产的螺钉强度 X X 服从服从 N N ( ( m m ,3.6 ,3.6 2 2 ). ). 若若 E E ( ( X X ) = ) = m m = 68, = 68, 则认为这批螺钉符合要则认为

23、这批螺钉符合要求求, ,否则认为不符合要求否则认为不符合要求. .为此提出如下假设为此提出如下假设: :H0 : m m = 68 称为称为原假设原假设或或零假设零假设原假设的对立面原假设的对立面: :H1 : m m 68 称为称为备择假设备择假设现从该厂生产的螺钉中抽取容量为现从该厂生产的螺钉中抽取容量为 36 36 的样本的样本, , 其样本均值为其样本均值为 , ,问原假设是否正确问原假设是否正确? ?5 .68x 犯第一类错误的概率犯第一类错误的概率 = =P P( (拒绝拒绝H H0 0| |H H0 0为真为真) )若若H H0 0为真为真, , 则则 )366 . 3,68(

24、2NX所以所以, ,拒绝拒绝 H H0 0 的概率为的概率为 , , 又称为又称为显著性显著性水平水平, 越大越大, ,犯第一类错误的概率越大犯第一类错误的概率越大, , 即即越显著越显著. .例例1 中中)18.69824.66(XXPH H0 0 不真不真, ,即即 m m 68, 68, m m可能小于可能小于68,68,也可能大也可能大于于68, 68, 的大小取决于的大小取决于 m m 的真值的大小的真值的大小. .)366 . 3,66(2NX0853. 09147. 01)37. 1 () 3 . 5 (下面计算犯第二类错误的概率下面计算犯第二类错误的概率设设 m m = 66

25、, = 66, n n = 36, = 36, = = P P ( ( 接受接受 H H0 0 | | H H0 0不真不真 ) )6 . 06682.666 . 06618.69)6618.6982.66(66mmXP若若 m m = 69,= 69,n n = 36, = 36,)366 . 3,69(2NX6177. 00002. 06179. 0)63. 3() 3 . 0(6 . 06982.666 . 06918.69)6918.6982.66(69mmXP取伪的概率较大取伪的概率较大.仍取仍取 = 0.05,= 0.05,则则96. 1025. 02zzc96. 186 . 36

26、8X由由可以确定拒绝域为可以确定拒绝域为 ( , 67.118 ) 与与 ( 68.882 , + )因此，接受域为因此，接受域为 (67.118, 68.882)(67.118, 68.882)现增大样本容量现增大样本容量, ,取取 n = n = 64, 64, m m = 66, = 66, 则则)646 .3,66(2NX0853. 00064. 09936. 01)49. 2() 4 . 6(6177. 03936. 0)6988.6812.67(69mmXP45. 06612.6745. 06688.68)66882.68118.67(66mmXP两类错误与零假设和备择假设两类错误

27、与零假设和备择假设的选取的选取H H0 0与与H H1 1地位应平等地位应平等, ,但在控制犯第一类错误但在控制犯第一类错误的概率的概率的原则下的原则下, ,使得采取拒绝使得采取拒绝H H0 0 的决的决策变得较慎重策变得较慎重, ,即即H H0 0 得到特别的保护得到特别的保护. .因而因而, ,通常把有把握的、有经验的结论作为通常把有把握的、有经验的结论作为原假设原假设, ,或者尽可能使后果严重的错误成为或者尽可能使后果严重的错误成为第一类错误第一类错误加以控制加以控制. .注意注意例例2：公司设计出一种充气包，这种充气包：公司设计出一种充气包，这种充气包在发生交通事故时对司机可起到缓冲

28、保护作在发生交通事故时对司机可起到缓冲保护作用。该公司宣称其设计的充气包在发生交通用。该公司宣称其设计的充气包在发生交通事故瞬间只需不超过事故瞬间只需不超过0.2秒的时间即可充好秒的时间即可充好气而起到缓冲作用。实践证明，如果其充气气而起到缓冲作用。实践证明，如果其充气时间超过时间超过0.2秒，则来不及对司机起到缓冲秒，则来不及对司机起到缓冲保护作用而造成伤亡。试对此问题提出合理保护作用而造成伤亡。试对此问题提出合理的原假设的原假设。表述方法表述方法1表述方法表述方法2（可行）（可行）H0：0.2秒秒H1： 0.2秒秒H0 ：0.2秒秒H1： 0.2秒秒拒拒真真错错误误不超过不超过0.2

29、，但却拒绝了，但却拒绝了H0认为不合格。这使厂商认为不合格。这使厂商失去业务机会。失去业务机会。超过超过0.2秒，但却拒绝了秒，但却拒绝了H0认为合格。认为合格。这可能导致这可能导致人身伤亡。人身伤亡。采采伪伪错错误误超过超过0.2秒，但却认为其秒，但却认为其低于低于0.2秒，而接受秒，而接受H0。这。这可能导致人身伤亡。可能导致人身伤亡。不超过不超过0.2秒，但却接受秒，但却接受了了H0认为不合格。这使厂认为不合格。这使厂商失去业务机会。商失去业务机会。1.1.假设检验的功效的影响因素有哪些？假设检验的功效的影响因素有哪些？2.2.不能拒绝零假设的原因有哪些？不能拒绝零假设的原因有哪些？两

30、点讨论两点讨论1.1.假设检验的功效的影响因素有哪些？假设检验的功效的影响因素有哪些？显著性水平、参数的真值、样本大小、检显著性水平、参数的真值、样本大小、检验统计量验统计量2.2.不能拒绝零假设的原因有哪些？不能拒绝零假设的原因有哪些？证据不足（样本太少）、检验功效低、零假证据不足（样本太少）、检验功效低、零假设本身是对的。设本身是对的。4.假设检验的基本步骤假设检验的基本步骤（一）提出假设（一）提出假设（二）构造检验统计量，并确定分布（二）构造检验统计量，并确定分布（三）确定显著性水平（三）确定显著性水平（四）建立拒绝原假设的规则（四）建立拒绝原假设的规则（五）计算检验统计量并做出结论（五

31、）计算检验统计量并做出结论提出假设提出假设0100:mmmmHH0100:mmmmHH0100:mmmmHH双侧检验双侧检验左侧检验左侧检验右侧检验右侧检验说说明明提出原假设应本着提出原假设应本着“保守保守”或或“不轻易拒绝原假设不轻易拒绝原假设”的原则，即的原则，即保护零假设原则。保护零假设原则。等号总是出现在原假设的一方。等号总是出现在原假设的一方。被检验的参数是均值？成数？方差？被检验的参数是均值？成数？方差？样本是大样本？小样本？样本是大样本？小样本？总体方差是已知？未知？总体方差是已知？未知？构造检验统计量并确定分布构造检验统计量并确定分布构造检验统计量及确定其所服从分构造检验统计

32、量及确定其所服从分布的决定因素：布的决定因素：确定显著性水平确定显著性水平原则原则固定第一类错误的概率；固定第一类错误的概率；误判的代价尽量小。误判的代价尽量小。通常的做法：通常的做法：民意测验：民意测验： = 0.1 市场调查、医药等领域：市场调查、医药等领域： = 0.05 质量控制：质量控制： = 0.01建立拒绝原假设的规则建立拒绝原假设的规则方法一方法一方法二方法二比较计算的检验统计量与由比较计算的检验统计量与由水平查表确定的临界值的大小水平查表确定的临界值的大小比较观测到的显著性水平比较观测到的显著性水平P值值与事先确定的显著性水平与事先确定的显著性水平值值的大小的大小接受或

33、拒绝原假设的判定方法有：接受或拒绝原假设的判定方法有：建立拒绝原假设的规则建立拒绝原假设的规则拒绝域拒绝域拒绝域拒绝域接受域接受域临界值临界值临界值临界值（方法一）（方法一）双侧检验时，拒绝域在双侧检验时，拒绝域在两侧，检验统计量小于两侧，检验统计量小于下侧临界值或大于上侧下侧临界值或大于上侧临界值时则拒绝原假设临界值时则拒绝原假设接受区域接受区域2z建立拒绝原假设的规则建立拒绝原假设的规则对于双侧检验对于双侧检验, p-值大值大于于 /2 值值，则接受原，则接受原假设；假设；p-值小于值小于 /2 值值，则拒绝原假设，则拒绝原假设2zp-值值z拒绝区域（概拒绝区域（概率率 /2 ）拒绝区域（

34、概拒绝区域（概率率 /2 ）（方法二）（方法二）pP值的含义：值的含义：p1) 1) 一种概率，一种在原假设为真的前一种概率，一种在原假设为真的前提下出现观察样本以及更极端情况的概率。提下出现观察样本以及更极端情况的概率。 p2) 2) 拒绝原假设的最小显著性水平。拒绝原假设的最小显著性水平。 p3) 3) 观察到的观察到的( (实例的实例的) ) 显著性水平。显著性水平。 p4) 4) 表示对原假设的支持程度或成立的表示对原假设的支持程度或成立的可能性。可能性。SPSS中报告的中报告的p值值6 .14:6 .14:10mmHH单个样本检验单个样本检验检验值 = 14.6 tdfSig.(双侧

35、)均值差值差分的 95% 置信区间下限上限weeks.67049.506.940-1.883.76双侧检验的p值。如果需要做单侧检验，相应的p值一般等这一数值除以2。这里做右侧检验，p值等于0.253，因而不能拒绝原假设。根据样本数据计算检验统计量根据样本数据计算检验统计量的值或的值或P-值值根据检验统计量的值或根据检验统计量的值或P-值作值作出结论出结论假设检验的性质p检验假设条件不满足时，仍然使用一种检验的后检验假设条件不满足时，仍然使用一种检验的后果：果：p1.拒绝零假设可能是因为假设条件不成立；拒绝零假设可能是因为假设条件不成立；p2.错误假设条件会影响数据，进而导致结论错误。错误

36、假设条件会影响数据，进而导致结论错误。p传统的参数检验不仅对模型假设条件敏感，也对传统的参数检验不仅对模型假设条件敏感，也对零假设和备择假设敏感。零假设和备择假设敏感。检验的相对功效p功效的影响因素中真值、显著性水平、样本容量功效的影响因素中真值、显著性水平、样本容量p在显著性水平一定的条件下，功效大小取决于样在显著性水平一定的条件下，功效大小取决于样本容量。本容量。p比较功效转化为比较样本容量。比较功效转化为比较样本容量。p相对效率概念的导出。相对效率概念的导出。相对效率相对效率p设设T1T1和和T2T2分别表示两种检验，用来检验相同的分别表示两种检验，用来检验相同的H0H0对对H1H1，临

37、界域对应的，临界域对应的和和， T1T1对对T2T2的相的相对效率（或对效率（或“T1T1相对于相对于T2T2的效率）定义为比的效率）定义为比值值，其中，其中和和分别是检验分别是检验T1T1和和T2T2的的样本容量。样本容量。p当备择假设是复合的，相对效率可以由备择假当备择假设是复合的，相对效率可以由备择假设定义的每个概率函数计算得到。设定义的每个概率函数计算得到。p显然，相对效率的影响因素有：显然，相对效率的影响因素有：p ， , ,复合备择假设中的特定备择假设。复合备择假设中的特定备择假设。2n1n21/nn例子p在H0对对H1下，临界域对应的两类错误水平相等，下，临界域对应的两

38、类错误水平相等， T1和和T2对应样本容量为对应样本容量为 n1=75， n2=50.p则则T1对对T2 的相对效率的相对效率=n2/n1=0.67pT2对对T1 的相对效率的相对效率=n1/n2=1.5p第第2个检验更有效。个检验更有效。1.3 参数统计（传统统计推断）参数统计的定义：推断假设建立在样本所抽取的参数统计的定义：推断假设建立在样本所抽取的总体具有已知的分布型和分布函数，且只有有限总体具有已知的分布型和分布函数，且只有有限个未知实参数基础上的推断方法。个未知实参数基础上的推断方法。参数检验的定义：总体分布服从已知分布条件下参数检验的定义：总体分布服从已知分布条件下的统计检验。的统

39、计检验。p（1）假定分布族）假定分布族总体参数总体参数（2）抽样）抽样数据信息数据信息（3）计算统计量和抽样分布）计算统计量和抽样分布（4）推估和检验）推估和检验（5）作出统计决策）作出统计决策比如均值和方差比如均值和方差(或标准差或标准差)，进行区间估计，或，进行区间估计，或者是对某些参数值进行各种检验，比如检验正态者是对某些参数值进行各种检验，比如检验正态分布的均值是否相等或等于零等等。最常见的检分布的均值是否相等或等于零等等。最常见的检验为对正态总体的验为对正态总体的t检验，检验，F检验等检验等参数统计的基本步骤参数统计的特点p涉及总体参数，位置参数和尺度（形状）参涉及总体参数，位置

40、参数和尺度（形状）参数。数。p对数据类型有要求。对数据类型有要求。p有很强的假定。有很强的假定。q 正态分布密度函数正态分布密度函数f f ( (x x) ) 的两个参数：的两个参数：m m 位置参数位置参数即固定即固定 , , 对于不同的对于不同的 m m , , 对应的对应的 f (x)f (x)的形状不变化，只是位置不同。的形状不变化，只是位置不同。尺度参数尺度参数固定固定 m m ，对于不同的，对于不同的，f ( x) f ( x) 的形状不同的形状不同. .若若 1 1 2 2 则则212121比比x = x = m m 2 2 所对应的拐点更靠近直线所对应的拐点更靠近直线 x

41、= x = m m附近值的概率更大附近值的概率更大. x = . x = m m 1 1 所对应的所对应的拐点拐点前者取前者取 m m参数统计的缺点p在实际生活中，那种对总体的分布的假定并在实际生活中，那种对总体的分布的假定并不是能随便做出的。有时，数据并不是来自不是能随便做出的。有时，数据并不是来自所假定分布的总体；或者，数据根本不是来所假定分布的总体；或者，数据根本不是来自一个总体；还有可能，数据因为种种原因自一个总体；还有可能，数据因为种种原因被严重污染。这样，在假定总体分布的情况被严重污染。这样，在假定总体分布的情况下进行推断的做法就可能产生错误的结论。下进行推断的做法就可能产生错误的

42、结论。1.4 非参数统计p1.概念概念p非参数统计：那些推断假设不依赖总体分布非参数统计：那些推断假设不依赖总体分布的具体函数形式，或推断假设与总体参数无的具体函数形式，或推断假设与总体参数无关的推断方法。关的推断方法。无分布推断无分布推断非参数推断非参数推断非参数检验非参数检验：总体分布不要求遵从已知分布：总体分布不要求遵从已知分布条件下的统计检验条件下的统计检验非参数检验的方法非参数检验的方法p主要有：主要有：p（1）Permutation tests（排列检验）（排列检验）p游程检验、方差检验游程检验、方差检验p（2）Rank tests（秩检验）（秩检验）p方差检验、毕业测评得分实例

43、方差检验、毕业测评得分实例p模型中用秩代替检验的观测值，这种做法的优点模型中用秩代替检验的观测值，这种做法的优点是：单调性没有改变；观测值的极端性减弱。是：单调性没有改变；观测值的极端性减弱。p（3） Robust regression稳健回归稳健回归游程检验实例p某村发生一种地方病，其住户沿一条河排列，调某村发生一种地方病，其住户沿一条河排列，调查时对发病的住户标记为查时对发病的住户标记为“1”，对非发病的住户，对非发病的住户标记为标记为“0”，共，共17户：户：p0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1p p问病户的分布排列是呈

44、聚集趋势，还是随机分布问病户的分布排列是呈聚集趋势，还是随机分布人力资源例子p 威廉姆斯制造公司从当地威廉姆斯制造公司从当地3 3所所大学招聘管理工作人员。最近该公大学招聘管理工作人员。最近该公司的人力资源部收集并评判雇员的司的人力资源部收集并评判雇员的年度表现秩评定，试图确定招自这年度表现秩评定，试图确定招自这3 3所大学的管理人员的表现是否存所大学的管理人员的表现是否存在差异。从由来源于大学在差异。从由来源于大学A A的的7 7名员名员工、来源于大学工、来源于大学B B的的6 6名员工和来源名员工和来源于大学于大学C C的的7 7名员工所组成的独立样名员工所组成的独立样本，独立样本的表现秩

45、评定数据已本，独立样本的表现秩评定数据已获得，并归纳在表中。获得，并归纳在表中。2.非参数统计的优缺点p(1)优点一：适应面广：优点一：适应面广：p所有尺度数据所有尺度数据p(2)优点二：假定条件较少优点二：假定条件较少p分布无关（分布无关（Distribution-free），推断方），推断方法和总体分布无关；不应理解为与所有分布法和总体分布无关；不应理解为与所有分布(如有关秩的分布如有关秩的分布)无关。无关。p(3)优点三：敏感性低，稳健性强。优点三：敏感性低，稳健性强。 Less sensitive, more robustp参数检验分析结果是否真有意义，完全取决于参数检验分析结果是否真

46、有意义，完全取决于检验假设之是否成立和成立的程度检验假设之是否成立和成立的程度 2.非参数统计的优缺点p(4)缺点一：当数据为定量数据时，检验功效缺点一：当数据为定量数据时，检验功效低，会浪费数据信息低，会浪费数据信息p从理论上讲，在完全满足参数统计的条件下，从理论上讲，在完全满足参数统计的条件下，非参数统计的功效大约相当于参数统计的非参数统计的功效大约相当于参数统计的95%。p(5)缺点二：大样本下手工计算相对麻烦。缺点二：大样本下手工计算相对麻烦。p(6)缺点三：一些统计表不易得到。缺点三：一些统计表不易得到。（三）非参数统计的优点p1.Distribution-free 分布无关，推断方

47、法和总体分布无关；不应理分布无关，推断方法和总体分布无关；不应理解为与所有分布解为与所有分布(如有关秩的分布如有关秩的分布)无关。无关。 2. Less sensitive, more robustp敏感性低，稳健性强。敏感性低，稳健性强。p针对假设条件或数据资料类型。针对假设条件或数据资料类型。p参数检验分析结果是否真有意义，完全取决于参数检验分析结果是否真有意义，完全取决于检验假设之是否成立和成立的程度检验假设之是否成立和成立的程度 p3.小样本下计算简便有效，可使用手工计算。小样本下计算简便有效，可使用手工计算。（三）非参数统计的缺点（三）非参数统计的缺点p1.当数据同时适用于参数统计时

48、，使用非参数当数据同时适用于参数统计时，使用非参数统计可能会浪费一点信息，降低检验的有效性。统计可能会浪费一点信息，降低检验的有效性。p2.大样本下手工计算相对麻烦。大样本下手工计算相对麻烦。p3.一些统计表不易得到。一些统计表不易得到。（四）非参数统计的适用条件（四）非参数统计的适用条件p1.定类数据和定序数据等定性资料分析，这类数定类数据和定序数据等定性资料分析，这类数据的分布形态一般是未知的；据的分布形态一般是未知的；p2.虽然是定距数据和定比数据等定量资料，但总虽然是定距数据和定比数据等定量资料，但总体分布形态未知或者非正态；体分布形态未知或者非正态；p3.总体分布虽然正态，数据也是定量资料，但样总体分布虽然正态，数据也是定量资料，但样本容量极小，如本容量极小，如10以下（这时以下（这时t检验也是不能使检验也是不能使用的）；用的）；p4.在一些为正式研究进行探路的预备性数据分析在一些为正式研究进行探路的预备性数据分析中也会经常用到。中也会经常用到。

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？