1、第1章 假设检验 对总体提出一假设,然后借助样本对该对总体提出一假设,然后借助样本对该假设进行检验。假设进行检验。基本概念基本概念n原假设原假设 H H0 0:在统计学中在统计学中,把需要通过样本去推断正把需要通过样本去推断正确与否的命题确与否的命题,称为原假设称为原假设,又称零假设又称零假设.它常常是它常常是根据已有资料或经过周密考虑后确定的根据已有资料或经过周密考虑后确定的.n备择假设备择假设H H1 1:与原假设对立的假设与原假设对立的假设.n显著性水平显著性水平(significant level)(significant level):确定一确定一个事件为小概率事件的标准个事件为小概
2、率事件的标准,称为检验水平称为检验水平.亦称亦称为显著性水平。通常取为显著性水平。通常取=0.05,0.01,0.1.=0.05,0.01,0.1.H0原假设原假设(null hypothesis),H1备择假设备择假设(alternative hypothesis)双尾检验双尾检验(two tailed test):H0:=0,H1:0单尾检验单尾检验(one tailed test):H0:0,H1:0 (左侧检验)(左侧检验)或或 H0:0,H1:0 (右侧检验)(右侧检验)假设检验就是根据样本观察结果对原假设假设检验就是根据样本观察结果对原假设H0进行检验,如果进行检验,如果接受接受H
3、0,就否定,就否定H1;如果拒绝;如果拒绝H0,就接受,就接受H1。假设及检验的形式:假设及检验的形式:假设检验问题的基本步骤:假设检验问题的基本步骤:(1)提出假设:原假设提出假设:原假设H0及备择假设及备择假设H1,(2)选择适当的检验统计量,并指出选择适当的检验统计量,并指出H0成立时该检验统计量成立时该检验统计量所服从的抽样分布,所服从的抽样分布,(3)根据给定的显著性水平,查表确定相应的临界值,并确根据给定的显著性水平,查表确定相应的临界值,并确定拒绝域,定拒绝域,(4)根据样本观察值计算检验统计量的值根据样本观察值计算检验统计量的值H0。当检验统计量当检验统计量的值落入拒绝域时拒绝
4、的值落入拒绝域时拒绝H0而接受而接受H1;否则不能拒绝;否则不能拒绝H0,可接受可接受H0。假设检验的方法-P值法所谓所谓P P值是指值是指H H0 0视为真时,检验统计量在以其观察值为端点的某视为真时,检验统计量在以其观察值为端点的某区域内取值的概率。区域内取值的概率。计算方法:计算方法:在在 已知时,检验统计量为已知时,检验统计量为Z=Z=,其样本观测值,其样本观测值为为Z Z0 0=,表示样本均值的观察值。,表示样本均值的观察值。在左侧检验中,在左侧检验中,P P值值=P(ZZ=P(ZZ0 0););在右侧检验中,在右侧检验中,P P值值=P(ZZ=P(ZZ0 0););在双侧检验中,在
5、双侧检验中,P P值值=2 P(Z|Z=2 P(Z|Z0 0|);|);nX0nXP值值说明说明(=0.05)=0.05)小于小于0.010.01.5大于大于0.05具有高度统计显著性具有高度统计显著性,非常强的证据拒绝原假非常强的证据拒绝原假设设具有统计显著性,适当的证据可拒绝原假设具有统计显著性,适当的证据可拒绝原假设较不充分的证据拒绝原假设较不充分的证据拒绝原假设利用利用p值进行检验的准则:值进行检验的准则:若若p值值,接受,接受H0成立。成立。n单样本的单样本的T检验检验 One Sample T Test n独立样本的独立样本的T检验检验Independent Samples T T
6、estn配对样本的配对样本的T检验检验Paired-Samples T Test均值的假设检验(Compare Means)nT 检验是检验差异显著性的十分重要的统计工具,它是样本均值间的比较。因此T 检验也可以称为一种均值比较分析。它包括:注:注:t检验要求总体来自正态分布,因此一般事先都要检检验要求总体来自正态分布,因此一般事先都要检验样本数据是否来自正态分布。验样本数据是否来自正态分布。已知条件已知条件检验统计量检验统计量检验统计量检验统计量正态总正态总体体2 2已知已知nxZ0=已知条件已知条件正态总正态总体体22未未知知(n(n30)30)nsxt0=非正态总非正态总体体n30n30
7、22已知或已知或未知未知nxZ0=nSxZ0=单个总体D e g r e e fredom两个总体已知条件已知条件检验统计量检验统计量检验统计量检验统计量两个正态总两个正态总体均值之差体均值之差的检验的检验1,21,22 2已知已知已知条件已知条件两个正两个正态总体态总体1,21,22 2未未知知,但相但相等等(n(n30)30)两个非正两个非正态总体态总体n n1,21,2303022211221nnXXZ=2)1()1(11212221212121=nnSnSnSnnSXXtpp22211221nnXXZ=该过程主要用于单个总体均值的假设检验.例1.某厂用自动包装机装箱,在正常情况下每箱标
8、准重量为100。某日开工后,随机抽测12箱,重量如下(单位:公斤):99.2,98.8,100.3,100.6,99.0,99.5,100.7,100.9,99.1,99.3,100.1,98.6。问包装机工作是否正常?(=0.05=0.05)1、单样本的、单样本的T检验检验One Sample T Test H0:=,H1:操作步骤:这是已知原始数据的单个总体均值双尾检验问题依题意,设H0:=,H1:(1)定义变量 X,输入数据;(2)正态性检验-P-P图(3)选择Analyze Compare Means One Sample T Test;(4)将变量X放置Test栏中,并在Test框中
9、输入数据100;(5)单击OK按钮执行.One-Sample T TestT-TestO On ne e-S Sa am mp pl le e S St ta at ti is st ti ic cs s1299.6750.80241.23164xNMeanStd.DeviationStd.ErrorMeanO On ne e-S Sa am mp pl le e T Te es st t-1.40311.188-.32500-.8348.1848xtdfSig.(2-tailed)MeanDifferenceLowerUpper95%ConfidenceInterval of theDiff
10、erenceTest Value=100结论:双尾结论:双尾sig.0.188=0.05=0.05,所以接受,所以接受H0,即包装机工,即包装机工作是正常的。作是正常的。练习.某厂电子元件的寿命某厂电子元件的寿命X(以小时计以小时计)服从正态分布。服从正态分布。现测得现测得18只元件的寿命如下只元件的寿命如下:270148159111198164123258247160430188302233196312178267.问是否有理由认为元件的平均寿命大于问是否有理由认为元件的平均寿命大于210小时小时(=0.05)=0.05)?H0:0,H1:1.操作步骤:同上题 2.T-TestO On ne
11、 e-S Sa am mp pl le e S St ta at ti is st ti ic cs s18219.1179.37418.709xNMeanStd.DeviationStd.ErrorMeanO On ne e-S Sa am mp pl le e T Te es st t.48717.6329.111-30.3648.58xtdfSig.(2-tailed)MeanDifferenceLowerUpper95%ConfidenceInterval of theDifferenceTest Value=210单尾概率单尾概率=双尾概率双尾概率/2。该题是单尾检验。该题是单尾检验
12、,所以单尾所以单尾P=0.632/2=0.316明明显大于显大于=0.05,=0.05,故不能拒绝故不能拒绝H0 ,没有理由认为元件的平均寿命大于没有理由认为元件的平均寿命大于210小时小时.2、独立样本的、独立样本的T检验检验Independent Samples T Test 该过程主要用于两个独立样本原始资料对两个两个总体均值的假设检验.双样本均值共有3种类型:双尾检验双尾检验(two-tailed test):H0:1=2,H1:12单尾检验单尾检验(one-tailed test):H0:12,H1:12 H0:12,H1:12例2 由以往资料知道,甲、乙两煤矿蕴藏的煤的含灰率都服从
13、正态分布。现从两矿各抽几个试样,分析其含灰率得(%):甲矿甲矿:24.521.323.522.427.118.619.820.721.216.9 乙矿乙矿:15.724.925.123.218.8198.019.926.116.8 17.522.420.6 问两矿所采煤的平均含灰率有无显著差异?(=0.05)=0.05)操作步骤:n(1)定义变量 x,g,输入数据;n(2)正态检验,先分组再检验,方差齐性检验;n(3)选择Analyze Compare Means Independent Sample T Test;n(4)将变量X放置Test栏中,将g放入分组变量,定义g的取值;n(5)单击
14、OK按钮执行.注:注:两总体的均值检验要考虑方差相等还是不等,因此事两总体的均值检验要考虑方差相等还是不等,因此事先要进行方差的检验。先要进行方差的检验。T-Test基本描述统计甲矿煤的平均含灰率为21.6%,乙矿的平均含灰率为20.9%,两个样本的平均水平不等,它们之间的差异是否有显著不同?I In nd de ep pe en nd de en nt t S Sa am mp pl le es s T Te es st t.908.352.55120.588.766671.39070-2.13428 3.66761.56019.984.582.766671.36938-2.08995 3.
15、62329Equal variancesassumedEqual variancesnot assumedxFSig.Levenes Test forEquality of Variancestdf Sig.(2-tailed)MeanDifferenceStd.ErrorDifference LowerUpper95%ConfidenceInterval of theDifferencet-test for Equality of Means方差齐性成立(方差齐性成立(Equal variances assumedEqual variances assumed)的结果)的结果方差不齐(方差不
16、齐(Equal variances not assumedEqual variances not assumed)的结果)的结果 T-Test结果在上表中,同时显示了两个在上表中,同时显示了两个T T检验的结果,检验的结果,究竟以哪个结果为准呢?究竟以哪个结果为准呢?在表中第三列,在表中第三列,Sig.=0.3520.05Sig.=0.3520.05,说明方差齐性的假设成立。说明方差齐性的假设成立。t t检验的结果应该以方差齐性成立检验的结果应该以方差齐性成立 (Equal variances assumedEqual variances assumed)的结果为准。)的结果为准。T T检验的
17、结果为:检验的结果为:Sig.=Sig.=0.5880.5880.050.05,接受零假设,接受零假设,可以认为甲、乙两矿的平均含灰率是相等的。3、配对样本的、配对样本的T检验检验 Paired-Samples T Test 该过程主要用于配对样本资料对两个总体均值之差的假设检验.配对样本与独立样本的差异在于配对样本与独立样本的差异在于:配对样本的抽样不是相互独立的,而是相互关联的。配对样本的抽样不是相互独立的,而是相互关联的。配对样本可以是配对样本可以是同一个变量同一个变量在在“前与后前与后”、“新与旧新与旧”等等 两种状态两种状态下的两组抽样数据下的两组抽样数据,也可以是对某一问题也可以是
18、对某一问题两个不同侧面两个不同侧面的表述。的表述。例3n某单位研究饮食中缺乏维生素E 与肝中维生素A 含量的关系,将同种属的大白鼠按性别相同,年龄、体重相近者配成对子。共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组。过一定时期后将大白鼠杀死,测得其肝中维生素A的含量。不同饲料组大白鼠维生素A 含量数据表大白鼠对号 1 2 3 4 5 6 7 8正常饲料组 3550 2000 3000 3950 3800 3750 3450 3050维生素E缺乏组2450 2400 1800 3200 3250 2700 2500 1750操作步骤:(1)定义变量 X1,X2。分别输入数据;(2)正态检验(3)选择Analyze Compare Means Paired-Samples T Test(4)将变量X1、X2放置Test栏中(5)单击OK按钮执行.T-Test结论:表1:正常组维A平均含量为14.4667,缺乏组的为139.4667表2:显示X1和X2的相关系数为0.584,检验概率为0.1,表明两者相关.表3:两样本均值的检验P值为0.0040.05,故拒绝H0即可以认为维E缺乏对维A有显著影响.