统计学06总体参数的假设检验(精)课件.ppt_163文库

资源描述

1、统计学从数据到结论第六章总体参数的假设检验o 如果一个人说他从来没有骂过人。如果一个人说他从来没有骂过人。他能够证明吗？他能够证明吗？o 要证明他没有骂过人，他必须出示要证明他没有骂过人，他必须出示他从小到大每一时刻的录音录像，他从小到大每一时刻的录音录像，所有书写的东西等等，还要证明这所有书写的东西等等，还要证明这些物证是完全的、真实的、没有间些物证是完全的、真实的、没有间断的。这简直是不可能的。断的。这简直是不可能的。o 即使他找到一些证人，比如他的同即使他找到一些证人，比如他的同学、家人和同事，那也只能够证明学、家人和同事，那也只能够证明在那些证人在场的某些片刻，他没在那些证人在场的某

2、些片刻，他没有被听到骂人。有被听到骂人。o反过来，如果要证明这个人反过来，如果要证明这个人骂过人很容易，只要有一次骂过人很容易，只要有一次被抓住就足够了。被抓住就足够了。o看来，企图肯定什么事物很看来，企图肯定什么事物很难，而否定却要相对容易得难，而否定却要相对容易得多。这就是假设检验背后的多。这就是假设检验背后的哲学。哲学。o科学总往往是在否定中发展科学总往往是在否定中发展o在假设检验中，一般要设立在假设检验中，一般要设立一个一个原假设原假设（上面的（上面的“从来从来没骂过人没骂过人”就是一个例子）；就是一个例子）；o而设立该假设的动机主要是而设立该假设的动机主要是企图利用人们掌握的反映现企

3、图利用人们掌握的反映现实世界的数据来找出假设与实世界的数据来找出假设与现实之间的矛盾，从而否定现实之间的矛盾，从而否定这个假设。这个假设。o在多数统计教科书中在多数统计教科书中(除理论除理论探讨外探讨外)假设检验都是以否定假设检验都是以否定原假设为目标。原假设为目标。o如否定不了，说明证据不足，如否定不了，说明证据不足，无法否定原假设。但不能说无法否定原假设。但不能说明原假设正确。明原假设正确。o就像一两次没有听过他骂人就像一两次没有听过他骂人还远不能证明他从来没有骂还远不能证明他从来没有骂过人。过人。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 先要提出个原假设，比如某正态总体先要提出

4、个原假设，比如某正态总体的均值等于的均值等于5(m m=5)。这种原假设也称。这种原假设也称为为零假设零假设(null hypothesis)，记为，记为H0。o 与此同时必须提出与此同时必须提出备选假设备选假设(或称为或称为备备择假设，择假设，alternative hypothesis)，比如，比如总体均值大于总体均值大于5（m m5）。备选假设记）。备选假设记为为H1或或Ha。形式上，这个关于总体均。形式上，这个关于总体均值的值的H0相对于相对于H1的检验记为的检验记为01:5:5HHmm6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 备选假设应该按照实际世界所代表的备选假设应该按照

5、实际世界所代表的方向来确定，即它通常是被认为可能方向来确定，即它通常是被认为可能比零假设更符合数据所代表的现实。比零假设更符合数据所代表的现实。o 比如上面的比如上面的H1为为m m5；这意味着，至少；这意味着，至少样本均值应该大于样本均值应该大于5；o 至于是否显著，依检验结果而定。至于是否显著，依检验结果而定。o 检验结果检验结果显著显著(significant)意味着有理意味着有理由拒绝零假设。因此，假设检验也被由拒绝零假设。因此，假设检验也被称为称为显著性检验显著性检验(significant test)。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 有了两个假设，就要根据数据来

6、对它有了两个假设，就要根据数据来对它们进行判断。们进行判断。o 数据的代表是作为其函数的统计量；数据的代表是作为其函数的统计量；它在检验中被称为它在检验中被称为检验统计量（检验统计量（test statistic）。o根据零假设根据零假设（不是备选假设！），可（不是备选假设！），可得到该检验统计量的分布；再看这个得到该检验统计量的分布；再看这个统计量的数据实现值（统计量的数据实现值（realization）属）属不属于小概率事件。不属于小概率事件。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 也就是说把数据代入检验统计量也就是说把数据代入检验统计量,看其值是否落入看其值是否落入零假设下的

7、小概率零假设下的小概率范畴范畴；o 如果的确是小概率事件，那么就有如果的确是小概率事件，那么就有可能拒绝零假设，或者说可能拒绝零假设，或者说“该检验该检验显著，显著，”o 否则说否则说“没有足够证据拒绝零假没有足够证据拒绝零假设设”，或者，或者“该检验不显著。该检验不显著。”6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 注意：注意：在我们所涉及的问题中，零假在我们所涉及的问题中，零假设和备选假设在假设检验中并不对称。设和备选假设在假设检验中并不对称。o 因检验统计量的分布是从零假设导出因检验统计量的分布是从零假设导出的，因此，如果发生矛盾，就对零假的，因此，如果发生矛盾，就对零假设不利了

8、。设不利了。o 不发生矛盾也不能说明零假设没有问不发生矛盾也不能说明零假设没有问题。题。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 在零假设下，检验统计量取其实现值在零假设下，检验统计量取其实现值及（沿着备选假设的方向）更加极端及（沿着备选假设的方向）更加极端值的概率称为值的概率称为p-值（值（p-value）。o 如果得到很小的如果得到很小的p-值，就意味着在零值，就意味着在零假设下小概率事件发生了。假设下小概率事件发生了。o 如果小概率事件发生，是相信零假设，如果小概率事件发生，是相信零假设，还是相信数据呢？还是相信数据呢？o 当然多半是相信数据，拒绝零假设。当然多半是相信数据，拒

9、绝零假设。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 但小概率并不能说明不会发生，仅仅但小概率并不能说明不会发生，仅仅发生的概率很小罢了。拒绝正确零假发生的概率很小罢了。拒绝正确零假设的错误常被称为设的错误常被称为第一类错误（第一类错误（type I error）。o 在备选假设正确时反而说零假设正确在备选假设正确时反而说零假设正确的错误，称为的错误，称为第二类错误（第二类错误（type II error）。在本书的假设检验问题中，。在本书的假设检验问题中，由于备选假设不是一个点，所以无法由于备选假设不是一个点，所以无法算出犯第二类错误的概率。算出犯第二类错误的概率。6.1 假设检验的

10、过程和逻辑假设检验的过程和逻辑o 零假设和备选假设哪一个正确，是确零假设和备选假设哪一个正确，是确定性的，没有概率可言。而可能犯错定性的，没有概率可言。而可能犯错误的是人。误的是人。o 涉及假设检验的犯错误的概率就是犯涉及假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的第一类错误的概率和犯第二类错误的概率。概率。o 负责任的态度是无论做出什么决策，负责任的态度是无论做出什么决策，都应该给出该决策可能犯错误的概率。都应该给出该决策可能犯错误的概率。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 到底到底p-值是多小时才能够拒绝零假设呢？也值是多小时才能够拒绝零假设呢？也就是说，需

11、要有什么是小概率的标准。就是说，需要有什么是小概率的标准。o 这要看具体应用的需要。但在一般的统计书这要看具体应用的需要。但在一般的统计书和软件中，使用最多的标准是在零假设下和软件中，使用最多的标准是在零假设下（或零假设正确时）根据样本所得的数据来（或零假设正确时）根据样本所得的数据来拒绝零假设的概率应小于拒绝零假设的概率应小于0.05，当然也可能，当然也可能是是0.01，0.005，0.001等等。等等。o 这种事先规定的概率称为这种事先规定的概率称为显著性水平显著性水平(significant level)，用字母，用字母a a来表

12、示。来表示。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o a a并不一定越小越好，因为这很可能导致不并不一定越小越好，因为这很可能导致不容易拒绝零假设，使得犯第二类错误的概率容易拒绝零假设，使得犯第二类错误的概率增大。增大。o 当当p-值小于或等于值小于或等于a a时，就拒绝零假设。所时，就拒绝零假设。所以，以，a a是所允许的犯第一类错误概率的最大是所允许的犯第一类错误概率的最大值。当值。当p-值小于或等于值小于或等于a a时，就说这个检验时，就说这个检验是显著的。是显著的。o 无论统计学家用多大的无论统计学家用多大的a a作为显著性水平都作为显著性水平都不能脱离实际问题的背景。统计显

13、著不一定不能脱离实际问题的背景。统计显著不一定等价于实际显著。反过来也一样。等价于实际显著。反过来也一样。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 归纳起来，假设检验的逻辑步骤为：归纳起来，假设检验的逻辑步骤为：o 1. 写出零假设和备选假设；写出零假设和备选假设；o 2. 确定检验统计量；确定检验统计量；o 3. 确定显著性水平确定显著性水平a a；o 4. 根据数据计算检验统计量的实现值；根据数据计算检验统计量的实现值；o 5. 根据这个实现值计算根据这个实现值计算p-值；值；o 6. 进行判断：如果进行判断：如果p-值小于或等于值小于或等于a a，就拒，就拒绝零假设，这时犯（第

14、一类）错误的概率最绝零假设，这时犯（第一类）错误的概率最多为多为a a；如果；如果p-值大于值大于a a，就不拒绝零假设，就不拒绝零假设，因为证据不足。因为证据不足。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 实际上，多数计算机软件仅仅给出实际上，多数计算机软件仅仅给出p-值，而值，而不给出不给出a a。这有很多方便之处。这有很多方便之处。o 比如比如a a=0.05，而假定所得到的，而假定所得到的p-值等于值等于0.001。这时如果采用这时如果采用p-值作为新的显著性水平，即值作为新的显著性水平，即新的新的a a=0.001，于是就可以说，在显著性水，于是就可以说，在显著性水平为平为

15、0.001时，拒绝零假设。时，拒绝零假设。o 这样，拒绝零假设时犯错误的概率实际只是这样，拒绝零假设时犯错误的概率实际只是千分之一而不是旧的千分之一而不是旧的a a所表明的百分之五。所表明的百分之五。在这个意义上，在这个意义上，p-值又称为值又称为观测的显著性水观测的显著性水平（平（observed significant level）。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 在统计软件输出在统计软件输出p-值的位置，有的用值的位置，有的用“p-value”，有的用，有的用significant的缩写的缩写“Sig”就是就是这个道理。这个道理。o 根据数据产生的根据数据产生的p-值

16、来减少值来减少a a的值以展示结的值以展示结果的精确性总是没有害处的。果的精确性总是没有害处的。o 这好比一个身高这好比一个身高180厘米的男生，可能愿意厘米的男生，可能愿意被认为高于或等于被认为高于或等于180厘米，而不愿意说他厘米，而不愿意说他高于或等于高于或等于155厘米，虽然这第二种说法数厘米，虽然这第二种说法数学上没有丝毫错误。学上没有丝毫错误。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 关于关于“临界值临界值”的注：的注：作为概率的显著性水平a实际上相应于一个检验统计量取值范围的一个临界值（临界值（critical value），它定义为，统计量取该值或更极端的值的概率等于

17、a。也就是说，“统计量的实现值比临界值更极端统计量的实现值比临界值更极端”等价于等价于“p-值小于值小于a a”。使用临界值的概念进行的检验不计算p-值。只比较统计量的取值和临界值的大小。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 使用临界值而不是使用临界值而不是p-值来判断拒绝与否是值来判断拒绝与否是前前计算机时代的产物计算机时代的产物。当时计算。当时计算p-值不易，只值不易，只采用临界值的概念。但从给定的采用临界值的概念。但从给定的a a求临界值求临界值同样也不容易，好在习惯上仅仅在教科书中同样也不容易，好在习惯上仅仅在教科书中列出相应于特定分布的几个有限的列出相应于特定分布的几个

18、有限的a a临界值临界值（比如（比如a a=0.05，a a=0.025，a a=0.01，a a=0.005，a a=0.001等等），或者根据分布表反过来查等等），或者根据分布表反过来查临界值（很不方便也很粗糙）。临界值（很不方便也很粗糙）。o 现在计算机软件大都不给出现在计算机软件大都不给出a a和临界值，但和临界值，但都给出都给出p-值和统计量的实现值，让用户自己值和统计量的实现值，让用户自己决定显著性水平是多少。决定显著性水平是多少。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 在一些统计教科书中会有不能拒绝零假设就在一些统计教科书中会有不能拒绝零假设就“接受零假设接受零假设”

19、的说法。这种说法是不严格的说法。这种说法是不严格的。的。o 首先，如果你说首先，如果你说“接受零假设接受零假设”，那么就应，那么就应该负责任地提供接受零假设时可能犯第二类该负责任地提供接受零假设时可能犯第二类错误的概率。这就要算出在备选假设正确的错误的概率。这就要算出在备选假设正确的情况下错误接受零假设的概率。但是，这只情况下错误接受零假设的概率。但是，这只有在备选假设仅仅是一个与零假设不同的确有在备选假设仅仅是一个与零假设不同的确定值（而不是范围）时才有可能。定值（而不是范围）时才有可能。o 多数基本统计教科书的备选假设是一个范围多数基本统计教科书的备选假设是一个范围而根本无法确定犯第二类错

20、误的概率。而根本无法确定犯第二类错误的概率。6.1 假设检验的过程和逻辑假设检验的过程和逻辑o 在许多统计教科书中，往往把一系列在许多统计教科书中，往往把一系列不能拒绝零假设的检验当成接受这些不能拒绝零假设的检验当成接受这些假设的通行证。假设的通行证。o 比如不能拒绝某样本的正态性就变成比如不能拒绝某样本的正态性就变成了证明了该样本是正态的等等。了证明了该样本是正态的等等。o 不能拒绝这些零假设，仅仅说明根据不能拒绝这些零假设，仅仅说明根据所使用的检验方法（或检验统计量）所使用的检验方法（或检验统计量）和当前的数据没有足够证据拒绝这些和当前的数据没有足够证据拒绝这些假设而已。假设而已。6.1

21、假设检验的过程和逻辑假设检验的过程和逻辑o 对于同一个假设检验问题，往往都有对于同一个假设检验问题，往往都有多个检验统计量；而且人们还在构造多个检验统计量；而且人们还在构造更优良的检验统计量。更优良的检验统计量。o 人们不可能把所有的目前存在的和将人们不可能把所有的目前存在的和将来可能存在的检验都实施。来可能存在的检验都实施。o 因此，只能够说，按照目前的证据，因此，只能够说，按照目前的证据，不足以拒绝零假设而已。后面将会用不足以拒绝零假设而已。后面将会用例子说明例子说明“接受零假设接受零假设”的说法是不的说法是不妥当的。妥当的。6.2 对于正态总体均值的检验对于正态总体均值的检验6.2.1

22、根据一个样本对其总体均值大小进行检验根据一个样本对其总体均值大小进行检验o 例例6.1一个顾客买了一包标有一个顾客买了一包标有500g重的一包红重的一包红糖，觉得份量不足，于是找到监督部门；当糖，觉得份量不足，于是找到监督部门；当然他们会觉得一包份量不够可能是随机的。然他们会觉得一包份量不够可能是随机的。于是监督部门就去商店称了于是监督部门就去商店称了50包红糖（数据包红糖（数据在在sugar.txt）；其中均值（平均重量）是）；其中均值（平均重量）是498.35g；这的确比；这的确比500g少，但这是否能够说少，但这是否能够说明厂家生产的这批红糖平均起来不够份量呢？明厂家生产的这批红糖平均起

23、来不够份量呢？于是需要统计检验。可以画出这些重量的直于是需要统计检验。可以画出这些重量的直方图方图50包红糖重量的直方图包红糖重量的直方图 Histogram of Sugar WeightweightFrequency49049550050502468106.2.1 根据一个样本对其总体均值大小进行检验根据一个样本对其总体均值大小进行检验o 这个直方图看上去象是正态分布的样本。不这个直方图看上去象是正态分布的样本。不妨假定这一批袋装红糖有正态分布。妨假定这一批袋装红糖有正态分布。o 由于厂家声称每袋由于厂家声称每袋500g（标明重量），因此（标明重量），因此零假设为总体均值等于零假设为总体

24、均值等于500g（被怀疑对象总（被怀疑对象总是放在零假设）；是放在零假设）；o 而且由于样本均值少于而且由于样本均值少于500g(这是怀疑的根这是怀疑的根据据)，把备选假设定为总体均值少于，把备选假设定为总体均值少于500g（备选假设为单向不等式的检验称为单尾检（备选假设为单向不等式的检验称为单尾检验验,为不等号为不等号“”的称为双尾检验的称为双尾检验)01:500:500HHmm6.2.1 根据一个样本对其总体均值大小进行检验根据一个样本对其总体均值大小进行检验o 检验统计量就是第四章引进的作为对检验统计量就是第四章引进的作为对均值的某种标准化的均值的某种标准化的o 符号中的符号中的m m0

25、通常表示为零假设中的均通常表示为零假设中的均值（这里是值（这里是500）。在零假设之下，它）。在零假设之下，它有自由度为有自由度为n-1=49的的t分布。当然实际分布。当然实际上不必代入这个公式去手工计算了，上不必代入这个公式去手工计算了，让计算机去代劳好了。让计算机去代劳好了。0/xtsnm6.2.1 根据一个样本对其总体均值大小进行检验根据一个样本对其总体均值大小进行检验o 计算结果是计算结果是t=-2.696（也称为（也称为t值）值）, 同时得到同时得到p-值为值为0.005（由于计算机输出的为双尾检验（由于计算机输出的为双尾检验的的p-值，比单尾的大一倍，应该除以值，比单尾的大一倍，应

26、该除以2）。）。看来可以选择显著性水平为看来可以选择显著性水平为0.005，并宣称拒，并宣称拒绝零假设，而错误拒绝的概率为绝零假设，而错误拒绝的概率为0.005。One-Sample Test-2.69649.010-1.65280-2.8847-.4209weighttdfSig. (2-tailed)MeanDifferenceLowerUpper95% ConfidenceInterval of theDifferenceTest Value = 500-5-4-3-2-101234500.050.10.150.20.250.30.350.4t valueDensity of t(59)

27、Tail Probability for t(59)t=-2.696p-value=0.005统计量统计量t=-2.696相应于左边相应于左边尾概率（尾概率（p-值）值）0.005 6.2.1 根据一个样本对其总体均值大小进行检验根据一个样本对其总体均值大小进行检验o 上面例子的备选假设为小于（上面例子的备选假设为小于（“”）某个值的情况。）某个值的情况。o 取备选假设为均值大于或小于某个取备选假设为均值大于或小于某个值的检验称为值的检验称为单尾检验单尾检验(one-tailed test，也称为，也称为单侧检验或单边检验单侧检验或单边检验)。下面举一个选假设为均值大于下面举一个选假设为均值大

28、于（“”）某个值的例子。）某个值的例子。6.2.1 根据一个样本对其总体均值大小进行检验根据一个样本对其总体均值大小进行检验o 例例6.2（exh.txt）汽车厂商声称其发动机排放）汽车厂商声称其发动机排放标准的一个指标平均低于标准的一个指标平均低于20个单位。在抽查个单位。在抽查了了10台发动机之后，得到下面的排放数据：台发动机之后，得到下面的排放数据：17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。该样本均值为。该样本均值为21.13。究。究竟能否由此认为该指标均值超过竟能否由此认为该指标均值超过20？这次的？这次的假设检验问题就是假设检

29、验问题就是01:20:20HHmm6.2.1 根据一个样本对其总体均值大小进行检验根据一个样本对其总体均值大小进行检验o 和前面的例子的方法类似，可以发现和前面的例子的方法类似，可以发现p-值为值为0.1243（计算机输出的双尾检验的（计算机输出的双尾检验的p-值除以值除以2），因此，没有证据否定零假设。这时的），因此，没有证据否定零假设。这时的检验统计量检验统计量t=1.2336。也可以画出类似于图。也可以画出类似于图6.2的图（图的图（图6.3）这时的）这时的t分布的自由度为分布的自由度为9。下面是结果的计算机输出：下面是结果的计算机输出：One-Sample Test1.2349.249

30、1.13000-.94223.2022exhtdfSig. (2-tailed)MeanDifferenceLowerUpper95% ConfidenceInterval of theDifferenceTest Value = 20-5-4-3-2-101234500.050.10.150.20.250.30.350.4t valueDensity of t(9)Tail Probability for t(9)t=1.234p-value=0.1243t=1.2336统计量统计量t=1.2336相应于右边相应于右边尾概率（尾概率（p-值）值）0.1243 6.2.1 根据一个样本对其总体

31、均值大小进行检验根据一个样本对其总体均值大小进行检验o 注意：在假设检验中往往也用带等号的不等注意：在假设检验中往往也用带等号的不等式来表示零假设，比如上述的检验记为式来表示零假设，比如上述的检验记为o 但这里用于计算但这里用于计算p-值的零假设还是值的零假设还是m m=20；但如果能够拒绝零假设；但如果能够拒绝零假设m m=20，那么对于任何那么对于任何m m小于小于20的零假设就更有的零假设就更有理由拒绝了。这和以拒绝零假设为初理由拒绝了。这和以拒绝零假设为初衷的假设检验思维方式是一致的。衷的假设检验思维方式是一致的。01:20:20HHmm6.2.1 根据一个样本对其总体均值大小进行检验

32、根据一个样本对其总体均值大小进行检验o 还有所谓的还有所谓的双尾检验双尾检验(two tailed test，也称为也称为双侧检验双侧检验或或双边检验双边检验)问题，即问题，即o 在这种情况下，尾概率不仅是左边或在这种情况下，尾概率不仅是左边或右边的一个尾概率，而是两边尾概率右边的一个尾概率，而是两边尾概率之和。因此如果是一个单尾检验问题，之和。因此如果是一个单尾检验问题，用了双尾检验的模式，用了双尾检验的模式，p-值就比用单值就比用单尾检验时大了一倍。尾检验时大了一倍。0010:HHmmmm6.2.1 根据一个样本对其总体均值大小进行检验根据一个样本对其总体均值大小进行检验o 如果上面发动机

33、排放指标例子的检验如果上面发动机排放指标例子的检验问题改为是否该发动机的排放指标均问题改为是否该发动机的排放指标均值等于值等于20。即。即o 这时这时t统计量还是取原来的值统计量还是取原来的值1.2336，但但p-值为值为0.12432=0.2486。图。图6.3就变就变成图成图6.4的样子的样子01:20:20HHmm-5-4-3-2-101234500.050.10.150.20.250.30.350.4t valueDensity of t(9)Tail Probability for t(9): two tailed testt=1.2336p-value=0.1243+0.1243=

34、0.2486统计量统计量t=1.2336，而，而p-值等于值等于左右尾概率之和，即左右尾概率之和，即0.24866.2.2 根据来自两个总体的独立样本对其总体均值的检验根据来自两个总体的独立样本对其总体均值的检验o 例例6.3 (数据：数据：drug.txt)为检测某种药物为检测某种药物对攻击性情绪的影响，对处理组的对攻击性情绪的影响，对处理组的100名服药者和对照组的名服药者和对照组的150名非服药者进名非服药者进行心理测试，得到相应的某指标。要行心理测试，得到相应的某指标。要检验处理组指标的总体均值检验处理组指标的总体均值m m1是否等是否等于对照组指标的总体均值于对照组指标的总体均值m

35、m2。相应的。相应的假设检验问题为：假设检验问题为：012112:HHmmmm或012112:0:0HHmmmm6.2.2 根据来自两个总体的独立样本对其总体均值的检验根据来自两个总体的独立样本对其总体均值的检验o 通过计算，通过计算，t统计量等于统计量等于0.942，p-值为值为0.1735（输出中的双尾检验（输出中的双尾检验p-值的一半）。因此无值的一半）。因此无法拒绝零假设，即不能得出处理组的平均指法拒绝零假设，即不能得出处理组的平均指标大于对照组的结论。计算机输出的相应表标大于对照组的结论。计算机输出的相应表格（部分，删除了置信区间部分）为：格（部分，删除了置信区间部分）为：Indep

36、endent Samples Test7.210.008.911248.363.49600.54451.942234.348.347.49600.52661Equal variancesassumedEqual variancesnot assumedahFSig.Levenes Test forEquality of VariancestdfSig. (2-tailed)MeanDifferenceStd. ErrorDifferencet-test for Equality of Means6.2.2 根据来自两个总体的独立样本对其总体均值的检验根据来自两个总体的独立样本对其总体均值的检验

37、o注意：这个输出的前面三列用注意：这个输出的前面三列用Levene的的F-检验来看这两个样本所代表的检验来看这两个样本所代表的总体之方差是否相等（零假设为相等）。第一行是该检验的零假设：两总体之方差是否相等（零假设为相等）。第一行是该检验的零假设：两个总体方差相等，而第二行为备选假设：两个总体方差不等。如果该检个总体方差相等，而第二行为备选假设：两个总体方差不等。如果该检验显著，即在验显著，即在Sig列中的该列中的该Levene检验检验p-值很小（这里是值很小（这里是0.008），就应），就应该看第二行备选假设的该看第二行备选假设的t检验输出，这里是检验输出，这里是0.347；由于是单边检验，

38、；由于是单边检验，p-值值0.347/2=0.1735；如果；如果Levene检验的检验的p-值较大（本例并不大），则值较大（本例并不大），则看第一行原假设下的结果。之所以要检验总体方差，是因为总体方差相看第一行原假设下的结果。之所以要检验总体方差，是因为总体方差相同时使用的检验统计量与方差不同时使用的不同。同时使用的检验统计量与方差不同时使用的不同。Independent Samples Test7.210.008.911248.363.49600.54451.942234.348.347.49600.52661Equal variancesassumedEqual variancesnot

39、 assumedahFSig.Levenes Test forEquality of VariancestdfSig. (2-tailed)MeanDifferenceStd. ErrorDifferencet-test for Equality of Means6.2.3 成对样本的问题成对样本的问题o 例例6.4减肥数据（减肥数据（diet.txt）。这里有）。这里有50对数据。为对数据。为50人是减肥前后的重量人是减肥前后的重量o 要比较要比较50个人在减肥前后的重量。个人在减肥前后的重量。o 不能用前面的独立样本均值差的检验；这是因为不能用前面的独立样本均值差的检验；这是因为两个样本并

40、不独立。每一个人减肥后的重量都和两个样本并不独立。每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立自己减肥前的重量有关。但不同人之间却是独立的。的。o 令所有个体减肥前后重量差（减肥前重量减去减令所有个体减肥前后重量差（减肥前重量减去减肥后重量）的均值为肥后重量）的均值为m mD；这样所要进行的检验为；这样所要进行的检验为01:0:0DDHHmm6.2.3 成对样本的问题成对样本的问题o 我们可以把两个样本中配对的观测值逐个相我们可以把两个样本中配对的观测值逐个相减，形成一个由独立观测值组成的样本；然减，形成一个由独立观测值组成的样本；然后用单样本检验方法，看其均值是否为零。

41、后用单样本检验方法，看其均值是否为零。o 在相减之后公式和单样本均值检验无异。当在相减之后公式和单样本均值检验无异。当然，如果直接选用软件中成对样本均值的检然，如果直接选用软件中成对样本均值的检验，就不用事先逐个相减了。这里也有单尾验，就不用事先逐个相减了。这里也有单尾和双尾检验。和双尾检验。o 这里介绍的是假定总体分布为正态分布时的这里介绍的是假定总体分布为正态分布时的t检验。总体分布未知时，应该利用第十六检验。总体分布未知时，应该利用第十六章的非参数检验方法。章的非参数检验方法。6.2.3 成对样本的问题成对样本的问题o 再接着看例再接着看例6.4。计算机输出了双尾。计算机输出了双尾p-值

42、值0.002，这，这里的单尾里的单尾p-值于是为值于是为0.001。因此在显著性水平为。因此在显著性水平为0.001时，可以拒绝零假设。也就是说，减肥后和时，可以拒绝零假设。也就是说，减肥后和减肥前相比，平均重量显著要轻。下面是这个检减肥前相比，平均重量显著要轻。下面是这个检验的验的SPSS的部分计算机输出为（删去了置信区的部分计算机输出为（删去了置信区间）：间）：Paired Samples Test1.880003.96227.560353.35549.002before - afterPair 1MeanStd.DeviationStd. ErrorMeanPaired Differen

43、cestdfSig. (2-tailed)6.3 对于比例的检验对于比例的检验6.3.1 对于离散变量总体比例的检验对于离散变量总体比例的检验o 例例6.5（two.txt）为评价电视的收视率，电话调查，）为评价电视的收视率，电话调查，在某一节目播出的时候，被访的正在观看电视的在某一节目播出的时候，被访的正在观看电视的人中有人中有23的正在观看这个节目。现在想知道，的正在观看这个节目。现在想知道，这是否和该节目的制作人所期望的这是否和该节目的制作人所期望的p0=25有显著有显著不足。不足。o 这显然是一个参数为这显然是一个参数为p的二项分布问题。形式上的的二项分布问题。形式上的假设检验问题是假

44、设检验问题是01:0.25:0.25HpHp6.3.1 对于离散变量总体比例的检验对于离散变量总体比例的检验o 如果如果n为访问的正在看电视的人数，为访问的正在看电视的人数，x为其中观看为其中观看该节目的人数，那么样本中的观看比例为该节目的人数，那么样本中的观看比例为/0.23px no 检验统计量则是在零假设下当大样本时近似有标检验统计量则是在零假设下当大样本时近似有标准正态分布的统计量准正态分布的统计量0000.230.25(1)0.25 (1 0.25)ppzppnn6.3.1 对于离散变量总体比例的检验对于离散变量总体比例的检验o 这个数值用手算也不费力气。请注意，这个数值用手算也不费

45、力气。请注意，o 前面第五章提起过，即使被访者的百前面第五章提起过，即使被访者的百分比一样，但样本少的信息就少。对分比一样，但样本少的信息就少。对于假设检验也是一样。样本量对于假于假设检验也是一样。样本量对于假设检验的结果就十分重要。设检验的结果就十分重要。o 对于本例，现在还未给出样本量对于本例，现在还未给出样本量n呢！呢！下面看看不同的样本量会得到什么结下面看看不同的样本量会得到什么结果（假定果（假定x/n=0.23不变）不变）6.3.1 对于离散变量总体比例的检验对于离散变量总体比例的检验1. 如样本量为如样本量为n=1500（和数据给的一样），那么，（和数据给的一样），那么，上面的检验

46、得到的上面的检验得到的p-值为值为0.0368。因此，可以认。因此，可以认为（如果选显著性水平为为（如果选显著性水平为0.05的话）说收视率有的话）说收视率有25是过分了。即拒绝零假设。是过分了。即拒绝零假设。2. 如样本量为如样本量为n=100，那么，上面的检验得到的，那么，上面的检验得到的p-值为值为0.3221。因此，没有足够的理由拒绝收视率。因此，没有足够的理由拒绝收视率有有25的零假设（如果选显著性水平为的零假设（如果选显著性水平为0.05的话）的话）注意，利用软件时，上面的注意，利用软件时，上面的p-值计算往往在公式中加上用连续变值计算往往在公式中加上用连续变量近似离散变量分布时常

47、用的连续性纠正，因此结果和用上面公量近似离散变量分布时常用的连续性纠正，因此结果和用上面公式直接手算的稍有不同。式直接手算的稍有不同。6.3.1 对于离散变量总体比例的检验对于离散变量总体比例的检验o 下面是对于下面是对于n=1500时，例时，例6.5的的SPSS输输出。这里正在观看该节目的人数为出。这里正在观看该节目的人数为n1=345，而，而1500人中观看其他节目的人中观看其他节目的人数为人数为n2=1155。样本中收视比例为。样本中收视比例为n1/n345/15000.23。Binomial Test1.00345.23.25.038a,b.038.001155.7715001.00G

48、roup 1Group 2TotalwatchCategoryNObservedProp.Test Prop.Asymp. Sig.(1-tailed)Exact Sig.(1-tailed)Alternative hypothesis states that the proportion of cases in the first group .25.a. Based on Z Approximation.b. 6.3.1 对于离散变量总体比例的检验对于离散变量总体比例的检验o 前面对总体比例的检验所用的公式利用了二项分前面对总体比例的检验所用的公式利用了二项分布的大样本正态近似；怎样才是大

49、样本呢？这和布的大样本正态近似；怎样才是大样本呢？这和第五章求比例的置信区间时大样本的近似标准类第五章求比例的置信区间时大样本的近似标准类似，即当区间似，即当区间o 完全包含在（完全包含在（0，1）区间内部时，可以认为样本）区间内部时，可以认为样本足够大，能够用正态近似。足够大，能够用正态近似。000(1)3pppn6.3.1 对于离散变量总体比例的检验对于离散变量总体比例的检验o 对于两个样本，也有关于两个总体对于两个样本，也有关于两个总体比例之差比例之差p1p2的检验。还拿收视的检验。还拿收视率为例。节目甲的样本收视率为率为例。节目甲的样本收视率为20，节目乙为，节目乙为21，是不是节目甲

50、，是不是节目甲的总体收视率就真的低于节目乙？的总体收视率就真的低于节目乙？即检验即检验o 这里的零假设意味着节目甲和节这里的零假设意味着节目甲和节目乙收视率相等。目乙收视率相等。0120112:0:0HppDHpp6.3.1 对于离散变量总体比例的检验对于离散变量总体比例的检验o 假定假定n1=1200, n2=1300, 检验统计检验统计量则是在零假设下当大样本时有量则是在零假设下当大样本时有近似标准正态分布的统计量近似标准正态分布的统计量120112212()(.20.21)00.619(1)(1).2 (1 .2).21 (1 .21)12001300ppDzppppnn o 得到得到p

展开阅读全文