1、1统计推断从数据得到对现实世界的结从数据得到对现实世界的结论的过程论的过程2估计估计 总体代表我们所关心的那部分世界。总体代表我们所关心的那部分世界。 而在利用样本中的信息来对总体进行推断之前人们而在利用样本中的信息来对总体进行推断之前人们往往对代表总体的变量往往对代表总体的变量假定了假定了分布分布族族。( (描述数据描述数据时不用假定时不用假定) ) 比如假定人们的身高属于正态分布族;在抽样调查比如假定人们的身高属于正态分布族;在抽样调查时假定了二项分布族等等时假定了二项分布族等等( (这些假定可能有风险这些假定可能有风险!)!)。 这些模型基本上是根据这些模型基本上是根据“经验经验”来假定
2、的,仅仅是来假定的,仅仅是对现实世界的一个对现实世界的一个近似近似。3估计估计 在假定了总体分布族之后,进一步对总体的认在假定了总体分布族之后,进一步对总体的认识就是要在这个分布族中选择一个适合于我们识就是要在这个分布族中选择一个适合于我们问题的成员问题的成员由于分布族成员是由参数确定的,如果参数能由于分布族成员是由参数确定的,如果参数能够估计,对总体的具体分布就知道得差不多了。够估计,对总体的具体分布就知道得差不多了。 4估计量是用来估计的统计量估计量是用来估计的统计量 我们知道,统计量是样本的不包含未知参数的我们知道,统计量是样本的不包含未知参数的函数。样本均值、样本标准差都是统计量。函数
3、。样本均值、样本标准差都是统计量。由于样本是随机的,统计量也是随机变量。由于样本是随机的,统计量也是随机变量。用于估计总体参数的统计量称为估计量;样本用于估计总体参数的统计量称为估计量;样本均值和标准差都是总体均值和标准差的常用估均值和标准差都是总体均值和标准差的常用估计量。计量。5点估计和区间估计点估计和区间估计 点估计点估计(point estimation)就是用估计量的实现值来近似相就是用估计量的实现值来近似相应的总体参数。应的总体参数。 区间估计区间估计(interval estimation) 是包括估计量在内(有时是包括估计量在内(有时是以估计量为中心)的一个区间;被认为很可能包
4、含总是以估计量为中心)的一个区间;被认为很可能包含总体参数。体参数。 点估计给出一个数字,用起来很方便;而区间估计给出点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不象点估计那么绝对。一个区间,说起来留有余地;不象点估计那么绝对。 无偏估计无偏估计(大样本性质大样本性质) 6区间估计区间估计 注意置信区间的论述是由注意置信区间的论述是由区间区间和和置信度置信度两部分组成。两部分组成。 置信区间是对参数给出的一个范围置信区间是对参数给出的一个范围 置信度为其可信程度置信度为其可信程度( (大样本意义大样本意义) ) 有些新闻媒体报道一些调查结果只给出百分比和误有些新闻
5、媒体报道一些调查结果只给出百分比和误差(即置信区间),比如差(即置信区间),比如 “收视率为收视率为53%3%”; 不给出置信度,也不给出被调查的人数不给出置信度,也不给出被调查的人数 这是不负责的表现。这是不负责的表现。7区间估计区间估计 降低置信度可以使置信区间变窄(显得降低置信度可以使置信区间变窄(显得“精确精确”),),有误导读者之嫌。有误导读者之嫌。 如果给出被调查的人数,则内行可以由此推算出置如果给出被调查的人数,则内行可以由此推算出置信度,反之亦然。信度,反之亦然。8一个描述性例子一个描述性例子 一个有一个有10000个人回答的调查显示,同意某种个人回答的调查显示,同意某种观点的
6、人的比例为观点的人的比例为70%(有(有7000人同意),可人同意),可以算出总体中同意该观点的比例的以算出总体中同意该观点的比例的95%置信区置信区间为(间为(0.691,0.709);); 另一个调查声称有另一个调查声称有70%的比例反对该种观点,的比例反对该种观点,还说总体中反对该观点的置信区间也是还说总体中反对该观点的置信区间也是(0.691,0.709)。9一个描述性例子一个描述性例子 实际上,第二个调查隐瞒了置信度(等价实际上,第二个调查隐瞒了置信度(等价于隐瞒了样本量)。于隐瞒了样本量)。 如果第二个调查仅仅调查了如果第二个调查仅仅调查了50个人,有个人,有35个人反对该观点。根
7、据后面的公式可以算个人反对该观点。根据后面的公式可以算出,第二个调查的置信区间的置信度仅有出,第二个调查的置信区间的置信度仅有11%。10区间估计的意义区间估计的意义 置信度的概念大量重复抽样时的一个渐近概念。置信度的概念大量重复抽样时的一个渐近概念。 类似于类似于“我们目前得到的区间(比如上面的我们目前得到的区间(比如上面的75%3%)以概率)以概率0.95覆盖真正的比例覆盖真正的比例p”的的说法是错误的。说法是错误的。 实际上应该说实际上应该说“重复类似的抽样所得到的大量重复类似的抽样所得到的大量区间中有区间中有大约大约95%的覆的覆 盖真实比例盖真实比例(其值可能其值可能永远未知永远未知
8、)。11区间估计的意义区间估计的意义 这里的区间(这里的区间(72%,78%)是固定的,而总体)是固定的,而总体比例比例p也是固定的值。也是固定的值。 因此因此只有两种可能只有两种可能:或者该区间包含总体比例,:或者该区间包含总体比例,或者不包含;这当中或者不包含;这当中没有任何概率可言。没有任何概率可言。 至于区间(至于区间(72%,78%)是否覆盖真实比例,)是否覆盖真实比例,除非一个不漏地调查所有的人,否则永远也无除非一个不漏地调查所有的人,否则永远也无法知道。法知道。 12假设检验假设检验 在假设检验中,一般要设立一个原假设;在假设检验中,一般要设立一个原假设; 而设立该假设的动机主要
9、是企图利用人们掌握而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛的反映现实世界的数据来找出假设和现实的矛盾,从而否定这个假设。盾,从而否定这个假设。13假设检验假设检验 在多数统计教科书中(除了理论探讨之外)在多数统计教科书中(除了理论探讨之外),假设假设检验都是以否定原假设为目标。检验都是以否定原假设为目标。 如否定不了,那就说明证据不足,无法否定原假设。如否定不了,那就说明证据不足,无法否定原假设。但这不能说明原假设正确。但这不能说明原假设正确。 很多教科书在这个问题上不适当地用很多教科书在这个问题上不适当地用“接受原假设接受原假设”的说法,犯了明显的低级
10、逻辑错误。的说法,犯了明显的低级逻辑错误。 14假设检验的过程和逻辑假设检验的过程和逻辑 首先要提出一个原假设,比如某正态总体的均值等首先要提出一个原假设,比如某正态总体的均值等于于5(m m=5)。这种原假设也称为零假设()。这种原假设也称为零假设(null hypothesis),记为),记为H0 与此同时必须提出对立假设,比如总体均值大于与此同时必须提出对立假设,比如总体均值大于5(m m5)。对立假设又称为备选假设或备择假设)。对立假设又称为备选假设或备择假设(alternative hypothesis)记为记为)记为记为H1或或Ha15假设检验的过程和逻辑假设检验的过程和逻辑 根据
11、零假设根据零假设(不是备选假设!不是备选假设!),我们可以得到该),我们可以得到该检验统计量的分布;检验统计量的分布; 然后再看这个统计量的数据实现值(然后再看这个统计量的数据实现值(realization)属不属于小概率事件。也就是说把数据代入检验统属不属于小概率事件。也就是说把数据代入检验统计量,看其值计量,看其值是否落入零假设下的小概率范畴是否落入零假设下的小概率范畴 如果的确是小概率事件,那么我们就有可能拒绝零如果的确是小概率事件,那么我们就有可能拒绝零假设,否则我们说假设,否则我们说没有足够证据拒绝零假设没有足够证据拒绝零假设。16假设检验的过程和逻辑假设检验的过程和逻辑 注意:注意
12、:零假设和备选假设在零假设和备选假设在我们涉及的假设检我们涉及的假设检验中验中并不对称并不对称。检验统计量的分布是从零假设。检验统计量的分布是从零假设导出的导出的, 因此因此, 如果有矛盾如果有矛盾, 当然就不利于零假当然就不利于零假设了。设了。 不发生矛盾也不说明备选假有问题。不发生矛盾也不说明备选假有问题。 17假设检验的过程和逻辑假设检验的过程和逻辑 检验统计量在零假设下检验统计量在零假设下,等于等于这个样本的数据实现值这个样本的数据实现值或在或在备选假设方向上更加极端备选假设方向上更加极端值的概率称为值的概率称为p-值(值(p-value)。)。 显然得到很小显然得到很小p-值意味着小
13、概率事件发生了。如果小概值意味着小概率事件发生了。如果小概率事件发生,是相信零假设,还是相信数据呢?率事件发生,是相信零假设,还是相信数据呢? 当然是相信数据。于是就拒绝零假设。但事件概率小并当然是相信数据。于是就拒绝零假设。但事件概率小并不意味着不会发生,仅仅发生的概率很小罢了。不意味着不会发生,仅仅发生的概率很小罢了。 拒绝正确零假设的错误常被称为第一类错误(拒绝正确零假设的错误常被称为第一类错误(type I error)。)。18假设检验的过程和逻辑假设检验的过程和逻辑 不仅有第一类错误,还有第二类错误;那是备不仅有第一类错误,还有第二类错误;那是备选假设正确时反而说零假设正确的错误,
14、称为选假设正确时反而说零假设正确的错误,称为第二类错误(第二类错误(type II error)。)。 如要如要“接受零假设接受零假设”就必须给出第二类错误的就必须给出第二类错误的概率概率. 但对于目前面对的问题但对于目前面对的问题, 无法计算它无法计算它.19假设检验的过程和逻辑假设检验的过程和逻辑 零假设和备选假设哪一个正确,这是确定性的,零假设和备选假设哪一个正确,这是确定性的,没有概率可言。没有概率可言。 而可能犯错误的是人。涉及假设检验的犯错误而可能犯错误的是人。涉及假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错的概率就是犯第一类错误的概率和犯第二类错误的概率。误的概率。
15、负责的态度是无论做出什么决策,都应该给出负责的态度是无论做出什么决策,都应该给出犯错误的概率。犯错误的概率。20假设检验的过程和逻辑假设检验的过程和逻辑 到底到底p-值是多小才能够拒绝零假设呢?也就是值是多小才能够拒绝零假设呢?也就是说,需要有什么是小概率的标准。说,需要有什么是小概率的标准。 这要看具体应用的需要。这要看具体应用的需要。 但在一般的统计书和软件中,使用最多的标准但在一般的统计书和软件中,使用最多的标准是在零假设下(或零假设正确时)抽样所得的是在零假设下(或零假设正确时)抽样所得的数据拒绝零假设的概率应小于数据拒绝零假设的概率应小于0.05(也可能是(也可能是0.01,0.00
16、5,0.001等等)。等等)。21假设检验的过程和逻辑假设检验的过程和逻辑 这 种 事 先 规 定 的 概 率 称 为 显 著 性 水 平这 种 事 先 规 定 的 概 率 称 为 显 著 性 水 平(significant level),用字母,用字母a a来表示。来表示。 当当p-值小于或等于值小于或等于a a时,就拒绝零假设。时,就拒绝零假设。 所以,所以,a a是所允许的犯第一类错误概率的最大是所允许的犯第一类错误概率的最大值。当值。当p-值小于或等于值小于或等于a a时,我们说这个检验时,我们说这个检验是显著的是显著的(significant)。22假设检验的过程和逻辑假设检验的过程
17、和逻辑 l归纳起来,假设检验的逻辑步骤为:归纳起来,假设检验的逻辑步骤为:l第一第一: : 写出零假设和备选假设;写出零假设和备选假设;l第二第二: : 确定检验统计量;确定检验统计量;l第三第三: : 确定显著性水平确定显著性水平a a;l第四第四: : 根据数据计算检验统计量的实现值;根据数据计算检验统计量的实现值;l第五第五: : 根据这个实现值计算根据这个实现值计算p- -值;值;l第六第六: : 进行判断:如果进行判断:如果p- -值小于或等于值小于或等于a a,就,就拒绝零假设拒绝零假设,这时犯错误的概率最多为这时犯错误的概率最多为a a;如果;如果p- -值大于值大于a a,就,
18、就不拒绝不拒绝零假设,因为证据不足。零假设,因为证据不足。 23假设检验的过程和逻辑假设检验的过程和逻辑 实际上,计算机软件仅仅给出实际上,计算机软件仅仅给出p-值,而不给出值,而不给出a a。这有很。这有很多方便之处。比如多方便之处。比如a a=0.05,而假定我们得到的,而假定我们得到的p-值等于值等于0.001。这时我们如果如果采用。这时我们如果如果采用p-值作为新的显著性水平,值作为新的显著性水平,即即a a=0.001,于是可以说,我们拒绝零假设,显著性水平,于是可以说,我们拒绝零假设,显著性水平为为0.001。拒绝零假设时犯错误的概率实际只是千分之一。拒绝零假设时犯错误的概率实际只
19、是千分之一而不是百分之五。而不是百分之五。在这个意义上,在这个意义上,p-值又称为观测的显值又称为观测的显著性水平(著性水平(observed significant level)。在统计软件输)。在统计软件输出出p-值的位置,值的位置,有的用有的用“p-value”,有的用,有的用significant的的缩写缩写“Sig”就是这个道理。就是这个道理。24假设检验的例子假设检验的例子 汽车厂商声称其发动机排放标准的一个指标平均低于汽车厂商声称其发动机排放标准的一个指标平均低于20个单位。个单位。在抽查了在抽查了10台发动机之后,得到下面的排放数据:台发动机之后,得到下面的排放数据:17.0、
20、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。该样本均值。该样本均值为为21.13。究竟能否由此认为该指标均值超过。究竟能否由此认为该指标均值超过20?这次我们的假?这次我们的假设检验问题就是设检验问题就是01:20:20HHmm25假设检验的例子假设检验的例子 检验统计量为检验统计量为(为什么用这个?)(为什么用这个?) 我们可以发现我们可以发现p-p-值为值为0.12430.1243,因此,我们没有证,因此,我们没有证据否定零假设据否定零假设( (如果显著性水平小于它如果显著性水平小于它) )。01.234/xtsnm-26-5-4-3-2-10
21、1234500.050.10.150.20.250.30.350.4t valueDensity of t(9)Tail Probability for t(9)t=1.234p-value=0.124327两个变量的均值比较两个变量的均值比较 1.002.00groupgroup150.00160.00170.00180.00190.00heightheight 两个学校高中学生的身高均值比较两个学校高中学生的身高均值比较(hight21.sav). H0:m m1=m m2= H1:m m1m m2G Gr ro ou up p S St ta at ti is st ti ic cs s
22、50170.56006.97857.9869250165.60007.556591.06866group1.002.00heightNMeanStd. DeviationStd. ErrorMean28SPSS输出输出 I In nd de ep pe en nd de en nt t S Sa am mp pl le es s T Te es st t.332.5663.41098.0014.960003.41097.386.0014.96000Equal variancesassumedEqual variancesnot assumedheightFSig.Levenes Test fo
23、rEquality of VariancestdfSig. (2-tailed)MeanDifferencet-test for Equality of MeansP值值0.001/2=0.000529为什么不能为什么不能“接受零假设接受零假设” ” 其实可以,比如下面两种情况:其实可以,比如下面两种情况: 1. 备选假设也是单点分布,这时可以负责地算备选假设也是单点分布,这时可以负责地算出犯第二类错误的概率。出犯第二类错误的概率。 2. 贝叶斯检验情况(这是一种决策观点)贝叶斯检验情况(这是一种决策观点) 但在经典统计中的绝大多数情况都不可以。但在经典统计中的绝大多数情况都不可以。30从一个
24、例子看从一个例子看“接受零假设接受零假设” (数据(数据 rice.sav)一个大米加工厂卖给一个超市一批标明)一个大米加工厂卖给一个超市一批标明10kg重重的大米。而该超市怀疑该厂家缺斤短两,对的大米。而该超市怀疑该厂家缺斤短两,对10包大米进行了称包大米进行了称重,得到下面结果(单位:千克)重,得到下面结果(单位:千克) 9.93 9.83 9.76 9.95 10.07 9.89 10.03 9.97 9.89 9.87 这里假定打包的大米重量服从正态分布。这里假定打包的大米重量服从正态分布。 由于发生分歧,于是各方同意用这个数据进行关于大米重量均由于发生分歧,于是各方同意用这个数据进行
25、关于大米重量均值值m m的的t检验;以厂家所说的平均重量为检验;以厂家所说的平均重量为10kg作为零假设,而以作为零假设,而以超市怀疑的份量不足超市怀疑的份量不足10kg作为备选假设:作为备选假设:01:10:10HHmm311.超市的检验超市的检验 于是,超市、加工厂老板和该老板的律师都进行了检验。于是,超市、加工厂老板和该老板的律师都进行了检验。结果是:结果是: 超市用全部数据进行超市用全部数据进行t检验,得到拒绝零假设的结论。检验,得到拒绝零假设的结论。 他们根据计算得到:样本均值为他们根据计算得到:样本均值为9.92kg,而,而p-值为值为0.0106。因此超市认为,对于显著性水平因此
26、超市认为,对于显著性水平a a=0.05,应该拒绝零假,应该拒绝零假设。设。322. 加工厂老板的检验加工厂老板的检验 大米加工厂老板只用大米加工厂老板只用2个数据,得到个数据,得到“接受零假设接受零假设”的结论。的结论。 大米加工厂老板也懂些统计,他只取了上面样本的头大米加工厂老板也懂些统计,他只取了上面样本的头两个个数目两个个数目9.93和和9.83进行同样的进行同样的t检验。检验。 通过对这两个数进行计算得到:样本均值为通过对这两个数进行计算得到:样本均值为9.88kg, 而而p-值为值为0.1257. 虽然样本均值不如超市检验的大虽然样本均值不如超市检验的大, 但但p-值大大增加。值大
27、大增加。 加工厂老板于是下了结论:对于水平加工厂老板于是下了结论:对于水平a a0.05,“接接受零假设受零假设”,即加工厂的大米平均重量的确为,即加工厂的大米平均重量的确为10kg。 333.加工厂老板律师的检验加工厂老板律师的检验 大米加工厂老板的律师用了全部数据,但不同的检验方法,大米加工厂老板的律师用了全部数据,但不同的检验方法,得到得到“接受零假设接受零假设”的结论。的结论。 大米加工厂老板的律师说可以用全部数据。他利对于连续变大米加工厂老板的律师说可以用全部数据。他利对于连续变量比例的检验,也就是关于中位数的符号检验(注意对于正量比例的检验,也就是关于中位数的符号检验(注意对于正态
28、分布,对中位数的检验等价于对均值的检验)。态分布,对中位数的检验等价于对均值的检验)。 根据计算,得到该检验的根据计算,得到该检验的p-值为值为0.0547。所以这个律师说在。所以这个律师说在显著性水平显著性水平a a=0.05时,应该时,应该“接受零假设接受零假设”。 还说,还说,“既然三个检验中有两个都接受零假设,就应该接既然三个检验中有两个都接受零假设,就应该接受。受。”34如何评价?如何评价? 加工厂老板实际上减少了作为证据的数据,因此只得到加工厂老板实际上减少了作为证据的数据,因此只得到“证据不足,证据不足,无法拒绝零假设无法拒绝零假设”的结论。的结论。 但加工厂老板利用一些错误的统
29、计教科书的说法,把但加工厂老板利用一些错误的统计教科书的说法,把“证据不足以证据不足以拒绝零假设拒绝零假设”改成改成“接受零假设接受零假设”了。了。而且,从样本中仅选择某些而且,从样本中仅选择某些数目(等于销毁证据)违背统计道德。数目(等于销毁证据)违背统计道德。 律师虽然用了全部数据,但用了不同的方法。他也只能够说律师虽然用了全部数据,但用了不同的方法。他也只能够说“在这在这个检验方法下,证据不足以拒绝零假设个检验方法下,证据不足以拒绝零假设”而不能说而不能说“接受零假设接受零假设”。 另外,律师对超市用更有效的检验方法得到的另外,律师对超市用更有效的检验方法得到的“拒绝零假设拒绝零假设”的
30、结的结论视而不见,这也违背了统计原理。论视而不见,这也违背了统计原理。 对于同一个检验问题,可能有多种检验方法。但只要有一个拒绝,对于同一个检验问题,可能有多种检验方法。但只要有一个拒绝,就应该拒绝。那些不能拒绝的检验方法是能力不足。用统计术语来就应该拒绝。那些不能拒绝的检验方法是能力不足。用统计术语来说,是势(说,是势(power)不足,或者效率()不足,或者效率(efficiency)低。)低。35关于例关于例6.7的总结的总结 在已经得到样本的情况下,随意舍取一些数目是违背统计原理和统在已经得到样本的情况下,随意舍取一些数目是违背统计原理和统计道德的。这相当于篡改或毁灭证据。计道德的。这
31、相当于篡改或毁灭证据。 由于证据不足而不能拒绝零假设绝对不能说成由于证据不足而不能拒绝零假设绝对不能说成“接受零假设接受零假设”。如。如果一定要说,请给出你接受零假设所可能犯第二类错误的概率(这果一定要说,请给出你接受零假设所可能犯第二类错误的概率(这是无法算出的)。这是加工厂老板和律师所犯的错误。是无法算出的)。这是加工厂老板和律师所犯的错误。 例中律师的检验和超市所做的检验都针对同样的检验问题,但由于例中律师的检验和超市所做的检验都针对同样的检验问题,但由于超市的检验方法比律师的检验更强大(或更强势,超市的检验方法比律师的检验更强大(或更强势,more powerful,更有效率,更有效率
32、,more efficient),所以超市拒绝了零假设,而律师的检验),所以超市拒绝了零假设,而律师的检验则不能拒绝。如果有针对同一检验问题的许多检验方法,那么,只则不能拒绝。如果有针对同一检验问题的许多检验方法,那么,只要有一个拒绝,就必须拒绝。绝对不能要有一个拒绝,就必须拒绝。绝对不能“少数服从多数少数服从多数”,也不能,也不能“视而不见视而不见”。36以关于均值的以关于均值的t检验为例;实际上,只要检验为例;实际上,只要零假设的均值和样本均值的确不一样,零假设的均值和样本均值的确不一样,那么根据检验统计量的公式可以看出,那么根据检验统计量的公式可以看出,如果样本量不断增大,如果样本量不断增大,就必然会拒绝零就必然会拒绝零假设。假设。当然,对于效率较低的检验,要当然,对于效率较低的检验,要拒绝零假设所需要的样本量较大。拒绝零假设所需要的样本量较大。