1、人教版人教版选修选修12 1.2.1 独立性检验的独立性检验的 基本思想及其初步应用基本思想及其初步应用 一一.有关概念有关概念 分类变量分类变量:也称属性变量或定性变量。也称属性变量或定性变量。如对于性别变量,共取值为男和如对于性别变量,共取值为男和女两种。女两种。这种变量的不同这种变量的不同“值值”表示表示个体所属的不同类别,像这样的变量个体所属的不同类别,像这样的变量称为称为分类变量分类变量。表表1-9 1-9 吸烟与肺癌联列表吸烟与肺癌联列表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计9
2、8749874919199659965在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是:在吸烟者中患在吸烟者中患肺癌肺癌的比重是的比重是:0.54%0.54%2.28%2.28%问题问题1:判断的标准是什么?:判断的标准是什么?吸烟与不吸烟,患病的可能性的大小是否有差异?说明:吸烟者和不吸烟者患肺癌的可能性存在差异,说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大吸烟者患肺癌的可能性大问题问题2:差异大到什么程度才能作出:差异大到什么程度才能作出 “吸吸 烟与患病有关烟与患病有关”的判断?的判断?问题问题3:能否用数量刻画出:能否用数量刻画出“有关有关”的程度?的程度?
3、独立性检验独立性检验我们先假设:我们先假设:H H0 0:吸烟吸烟和和患肺癌患肺癌之间没有关系之间没有关系 通过数据和图表分析,得到通过数据和图表分析,得到结论是:结论是:吸烟与患肺癌有关吸烟与患肺癌有关结论的可靠程度如何?结论的可靠程度如何?表表1-10 1-10 吸烟与肺癌联列表吸烟与肺癌联列表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d 将表将表1 19 9中的数字用字母代替,得到如下字母中的数字用字母代替,得到如下字母表示的列联表:表示的列联表:acac,a+bc+d
4、a+bc+d a c+d c a+b,a c+d c a+b,adbc吸烟的人中不患肺癌的比例为:吸烟的人中不患肺癌的比例为:baa不吸烟的人中不患肺癌的比例为:不吸烟的人中不患肺癌的比例为:dcc若若H H0 0成立成立 独立性检验独立性检验0.adbcad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越大,说明吸烟与患肺癌之间的关系越强ad-bc 越大,说明吸烟与患肺癌之间的关系越强引入一个随机变量:引入一个随机变量:卡方统计量卡方统计量以以K K2 2值的大小作为检验在多大程度上可以认为值的大小作为检验在多大程度上可以认为“两
5、个变量有关系两个变量有关系”的标准的标准 。nabcd其 中称 为 样 本 容 量 22na db cKabcdacbd 独立性检验独立性检验通过公式计算通过公式计算229965 7775 4942209956.63278172148 9874 91k表表1-9 1-9 吸烟与肺癌联列表吸烟与肺癌联列表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965 独立性检验独立性检验 统计学家经研究发现:已知在统计学家经研究发现:已知在 成成立的情况下,立的情况下,0H故
6、有故有99%99%的把握认为的把握认为H H0 0不成立,即有不成立,即有99%99%的把的把握认为握认为“患肺癌疾病与吸烟有关系患肺癌疾病与吸烟有关系”。即在即在 成立的情况下,成立的情况下,大于大于6.6356.635概率非常概率非常小,近似为小,近似为0.010.010H2k现在的现在的 =56.632=56.632的观测值远大于的观测值远大于6.6356.635,出现这样的观测值的概率不超过出现这样的观测值的概率不超过0.010.01。2k2(6.6 3 5)0.0 1PKy y1 1y y2 2总计总计x x1 1a ab ba+ba+bx x2 2c cd dc+dc+d总计总计a
7、+ca+cb+db+da+b+c+da+b+c+d2 22 2列联表列联表22n ad bcKa b c d a c b d2()PKm 用统计量用统计量 来确定是否能以给定把握来确定是否能以给定把握认为认为“两个分类变量有关系两个分类变量有关系”的方法称为的方法称为独立独立性检验性检验。2K 在在 成立的情况下,成立的情况下,大于大于K K0 0的概率值的概率值(即(即H H0 0成立的概率)见下表:成立的概率)见下表:0H2kP(K2K0)0.500.400.250.150.100.050.025.0.010.0050.001 K00.4550.7081.3232.0722.7063.84
8、15.024 6.6357.87910.82一般地,对于两个研究对象一般地,对于两个研究对象和和,有两类有两类取值,即类取值,即类A A和和B B(如吸烟与不吸烟);(如吸烟与不吸烟);也有两类也有两类取值,即类取值,即类1 1和和2 2(如患病与不患病)。于是得到(如患病与不患病)。于是得到下列联表所示的抽样数据:下列联表所示的抽样数据:类类1 1类类2 2总计总计类类A Aa ab ba+ba+b类类B Bc cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d要推断要推断“和和有关系有关系”,可按下面的步骤进行:,可按下面的步骤进行:(1 1)提出假设)提出假
9、设H H0 0 :和和没有关系;没有关系;(3 3)查对临界值,作出判断。)查对临界值,作出判断。(2 2)根据)根据2 2 2 2列表与公式计算列表与公式计算 的值;的值;2K 由于抽样的随机性,由样本得到的推断有由于抽样的随机性,由样本得到的推断有可能正确,也有可能错误。利用可能正确,也有可能错误。利用 进行独进行独立性检验,可以对推断的正确性的概率作出估立性检验,可以对推断的正确性的概率作出估计,样本量计,样本量n n越大,估计越准确越大,估计越准确。2K反证法原理与假设检验原理反证法原理与假设检验原理反证法原理:在一个已知假设下,如果推出一推出一个矛盾个矛盾,就证明证明了这个假设不成立
10、。假设检验原理:在一个已知假设下,如果一个与一个与该假设矛盾的小该假设矛盾的小概率事件发生概率事件发生,就推断推断这个假设不成立。例例1 1.在在500500人身上试验某种血清预防感冒作人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外用,把他们一年中的感冒记录与另外500500名名未用血清的人的感冒记录作比较,结果如未用血清的人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防感冒表所示。问:该种血清能否起到预防感冒的作用?的作用?未感冒未感冒感冒感冒合计合计使用血清使用血清258242500未使用血清未使用血清216284500合计合计4745261000例例2 2:为研究
11、不同的给药方式(口服与注射)为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,了相应的抽样调查,调查的结果列在表中,根据所选择的根据所选择的193193个病人的数据,能否作出个病人的数据,能否作出药的效果和给药方式有关的结论?药的效果和给药方式有关的结论?有效有效无效无效合计合计口服口服585840409898注射注射646431319595合计合计1221227171193193例例3 3:气管炎是一种常见的呼吸道疾病,医药气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如图所示,行对比,所得数据如图所示,问:它们的疗效有无差异问:它们的疗效有无差异?有效有效无效无效合计合计复方江剪刀草复方江剪刀草18461245胆黄片胆黄片919100合计合计27570345