1、第一章第一章 统计案例统计案例选修选修1-2 “测量,重复测量,再重复测量,就能测量,重复测量,再重复测量,就能找出误差,以及误差的误差找出误差,以及误差的误差.”.”伽利略伽利略1.1 独独 立立 性性 检检 验验 医生对患者提出忠告:医生对患者提出忠告:“你这气管炎是长你这气管炎是长期吸烟的结果,为了减缓症状,请快戒烟期吸烟的结果,为了减缓症状,请快戒烟吧!吧!”呼吸道疾病真的与吸烟有关吗?呼吸道疾病真的与吸烟有关吗?花粉的形状决定了花的颜色吗?花粉的形状决定了花的颜色吗?一种新药,用药方式会影响用药效果吗?一种新药,用药方式会影响用药效果吗?两个随机事件之间是否相互独立?两个随机事件之间
2、是否相互独立?某医疗机构为了了解呼吸道疾病呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人,调查结果是:吸烟的220 人中37人患呼呼吸道疾病吸道疾病,183人不患呼吸道疾病呼吸道疾病;不吸烟的295人中21人患呼吸道疾病呼吸道疾病,274人不患呼呼吸道疾病吸道疾病。根据这些数据能否断定:患呼吸道疾病呼吸道疾病与吸烟有关?吸烟与呼吸道疾病列联表吸烟与呼吸道疾病列联表患病患病不患病不患病总计总计吸烟吸烟3737183183220220不吸烟不吸烟2121274274295295总计总计5858457457515515为了调查吸烟是否患呼吸
3、道疾病有影响,某医疗研究为了调查吸烟是否患呼吸道疾病有影响,某医疗研究所随机地调查了所随机地调查了515515人,得到如下结果(单位:人)人,得到如下结果(单位:人)列联表列联表在不吸烟者中患呼吸道疾病的比重是在不吸烟者中患呼吸道疾病的比重是 在吸烟者中患呼吸道疾病的比重是在吸烟者中患呼吸道疾病的比重是 7.12%7.12%16.82%16.82%问题1:判断的标准是什么?吸烟与不吸烟,患病的可能性的大小是否有差异?说明:吸烟者和不吸烟者患肺癌的可能性存在差异,说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大吸烟者患肺癌的可能性大问题2:差异大到什么程度才能作出“吸烟与患病
4、有关”的判断?问题3:能否用数量刻画出“有关”的程度?独立性检验H H0 0:吸烟吸烟和和患呼吸道疾病患呼吸道疾病之间没有关系之间没有关系 通过数据和图表分析,得到通过数据和图表分析,得到结论是:结论是:吸烟与患呼吸道疾吸烟与患呼吸道疾病有关病有关结论的可靠结论的可靠程度如何?程度如何?吸烟与呼吸道疾病列联表吸烟与呼吸道疾病列联表患呼吸道疾患呼吸道疾病病不患呼吸道不患呼吸道疾病疾病总计总计吸烟吸烟a ab ba+ba+b不吸烟不吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+dacac,a+bc+da+bc+d a c+d c a+b,a c+d c a+
5、b,adbc吸烟的人中患肺癌的比例:吸烟的人中患肺癌的比例:baa不吸烟的人中患肺癌的比例:不吸烟的人中患肺癌的比例:dcc若若H H0 0成立成立 独立性检验0.adbcad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越大,说明吸烟与患肺癌之间的关系越强ad-bc 越大,说明吸烟与患肺癌之间的关系越强引入一个随机变量:引入一个随机变量:卡方统计量卡方统计量作为检验在多大程度上可以认为作为检验在多大程度上可以认为“两个变量两个变量有关系有关系”的标准的标准 。dcban其中dbcadcbabcadn22 独立性检验通过公式计算通过
6、公式计算8634.1145758295220211832743751522 吸烟与呼吸道疾病列联表吸烟与呼吸道疾病列联表患病患病不患病不患病总计总计吸烟吸烟3737183183220220不吸烟不吸烟2121274274295295总计总计5858457457515515 独立性检验已知在已知在 成立的情况下,成立的情况下,0H故有故有99%99%的把握认为的把握认为H H0 0不成立,即有不成立,即有99%99%的把的把握认为握认为“患呼吸道疾病与吸烟有关系患呼吸道疾病与吸烟有关系”。即在即在 成立的情况下,成立的情况下,大于大于6.6356.635概率非常小,概率非常小,近似为近似为0.0
7、10.010H2现在的现在的 =11.8634 =11.8634的观测值远大于的观测值远大于6.6356.635,出现这样的观测值的概率不超过出现这样的观测值的概率不超过0.010.01。201.0)635.6(2P1)1)如果如果P(P(m10.828)=0.00110.828)=0.001表示有表示有99.9%99.9%的把握认为的把握认为”X”X与与Y”Y”有关有关系系;2)2)如果如果P(m7.879)=0.005P(m7.879)=0.005表示有表示有99.5%99.5%的把握认为的把握认为”X”X与与Y”Y”有关系有关系;3)3)如果如果P(m6.635)=0.01P(m6.63
8、5)=0.01表示有表示有99%99%的把握认为的把握认为”X”X与与Y”Y”有关系有关系;4)4)如果如果P(m5.024)=0.025P(m5.024)=0.025表示有表示有97.5%97.5%的把握认为的把握认为”X”X与与Y”Y”有关系有关系;5)5)如果如果P(m3.841)=0.05P(m3.841)=0.05表示有表示有95%95%的把握认为的把握认为”X”X与与Y”Y”有关系有关系;6)6)如果如果P(m2.706)=0.10P(m2.706)=0.10表示有表示有90%90%的把握认为的把握认为”X”X与与Y”Y”有关系有关系;7)7)如果如果P(mP(m2.706),2.
9、706),就认为没有充分的证据显示就认为没有充分的证据显示”X”X与与Y”Y”有关系有关系;y y1 1y y2 2总计总计x x1 1a ab ba+ba+bx x2 2c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d22列联表NoImage适用观测数据适用观测数据a a、b b、c c、d d不小于不小于5 5dbcadcbabcadn22)(2mP一般地,对于两个研究对象一般地,对于两个研究对象和和,有两类有两类取值,即类取值,即类A A和和B B(如吸烟与不吸烟);(如吸烟与不吸烟);也有两类也有两类取值,即类取值,即类1 1和和2 2(如患病与不患
10、病)。于是得到(如患病与不患病)。于是得到下列联表所示的抽样数据:下列联表所示的抽样数据:类类1 1类类2 2总计总计类类A Aa ab ba+ba+b类类B Bc cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d用用 统计量研究这类问题的方法称为统计量研究这类问题的方法称为独立性检验独立性检验。2要推断要推断“和和有关系有关系”,可按下面的步骤进行:,可按下面的步骤进行:(1 1)提出假设)提出假设H H0 0 :和和没有关系;没有关系;(3 3)查对临界值,作出判断。)查对临界值,作出判断。(2 2)根据)根据2 2 2 2列表与公式计算列表与公式计算 的值
11、;的值;2 由于抽样的随机性,由样本得到的推断由于抽样的随机性,由样本得到的推断有可能正确,也有可能错误。利用有可能正确,也有可能错误。利用 进进行独立性检验,可以对推断的正确性的概行独立性检验,可以对推断的正确性的概率作出估计,样本量率作出估计,样本量n n越大,估计越准确越大,估计越准确。2反证法原理与假设检验原理反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。例例1.1.在在500500人身上试验某种血清预防感冒作人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外
12、用,把他们一年中的感冒记录与另外500500名名未用血清的人的感冒记录作比较,结果如未用血清的人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防感冒表所示。问:该种血清能否起到预防感冒的作用?的作用?未感冒感冒合计使用血清258242500未使用血清216284500合计4745261000例例2 2:为研究不同的给药方式(口服与注射):为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,了相应的抽样调查,调查的结果列在表中,根据所选择的根据所选择的193193个病人的数据,能否作出个病人的
13、数据,能否作出药的效果和给药方式有关的结论?药的效果和给药方式有关的结论?有效有效无效无效合计合计口服口服585840409898注射注射646431319595合计合计1221227171193193例例3:气管炎是一种常见的呼吸道疾病,医药研:气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如图所示,问:它们的疗效行对比,所得数据如图所示,问:它们的疗效有无差异有无差异有效有效无效无效合计合计复方江剪刀草复方江剪刀草18461245胆黄片胆黄片919100合计合计27570345作业:作业:P9-10 T1-3 P11 T1-3