1、 对于性别变量,其取值为男和女两种,这种变量对于性别变量,其取值为男和女两种,这种变量的不同的不同“值值”表示个体所属的不同类别,像这样的变表示个体所属的不同类别,像这样的变量称为量称为分类变量分类变量.在日常生活中,主要考虑在日常生活中,主要考虑分类变量之间是否有关系分类变量之间是否有关系:如是否吸烟、如是否吸烟、是否患肺癌、是否患肺癌、宗教信仰、国籍等等宗教信仰、国籍等等.例如,吸烟是否与患肺癌有关系?例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等性别是否对于喜欢数学课程有影响?等等.在统计学中,独立性检验就是检验两个分类变在统计学中,独立性检验就是检验两个分类变量是否
2、有关系的一种统计方法。量是否有关系的一种统计方法。为调查吸烟是否对患肺癌有影响为调查吸烟是否对患肺癌有影响,某肿瘤研究所随某肿瘤研究所随机地调查了机地调查了9965人人,得到如下结果得到如下结果(单位单位:人人)表表1-7 吸烟与患肺癌吸烟与患肺癌列联表列联表那么吸烟是否对患肺癌有影响那么吸烟是否对患肺癌有影响?因此因此,直观上得到结论直观上得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异。吸烟者和不吸烟者患肺癌的可能性存在差异。在不吸烟者中患肺癌的比例是在不吸烟者中患肺癌的比例是在吸烟者中患肺癌的比例是在吸烟者中患肺癌的比例是0.54%0.54%2.28%2.28%9965919874总计总
3、计2148492099吸烟吸烟7817427775不吸烟不吸烟总计总计患肺癌患肺癌不患肺癌不患肺癌列联表列联表:两个两个分类变量的分类变量的频数表频数表探究:探究:等高条形图等高条形图患病比例患病比例不患病比不患病比例例0.54%0.54%2.28%2.28%上面我们通过分析数据和图形上面我们通过分析数据和图形,得到的直观印象是得到的直观印象是“吸吸烟和患肺癌有关烟和患肺癌有关”。这一直觉来自于观测数据,即样本。这一直觉来自于观测数据,即样本。问题是它能够在多大程度上代表总体呢?问题是它能够在多大程度上代表总体呢?能否用数量刻画出有关的程度?能否用数量刻画出有关的程度?H0:吸烟与患肺癌没有关
4、系吸烟与患肺癌没有关系我们假设我们假设看看能推出什么样的结论。看看能推出什么样的结论。a+b+c+db+da+c总计总计c+ddc吸烟吸烟a+bba不吸烟不吸烟总计总计患肺癌患肺癌不患肺癌不患肺癌为了研究的一般性为了研究的一般性,在列联表在列联表1-7中用字母代替数字:中用字母代替数字:结论:结论:|ad-bc|越小越小,说明吸烟与患肺癌之间关系越弱说明吸烟与患肺癌之间关系越弱;|ad-bc|越大越大,说明吸烟与患肺癌之间关系越强说明吸烟与患肺癌之间关系越强;如果如果”吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,则在吸烟样本中不则在吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多患肺
5、癌的比例应该与不吸烟样本中相应的比例差不多,即即acabcda+b+c+db+da+c总计总计c+ddc吸烟吸烟a+bba不吸烟不吸烟总计总计患肺癌患肺癌不患肺癌不患肺癌a cdc ab0adbc为了使不同样本容量的数据有统一的评判标准,基于为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量上述分析,我们构造一个随机变量 若若H H0 0成立,即成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,则,则K K2 2应很小应很小.由列联表中数据,利用公式(由列联表中数据,利用公式(1 1)计算得)计算得K K2 2的观测值为:的观测值为:22()()()()()n a
6、dbcKab cdac bd (1 1)29965(7775 4942 2099)56.632.78172148 9874 91k其中其中n=a+b+c+d为样本容量为样本容量.在在H0成立的情况下,统计学家估算出如下的概率:成立的情况下,统计学家估算出如下的概率:2(6.635)0.01P K 也就是说,在也就是说,在H H0 0成立的情况下,随机变量成立的情况下,随机变量K K2 2超过超过6.6356.635的概率约为的概率约为0.010.01,是一个小概率事件,是一个小概率事件.现在现在K K2 2的观测值的观测值为为56.63256.632,远远大于,远远大于6.6356.635,所
7、以有理由断定,所以有理由断定H H0 0不成立不成立,即认为即认为“吸烟与患肺癌有关系吸烟与患肺癌有关系”56.632k 但这种判断会犯错误,犯错误的概率不会超过但这种判断会犯错误,犯错误的概率不会超过0.01,即,即我们有我们有99的把握认为的把握认为“吸烟与患肺癌有关系吸烟与患肺癌有关系”.利用随机变量利用随机变量K K2 2来确定在多大程度上可以认为来确定在多大程度上可以认为“两个分类变量有关系两个分类变量有关系”的方法称为两个分类的方法称为两个分类变量的独立性检验变量的独立性检验.独立性检验:独立性检验:1212,2 2,():XYx xy y一般地 假设有两个分类变量 和它们的取值分
8、别为和其样本频数称为列联表表联为列a+b+c+db+da+c总计c+ddca+bba总计1x2x1y2y若要推断的结论为若要推断的结论为H1:”X与与Y有关系有关系”,可进行如下操作可进行如下操作:2、图形分析法:图形分析法:通过等高条形图。通过等高条形图。你能从上述探究过程中总结出判断两个分类变量你能从上述探究过程中总结出判断两个分类变量有关系的思路吗?有关系的思路吗?1、频率比较法:频率比较法:根据列联表。根据列联表。思考:思考:3、独立性检验法独立性检验法22n adbcKabcdacbnadbcd 其中为样本容量查对临界值表,作出判断。(如果查对临界值表,作出判断。(如果K2值很大值很
9、大,就断言,就断言H0不不成立,即认为成立,即认为“两个分类变量两个分类变量有关系有关系”;如果很小,则说;如果很小,则说明在样本数据中没有发现足够证据拒绝明在样本数据中没有发现足够证据拒绝H0。)。)具体做法是具体做法是:首先假设该结论不成立,即首先假设该结论不成立,即 H0:X与与Y没有关系没有关系根据观测数据计算根据观测数据计算10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445 k0.0010.0050.0100.0250.050.100.150.50.400.502()P Kk(1 1)如果)如果k10.828k10.828,就有,就
10、有99.9%99.9%的把握认为的把握认为“X X与与Y Y有关系有关系”;(2 2)如果)如果k7.879k7.879,就有,就有99.5%99.5%的把握认为的把握认为“X X与与Y Y有关系有关系”;(3 3)如果如果k6.635k6.635,就有,就有99%99%的把握认为的把握认为“X X与与Y Y有关系有关系”;(4 4)如果)如果k5.024k5.024,就有,就有97.5%97.5%的把握认为的把握认为“X X与与Y Y有关系有关系”;(5 5)如果)如果k3.841k3.841,就有,就有95%95%的把握认为的把握认为“X X与与Y Y有关系有关系”;(6 6)如果)如果k
11、2.706k2.706,就有,就有90%90%的把握认为的把握认为“X X与与Y Y有关系有关系”;(7 7)如果如果k=2.706k=2.706,就认为没有充分的证据显示,就认为没有充分的证据显示 “X X与与Y Y有关系有关系”.临界值临界值例例1 在某医院在某医院,因为患心脏病而住院的因为患心脏病而住院的665名男性病人名男性病人中中,有有214人秃顶人秃顶;而另外而另外772名不是因为患心脏病而住名不是因为患心脏病而住院的男性病人中,有院的男性病人中,有175人秃顶人秃顶.利用图形利用图形判断秃顶与判断秃顶与患心脏病是否有关系。患心脏病是否有关系。能否在犯错误的概率不超过能否在犯错误的
12、概率不超过0.010的前提下认为秃顶与患心脏病有关系?的前提下认为秃顶与患心脏病有关系?解解:根据题目所得数据得到列联表根据题目所得数据得到列联表:1437772665总计总计1048597451不秃顶不秃顶389175214秃顶秃顶总计总计患其他病患其他病患心脏病患心脏病秃顶与患心脏病列联表秃顶与患心脏病列联表例题解析:例题解析:(1)等高条形图)等高条形图从图中可以看出,秃顶样本中患心脏病的频率明显高于从图中可以看出,秃顶样本中患心脏病的频率明显高于不秃顶样本中患心脏病的频率,因此可直观地认为秃顶不秃顶样本中患心脏病的频率,因此可直观地认为秃顶与患心脏病有关系。与患心脏病有关系。22,14
13、37214 597 175 45116.373389 1048 665 772Kk根据列联表中的数据 得的观测值为 因此,在犯错误的概率不超过因此,在犯错误的概率不超过0.010的前提下认为的前提下认为“秃顶与患心脏病有关秃顶与患心脏病有关”,即有,即有99%的把握认为的把握认为“秃秃顶与患心脏病有关顶与患心脏病有关”。(2)独立性检验法)独立性检验法1437772665总计总计1048597451不秃顶不秃顶389175214秃顶秃顶总计总计患其他病患其他病患心脏病患心脏病6.635例例2 2 为考察高中生的性别与是否喜欢数学课程之为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某
14、校高中生中随机抽取间的关系,在某城市的某校高中生中随机抽取300300名学生,得到如下联表:名学生,得到如下联表:喜欢数学课喜欢数学课程程不喜欢数学不喜欢数学课程课程总计总计男男3785122女女35143178总计总计72228300由表中数据计算由表中数据计算K K2 2的观测值的观测值k4.513k4.513。在多大程度上可以认为高中生的性别与是否在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?为什么?喜欢数学课程之间有关系?为什么?222(3.841)0.054.5143.841P KKk解:在假设“性别与是否喜欢数学之间没有关系”的前提下,K 应该很小,并且 而 的观测
15、值超过了,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间有关系”这一结论只适用于被调查的学校这一结论只适用于被调查的学校 在一次天气恶劣的飞行航程中在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕调查了男女乘客在飞机上晕机的情况机的情况:男乘客晕机的有男乘客晕机的有24人人,不晕机的有不晕机的有31人人;女乘客晕机的有女乘客晕机的有8人人,不晕机的有不晕机的有26人人.请你根据所给数据判定请你根据所给数据判定:在天气恶劣的飞行航程在天气恶劣的飞行航程中中,男乘客是否比女乘客更容易晕机男乘客是否比女乘客更容易
16、晕机?某单位餐厅的固定餐椅经常有损坏某单位餐厅的固定餐椅经常有损坏,于是该单位领于是该单位领导决定在餐厅墙壁上张贴文明标语导决定在餐厅墙壁上张贴文明标语,并对文明标语张贴前后餐椅的并对文明标语张贴前后餐椅的损坏情况作了一个统计损坏情况作了一个统计,具体数据如下具体数据如下:损坏餐损坏餐椅数椅数未损坏餐未损坏餐椅数椅数总计总计文明标语张贴前文明标语张贴前39157196文明标语张贴后文明标语张贴后29167196总计总计68324392n1 1、通过频率比较法,图、通过频率比较法,图形分析法判断两个分类形分析法判断两个分类变量是否有关系。(不变量是否有关系。(不精准)精准)(1 1)ad-bcad-bc (2 2)a/a+bc/c+d a/a+bc/c+d a+b+c+da+b+c+db+db+da+ca+c总计总计c+dc+dd dc cx x2 2a+ba+bb ba ax x1 1总计总计y y2 2y y1 1n2 2、利用、利用独立性检验独立性检验判判断两个分类变量是否有断两个分类变量是否有关系。关系。(1 1)假设无关)假设无关 (2 2)求)求k k值值 (3 3)下结论)下结论判断两分类变判断两分类变量是否有关的量是否有关的方法:方法:小结:小结: