1、独立性检验的基独立性检验的基 本思想及初步应用本思想及初步应用 1.(1)了解独立性检验的基本思想、方法及初步应用 (2)会从列联表(只要求22列联表)、等高条形图直观分 析两个分类变量是否有关 (3)会用K2公式判断两个分类变量在某种可信程度上的相 关性 2运用数形结合的方法,借助对典型案例的探究,来了解 独立性检验的基本思想,总结独立性检验的基本步骤 3(1)通过本节课的学习,让学生感受数学与现实生活的联 系,体会独立性检验的基本思想在解决日常生活问题中的作 用 (2)培养学生运用所学知识,依据独立性检验的思想作出 合理推断的实事求是的好习惯 本课主要学习独立性检验的基本思想及初步应 用。
2、以吸烟是否对肺癌有影响引入新课,通过数据 和图表分析,得到结论是:吸烟与患肺癌有关初步 判断两分类变量具有相关性。 通过结论的可靠程度如何?引出如何通过量化 来进行研究判断两分类变量是否具有相关性,相关 程度有多大?通过假设两分类变量没有相关性,也 就是是相互独立的,得到判断两分类变量相关性检 验方法。再通过例1例2讲解引导学生掌握独立性检 验的基本思想及初步应用。 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸烟 2099 49 2148 总计 9874 91 9965 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机为了调查吸烟是否对肺癌有影响,某肿瘤研究所随
3、机 地调查了地调查了99659965人,得到如下结果(单位:人)人,得到如下结果(单位:人) 列联表列联表 在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 说明:说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大吸烟者患肺癌的可能性大 0.54%0.54% 2.28%2.28% 1 1) )通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关: 不患肺癌 患肺癌 不吸烟 吸烟 0 1000 2000 3000 4000 5000 6000 7000 8000
4、 不吸烟 吸烟 三维柱三维柱 状图状图 2 2) ) 通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关: 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 不吸烟吸烟 患肺癌 不患肺癌 二维条二维条 形图形图 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 不吸烟吸烟 患肺癌 不患肺癌 3 3) )通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关: 患肺癌患肺癌 比例比例 不患肺癌不患肺癌 比例比例 等高条等高条 形图形图 独立性检验 H0: 吸烟和患肺癌之间
5、没有关系 H1: 吸烟和患肺癌之间有关系 通过数据和图表分析,得到通过数据和图表分析,得到 结论是:结论是:吸烟与患肺癌有关吸烟与患肺癌有关 结论的可靠结论的可靠 程度如何?程度如何? 用 A 表示“不吸烟”, B 表示“不患肺癌” 则 H0: 吸烟和患肺癌之间没有关系 “吸烟”与“患肺癌”独立, 即A与B独立 P(AB)= P(A)P(B)P(AB)= P(A)P(B) 等价于 等价于 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 a b a+b 吸烟 c d c+d 总计 a+c b+d a+b+c+d a+ba+caa+ba+ca P(A)=,P(B)=,P(AB)=P(A)=,P(
6、B)=,P(AB)= nnnnnn 其其中中n = a+b+c+dn = a+b+c+d a a+b+c+da+b (a+c), a+b+c+da+b (a+c), adbc aa+ba+caa+ba+c nnnnnn 2 2 2 2 n(ad-bc)n(ad-bc) K =K = (a+b)(c+d)(a+c)(b+d)(a+b)(c+d)(a+c)(b+d) 独立性检验 0.adbc ad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越小,说明吸烟与患肺癌之间的关系越弱, ad-bc 越大,说明吸烟与患肺癌之间的关系越强ad-bc 越大,说明吸烟与患肺癌之间的关系越强 引入一个
7、随机变量引入一个随机变量 作为检验在多大程度上可以认为“两个变量有关系”作为检验在多大程度上可以认为“两个变量有关系” 的标准的标准 。 1)1)如果如果P(m10.828)= 0.001P(m10.828)= 0.001表示有表示有99.9%99.9%的把握认为”的把握认为”X X与与Y”Y”有关系有关系; ; 2)2)如果如果P(m7.879)= 0.005P(m7.879)= 0.005表示有表示有99.5%99.5%的把握认为”的把握认为”X X与与Y”Y”有关系有关系; ; 3)3)如果如果P(m6.635)= 0.01P(m6.635)= 0.01表示有表示有99%99%的把握认为
8、”的把握认为”X X与与Y”Y”有关系有关系; ; 4)4)如果如果P(m5.024)= 0.025P(m5.024)= 0.025表示有表示有97.5%97.5%的把握认为”的把握认为”X X与与Y”Y”有关系有关系; ; 5)5)如果如果P(m3.841)= 0.05P(m3.841)= 0.05表示有表示有95%95%的把握认为”的把握认为”X X与与Y”Y”有关系有关系; ; 6)6)如果如果P(m2.706)= 0.010P(m2.706)= 0.010表示有表示有90%90%的把握认为”的把握认为”X X与与Y”Y”有关系有关系; ; 7)7)如果如果m m2.706),2.706
9、),就认为没有充分的证据显示”就认为没有充分的证据显示”X X与与Y”Y”有关系有关系; ; 设有两个分类变量设有两个分类变量X X和和Y Y它们的值域分别为它们的值域分别为xx1 1,x,x2 2 和和yy1 1,y,y2 2 其其 样本频数列表样本频数列表( (称为称为2 22 2列联表列联表) )为为 y1 y 2 总计 x 1 a b a+b x 2 c d c+d 总计 a+c b+d a+b+c+d 2 22 2列联表列联表 2 2 ()()()() n adbc K a b cd ac bd () 2 2 P(k m)P(k m) 适用观测数据适用观测数据a a、b b、 c c
10、、d d不小于不小于5 5 P(x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 2 10.828K 2 6.635K 2 2.706K 2 2.706K 0.1%0.1%把握认把握认 为为A A与与B B无关无关 1%1%把握认为把握认为A A 与与B B无关无关 99.9%99.9%把握认把握认 为为A A与与B B有关有关 99%99%把握认把握认 为为A A与与B B有关有关 90%90%把握认
11、把握认 为为A A与与B B有关有关 10%10%把握认为把握认为 A A与与B B无关无关 没有充分的依据显示没有充分的依据显示A A与与B B有关,但有关,但 也不能显示也不能显示A A与与B B无关无关 例如例如 独立性检验独立性检验 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸烟 2099 49 2148 总计 9874 91 9965 通过公式计算通过公式计算 2 2 42 2099 56.632 7817 2148 9874 91 K 9965(7775 49) 独立性检验: 已知在已知在 成立的情况下,成立的情况下, 0 H 2 (6.635)0
12、.01P K 即在即在 成立的情况下,成立的情况下,K K2 2 大于大于6.6356.635概率非常小,概率非常小, 近似为近似为0.010.01 0 H 现在的现在的K K2 2=56.632=56.632的观测值远大于的观测值远大于6.6356.635 所以有理由断定所以有理由断定H H0 0不成立不成立, ,即认为”吸烟与患肺即认为”吸烟与患肺 癌有关系”癌有关系” 如下列联表根据题目所给数据得到解 秃顶与患心脏病列联表表113 1437772665 1048597451 389175214 总计 不秃顶 秃顶 总计患其他病患心脏病 例例1 1. .在某医院在某医院, ,因为患心脏病而
13、住院的因为患心脏病而住院的665665名男性病人中名男性病人中, , 有有214214人秃顶人秃顶, ,而另外而另外772772名不是因为患心脏病而住院的名不是因为患心脏病而住院的 男性病人中有男性病人中有175175人秃顶人秃顶. .分别利用图形和独立性检验方分别利用图形和独立性检验方 法判断是否有关法判断是否有关? ?你所得的结论在什么范围内有效你所得的结论在什么范围内有效? ? 42.3图图 0 100 200 300 400 500 600 患心脏病患心脏病 患其他病患其他病 秃顶秃顶 不秃顶不秃顶 “.“ , , .42.3 秃顶与患心脏病有关为 某种程度上认以在 可的乘积要大一些
14、高度体线上两个柱 底面副对角较来说 比所示如图 维柱形图相应的三 .635.6373.16 7726651048389 4511755972141437 K ,113 2 2 得到中的数据根据列联表 “.“%99秃顶与患心脏病有关的把握认为所以有 . , 住院的病人群体 因此所得到的结论适合的病人因为这组数据来自住院 例例2 2. .为考察高中生性别与是否喜欢数学课程之间的为考察高中生性别与是否喜欢数学课程之间的 关系关系, ,在某城市的某校高中生中随机抽取在某城市的某校高中生中随机抽取300300名学生名学生, , 得到如下列联表得到如下列联表: : 性别与喜欢数学课程列联表性别与喜欢数学课
15、程列联表 喜欢数学课程 不喜欢数学课程 总计 男 37 85 122 女 35 143 178 总计 72 228 300 由表中数据计算得由表中数据计算得 , ,高中生的性别与是否喜高中生的性别与是否喜 欢数学课程之间是否有关系欢数学课程之间是否有关系? ?为什么为什么? ? 2 2 K 4.513K 4.513 a c d b :, “. “%95 具体过程如下验的基本思想 据是独立性检作出这种判断的依课之间有关系 性别与喜欢数学以上把握认为可以有约解 . dcba bdac dc c ba a , dc c ba a , . d, c, b, a 应很大即相差很多 应该数学课的人数比例与
16、女生中喜欢 例的比课学数欢中喜生则男系有关课学数欢 如果性别与是否喜生人数数、不喜欢数学课的女 数学课的女生人数、喜欢不喜欢数学课的男生人 的男生人数、表示样本中喜欢数学课分别用 , dbca dcbadcba 乘以常数因子将上式等号右边的式子 2 2 , n adbc K abcdacbd 然然后后平平方方得得 .“ “ ,K. dcban 2 成立的可能性越大欢数学课之间有关系 性别与喜越大因此其中 “. “%95,%.5 ,“ “, .A,513.4K .A,05.0 841.3KP841.3KA , “, 2 22 喜欢数学课之间有关系 性别与的把握认为约有所以可能性约为 并且这种判断出错的成立欢数学课之间有关系 性别与喜我们应该断定据假设检验的基本原理 根发生这表明小概率事件据计算得 而由样本数是一个小概率事件因此事件 的概率为由于事件 没有关系性别与喜欢数学课之间假设另一方面 独立性检验基本的思想类似反证法 (1)假设结论不成立,即“两个分类变量没有关系”. (2)在此假设下随机变量 K2 应该很能小,如果由观 测数据 计算得到K2的观测值k很大,则在一定程度上说明假 设不合理. (3)根据随机变量K2的含义,可以通过评价该假设不 合理的程度,由实际计算出的,说明假设合理的程 度为99.9%,即“两个分类变量有关系”这一结论 成立的可信度为约为99.9%.