1、独立性检验高二年级 数学我们已经知道,事件A与事件B独立的充要条件是()()()P ABP A P B()()()P ABP A P B利用这一点,我们可以通过概率的计算来判断两个事件是否独立.然而,如果要判断现实生活中两个随机事件是否独立,并不是一件容易的事.情境与问题 任意抽取某市的一名学生,记A:喜欢长跑,B:是女生.(1)你能得出P(A),P(B),P(AB)这三者的准确值吗?问题中的P(A),P(B),P(AB)准确值的确定,是比较难的,甚至是不可能的.然而,利用频率估计概率,通过抽样调查获得样本数据后,就可以得到上述三个值的近似值.情境与问题 任意抽取某市的一名学生,记A:喜欢长跑
2、,B:是女生.(1)你能得出P(A),P(B),P(AB)这三者的准确值吗?(2)如果要判断A与B是否独立,该怎么办?从概率学的角度,受随机性的影响,我们很难直接利用概率公式P(AB)=P(A)P(B)进行估计.情境与问题 任意抽取某市的一名学生,记A:喜欢长跑,B:是女生.(1)你能得出P(A),P(B),P(AB)这三者的准确值吗?(2)如果要判断A与B是否独立,该怎么办?如何判断生活中两个分类变量之间是否独立,或如何对两个分类变量进行独立性检验,是我们生活中经常遇到的一大类问题。假设:通过调查,我们获取了下述数据:抽查了110人,其中女生有50人;且这110人中,喜欢长跑的有60人,其中
3、女生有20人.为了方便起见,请同学们把数据整理成表格形式.喜欢长跑不喜欢长跑总计女203050男402060总计6050110喜欢长跑不喜欢长跑总计女203050男402060总计6050110因为这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为22列联表.喜欢长跑不喜欢长跑总计女203050男402060总计6050110由22列联表可知:505;11011喜欢长跑的概率P(A)可以估计为是女生的概率P(B)可以估计为喜欢长跑且是女生的概率P(AB)可以估计为尝试与发现 同学们,此时可以利用 是否成立来判断A与B是否独立吗?答案是否定的.追问:为什么?因为P(A),P(B),P
4、(AB)都是根据样本数据得到的估计值,而估计值是有误差的,因此直接用 是否成立来判断A与B是否独立是不合理的.但是,如果A与B独立,那么P(A)P(B)应该可以作为P(AB)的近似值.这是从统计意义上做出的合理推断.即尽管随机性会对数据的准确性带来影响,但理论上,如果A与B是独立的,则这种影响也一定不会太大.这是独立性检验的基本思想.需要说明的是:如果 ,则 ,.()()()P ABP A P B()()()P ABP A P B()()()P ABP A P B因此,如果 不会太大,2110()110()()110()()P ABP A P BP A P B则 ,也都不会太大.2110()1
5、10()()110()()P ABP A P BP A P B2110()110()()110()()P ABP A P BP A P B2110()110()()110()()P ABP A P BP A P B因此,从理论上可知,喜欢长跑的女生数可以怎样估计?答:从理论上可知,喜欢长跑的女生数可以估计为:110P(A)P(B).而实际上,喜欢长跑的女生数可以怎样表示?答:实际上,喜欢长跑的女生数可以估计为:110P(AB).因此,应该不会太大.2110()110()()110()()P ABP A P BP A P B类似地,考虑 与B,A与 ,与 ,可知:AB AB2110()110()
6、(),110()()P ABP A P BP A P B2110()110()(),110()()P ABP A P BP A P B2110()110()()110()()P ABP A P BP A P B都应该不会太大.若记上述四项的和为(读作“卡方”),则代入有关数据可以算得 .227.8概率学上可以证明,如果A与B独立,则 的概率只有1%,即 .26.6352(6.635)1%P因为算出的 值7.8大于6.635,所以若A与B独立,那么我们就观察到了概率不超过1%的事件.问题:现在算出的 值7.8大于6.635,所以若A与B独立,则该事件发生的概率是多少?若A与B独立(即“喜欢长跑”
7、与“是女生”独立),则我们观察到了一件概率不超过1%的事件.在犯错误的概率不超过1%的前提下,可以认为“喜欢长跑”与“是女生”不独立(也称为是否喜欢长跑与性别有关);或有99%的把握认为是否喜欢长跑与性别有关.问题:现在算出的 值7.8大于6.635,所以若A与B独立,则该事件发生的概率是多少?若A与B独立(即“喜欢长跑”与“是女生”独立),则我们观察到了一件概率不超过1%的事件.上述1%通常称为显著性水平,而6.635称为显著性水平1%所对应的分位数.一般情况下,可以用完全类似的方法来检验两个随机事件是否独立.如果随机事件A与B的样本数据的22列联表如下.总计aba+bcdc+d总计a+cb
8、+da+b+c+dAABB如果随机事件A与B的样本数据的22列联表如下.总计aba+bcdc+d总计a+cb+da+b+c+dAABB记 ,则由表可知:nabcd(1)事件A发生的概率可估计为:(2)事件B发生的概率可估计为:(3)事件AB发生的概率可估计为:();acP An().aP ABn();abP Bn问题:如果A与B独立,则P(A)P(B)与P(AB)的估计值相差如何?如果A与B独立,则P(A)P(B)与P(AB)的估计值相差不大.追问:理论上既是A又是B的数据有多少个?追问:实际上既是A又是B的数据有多少个?实际上既是A又是B的数据有 (即 )个.a()nP AB理论上既是A又是
9、B的数据有 个.()()nP A P B问题:基于上页结论,类比尝试与发现中,的值不会太大,可以得到什么结论?2110()110()()110()()P ABP A P BP A P B 不会太大.22()()()()()()()()()nP ABnP A P Bnaac abnP A P Bn ac ab类似地,考虑 与B,A与 ,与 ,可知:AB AB22()()()()(),()()()()nP ABnP A P Bncac cdnP A P Bn ac cd22()()()()()()()()()nP ABnP A P Bndbd cdnP A P Bn bd cd22()()()()
10、(),()()()()nP ABnP A P Bnbbd abnP A P Bn bd ab都不会太大.因此,这四个数的和 也不会太大.22()()()()()n adbcab cd ac bd此外,任意给定一个 (称为显著性水平,通常取为0.05,0.01等),可以找到满足条件2()Pk的数 (称为显著性水平对应的分位数).k 是一个随机变量,其分布能够求出,上面的概率是可以计算的.因此,如果根据样本数据算出 的值后,发现 成立,就称在犯错误的概率不超过 的前提下,可以认为A与B不独立(也称A与B有关);或说有 的把握认为A与B有关.若 成立,就称不能得到前述结论.这一过程通常称为独立性检验
11、.2k12kA与B独立,也称A与B无关.当 成立时,一般不直接说A与B无关.也就是说,独立性检验通常得到的结果,或者说有 的把握认为A与B有关,或者没有 的把握认为A与B有关.1统计学中,常用的显著性水平 以及对应的分位数 如下表所示.k2()Pkk0.10.050.010.0050.0012.7063.8416.6357.87910.8281例 为了了解阅读量多少与幸福感强弱之间的关系,一个调查机构得到了如下调查数据.根据调查数据回答,在犯错误的概率不超过1%的前提下,可以认为阅读量多少与幸福感强弱有关吗?典型例题幸福感强幸福感弱总计阅读量多541872阅读量少364278总计9060150
12、分析:(1)由 的计算公式 可得,我们需要知道 的数值;(2)与显著性水平对应的分位数比较.典型例题22()()()()()n adbcab cd ac bd,a b c d n解:由题意可知 典型例题22150(544218 36)7278 90606755212.981又因为查表可得 2(6.635)0.01P由于 ,所以在犯错误的概率不超过1%的前提下,可以认为阅读量多少与幸福感强弱有关.12.9816.635例 某报刊对男女学生是否喜欢书法进行了一个随机调查,调查的数据如下表所示.根据调查数据回答:有95%的把握认为性别与是否喜欢书法有关吗?典型例题喜欢书法不喜欢书法男学生2432女学
13、生1624解:由题意可知 典型例题22(24321624)(242416 32)=(2432)(1624)(2416)(3224)9612250.078又因为 ,而且查表可得 195%5%2(3.841)0.05,P由于 ,所以没有95%的把握认为性别与是否喜欢书法有关.0.0783.841小结:回忆例题的解题过程,你能总结出独立性检验实际问题的基本方法和步骤吗?(1)绘制 列联表;2 2(2)计算卡方数值;(3)与显著性水平对应的分位数比较;(4)若 ,就称在犯错误的概率不超过 的前提下,可以认为A与B不独立,或者说有 的把握认为A与B有关;若 ,则说没有 的把握认为A与B有关.2k12k11.独立性检验2.独立性检验解决实际问题的基本方法和步骤课堂小结教材第116页A组第2题1.为了探究成年人晕车与性别是否有关,调查了320名成年人,其中男士与女士中,晕车的分别有28人与32人.用列联表表示这些数据.课后作业2 2教材第117页B组第2题2.某企业有甲、乙两个分厂生产同一种零件,在检查产品的优质品率时,从甲、乙两厂分别抽取了500件产品,其中甲厂有优质品360件,乙厂有优质品320件.(1)分别估计甲、乙两厂的优质品率;(2)是否有99%的把握认为两个分厂生产的零件优质品有差异?课后作业谢谢