1、 前面我们讨论了两个变量之间的关系前面我们讨论了两个变量之间的关系 回归分析回归分析,以及对分析了解释变量和随机,以及对分析了解释变量和随机 误差对预报变量的影响的强弱分析误差对预报变量的影响的强弱分析相相 关指数关指数R2分析分析 事实上,对于同一个总体而言,通过对比更事实上,对于同一个总体而言,通过对比更 能得出哪一种方法或哪个变量对总体效果有能得出哪一种方法或哪个变量对总体效果有 较大的影响,较大的影响,分类变量分类变量间的关系就是我们今间的关系就是我们今 天要研究的天要研究的 变量属于不同的类别变量属于不同的类别 例例1.为了调查吸烟是否对患肺癌有影响,某肿瘤研究院随机的为了调查吸烟是
2、否对患肺癌有影响,某肿瘤研究院随机的 调查了调查了9965人,得到如下结果:人,得到如下结果: 不患肺癌 患肺癌 总计 比例 不吸烟 7775 42 7817 0.54 吸烟 2099 49 2148 2.28 总计 9874 91 9965 问:吸烟是否对患肺癌有影响?问:吸烟是否对患肺癌有影响? 解解 从图表的比例可以看出:吸烟与不吸烟可能对患肺癌的从图表的比例可以看出:吸烟与不吸烟可能对患肺癌的可可 能存在差异能存在差异,我们再通过等高条形图来分析,我们再通过等高条形图来分析 等 高 条 形 图 等 高 条 形 图 0% 10% 20% 30% 40% 50% 60% 70% 80% 9
3、0% 100% 吸烟吸烟 不患肺癌患肺癌 不吸烟不吸烟 上面我们通过图形的分析,初步判断吸烟与患上面我们通过图形的分析,初步判断吸烟与患 肺癌有关系。那么,事实是否如此呢?我们需肺癌有关系。那么,事实是否如此呢?我们需 要用统计的观点来考察这个问题要用统计的观点来考察这个问题 我们首先设基本事件为:我们首先设基本事件为: H0:吸烟与患肺癌没有关系:吸烟与患肺癌没有关系 我们下面就一般关系做一个推断我们下面就一般关系做一个推断 不患肺癌不患肺癌 患肺癌患肺癌 总计总计 不吸烟不吸烟 a b a+b 吸烟吸烟 c d c+d 总计总计 a+c b+d a+b+c+d 如果吸烟与患肺癌没有关系,则
4、:如果吸烟与患肺癌没有关系,则: dc c ca a a(c+d)c(a+b) ad-bc0 因此,因此, ad-bc 越小,说明吸烟与患肺炎之间没有关系。越小,说明吸烟与患肺炎之间没有关系。 为了使样本空间有一定的代表性,我们引入一个随机变量为了使样本空间有一定的代表性,我们引入一个随机变量 )()()( )( 2 2 dbcadcba bcadn K (n=a+b+c+d(样本容量)) 若,若,H0成立,成立,(吸烟与患肺癌无关吸烟与患肺癌无关)则则K应该很小,通过计应该很小,通过计 算我们可以得到算我们可以得到K的观测值:的观测值: kK256.632 总计的四项总计的四项 说明:根据统
5、计学家的分析:说明:根据统计学家的分析: P(K26.635)0.01 P(K2k) 0.50 0.40 0.25 0.15 0.10 0.05 0.02 5 0.01 0 0.00 5 0.00 1 k 0.45 5 0.70 8 1.32 3 2.07 2 2.70 6 3.84 1 5.02 4 6.63 5 7.87 9 10.8 3 表表1-12 k2.706,就有,就有90的把握的把握 认为认为X与与Y之间存在关系之间存在关系 有统计规律可以看出:有统计规律可以看出: K26.635的概率非常小,近似于的概率非常小,近似于0.01,也就是说,也就是说, 在在H0成立的概率为成立的概
6、率为1,即,即H0不成立的概率为不成立的概率为99 ,因此我们认为吸烟与患肺癌有关,因此我们认为吸烟与患肺癌有关 上面的利用上面的利用K2来检验来检验“两个变量有“两个变量有 关系”关系”的方法成为:的方法成为:独立性检验独立性检验 说明:说明: 两个变量两个变量X与与Y独立性检验的一般方法:独立性检验的一般方法: 1.设两个变量的值域分别为设两个变量的值域分别为x1,x2y1.,y2,列频数关联表列频数关联表 y y1 1 y y2 2 总计总计 x x1 1 a a b b a+ba+b x x2 2 c c d d c+dc+d 总计总计 a+ca+c b+db+d a+b+c+da+b
7、+c+d 3.利用统计概率表利用统计概率表1-12查阅发生的概率查阅发生的概率 2.计算变量计算变量X与与Y的评判标准的评判标准K2 4.得出概率结论得出概率结论 例例1.某心脏病医院为了研究秃顶是否与某心脏病医院为了研究秃顶是否与 心脏病有关,对心脏病有关,对665名男性心脏和名男性心脏和772名名 其他病人做了研究,如图所示:其他病人做了研究,如图所示: 患心脏病 不患心脏病 总计 秃顶 214 175 389 不秃顶 451 597 1048 总计 665 772 1437 智 慧 的 闪 光 智 慧 的 闪 光 ! ! 0 200 400 600 秃头 患心脏病 患其他病 患心脏病患其
8、他病 不秃头 K216.373 K216.37310.828因此,在犯错误概率不超过因此,在犯错误概率不超过0.010 的前提下的前提下,认为秃头与心脏病有关认为秃头与心脏病有关. 研究人员表示,掉头发在很大程度上研究人员表示,掉头发在很大程度上 是由日渐增大的工作压力、不能充分是由日渐增大的工作压力、不能充分 休息、不正确饮食和睡眠不足等因素休息、不正确饮食和睡眠不足等因素 引起的。在接受调查的人群中,有引起的。在接受调查的人群中,有 41%的受秃头威胁的人表示,他们一的受秃头威胁的人表示,他们一 日睡觉时间不足日睡觉时间不足4小时小时 秃顶心脏病秃顶心脏病 ? 1.统计班上一次数学考试,分析男生与女生的成绩,在多大统计班上一次数学考试,分析男生与女生的成绩,在多大 程度上认为男生的数学成绩优于女生的数学成绩?为什么?程度上认为男生的数学成绩优于女生的数学成绩?为什么? 2.调查我校男女生对理科的偏好,在多大程度上可以认为调查我校男女生对理科的偏好,在多大程度上可以认为 男生比女生喜欢理科课程?为什么?男生比女生喜欢理科课程?为什么?