1、案案例例:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人。调查结果调查结果:吸烟的220人中有37人患呼吸道疾病,183人未患呼吸道疾病;不吸烟的295人中有21人患病,274人未患病。根据这些数据,能否断定:患呼吸道疾病与吸烟有关?数据整理患病未患病合计吸烟不吸烟合计372158183274457220295515问题:判断的标准是什么?调查结果:吸烟的220人中有37人患呼吸道疾病,183人未患呼吸道疾病;不吸烟的295人中有21人患病,274人未患病。吸烟与不吸烟,患病的可能性的大小是否有差异?频率估计概率患
2、病未患病合 计(n)吸 烟16.82%83.18%100%(220)不吸烟7.12%92.88%100%(295)通过图形直观判断通过图形直观判断不患病比例患病患病比例比例解决问题:直观方法吸烟的患病率不吸烟的患病率37/220 ?16.82%21/295 ?7.12%根据统计分析的思想,用频率估计概率可知,吸烟者与不吸烟者患病的可能性存在差异。你能有多大把握认为“患病与吸烟有关”呢?1.2 独立检验的基本思想及其初步应用第一课时学习目标?1.了解分类变量的定义?2.会画2x2列联表和等高条形图?3.了解独立性检验原理,会用独立性检验原理来判断两个变量之间是否有关系。为调查吸烟是否对患肺癌有影
3、响 ,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)表1-7 吸烟与患肺癌列联表那么吸烟是否对患肺癌有影响 ?因此,直观上得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异。在不吸烟者中患肺癌的比例是在吸烟者中患肺癌的比例是0.54%2.28%9965919874总计2148492099吸烟7817427775不吸烟总计患肺癌不患肺癌列联表:两个分类变量的频数表探究:探究:等高条形图等高条形图0%20%40%60%80%100%不吸烟吸烟不患肺癌患肺癌患病比例患病比例不患病比例例0.54%2.28%上面我们通过分析数据和图形 ,得到的直观印象是“吸烟和患肺癌有关”。这一直觉来自于观
4、测数据,即样本。问题是它能够在多大程度上代表总体呢?能否用数量刻画出有关的程度?H0:吸烟与患肺癌没有关系吸烟与患肺癌没有关系我们假设看看能推出什么样的结论。a+b+c+db+da+c总计c+ddc吸烟a+bba不吸烟总计患肺癌不患肺癌为了研究的一般性,在列联表1-7中用字母代替数字:结论:结论:|ad-bc| 越小,说明吸烟与患肺癌之间关系越弱 ; |ad-bc| 越大,说明吸烟与患肺癌之间关系越强 ;如果”吸烟与患肺癌没有关系” ,则在吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多 ,即acabcd?a+b+c+db+da+c总计总计c+ddc吸烟吸烟a+bba不吸烟不吸烟总计
5、患肺癌不患肺癌不患肺癌?a cdc ab?0ad bc?为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量若H0成立,即“吸烟与患肺癌没有关系”,则 K2应很小.由列联表中数据,利用公式( 1)计算得K2的观测值为:22()()()()()n adbcKab cd ac bd?(1)29 9 6 5 (7 7 7 5 4 9 4 2 2 0 9 9 )5 6 .6 3 2 .7 8 1 7 2 1 4 8 9 8 7 4 9 1k?其中n=a+b+c+d 为样本容量.在在H0成立的情况下,统计学家估算出如下的概率:成立的情况下,统计学家估算出如下的概率:2(6 .6
6、3 5 )0 .0 1P K ?也就是说,在 H0成立的情况下,随机变量K2超过6.635的概率约为 0.01,是一个小概率事件 .现在K2 2的观测值为56.632,远远大于 6.635,所以有理由断定 H0不成立 ,即认为即认为“吸烟与患肺癌有关系吸烟与患肺癌有关系”56.632k?但这种判断会犯错误,犯错误的概率不会超过 0.01,即我们有99的把握认为“吸烟与患肺癌有关系” .利用随机变量 K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.独立性检验:独立性检验:有一个颠扑不破的真理,那就是当我们不能确定什么是真的时,我们就应该去探求什么是最可能的
7、。笛卡尔能否用数量来刻画能否用数量来刻画“有关有关”程度程度自学指导自学指导1?再次阅读课本第再次阅读课本第10页至图页至图1.2-1的内容,注意下列问题?1.列联表的画法列联表的画法?2.等高条形图的画法时间3分钟,整理重点内容不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d假设吸烟与患肺癌没有关系,那么吸烟者中不患肺癌的比例应该与不吸烟者中相应的比例差不多即()()0aca cdc ababcdadbcad bcad bc? 即 因此越小说明吸烟与患肺癌之间关系越弱;因此越大说明吸烟与患肺癌之间关系越强。0H假设:吸烟与患肺癌没
8、有关系自学检测自学检测1_. 2_. 1之间类变量差距很大,就说两个分和发现观察等高条形图,如果画等高条形图的目的是dccbaa?自学检测自学检测2:在一次天气恶劣的飞行航程中在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有男乘客晕机的有24人人,不晕机的有31人;女乘客晕机的有8人人,不晕机的有不晕机的有26人人.请你请你根据所给数据画出列联表。自学指导自学指导2? 阅读课本第11页-第13页例1上方的内容,注意下列问题:? 1.记忆随机变量K2的计算公式。? 2. 注意K2的大小对相关关系强弱的影响。? 3. 独立性检验的原理是什么?? 4.用自己的话总结用独立
9、性检验原理判断相关关系的具体过程。(时间6分钟)独立性检验的原理:独立性检验的原理:首先,假设结论不成立,即H :两个分类变量没有关系(在这种假设下k应该很小)其次,由观测数据计算K 的观测值k,(如果k很大,则在一定可信程度上说明 H 不成立,即两个分类变量之间有关系)最后,根据k的值判断假设是否成立2临界值表:10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445k0.0010.0050.0100.0250.050.100.150.50.400.502()PKk?P为犯错误的概率10.8287.8796.6355.0243.8412.7062
10、.0721.3230.7080.445k0.0010.0050.0100.0250.050.100.150.50.400.502()P Kk?(1)如果k210.828,就有99.9%的把握认为“X与Y有关系”(2)如果k27.879,就有99.5%的把握认为“X与Y有关系”(3)如果k26.635,就有99%的把握认为“X与Y有关系”;(4)如果k25.024,就有97.5%的把握认为“X与Y有关系”(5)如果k23.841,就有95%的把握认为“X与Y有关系”;(6)如果k22.706,就有90%的把握认为“X与Y有关系”;(7)如果k22.706,就认为没有充分的证据显示“X与Y有关系”
11、.临界值或者:k10.828,表示在犯错的概率不超过0.001的前提下,X和Y有关系。用独立性检验思想的步骤? 1.列列2x2列联表? 2. 假设两个分类变量之间没有关系假设两个分类变量之间没有关系? 3.根据K2的计算公式计算K2? 4.如果如果K2k0(临界值),下结论:(临界值),下结论:“在推在推断错误的概率不超过P的前提下,可以判断的前提下,可以判断两个变量有关系”,或者说“我们有(1-P)x100%的把握认为的把握认为两个变量有关两个变量有关系。如果K22.072,就说“没有足够的证据证明两个变量有关系”。练练1 为了考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中
12、生中随即抽取300名学生,得到如下列联表:由表中数据计算得到的观测值。能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?为什么?喜欢数学课程不喜欢数学课程总计男3785122女35143178总计722283002K4.514k?222(3.841) 0.054.5143.841P KKk?解:在假设 “性别与是否喜欢数学之间没有关系”的前提下, K 应该很小,并且 而的观测值超过了,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05 ,即有 95%的把握认为 “性别与是否喜欢数学课程之间有关系”这一结论只适用于被调查的学校这一结论只适用于被调查的
13、学校1.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个患肺病B、从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患肺病C、从独立性检验可知有99%的把握认为吸烟与患肺病有关系,是指有1%的可能性使得推理出现错误D、以上三种说法都不对c自学检测自学检测33如果根据性别与是否爱好运动的列联表得到K23.8523.841, 所以判断性别与运动有关,那么这种判断犯错的可能性不超过( ) A2.5% B0.5% C1% D5% 解析: P(
14、K23.841) 0.05 ,故 “判断性别与运动有关”出错的可能性为5%. 答案: D 5性别与色盲症列联表. 色盲 非色盲 总计 男 12 788 800 女 5 995 1000 总计 17 1783 1800 由表中数据计算得K24.751 ,性别与色盲之间是否有关系?为什么? 解: 因为在假设 “性别与色盲症没关系”的前提下,事件AK23.841 的概率为P (K23.841) 0.05. 而由样本计算得到K24.751 ,即有利于“性别与色盲有关系 ”的小概率事件发生,由独立性检验基本原理可知,有大约 95% 的把握认为性别与色盲有关系 练习练习2.在某医院,因为患心在某医院,因为
15、患心脏病而住院的665名男性病人中,有人中,有214人秃顶;而另人秃顶;而另外外772名不是因为患心脏病名不是因为患心脏病而住院的男性病人中有175人秃顶。分别利用图形和独人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?解:根据题目所给数据得到如下列联表1-13:患心脏病患心脏病 不患心脏不患心脏病病总计秃顶秃顶214175389不秃顶4515971048总计总计6657721437根据联表根据联表1-13中的数据,得到中的数据,得到所以有99.9%的把握认为“秃顶与患心脏病有假设秃顶和患心脏病之间没有关系假设秃顶和患心脏病之间没有关系82.10373.16772665104
16、8389)451175597214(143722?k练3为考察高中生的吃零食与是否患胃病之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下联表:患胃病不患胃病总计吃零食3785122不吃零食35143178总计72228300由表中数据计算K2的观测值k 4.513。在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?为什么?2(3.841)0.05,?P K而我们所得到的K2的观测值k 4.513超过3.841,这就意味着“吃零食与是否患胃病之间的关系”这一结论错误的可能性约为0.05(或小于0.05) ,即有95%(或大于95%)的把握认为“吃零食与是否患胃病之间有
17、关系”。解:在假设“吃零食与是否患胃病之间没有关系”的前提下K2应该很小,并且? 2.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据.?你有多大的把握认为婴儿的性别与出生时间有关系??你的这种推断犯错的概率有多大?白天晚上合计男婴243155女婴82634合计325789在研究某种新措施对动物疾病的防治效果问题时,得到以下数据:试问新措施对防止动物疾病是否有效?存活率存活率死亡率合计对照对照11436150新措施新措施13218150合计合计24654300练习练习关系?认为性别和休闲方式有的前提下超过能否在犯错误的概率不的休闲方式是运动。人主要视,另外主要的休闲方式是看电人动
18、;男性有人主要的休闲方式是运电视,另外人的主要休闲方式是看中有人,女性人,男性人,其中女性调查中共调查了一次对人们休闲方式的025. 0332127435470124. 4练习在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞行航程中,男乘客是否比女乘客更容易晕机?【解】 根据题意,列出22列联表如下: 晕 机 不晕机 总 计 24 31 55 女乘客 8 26 34 总 计 32 57 89 假设在天气恶劣的飞行航程中, 男乘客不比女乘客更容 易晕机 由 公式可得K2
19、的观测值k89?2426318 ?2553432573.6892.706,故有90%的把握认为 “在天气恶劣的飞行航程中,男乘客比女乘客更容易晕机” 变式训练变式训练某单位餐厅的固定餐椅经常有损坏,于是该单位领导决定在餐厅墙壁上张贴文明标语,并对文明标语张贴前后餐椅的损坏情况作了一个统计,具体数据如下:损坏餐椅数未损坏餐椅数总计文明标语张贴前39157196文明标语张贴后29167196总计68324392解:根据题中的数据计算: k392?3916715729 ?2196196683241.78. 因为1.782.706,所以我们没有理由说:在餐厅墙壁 上张贴文明标语对减少餐椅损坏数有效果,即效果不 明显
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。