1、思想及其初步应用独立性检验的基本2.11.,.,.,等等等等国国籍籍宗宗教教信信仰仰否否吸吸烟烟是是例例如如分分类类变变量量是是大大量量存存在在的的生生活活中中在在现现实实像像这这类类变变量量称称为为别别类类表表示示个个体体所所属属的的不不同同值值种种变变量量的的不不同同这这其其取取值值为为男男和和女女两两种种对对于于性性别别变变量量分类变量分类变量.?,.,等等等等影影响响有有程程数数学学课课别别对对于于是是否否喜喜欢欢性性有有关关系系吸吸烟烟与与肺肺癌癌是是否否例例如如量量之之间间是是否否有有关关系系变变我我们们常常常常关关心心两两个个分分类类在在日日常常生生活活中中2.:):(,9659
2、,人人单位单位结果结果得到如下得到如下人人了了肿瘤研究所随机地调查肿瘤研究所随机地调查某某癌有影响癌有影响为调查吸烟是否对患肺为调查吸烟是否对患肺探究探究996591987421484920997817427775总总计计吸吸烟烟不不吸吸烟烟总总计计患患肺肺癌癌不不患患肺肺癌癌吸烟与患肺癌列联表表71?有有影影响响那那么么吸吸烟烟是是否否对对患患肺肺癌癌3.:,.%28.2,;%54.0,:.,71在差异肺癌可能存烟者患吸烟者和不吸结论直观上可以得出因此患有肺癌有在吸烟者中患有肺癌有吸烟者中在不估计出表可以粗略癌情况的列联由吸烟情况和患肺称为频数表的样列出的两个分类变量这像表 列联表列联表.,
3、况况状状反映出相关数据的总体反映出相关数据的总体能更直观地能更直观地图图三维柱形图和二维条形三维柱形图和二维条形与表格相比与表格相比4.,12.1大小地看出各个频数的相对从中能清晰是列联表的三维柱形图图.,个个柱柱体体都都能能看看到到以以使使每每择择恰恰当当的的视视角角作作三三维维柱柱形形图图要要注注意意选选不患肺癌不患肺癌患肺癌患肺癌吸吸烟烟不不吸吸烟烟12.1图5.不吸烟不吸烟吸烟吸烟不不患患肺肺癌癌患患肺肺癌癌22.1图.,.,22.1肺癌的比例比例高于不吸烟者中患吸烟者中患肺癌的从图中可以看出癌的人数黑色条高表示患肺数条高表示不患肺癌的人其中绿色图是叠在一起的二维条形图6.32.1图不
4、不吸吸烟烟吸吸烟烟.;,32.1.,的百分比黑色的条高表示患肺癌的百分比癌绿色的条高表示不患肺在等高条形图中所示如图下患肺癌的比例高条形图表示两种情况我们还可用如下的等特征为了更清晰地表达这个7.?.,呢呢烟烟与与患患肺肺癌癌有有关关吸吸的的把把握握认认为为或或者者说说我我们们能能够够以以多多大大此此呢呢那那么么事事实实是是否否真真的的如如象象是是吸吸烟烟和和患患肺肺癌癌有有关关得得到到的的直直观观印印和和图图形形上上面面我我们们通通过过分分析析数数据据.:H,0吸烟与患肺癌没有关系我们先假设为了回答上述问题 .BPAPABPH,B,A0等价于即吸烟与患肺癌独立等价于癌没有关系肺吸烟与患则表示
5、不患肺癌表示不吸烟用8.:,71母表示的列联表得到如下用字中的数字用字母代替把表 dcbadbcadcdcbaba总总计计吸吸烟烟不不吸吸烟烟总总计计患患肺肺癌癌不不患患肺肺癌癌吸烟与患肺癌列联表表81成立的条件下应有所以在于频率近似于概率由发生的频数和恰恰好分别为事件和发生的频数恰好为事件中在表0,.:,81HBAcabaABa9.,cabaadcba,dcban,ncanbana即量为样本容其中.bcad 即.,|bcad;|,|bcad,|关系越强说明吸烟与患肺癌之间越大系越弱关说明吸烟与患肺癌之间越小因此.dcban1dbcadcbabcadnK,22为样本容量其中我们构造一个随机变量
6、基于上面的分析准数据有统一的评判标为了使不同样本容量的10.,632.569198742148781720994249777599651,71,.,2220kKKH的观测值为算得计利用公式中的数据根据表现在很小应该则吸烟与肺癌没有关系即成立若?这个值是不是很大呢 2.01.0635.6KP,H20率统计学家估算出如下概成立的情况下在成立的情况在也就是说近似于非常小的概率的值大于成立的情况下即在020H.01.0.635.6KH11.1001635.6,K2的频率约为观测值超过进行多次观测下对随机变量.5d,c,b,a,.,n,2都不小于都不小于要求要求通常通常在实际应用中在实际应用中近似程度越
7、高近似程度越高越大越大中中在在?,H,635.6K02断出错的可能性有多大断出错的可能性有多大这种判这种判不成立不成立就断定就断定如果如果思考思考.%99,H%99.01.02,H,635.6632.56k00吸烟与肺癌有关系的把握认为即有不成立的把握认为因此我们有概率不超过观测值的式可知能够出现这样的由的条件下成立在远远大于现在观测值12.K2个个分分类类变变量量的的的的方方法法称称为为两两两两个个分分类类变变量量有有关关系系可可以以认认为为来来确确定定在在多多大大程程度度上上上上面面这这种种利利用用随随机机变变量量.独立性检验独立性检验%.99%,99,635.6k,2,K.,K.K,.2
8、22程度约为程度约为这一结论成立的可信这一结论成立的可信两个分类变量有关系两个分类变量有关系即即理的程度为理的程度为合合不不设设假假明明说说际计算出的际计算出的由实由实程度程度式评价该假设不合理的式评价该假设不合理的可以通过概率可以通过概率的含义的含义根据随机变量根据随机变量理理定程度上说明假设不合定程度上说明假设不合则在一则在一的观察值很大的观察值很大的的果由观测数据计算得到果由观测数据计算得到如如应该很小应该很小变量变量在该假设下构造的随机在该假设下构造的随机成立成立系系两个分类变量没有关两个分类变量没有关即假设结论即假设结论设该结论不成立设该结论不成立首先假首先假度度这一结论成立的可信程
9、这一结论成立的可信程分类变量有关系分类变量有关系两个两个要确认要确认类似于反证法类似于反证法独立性检验的基本思想独立性检验的基本思想13.?,量量是是否否相相关关吗吗形形图图中中看看出出两两个个分分类类变变你你能能从从列列联联表表的的三三维维柱柱利利用用上上面面的的结结论论思思考考:)22(,y,yx,x,YX,2121为为列联表列联表称为称为其样本频数列联表其样本频数列联表和和别为别为它们的值域分它们的值域分和和假设两个分类变量假设两个分类变量一般地一般地dcbadbcadcdcxbabaxyy2121总总计计总总计计91表列联表列联表2214.:H,YX:H11成成立立的的可可能能性性骤骤
10、判判断断结结论论可可以以按按如如下下步步有有关关系系与与若若要要推推断断的的论论述述为为.,.1所所得得结结论论的的可可靠靠程程度度地地给给出出但但是是这这种种判判断断无无法法精精确确个个分分类类变变量量是是否否有有关关可可以以粗粗略略地地判判断断两两条条形形图图通通过过三三维维柱柱形形图图和和二二维维.H,bcad,11成成立立的的可可能能性性越越大大相相差差越越大大形形高高度度的的乘乘积积与与副副对对角角线线上上的的两两个个柱柱度度的的乘乘积积主主对对角角线线上上两两个个柱柱形形高高在在三三维维柱柱形形图图中中.H,.dccyYxX,baayYxX,211211成成立立的的可可能能性性就就
11、越越大大两两个个比比例例的的值值相相差差越越大大的的个个体体所所占占的的比比例例的的个个体体中中具具有有足足条条件件也也可可以以估估计计满满的的个个体体所所占占的的比比例例中中具具有有的的个个体体可可以以估估计计满满足足条条件件在在二二维维条条形形图图中中15.)101(,5,.,1:.,.22的可信程度有关系与来确定结论表可以通过查阅下表时小于都不当得到的观测数据成立的可能性越大有关系与说明其值越大的值验随机变量式给出的检观测数据计算则根据具体做法是种判断的可靠程度并且能较精确地给出这有关系考察两个分类变量是否可以利用独立性检验来YXdcbaYXkK.,5d,c,b,a确确的的检检验验方方法
12、法需需采采用用很很复复杂杂的的精精时时中中有有小小于于当当观观测测数数据据706.2072.2323.1708.0455.0k10.015.025.040.050.0kKP2828.10879.7635.6024.5841.3001.0005.0010.0025.005.0101表16.;YX%9.99,828.10k1:关系关系有有与与把握认为把握认为就有就有如果如果例如例如;YX%5.99,879.7k2系系有关有关与与把握认为把握认为就有就有如果如果;YX%99,635.6k3有关系有关系与与把握认为把握认为就有就有如果如果;YX%5.97,024.5k4系系有关有关与与把握认为把握认为
13、就有就有如果如果;YX%95,841.3k5有关系有关系与与把握认为把握认为就有就有如果如果;YX%90,706.2k6有关系有关系与与把握认为把握认为就有就有如果如果.YX,706.2k有关系有关系与与显示显示就认为没有充分的证据就认为没有充分的证据如果如果17.如下列联表根据题目所给数据得到解秃顶与患心脏病列联表表11114377726651048597451389175214总计不秃顶秃顶总计患其他病患心脏病?.175772,214,665,1围内有效围内有效你所得的结论在什么范你所得的结论在什么范有关系有关系脏病是否脏病是否验方法判断秃顶与患心验方法判断秃顶与患心图形和独立性检图形和独
14、立性检分别利用分别利用人秃顶人秃顶人中有人中有脏病而住院的男性病脏病而住院的男性病名不是因为患心名不是因为患心而另外而另外人秃顶人秃顶有有病人中病人中名男性名男性院的院的病而住病而住因为心脏因为心脏在某医院在某医院 18.42.1图患心脏病患心脏病患患其其他他病病秃顶秃顶不秃顶不秃顶.,.42.1秃顶与患心脏病有关为某种程度上认以在可的乘积要大一些高度体线上两个柱底面副对角较来说比所示如图维柱形图相应的三.635.6373.1677266510483894511755972141437,11122K得到中的数据根据列联表.%99秃顶与患心脏病有关的把握认为所以有.,住院的病人群体因此所得到的结
15、论适合的病人因为这组数据来自住院19.30022872178143351228537总总计计女女男男总总计计不不喜喜欢欢数数学学课课程程喜喜欢欢数数学学课课程程联表性别与喜欢数学课程列表121?.513.4K2为为什什么么否否有有关关系系否否喜喜欢欢数数学学课课程程之之间间是是高高中中生生的的性性别别与与是是由由表表中中数数据据计计算算得得:,300,2得到如下列联表得到如下列联表名学生名学生抽出抽出中随机中随机在某城市的某校高中生在某城市的某校高中生之间的关系之间的关系是否喜欢数学课程是否喜欢数学课程为考察高中生的性别与为考察高中生的性别与 20.:,.%95具体过程如下验的基本思想据是独立
16、性检作出这种判断的依课之间有关系性别与喜欢数学以上把握认为可以有约解.dcbabdacdccbaa,dccbaa,.d,c,b,a应很大即相差很多应该数学课的人数比例与女生中喜欢例的比课学数欢中喜生则男系有关课学数欢如果性别与是否喜生人数数、不喜欢数学课的女数学课的女生人数、喜欢不喜欢数学课的男生人的男生人数、表示样本中喜欢数学课分别用21.,dbcadcbadcba乘以常数因子将上式等号右边的式子,dbcadcbabdacnK22然后平方得.,K.dcban2成立的可能性越大欢数学课之间有关系性别与喜越大因此其中22.%95,%.5,.A,513.4K.A,05.0841.3KP841.3KA,222喜欢数学课之间有关系性别与的把握认为约有所以可能性约为并且这种判断出错的成立欢数学课之间有关系性别与喜我们应该断定据假设检验的基本原理根发生这表明小概率事件据计算得而由样本数是一个小概率事件因此事件的概率为由于事件没有关系性别与喜欢数学课之间假设另一方面23.
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。