1、永昌一中永昌一中 赵珊赵珊学习目标展示:学习目标展示:理解独立性检验的基本思想;(难点)理解独立性检验的基本思想;(难点)理解随机变量理解随机变量 的含义;的含义;掌握独立性检验的步骤掌握独立性检验的步骤,并能够对两个分类变,并能够对两个分类变量进行独立性检验。(重点)量进行独立性检验。(重点)2K定量变量定量变量的取值一定是实数,它们的取值大小有特定的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义的含义,不同取值之间的运算也有特定的含义.如身高、体重、考试成绩、温度等等如身高、体重、考试成绩、温度等等.变量变量定量变量定量变量分类变量分类变量例如身高、体重、考试
2、成绩等,张明的身高是例如身高、体重、考试成绩等,张明的身高是180cm180cm,李立的身高是李立的身高是175cm175cm,说明张明比李立高,说明张明比李立高180-175=5180-175=5(cmcm).两个定量变量的相关关系分析:回归分析(画散点图、两个定量变量的相关关系分析:回归分析(画散点图、相关系数相关系数r、相关指数、相关指数R2、残差分析)、残差分析)对于性别变量,其取值为男和女两种,这种变量的不对于性别变量,其取值为男和女两种,这种变量的不同同“值值”表示个体所属的不同类别,像这样的变量称表示个体所属的不同类别,像这样的变量称为为分类变量分类变量.在日常生活中,主要考虑在
3、日常生活中,主要考虑分类变量之间是否有关系分类变量之间是否有关系:如是否吸烟、宗教信仰、是否患肺癌、国籍等等如是否吸烟、宗教信仰、是否患肺癌、国籍等等.例如,吸烟是否与患肺癌有关系?例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等性别是否对于喜欢数学课程有影响?等等.分类变量也称为属性变量或定性变量,它们的取值一分类变量也称为属性变量或定性变量,它们的取值一定是离散的,而且不同的取值仅表示个体所属的类别,定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等等取一级、二级
4、、三级等等.为调查吸烟是否对患肺癌有影响为调查吸烟是否对患肺癌有影响,某某肿瘤研究所随机地调查了肿瘤研究所随机地调查了99659965人人,得到如得到如下结果下结果:其中吸烟者其中吸烟者21482148人,不吸烟者人,不吸烟者78177817人,吸烟的人,吸烟的21482148人中人中4949人患肺癌,人患肺癌,20992099不患肺癌;不吸烟的不患肺癌;不吸烟的78177817人中人中4242人患人患肺癌,肺癌,77757775人不患肺癌。人不患肺癌。根据这些数据能否断定:患肺癌与吸烟根据这些数据能否断定:患肺癌与吸烟有关吗?有关吗?为了研究这个问题,我们将上述问题用下表表示:为了研究这个问
5、题,我们将上述问题用下表表示:在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 上述结论能说明吸烟与患肺癌有关吗?能有多大把握上述结论能说明吸烟与患肺癌有关吗?能有多大把握认为吸烟与患肺癌有关呢?认为吸烟与患肺癌有关呢?不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计987498749191996599652 22 2列联列联表表0.54%0.54%2.28%2.28%1)1)通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否
6、相关:三维柱形图三维柱形图2)2)通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:二维条形图二维条形图患肺癌患肺癌比例比例不患肺癌不患肺癌比例比例3)3)通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:等高条形图等高条形图上面我们通过分析数据和图形,得到的直观印象是吸上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如此呢?这需要烟和患肺癌有关,那么事实是否真的如此呢?这需要用统计观点来考察这个问题用统计观点来考察这个问题.现在想要知道能够以多大的把握认为现在想要知道能够以多大的把握认为“吸烟与患肺癌吸烟与患肺
7、癌有关有关”,为此先假设:,为此先假设:H H0 0:吸烟与患肺癌没有关系:吸烟与患肺癌没有关系不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d把数字用字母代替,得到如下用字母表示的列联表:把数字用字母代替,得到如下用字母表示的列联表:不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d吸烟与患肺癌的列联表:吸烟与患肺癌的列联表:如果如果“吸烟与患肺癌没有关系吸烟与患肺
8、癌没有关系”,则在吸烟者中不患,则在吸烟者中不患肺癌的比例应该与不吸烟者中相应的比例应差不多,肺癌的比例应该与不吸烟者中相应的比例应差不多,即即()()0aca cdc abadbcabcd|ad-bc|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|ad-bc|越大,说明吸烟与患肺癌之间关系越强越大,说明吸烟与患肺癌之间关系越强.以以A表示不吸烟,表示不吸烟,B表示不患肺癌,则表示不患肺癌,则a表示事件表示事件AB发生的频数;发生的频数;a+b和和a+c恰好分别为事件恰好分别为事件A和和B发生的发生的频数频数.为了使不同样本容量的数据有统一的
9、评判标准,基于为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量上述分析,我们构造一个随机变量 若若H H0 0成立,即成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,则,则K K2 2应很小应很小.由列联表中数据,利用公式(由列联表中数据,利用公式(1 1)计算得)计算得K K2 2的观测值为:的观测值为:(1 1)29965(7775 49422099)56.632.78172148 9874 91k 其中其中n=a+b+c+d为样本容量为样本容量.22()()()()()n adbcKac bd ab cd在在H0成立的情况下,统计学家估算出如下的概率:成
10、立的情况下,统计学家估算出如下的概率:2(6.635)0.01P K 也就是说,在也就是说,在H H0 0成立的情况下,对随机变量成立的情况下,对随机变量K K2 2进行多次进行多次观测,观测值超过观测,观测值超过6.6356.635的频率约为的频率约为0.010.01,是一个小概,是一个小概率事件率事件.现在现在K K2 2的观测值的观测值 ,远远大于,远远大于6.6356.635,所以有理由断定所以有理由断定H H0 0不成立,即认为不成立,即认为“吸烟与患肺癌有吸烟与患肺癌有关系关系”56.632k 但这种判断会犯错误,犯错误的概率不会超过但这种判断会犯错误,犯错误的概率不会超过0.01
11、,即,即我们有我们有99的把握认为的把握认为“吸烟与患肺癌有关系吸烟与患肺癌有关系”.利用随机变量利用随机变量K K2 2来确定在多大程度上可以认为来确定在多大程度上可以认为“两个两个分类变量有关系分类变量有关系”的方法称为两个分类变量的独立性的方法称为两个分类变量的独立性检验检验.独立性检验:独立性检验:独立性检验第一步:第一步:H H0 0:吸烟吸烟和和患病患病之间没有关系之间没有关系 通过数据和图表分析,得到通过数据和图表分析,得到结论是:结论是:吸烟与患病有关吸烟与患病有关结论的可靠结论的可靠程度如何?程度如何?患病患病不患病不患病总计总计吸烟吸烟a ab ba+ba+b不吸烟不吸烟c
12、 cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d第二步:列出第二步:列出2 22 2列联表列联表 用用K K2 2统计量研究这统计量研究这类问题的方法类问题的方法步骤步骤第三步:引入一个随机变量:第三步:引入一个随机变量:第四步:查对临界值表,作出判断。第四步:查对临界值表,作出判断。(不可信度表不可信度表)dcban其中 22na db cKabcdacbdP(x0)0.500.400.250.150.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635
13、7.879 10.828P(x0)0.500.400.250.150.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828210.828K 26.635K 22.706K 22.706K 0.1%0.1%把握认把握认为为A A与与B B无关无关1%1%把握认为把握认为A A与与B B无关无关99.9%99.9%把握认把握认为为A A与与B B有关有关99%99%把握认把握认为为A A与与B B有关有关90%90%把握认把握认为为A A与与B B有关有关10%10%把
14、握认为把握认为A A与与B B无关无关没有充分的依据显示没有充分的依据显示A A与与B B有关,有关,但也不能显示但也不能显示A A与与B B无关无关例如例如例例1.1.在在500500人身上试验某种血清预防感冒作用,把他们人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外一年中的感冒记录与另外500500名未用血清的人的感冒记名未用血清的人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防录作比较,结果如表所示。问:该种血清能否起到预防感冒的作用?感冒的作用?未感冒未感冒感冒感冒合计合计使用血清使用血清258242500未使用血清未使用血清216284500合计合计47452
15、61000解:设解:设H0:感冒与是否使用该血清没有关系。:感冒与是否使用该血清没有关系。221000 2582842422167.075474526500500K因当因当H0成立时,成立时,K26.635的概率约为的概率约为0.01,故有,故有99%的把握认的把握认为该血清能起到预防感冒的作用。为该血清能起到预防感冒的作用。P(x0)0.500.400.250.150.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828P(x0)0.500.400.250.150
16、.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828有效有效无效无效合计合计口服口服585840409898注射注射646431319595合计合计1221227171193193解:设解:设H0:药的效果与给药方式没有关系。:药的效果与给药方式没有关系。22193 583164401.3896122719895K因当因当H0成立时,成立时,K21.3896的概率大于的概率大于15%,故不能否定假设,故不能否定假设H0,即不能作出药的效果与给药方式有关的结论。,即
17、不能作出药的效果与给药方式有关的结论。2.072例例2 2:为研究不同的给药方式(口服与注射)和药的效:为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,根据所选择的调查的结果列在表中,根据所选择的193193个病人的数个病人的数据,能否作出药的效果和给药方式有关的结论?据,能否作出药的效果和给药方式有关的结论?P(x0)0.500.400.250.150.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706 3.841
18、 5.024 6.635 7.879 10.828例例3:气管炎是一种常见的呼吸道疾病,医药研究人:气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?所得数据如表所示,问:它们的疗效有无差异?有效有效无效无效合计合计复方江剪刀草复方江剪刀草18461245胆黄片胆黄片919100合计合计27570345解:设解:设H0:两种中草药的治疗效果没有差异。:两种中草药的治疗效果没有差异。22345 1849619111.09827570245100K因当因当H0成立时,成立时,K2
19、10.828的概率为的概率为0.001,故有,故有99.9%的把握的把握认为,两种药物的疗效有差异。认为,两种药物的疗效有差异。练练 1 为考察高中生的性别与是否喜欢数学课程之间的关系,为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取在某城市的某校高中生中随机抽取300名学生,得到如下名学生,得到如下列联表:列联表:喜欢数学课程喜欢数学课程不喜欢数学不喜欢数学总计总计男男 3785122女女 35143178总计总计 72228300在多大程度上可以认为高中生的性别与是否喜欢数学课在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?程之间有关系?练练2.某市为调查全市高中生学习状况是否对生理健康有影响,某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:随机进行调查并得到如下的列联表:不健康不健康 健康健康总计总计不优秀不优秀 41626667优秀优秀 37296333总计总计 789221000请问有多大把握认为请问有多大把握认为“高中生学习状况与生理健康有关高中生学习状况与生理健康有关”?练习:练习:书书 P15 1作业:作业:书书 P 16 1,2