8.3 分类变量与列联表导学案.docx下载_163文库

资源描述

1、8.3 分类变量与列联表 1.通过对典型案例的探究,了解独立性检验(只要求22列联表)的基本思想、方法及初步应用.2.通过对数据的收集、整理和分析,增强学生的社会实践能力,培养学生分析问题、解决问题的能力.重点：了解独立性检验(只要求22列联表)的应用. 难点：独立性检验(只要求22列联表)的基本思想、方法1. 分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.2. 22列联表表是关于分类变量X和Y的抽样数据的22列联表:最后一行的

2、前两个数分别是事件Y=0和Y=1的频数;最后一列的前两个数分别是事件X=0和X=1的频数;中间的四个数a,b,c,d是事件X=x,Y=y(x, y=0,1)的频数;右下角格中的数n是样本容量。XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d3.两个分类变量之间关联关系的定性分析的方法：(1)频率分析法：通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中aa+b与cc+d值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.(2)图形分析法：与表格相比，图形更

3、能直观地反映出两个分类变量间是否互相影响，常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来，其中两列的数据分别对应不同的颜色，这就是等高堆积条形图.等高堆积条形图可以展示列联表数据的频率特征，能够直观地反映出两个分类变量间是否相互影响.4.独立性检验公式及定义：提出零假设(原假设)H0:分类变量X和Y独立，假定我们通过简单随机抽样得到了X和Y的抽样数据列联表，在列联表中，如果零假设H0成立，则应满足aa+bcc+d，即ad-bc0.因此|adbc|越小,说明两个分类变量之间关系越弱;|adbc|越大，说明两个分类变量之间关系越强.为了使不同样本容量

4、的数据有统一的评判标准,基于上述分析,我们构造一个随机变量2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d5.临界值的定义：对于任何小概率值，可以找到相应的正实数x，使得P(2x)=成立，我们称x为的临界值，这个临界值可作为判断2大小的标准，概率值越小，临界值x越大.基于小概率值的检验规则：当2x时，我们就推断H0不成立，即认为X和Y不独立，该推断犯错误的概率不超过；当23.841,所以有的把握判定主修统计专业与性别有关系.4.在500人身上试验某种血清预防感冒作用，把他们一年中的感冒记录与另

5、外500名未用血清的人的感冒记录作比较，结果如表所示。问：该种血清能否起到预防感冒的作用？未感冒感冒合计使用血清258242500未使用血清216284500合计47452610005.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康情况,得到22列联表如下:室外工作室内工作总计有呼吸系统疾病150无呼吸系统疾病100总计200(1)补全22列联表;(2)能否在犯错误的概率不超过0.05的前提下认为感染呼吸系统疾病与工作场所有关?(3)现采用分层抽样从室内工作的居民中抽取一

6、个容量为6的样本,将该样本看成一个总体,从中随机地抽取两人,求两人都有呼吸系统疾病的概率.参考答案：知识梳理学习过程一、问题探究问题1. 这是一个简单的统计问题,最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,为了方便,我们设f0=经常锻炼的女生数女生总数, f1=经常锻炼的男生数男生总数那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到f0=3315230.633, f1=4736010.787.由f1-f0 0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.所以该

7、校的女生和男生在体育锻等的经常性方面有差异,而且男生更经常锻炼. 用n表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以n为样本空间的古典概型,并定义一对分类变量X和Y如下:对于中的每一名学生,分别令X=0,该生为女生1,该生为男生，y=0,该生不经常锻炼1,该生经常锻炼,“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1);“性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)P(Y=1|X=1). 我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题.按照条件本概率的直观解释,如果从该校女生和男生中各随机选取

8、一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概率是P(Y=1|X=1).为了清楚起见,我们用表格整理数据性别锻炼合计不经常（Y=0）经常（Y=1）女生（X=0）192331523男生（X=1）128473601合计3208041124 我们用X=0,Y=1表示事件X=0和Y=1的积事件,用X=1,Y=1表示事件X=1和Y=1的积事件,根据古典概型和条件概率的计算公式,我们有P(Y=1|X=0)=n(X=0,Y=1)n(X=0)=3315230.633P(Y=1|X=1)=n(X=1,Y=1)n(X=1)=4736010.787由P(Y=1|X=1

9、)P(Y=1|X=0)可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为22列联表(contingency table).22列联表给出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件Y=0和Y=1中样本点的个数;最后一列的前两个数分别是事件X=0和X=1中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件X=x,Y=y

10、(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。性别锻炼合计不经常（Y=0）经常（Y=1）女生（X=0）192331523男生（X=1）128473601合计3208041124二、典例解析例1.解:用表示两所学校的全体学生构成的集合.考虑以为样本空间的古典概型.对于中每一名学生,定义分类变量X和Y如下:X=0,该生来自甲校1,该生来自乙校，y=0,该生数学成绩不优秀1,该生数学成绩优秀,学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788我们将所给数据整理成表（单位：人）表是关于分类变量X和Y的抽样数据的

11、22列联表:最后一行的前两个数分别是事件(Y=0)和(Y=1)的频数;最后一列的前两个数分别是事件(X=0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为33430.7674和1043 0.2326;乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为3845 0.8444和745 0.1556我们可以用等高堆积条形图直观地展示上述计算结果,如图所示左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率,通过

12、比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率,依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)P(Y=1|X=1).也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高。学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788问题2.有可能； “两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况：在随

13、机抽取的这个样本中，两个频率间确实存在差异，但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言，因为频率具有随机性，频率与概率之间存在误差，所以我们的推断可能犯错误，而且在样本容量较小时，犯错误的可能性会较大.因此，需要找到一种更为合理的推断方法，同时也希望能对出现错误推断的概率有一定的控制或估算.考虑以为样本空间的古典概型,设X和Y为定义在上,取值于0,1的成对分类变量,我们希望判断事件X=1和Y=1之间是否有关联。注意到X=0和X=1, Y=0和Y=1都是互对立事件,与前面的讨论类似,我们需要判断下面的假定关系H0:P(Y=1|X=0)=P(Y=1|X=1)是否成立,通常称H0

14、为零假设或原假设(null hypothesis).P(Y=1|X=0)表示从X=0中随机选取一个样本点,该样本点属于X=0,Y=1的概率;P(Y=1|X=1)表示从X=1中随机选取一个样本点,该样本点属于X=1,Y=1的概率。由条件概率的定义可知,零假设H0等价于P(X=0,Y=1)P(X=0)= P(X=1,Y=1)P(X=1)或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0). 考虑以为样本空间的古典概型,设X和Y为定义在上,取值于0,1的成对分类变量,我们希望判断事件X=1和Y=1之间是否有关联。注意到X=0和X=1, Y=0和Y=1都是互对立事件,与前面的讨论类似,

15、我们需要判断下面的假定关系H0:P(Y=1|X=0)=P(Y=1|X=1)是否成立,通常称H0为零假设或原假设(null hypothesis).P(Y=1|X=0)表示从X=0中随机选取一个样本点,该样本点属于X=0,Y=1的概率;P(Y=1|X=1)表示从X=1中随机选取一个样本点,该样本点属于X=1,Y=1的概率。由条件概率的定义可知,零假设H0等价于P(X=0,Y=1)P(X=0)= P(X=1,Y=1)P(X=1)或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0). 注意到(X=0)和(X=1)为对立事件,于是P(X=0)=1-P(X=1).再由概率的性质,我们有P

16、(X=0,Y=1)=P(Y=1)-P(X=1,Y=1).由此推得式等价于P(X=1)P(Y=1)=P(X=1,Y=1).因此,零假设H0等价于X=1与Y=1独立。根据已经学过的概率知识,下面的四条性质彼此等价: X=0与Y=0独立;X=0与Y=1独立;X=1与Y=0独立;X=1与Y=1独立。以上性质成立,我们就称分类变量X和Y独立,这相当于下面四个等式成立;P(X=0,Y=0)=P(X=0)P(Y=0); P(X=0,Y=1)=P(X=0)P(Y=1);P(X=1,Y=0)=P(X=1)P(Y=0); P(X=1,Y=1)=P(X=1)P(Y=1). 我们可以用概率语言,将零假设改述为H0:分

17、类变量X和Y独立.假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示。表是关于分类变量X和Y的抽样数据的22列联表:最后一行的前两个数分别是事件Y=0和Y=1的频数;最后一列的前两个数分别是事件X=0和X=1的频数;中间的四个数a,b,c,d是事件X=x,Y=y(x, y=0,1)的频数;右下角格中的数n是样本容量。XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d问题3:在零假设H0成立的条件下,根据频率稳定于概率的原理,由中的第一个等式,我们可以用概率P(X=0)和P(Y=0)对应的频率的乘积(a+b)(a+c)n2估计概率P(X=0,Y

19、应的差的绝对值也会较小.为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:2=(a-(a+b)(a+c)n)2(a+b)(a+c)n+(b-(a+b)(b+d)n)2(a+b)(b+d)n+(c-(c+d)(a+c)n)2(c+d)(a+c)n+(d-(c+d)(b+d)n)2(c+d)(b+d)n 该表达式可化简为：2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d). 统计学家建议,用随机变量2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立.问题4:那么,究竟2大到什么程度,可以推断H0不成

20、立呢?或者说,怎样确定判断2大小的标准呢? 根据小概率事件在一次试验中不大可能发生的规律, 可以通过确定一个与H0相矛盾的小概率事件来实现,在假定H0的条件下,对于有放回简单随机抽样,当样本容量n充分大时,统计学家得到了2的近似分布,忽略2的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数x,使得下面关系成立:P(2x)= 我们称x为的临界值,这个临界值就可作为判断2大小的标准,概率值越小,临界值x越大,当总体很大时,抽样有、无放回对2的分布影响较小.因此,在应用中往往不严格要求抽样必须是有放回的. 由式可知,只要把概率值取得充分小,在假设H0成立的情况下,事件2不大可能发

21、生的.根据这个规律,如果该事件发生,我们就可以推断H0不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过.例2：解：零假设为H0：分类变量X与Y相互独立，即两校学生的数学成绩优秀率无差异.因为学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788所以2=88(337-1038)2711743450.8372.706=x0.1根据小概率值=0.1的2独立性检验，没有充分证据推断H0不成立，因此可以认为H0成立，即认为两校的数学成绩优秀率没有差异。问题5.例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论

22、,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分,在本例中,我们用2独立性检验对零假设H0进行了检验,通过计算,发现20.837小于=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0,推断出两校学生的数学优秀率没有显著差异的结论, 这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的,因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的。由此可见,相对于简单比较两个频率的推断,用2独立性检验得到的结果更理性、更全面,理论依据也更充分。当我们接受零假设H0时,也可能犯错误。我们不知道犯这类错误的概率p的大

23、小,但是知道,若越大,则p越小例3.解：零假设为H0：疗法与疗效独立，即两种疗法效果没有差异.将所给数据进行整理，得到两种疗法治疗数据的列联表，疗法疗效合计未治愈治愈甲155267乙66369合计21115136根据列联表中的数据，经计算得到2=136（1563-526）26769211154.88110.858根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为吸烟者中不患肺癌和患肺癌的评率分别为,由可见，在被调查者中，吸烟者患肺癌的频率是不吸烟者患肺癌频率的4倍以上。于是，根据频率稳定于概率的原理，我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌概率，即吸烟更容易引发肺癌。跟踪训练

24、1. 解：a21，b23，c6，d29，n79，2n(ad-bc)2(a+b)(c+d)(a+c)(b+d).8.106，且P(27.879)0.005，即我们得到的2的观测值8.106超过7.879这就意味着：“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005，即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”P(x0)0.500.400.250.150.100.050.0250.0100.0050.001x00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828达标检测1. 解析:独立性检验是判断

25、两个分类变量是否有关系的方法,而都是概率问题,不能用独立性检验解决.答案:B2.计算得2=50(1815-89)2272326245.0593.841.答案:D3. 2=50(1320-107)2232720304.844.答案:95%4. 解：设H0：感冒与是否使用该血清没有关系。2=1000258284-24221624745265005007.075因当H0成立时， 26.635的概率约为0.01，故有99%的把握认为该血清能起到预防感冒的作用。P(x0)0.500.400.250.150.100.050.0250.0100.0050.001x00.4550.7081.3232.0722.7063.8415.0246.6357.87910.8285.解:(1)列联表如下:所以能在犯错误的概率不超过0.05的前提下认为感染呼吸系统疾病与工作场所有关.室外工作室内工作总计有呼吸系统疾病150200350无呼吸系统疾病50100150总计200300500(2)2=500(150100-20050)23501502003003.9683.841.(3)采用分层抽样从室内工作的居民中抽取6名,其中有呼吸系统疾病的抽4人,无呼吸系统疾病的抽2人,设A为“从中随机地抽取两人,两人都有呼吸系统疾病”,则P(A)=C42C62=25.

展开阅读全文

8.3 分类变量与列联表 导学案.docx

8.3 分类变量与列联表导学案.docx