1、第六章第六章 检验检验(Chi-square test)(卡方检验卡方检验)2本章主要介绍卡方检验的基本概念、独本章主要介绍卡方检验的基本概念、独立性检验方法、适合性检验方法立性检验方法、适合性检验方法在科研工作和实际生产中,我们经常会碰到许多质在科研工作和实际生产中,我们经常会碰到许多质量性状方面的资料,这些资料可以转化成百分率量性状方面的资料,这些资料可以转化成百分率后使用后使用 t-test 方法进行检验,但这仅限于一个样方法进行检验,但这仅限于一个样本率与总体率的比较、两个样本率间的比较本率与总体率的比较、两个样本率间的比较除此之外,我们还可以用除此之外,我们还可以用 检验来完成检验工
2、作检验来完成检验工作特别当有多个样本进行比较时,必须用特别当有多个样本进行比较时,必须用 检验来完检验来完成成22第一节第一节 检验的意义和原理概念检验的意义和原理概念2遗传学中,研究某一性状是否受一对等位基因的控制,该性状在后代的分遗传学中,研究某一性状是否受一对等位基因的控制,该性状在后代的分离比例是否符合某种规律离比例是否符合某种规律例例1 孟德尔的豌豆花试验(红花孟德尔的豌豆花试验(红花 705朵、白花朵、白花 224朵),这朵),这一分离是否符合一分离是否符合3:1的分离比例的假设?的分离比例的假设?如果这一如果这一 3:1 的理论比例是正确的,那么这一试验所出现的的理论比例是正确的
3、,那么这一试验所出现的红花和白花的理论比例应当是:红花和白花的理论比例应当是:红花:红花:696.75 白花:白花:232.25显然,实际出现的红花、白花的朵数与理论值之间有一定的显然,实际出现的红花、白花的朵数与理论值之间有一定的差异,即差异,即observed frequency和和expected frequency(如何用(如何用 t-test来完成这一检验?)来完成这一检验?)连续进行多次试验,每一次的结果都不会相同,每连续进行多次试验,每一次的结果都不会相同,每一次的结果都不会刚好符合理论值一次的结果都不会刚好符合理论值可以这样设想:观察值与理论值之间的差距可以这样设想:观察值与理
4、论值之间的差距越小越小,表示试验结果与理论值越表示试验结果与理论值越相符相符;反之,观察值与;反之,观察值与理论值之间的距离理论值之间的距离越大越大,表示试验结果与理论值,表示试验结果与理论值越越不符不符,当这一差值大到一定程度时,我们就可,当这一差值大到一定程度时,我们就可以认为豌豆花的颜色是不受一对等位基因控制的,以认为豌豆花的颜色是不受一对等位基因控制的,可能是另外一种遗传模式可能是另外一种遗传模式但如何来但如何来界定界定这种相符或不相符?这种相符或不相符?从数据上看,实际观察次数与理论次数存从数据上看,实际观察次数与理论次数存在一定的差异,这个差异是属于在一定的差异,这个差异是属于抽样
5、误差抽样误差、还是还是性性状在后代的分离比例状在后代的分离比例发生了实质性发生了实质性的变化的变化?要回答这个问题,要回答这个问题,首先需要确定一个统计首先需要确定一个统计量用以表示实际观察次数与理论次数偏离量用以表示实际观察次数与理论次数偏离的程度的程度;然后判断这一偏离程度是否属于;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。抽样误差,即进行显著性检验。为了度量实际观察次数与理论次数偏离的程度,最简单的为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与理论次数的差数。办法是求出实际观察次数与理论次数的差数。当将这两个差值当将这两个差值相加相加,(,(70
6、5-696.75)+(224-232.25)=0。可以说,。可以说,任何类似的问题其任何类似的问题其结果都是结果都是 0。为了避免正、负抵消,可将两个差数平方后再相加,即计算为了避免正、负抵消,可将两个差数平方后再相加,即计算(O-E)2,且且由于平方,使得原来较大的差变得更大了,因而增大了分析问题的灵由于平方,使得原来较大的差变得更大了,因而增大了分析问题的灵敏性敏性但利用但利用(O-E)2表示实际观察次数与理论次数的偏离程度尚有不足。表示实际观察次数与理论次数的偏离程度尚有不足。未考虑未考虑观察次数(与理论次数)的大小对偏离程度的影响。为了弥补观察次数(与理论次数)的大小对偏离程度的影响。
7、为了弥补这一不足,可先将各差数平方除以相应的理论次数后再相加(转化为这一不足,可先将各差数平方除以相应的理论次数后再相加(转化为相对比值)并记之为,即相对比值)并记之为,即上例中:红花:上例中:红花:白花:白花:两者之和:两者之和:2OEE2705696.750.098696.752224232.250.293232.2520.0980.2930.3912=值值越小越小,表示试验结果与理论值越,表示试验结果与理论值越相符相符;反之,反之,越大越大,表示试验结果与理论值越,表示试验结果与理论值越不符不符,2分布分布2 是一种连续型分布,可用于检是一种连续型分布,可用于检验资料的实际频数和按检验假
8、设计验资料的实际频数和按检验假设计算的理论频数是否相符等问题。早算的理论频数是否相符等问题。早在在1875年,年,F.Helmet即得出来自正即得出来自正态总体的样本方差的分布服从卡方态总体的样本方差的分布服从卡方分布。分布。1900年,年,K.Pearson也独立也独立地从检验分布的拟合优度发现这一地从检验分布的拟合优度发现这一相同的卡方分布。相同的卡方分布。Karl Pearson(1857-1936)2 2分布分布 2分布的概率密度函数:分布的概率密度函数:2 2分布分布 2分布的概率密度函数:分布的概率密度函数:连续性校正连续性校正 由于由于2 2分布是连续性分布,被检验的资料是离散型
9、的分分布是连续性分布,被检验的资料是离散型的分类资料,而从离散型资料得到的统计量只是近似地服从类资料,而从离散型资料得到的统计量只是近似地服从2 2分布,因此,为了保证有足够的近似程度,一般要求:分布,因此,为了保证有足够的近似程度,一般要求:自由度必须大于自由度必须大于 1理论频数不少于理论频数不少于 52若某组的理论次数小于若某组的理论次数小于5,则应把它与其相邻,则应把它与其相邻的一组或几组合并,直到理论次数大于的一组或几组合并,直到理论次数大于5为止为止。当自由度大于当自由度大于1时,时,分布与连续型随机变分布与连续型随机变量分布相近似,这时,可不作连续性矫量分布相近似,这时,可不作连
10、续性矫正,但要求各组内的理论次数不小于正,但要求各组内的理论次数不小于5。当自由度为当自由度为 1时,时,Yates(1934)提出了一个矫正公式,矫正后的提出了一个矫正公式,矫正后的 2值记为值记为 c222|0.5cOEE例例2 正常情况下,中国婴儿的性别比为:正常情况下,中国婴儿的性别比为:51:49即每出生即每出生 100 个女婴,就有个女婴,就有 103105 个男婴个男婴统计某地区连续统计某地区连续 3年的婴儿性别比,得:男婴年的婴儿性别比,得:男婴4691人:人:女婴女婴4159人,试问该地区的新生儿性别比正常吗?人,试问该地区的新生儿性别比正常吗?我们用列表的方式检查之:我们用
11、列表的方式检查之:婴儿性别婴儿性别 实际值(实际值(O)理论值(理论值(E)O-E 男婴男婴 4691 4513.5 177.5 6.98 女婴女婴 4159 4336.5 -177.5 7.27 合计合计 8850 8850.0 0 14.25 2OEE显然,这一显然,这一 值较大值较大,有可能这一地区的婴儿出,有可能这一地区的婴儿出生性别比不太正常(请用生性别比不太正常(请用 t-test 进行检验,看这进行检验,看这一性别比是否符合常规性别比)一性别比是否符合常规性别比)2例例3 长翅灰身(长翅灰身(LLGG)的果蝇与残翅黑檀体()的果蝇与残翅黑檀体(llgg)果蝇交配,其后代果蝇交配,
12、其后代F1全为长翅灰身,全为长翅灰身,F1自群繁育,自群繁育,结果出现了结果出现了 4 种表现型:长灰(种表现型:长灰(1477)、长黑)、长黑(493)、残灰()、残灰(446)、残黑()、残黑(143),现假定),现假定控制翅膀长度和身体颜色的两对基因是相互独立控制翅膀长度和身体颜色的两对基因是相互独立的,且都是显隐性关系,则四种类型的果蝇其比的,且都是显隐性关系,则四种类型的果蝇其比例应当是例应当是 9:3:3:1现需验证这次试验的结果是否符合这一分离比例现需验证这次试验的结果是否符合这一分离比例 长翅灰身长翅灰身(LLGG)残翅黑檀体残翅黑檀体(llgg)长翅灰身长翅灰身(L_G_)长
13、灰长灰 长黑长黑 残灰残灰 残黑残黑 (1477)(493)(446)(143)1477+493+446+143=2559以上二个例子都要求我们判断观测值与理论值之间以上二个例子都要求我们判断观测值与理论值之间是否相符,而我们都可以得到一个是否相符,而我们都可以得到一个 值值925591439.441632559479.811612559159.941622214771439.44143 159.94.5.5191439.44159.942 检验的一般步骤:检验的一般步骤:首先提出假设首先提出假设其次计算其次计算 值值最后根据最后根据 值出现的概率判断无效假设是否成立值出现的概率判断无效假设是
14、否成立自由度不同,自由度不同,分布是不同的分布是不同的 卡方分布的自由度仅与卡方分布的自由度仅与性状的类别性状的类别有关,而与有关,而与次数次数无关,例无关,例 1 中有两类花,因此其自由度为中有两类花,因此其自由度为 2-1=1例例 3 中有中有 4 类果蝇,因此其自由度为类果蝇,因此其自由度为 4-1=3不同检验自由度的计算也不一样不同检验自由度的计算也不一样2222第二节第二节 适合性检验适合性检验 一、适合性检验的意义一、适合性检验的意义 判断实际观察的属性类别分配是否符合判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称已知属性类别分配理论或学说的假设检验称为适
15、合性检验。为适合性检验。下一张下一张 主主 页页 退退 出出 上一张上一张 1.在适合性检验中,在适合性检验中,H0:实际属性类别分配:实际属性类别分配符合已知属性类别分配;符合已知属性类别分配;HA:实际属性类别分:实际属性类别分配不符合已知属性类别配不符合已知属性类别 2.在在无效假设成立无效假设成立的条件下的条件下,按已知属性类,按已知属性类别分配的理论或学说计算理论值。别分配的理论或学说计算理论值。下一张下一张 主主 页页 退退 出出 上一张上一张 3.因各个属性类别理论次数的总和应等于其实因各个属性类别理论次数的总和应等于其实际观察次数的总和,际观察次数的总和,适合性检验的适合性检验
16、的自由度等于自由度等于属性类别分类数减属性类别分类数减1。若属性类别分类数为。若属性类别分类数为k,则适合性检验的自由度为则适合性检验的自由度为 k-1。4.计算出计算出 2或或 2c,并与临界的,并与临界的 2值(值(20.05、20.01)比较:)比较:下一张下一张 主主 页页 退退 出出 上一张上一张 适合性检验适用于某一实际资料是否符合一理论值,适合性检验适用于某一实际资料是否符合一理论值,因此适合性检验常用于遗传学研究、质量鉴定、因此适合性检验常用于遗传学研究、质量鉴定、规范化作业、一批数据是否符合某种理论分布等。规范化作业、一批数据是否符合某种理论分布等。我们以例我们以例 3 来说
17、明适合性检验的一般步骤来说明适合性检验的一般步骤设立无效假设,设立无效假设,果蝇的分类观测值与理论值相符果蝇的分类观测值与理论值相符 两者不符两者不符计算计算 值,前面已经得到值,前面已经得到 df=4-1=3 查查 值表,得值表,得接受无效假设,即果蝇的这四种类型分离符合自由接受无效假设,即果蝇的这四种类型分离符合自由组合定律组合定律 9:3:3:10:Hvs:AH20.05,37.815220.05,35.5197.8150.05p25.51922例例 2 的的 值需重新计算,因为性别比只有两类,因值需重新计算,因为性别比只有两类,因此其自由度为此其自由度为 1,应作连续性校正,应作连续性
18、校正连续性校正公式是:连续性校正公式是:先作无效假设:先作无效假设:本例男女婴性别比符合常规比例本例男女婴性别比符合常规比例 不符常规比例不符常规比例计算计算 值值查查 值表,得值表,得0:Hvs:AH22|0.5cO EE2224691 4513.5 0.5|4159 4336.5|0.514.164513.54336.5c2c20.01,16.635220.01,114.166.635c0.01p22否定无效假设,接受备择假设,即该地区婴儿出生否定无效假设,接受备择假设,即该地区婴儿出生的性别比极显著偏离正常性别比,应查找原因的性别比极显著偏离正常性别比,应查找原因(例(例 1 是否需要作
19、连续性校正?)是否需要作连续性校正?)的分割的分割有时候,经有时候,经 检验,检验,被推翻,而接受了被推翻,而接受了 ,即表,即表示整个资料不符合某一理论比例。示整个资料不符合某一理论比例。问题:问题:但这总的但这总的 值是反映全部资料均不符合理论比例?值是反映全部资料均不符合理论比例?还是其中部分资料不符合比例?还是其中部分资料不符合比例?下面我们看一个例题下面我们看一个例题2220HAH 两对性状两对性状F2分离的四种表现型观测资料分别为分离的四种表现型观测资料分别为154、43、53、6,试问该批资料是否符合,试问该批资料是否符合 9:3:3:1?该例的自由度为该例的自由度为 4-1=3
20、(不需要进行校正)(不需要进行校正)先计算理论次数:先计算理论次数:154+43+53+6=256A-B-:144 A-bb:48 aaB-:48 aabb:16 设立无效假设(略)设立无效假设(略)2222220.05,3154 14443 4853 486 161444848160.694 0.521 0.521 6.257.9867.8150.05p否定无效假设,接受备择假设,即这批资料与设定否定无效假设,接受备择假设,即这批资料与设定的理论分离比例的理论分离比例 9:3:3:1 不符不符是整批资料都不符?还是部分不符?是整批资料都不符?还是部分不符?我们需作进一步的分析,因此应对我们需
21、作进一步的分析,因此应对 作分割作分割这种分割是建立在这种分割是建立在 具有可加性的特点上的,具有可加性的特点上的,而这种可加性只有在次数资料各部分相互而这种可加性只有在次数资料各部分相互独立、且不作连续性校正的基础上才能成独立、且不作连续性校正的基础上才能成立立22卡方检验再分割具体步骤 1.用用 检验确定实际值与理论值是否有差异检验确定实际值与理论值是否有差异 2.确定确定 值最大的属性类别项值最大的属性类别项 3.检验其余项是否符合理论分配比例检验其余项是否符合理论分配比例 4.再检验再检验 值最大项与其余项的合并组是否符合值最大项与其余项的合并组是否符合理论分配比例理论分配比例222该
22、例的四个分值分别为:该例的四个分值分别为:0.694+0.521+0.521+6.25=7.986显然,前面三个分值较小,因此先取前三部分的比例作显然,前面三个分值较小,因此先取前三部分的比例作 检验检验:154+43+53=250 A-B-:150 A-bb:50 aaB-:50提假设,计算统计量提假设,计算统计量接受无效假设,即这三部分资料的实际观测值符合接受无效假设,即这三部分资料的实际观测值符合9:3:3 的理论比例的理论比例2222220.05,21541504350535015050500.1070.980.181.2675.9910.05p再检查再检查aabb 与这三部分之和是否
23、符合与这三部分之和是否符合1:15前三部分之和(理论值前三部分之和(理论值):240 aabb:16这说明这说明 aabb 不符合理论比例不符合理论比例22220.05,12502400.5|6 16|0.5240160.3765.6416.0173.841c0.05p 检验中的适合性检验一般要求样本量应大一些,检验中的适合性检验一般要求样本量应大一些,样本较小会影响到检验的正确性,特别是当理论样本较小会影响到检验的正确性,特别是当理论比例中有较小值时(上一例中的比例中有较小值时(上一例中的 aabb),更应当),更应当注意样本容量,这一例即有样本偏小的倾向注意样本容量,这一例即有样本偏小的倾
24、向2第三节第三节 独立性检验独立性检验 一、独立性检验的意义一、独立性检验的意义 对次数资料,除进行适合性检验外,有对次数资料,除进行适合性检验外,有时需要分析两类因子是相互独立还是彼此相时需要分析两类因子是相互独立还是彼此相关。关。根据次数资料判断两类因子彼此相关或根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验相互独立的假设检验就是独立性检验。这时需要分析药物种类与疗效是否相关,若两这时需要分析药物种类与疗效是否相关,若两者彼此相关,表明疗效因药物不同而异,即两者彼此相关,表明疗效因药物不同而异,即两种药物疗效不相同;若两者相互独立,表明两种药物疗效不相同;若两者相互独立
25、,表明两种药物疗效相同。这种种药物疗效相同。这种根据次数资料判断两类根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立因子彼此相关或相互独立的假设检验就是独立性检验性检验。独立性检验实际上是基于次数资料对。独立性检验实际上是基于次数资料对子因子间相关性的研究。子因子间相关性的研究。下一张下一张 主主 页页 退退 出出 上一张上一张 独立性检验是检查两个变量、两个事件是否相互独独立性检验是检查两个变量、两个事件是否相互独立的这么一种检验立的这么一种检验例如:鱼池清塘与否与鱼病的发生是否有关?例如:鱼池清塘与否与鱼病的发生是否有关?若两者相互独立,即表示清塘无效,清塘后鱼的发若两者相互独
26、立,即表示清塘无效,清塘后鱼的发病率与没有清塘是一样的;如果清塘后鱼的发病病率与没有清塘是一样的;如果清塘后鱼的发病率显著降低了,表示清塘与鱼的发病率这两者间率显著降低了,表示清塘与鱼的发病率这两者间是有关系的是有关系的因此,独立性检验的无效假设是两变量相互独立,因此,独立性检验的无效假设是两变量相互独立,其备择假设是两变量相关(即两者之间有依存关其备择假设是两变量相关(即两者之间有依存关系)系)在设立无效假设的前提下,计算在设立无效假设的前提下,计算 值,当值,当 时,时,接受无效假设,即两变量相互独立;当接受无效假设,即两变量相互独立;当 否定否定无效假设,接受备择假设,即两变量之间存在相
27、无效假设,接受备择假设,即两变量之间存在相关关独立性检验没有理论比率,因此必须用列表的方式独立性检验没有理论比率,因此必须用列表的方式从现有的观测值次数来推算理论比值,这种用表从现有的观测值次数来推算理论比值,这种用表的方式来推算理论次数的方法是建立在两因子无的方式来推算理论次数的方法是建立在两因子无关(两因子相互独立),关(两因子相互独立),即两因子齐性的基础上即两因子齐性的基础上的的22222 独立性检验与适合性检验是两种不同的检独立性检验与适合性检验是两种不同的检验方法,除了研究目的不同外,还有以下区别:验方法,除了研究目的不同外,还有以下区别:(一)(一)独立性检验的次数资料是按两因子
28、独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的属性类别进行归组。根据两因子属性类别数的不同而构成不同而构成22、2c、rc列联表(列联表(r 为行为行因子的属性类别数,因子的属性类别数,c 为列因子的属性类别为列因子的属性类别数)。而适合性检验只按某一因子的属性类别数)。而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。将如性别、表现型等次数资料归组。(二)(二)适合性检验按已知的属性分类理论或学说计适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论
29、次数是在两因子相互独的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。立的假设下进行计算。(三)(三)在适合性检验中确定自由度时,只有一个约在适合性检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际次数之和,自由束条件:各理论次数之和等于各实际次数之和,自由度为属性类别数减度为属性类别数减1。而在。而在rc列联表的独立性检验列联表的独立性检验中,共有中,共有rc个理论次数,但受到以下条件的约束:个理论次数,但受到以下条件的约束:下一张下一张 主主 页页 退退 出出 上一张上一张 1、rc个理论次数的总和等于个理论次数的总和等于rc个实际次数的总和;个实际次数的总和;
30、2、r个横行中的每一个横行理论次数总和等于该行实个横行中的每一个横行理论次数总和等于该行实际次数的总和际次数的总和。但由于但由于r个横行实际次数之和的总和应等个横行实际次数之和的总和应等于于 rc 个实际次数之和个实际次数之和,因而独立的行约束条件只有,因而独立的行约束条件只有r-1个;个;3、类似地,独立的列约束条件有、类似地,独立的列约束条件有c-1个。个。因而在进行独立性检验时,自由度为因而在进行独立性检验时,自由度为rc-1-(r-1)-(c-1)=(r-1)(c-1),即等于(横行属性类别数,即等于(横行属性类别数-1)(直列属(直列属性类别数性类别数-1)。)。独立性检验独立性检验
31、一、一、22 表表结合实际例子来说明这种表的使用结合实际例子来说明这种表的使用将鱼苗放进鱼池前先将鱼池消毒,能否减轻鱼苗的将鱼苗放进鱼池前先将鱼池消毒,能否减轻鱼苗的发病情况,在此之前先作一试验,得数据如下:发病情况,在此之前先作一试验,得数据如下:发病发病 不发病不发病 合计合计 消毒消毒 300(a)920(b)1220不消毒不消毒 580(c)630(d)1210 合计合计 880 1550 2430这张表共这张表共 2 行、行、2 列,因此称为列,因此称为 22 表表从这张表中我们可以看出,消毒的鱼池中,有发病从这张表中我们可以看出,消毒的鱼池中,有发病的鱼苗,也有不发病的鱼苗;没消毒
32、的鱼池中,的鱼苗,也有不发病的鱼苗;没消毒的鱼池中,鱼也有发病和不发病两种鱼也有发病和不发病两种假设鱼池是否消毒不影响鱼的发病情况(这是无效假设鱼池是否消毒不影响鱼的发病情况(这是无效假设的前提和内容),那么,消毒鱼池和不消毒假设的前提和内容),那么,消毒鱼池和不消毒鱼池中鱼的发病率应当是一样的,所产生的误差鱼池中鱼的发病率应当是一样的,所产生的误差是抽样误差,即是抽样误差,即:1220880:2430a1220 880441.812430a1550 1220778.192430b880 1210438.192430c1550 1210771.812430d得:得:同样的道理,我们可得:同样的
33、道理,我们可得:我们将上述数据制成一张表:我们将上述数据制成一张表:发病发病 不发病不发病 合计合计 消毒消毒 300(441.81)920(778.19)1220不消毒不消毒 580(438.19)630(771.81)1210 合计合计 880 1550 2430表中,括弧内的就是理论值表中,括弧内的就是理论值需要注意的是,这种结构的需要注意的是,这种结构的 检验其自由度是横行检验其自由度是横行数减数减 1 乘以纵列数减乘以纵列数减 1:因此这里应该使用校正公式因此这里应该使用校正公式计算计算 值值222|0.5cO EE 2 12 11 2c设立无效假设设立无效假设设设 鱼苗的发病与鱼池
34、消毒与否无关(或:鱼池消鱼苗的发病与鱼池消毒与否无关(或:鱼池消毒与否不影响鱼苗是否发病)毒与否不影响鱼苗是否发病)鱼苗的发病与鱼苗的发病与鱼池消毒与否有关(或:鱼池消毒与否直接影响鱼池消毒与否有关(或:鱼池消毒与否直接影响鱼苗的发病)鱼苗的发病)得:得:2222220.01,1|300441.81|0.5920778.190.5441.81778.19580438.190.5|630771.81|0.5438.19771.81142.306.635c0.01p 0:H:AHvs否定无效假设,即鱼池消毒与否极显著地影响着鱼否定无效假设,即鱼池消毒与否极显著地影响着鱼苗的发病(或鱼苗的发病情况直
35、接受鱼池消毒与苗的发病(或鱼苗的发病情况直接受鱼池消毒与否的影响)否的影响)二、二、RC表(表(R:行:行 C:列):列)RC 表是表是 22 表的扩展,反之,表的扩展,反之,22 表也可以表也可以看成是看成是 RC 表的一个特例表的一个特例当行当行2、列、列2 时,时,22 表就成为了表就成为了 RC 表表这样的表称为这样的表称为列联表列联表(contingency table)RC 表的自由度为(表的自由度为(R-1)(C-1)实例:检查鱼的饲养方式与鱼的等级是否有关,设实例:检查鱼的饲养方式与鱼的等级是否有关,设计了如下试验:按不同方式分为三种网箱饲养类计了如下试验:按不同方式分为三种网
36、箱饲养类型:型:A、B、C,统计不同饲养方式下鱼的等级情,统计不同饲养方式下鱼的等级情况,得如下数据,试分析况,得如下数据,试分析 等等 饲养方式饲养方式 合合 级级 A B C 计计 甲甲 22(9.32)18(18.99)16(17.68)56 乙乙 18(16.56)16(16.28)14(15.16)48 丙丙 11(13.11)13(12.89)14(12.0 )38 丁丁 8(10.01)11(9.84)10(9.16)29 和和 59 58 54 171计算上表中各理论值(即括弧内的数值,如何计计算上表中各理论值(即括弧内的数值,如何计算?)算?)设设 鱼的等级与饲养方式无关鱼的
37、等级与饲养方式无关 鱼的等级与鱼苗鱼的等级与鱼苗的饲养方式有关的饲养方式有关将计算得到的理论值填入上表中,并计算将计算得到的理论值填入上表中,并计算 值:值:接受无效假设,即商品鱼的规格与饲养方式无关接受无效假设,即商品鱼的规格与饲养方式无关2222220.05,622 19.3218 18.9916 17.684.1935.817.33109.16.2.09312.5962.670:Hvs:AH20.05p独立性检验的公式可以使用简易公式,即不需要计独立性检验的公式可以使用简易公式,即不需要计算理论值,但这种公式较难记忆。算理论值,但这种公式较难记忆。三、配对资料的独立性检验三、配对资料的独
38、立性检验甲种属性甲种属性+-合计合计乙种属性乙种属性+aca+c-bdb+d合计合计a+bc+dn=a+b+c+d注意:注意:a、b、c、d代表对子数!代表对子数!表表1 配对四格表基本结构的配对四格表基本结构的甲种属性甲种属性+-乙种属性乙种属性+-+-abcd甲属性的阳性率:甲属性的阳性率:(a+b)/n乙属性的阳性率乙属性的阳性率:(a+c)/n若若H0成立,则有成立,则有(a+b)/n-(a+c)/n=0,即,即(b-c)/n=0可见,两个变量阳性率的比较只和可见,两个变量阳性率的比较只和b、c有关,而与有关,而与a、d无关。无关。若若H0成立,两种属性不一致的两个格子理论频数都应该是
39、成立,两种属性不一致的两个格子理论频数都应该是(b+c)/2例例4 现有现有198份痰标本,每份标本分别用份痰标本,每份标本分别用A、B两种培两种培养基培养结核菌,结果如下表,养基培养结核菌,结果如下表,A培养基的阳性培养培养基的阳性培养率为率为36.36%,B培养基的阳性培养率为培养基的阳性培养率为34.34%,试问,试问A、B两种培养基的阳性培养率是否相等?两种培养基的阳性培养率是否相等?A培养基培养基+-合计合计B培养基培养基+482068-24106130合计合计72126198表表2 两种培养基的培养结果两种培养基的培养结果第四节第四节 理论分布的检验理论分布的检验我们有时候需要知道
40、,某一个试验其结果是否符合我们有时候需要知道,某一个试验其结果是否符合某一理论分布,或希望知道符合什么样的理论分某一理论分布,或希望知道符合什么样的理论分布,这关系到试验的结果是否正常或是否合理布,这关系到试验的结果是否正常或是否合理下面我们用一个实例来说明这种检验下面我们用一个实例来说明这种检验显微镜下检查某奶样中结核菌的分布情况,根据视显微镜下检查某奶样中结核菌的分布情况,根据视野内小方格中结核菌数进行统计,并将不同结核野内小方格中结核菌数进行统计,并将不同结核菌数将格子归类,记录每类的格子数菌数将格子归类,记录每类的格子数结果见下表:结果见下表:格子内结核格子内结核菌数(菌数(x)a 0
41、 1 2 3 4 5 6 7 8 9 T格子数格子数 b 5 19 26 26 21 13 5 1 1 1 118我们先计算每格子内结核菌数的加权平均值:我们先计算每格子内结核菌数的加权平均值:计算每一种结核菌数目的概率值计算每一种结核菌数目的概率值 P(x)和理论格子和理论格子数:数:0 5 1 19.9 13522.983118118w 0.05064e 00.05064Pe 0118 0.050645.976E 10.15106Pe 117.825E 220.22532!Pe 226.586E 330.224033!Pe 326.436E将每一类型的概率值和理论格子数填入表下,并计算将每
42、一类型的概率值和理论格子数填入表下,并计算 值:值:a 0 1 2 3 4 5 6 7 8 9 T b 5 19 26 26 21 13 5 1 1 1 118c 0.051 0.151 0.225 0.224 0.167 0.100 0.050 0.029 0.008 0.003 1.00d 5.98 17.83 26.59 26.44 19.71 11.76 5.85 2.49 0.93 0.31 118 e 0.159 0.077 0.013 0.007 0.084 0.131 0.123 0.142上表中,上表中,a为前一表中的为前一表中的“格子内结核菌数格子内结核菌数(x)”,b为格
43、子数,为格子数,c为概率值为概率值P(x),d为理论格子数,为理论格子数,e为各个为各个 值,最后一个值值,最后一个值 0.142 是合并值是合并值得得 =0.736即该样本内结核菌的分布十分符合泊松分布即该样本内结核菌的分布十分符合泊松分布2OEE2220.05,916.9190.05p利用利用 分布,还可以对样本的方差进行同质性检验:分布,还可以对样本的方差进行同质性检验:一个样本的方差与总体方差的同质性检验公式为:一个样本的方差与总体方差的同质性检验公式为:两个样本的方差同质性检验公式为:两个样本的方差同质性检验公式为:2221,1nsdfn22221111112222222221111
44、11nsnnsFnnsns11221,1dfndfn2三个或以上样本的方差同质性检验公式为:三个或以上样本的方差同质性检验公式为:其中其中 为合并均方为合并均方 为校正值为校正值 为自由度为自由度 2221ln11 lnpiiisnnsc2211iipisnsn11113111iicknn 1dfk思考与习题:1、什么是适合性检验?什么是独立性检验?二者什么是适合性检验?什么是独立性检验?二者在无效假设、理论次数的计算、自由度计算和统在无效假设、理论次数的计算、自由度计算和统计推断等方面有何区别?计推断等方面有何区别?2、当自由度为当自由度为 1 时,卡方检验为什么要进行校正?时,卡方检验为什
45、么要进行校正?如何进行校正?如何进行校正?3、透明金鱼和非透明金鱼进行杂交,杂交一代全透明金鱼和非透明金鱼进行杂交,杂交一代全为半透明金鱼(五花鱼),五花鱼和五花鱼交配,为半透明金鱼(五花鱼),五花鱼和五花鱼交配,后代中出现了分离:透明鱼后代中出现了分离:透明鱼 130 尾,五花鱼尾,五花鱼255 尾,非透明鱼尾,非透明鱼 115 尾,请问金鱼的这一性状符合尾,请问金鱼的这一性状符合 1:2:1 的遗传规律吗?的遗传规律吗?4、扬子鳄有自行调节性比例为雄:雌扬子鳄有自行调节性比例为雄:雌=1:5 的繁的繁殖习性,今在某一自然保护区内检查扬子鳄的繁殖习性,今在某一自然保护区内检查扬子鳄的繁殖情况
46、时发现雄性幼鳄殖情况时发现雄性幼鳄 32 尾,雌性幼鳄尾,雌性幼鳄 170尾,尾,问这次调查具有代表性吗?问这次调查具有代表性吗?5、某水产所用土法疫苗免疫草鱼烂鳃病,注射了某水产所用土法疫苗免疫草鱼烂鳃病,注射了400 尾,其中免疫了尾,其中免疫了 325 尾,死亡了尾,死亡了 75 尾,对尾,对照照 400 尾(未作注射)中免疫了尾(未作注射)中免疫了 278 尾,死亡了尾,死亡了122 尾,试问这种土法疫苗具有免疫力吗?尾,试问这种土法疫苗具有免疫力吗?6、试对上一章第、试对上一章第 6 题进行卡方检验题进行卡方检验7、用某药物的三种浓度甲、乙、丙治疗、用某药物的三种浓度甲、乙、丙治疗
47、219 尾病尾病鱼,治疗结果见下表,试分析哪种浓度为最佳:鱼,治疗结果见下表,试分析哪种浓度为最佳:药物浓度药物浓度 治愈治愈 显效显效 好转好转 无效无效 甲甲 67 9 10 5 乙乙 32 23 20 4 丙丙 10 11 23 58、显微镜下检查水样内某类浮游生物,对视野下显微镜下检查水样内某类浮游生物,对视野下118 个小方格内的该类浮游生物进行计数,将格个小方格内的该类浮游生物进行计数,将格子按浮游生物出现的数目分类,试检验其分布是子按浮游生物出现的数目分类,试检验其分布是否符合泊松分布否符合泊松分布浮游生物出现数浮游生物出现数 0 1 2 3 4 5 6 7 8 9观察格子数观察格子数 5 19 26 26 21 13 5 1 1 1 (*)end