1、第9章 分类数据与2(卡方)检验9.1、列联表工具9.2、拟合优度与卡方检验9.3、独立性检验9.1、列联表工具9.1.1.列联表的构成列联表是由两个以上的分来变量进行交叉分类的频数分布表,它是一种关于分类变量关系的简便易行的工具。比如某高校要了解教师生对图书馆电子文献数据库使用的满意程度,对本科生、研究生以及教工进行了问卷调查,调查的结果如表9-1所示。表9-1 师生对图书馆电子文献数据库满意度调查反馈本科生研究生教职员合 计满 意220180200600不满意1004010150合 计3202202107509.1.2.列联表的分布1、观察频数分布边际频数联合频数边际频率联合频率本科生 研
2、究生 教职员 合 计满 意220180200600不满意1004010150合 计320220210750%8.68320220Y|(本科生)满意XP%7.36600220|Y(满意)本科生 XP%3.29750220Y(本科生)满意XP师生满意度的观察频数、频率分布表本科生研究生教职员合计满 意220180200600%68.8 81.8 95.2 80.0%36.7 30.0 33.3-%29.3 24.0 26.7-不满意1004010150%31.3 18.2 4.8 20.0%66.7 26.7 6.7-%13.3 5.3 1.3-合计(人数)320220210750(%)42.7
3、29.3 28.0 100.0 2、期望值的分布列联表分析的目的是探讨行变量和列变量之间是否存在关系或者是否独立,这就需要用到期望频数。从观察数据来看,在所有750名被调查者中间,态度为满意的有600人,即占80%,那么按照这一比例,如果态度不受被访者身份的影响(即假设在所有被访者中满意的比例都相等,那么在本科生、研究生教职员中间态度为满意的人数应该分别有:256%80320176%80220168%80210师生满意度的期望察频数分布表本科生研究生教职员合计满 意320220210 0.80.80.8256176168600不满意3202202100.20.20.2644442150合 计3
4、20220210750师生满意度的期望频数、观察察频数分布表本科生研究生教职员合计满 意220180200600256176168不满意1004010150644442合计3202202107509.2 拟合优度与卡方检验1、2(卡方)统计量在列联表中,由于在计算卡方统计量时行边际频数和列边际频数一定的条件下,相当于增加了限制条件,因此在R C 维的列联表中,卡方统计量的自由度为(R-1)(C-1)。eeofff22)(2、拟合优度检验拟合优度检验(Goodness of Fit Test)是用来判断作为分类变量,每一类的比例是否相等。例9.1某高校要了解教师生对图书馆电子文献数据库使用的满意
5、程度,对本科生、研究生以及教工进行了问卷调查,调查的结果见9-1所示,以0.05的显著性水平检验被访者的满意率是否存在差异。解:如果不存在差异,本科生、研究生、教职员满意率应该是相等的,因此构造假设:H0:1=2=3H1:1,2,3不全等fofe(fo-fe)2(fo-fe)2/fe22025612965.0625180176160.090920016810246.095210064129620.25004044160.363641042102424.3810 合计56.2432描述统计和推断统计关系图根据列联表确定自由度为2的临界值24.56)(213122ijeeofff9915.5)2(
6、05.0224.5620 =.05Reject H0Do not reject H022.05=5.9915例9.2、在一次英语考试中,考试成绩如表9-5,研究人员想了解这一考试成绩是否服从=50,=15的正态分布。显著性水平0.05。成绩分组人数小于 301030-402140-503350-604160-702670-801080-90790以上2合 计150解:假如这一数据服从正态分布XN(50,152),那么可以计算出每一组的期望频率,进而得到频数:以此类推,计算出各组的期望频率和频数。如下表:09121.0)3333.1()155030()30(ZPZPXP16128.0)06667
7、.003333.1()155040155030()4030(ZPZPXP英语成绩分组表即期望频数计算表成绩分组人数标准化Z值落入区间概率期望频数小于 3010-1.33330.0912113.6830-4021-0.66670.1612824.1940-50330.00000.2475137.1250-60410.66670.2475137.1260-70261.33330.1612824.1970-80102.00000.0684610.2680-9072.66670.018922.8490以上22.66670.003830.57合 计150-根据公式,计算样本统计量:查卡方临界值,此时自由
8、度为7由于 所以,不能拒绝原假设,因此可以认为英语成绩服从正态分布,均值为50,标准差为15。0578.1220671.14)7(05.02)7(0578.1205.0229.3 独立性检验独立性检验是为了判断列联表中的行变量和列变量是否存在关联的问题,比如原料的质量是否与产地有关;对父母的孝敬程度是否与孩子的性别有关等等。9.3.1 变量独立与联合概率在一生产车间需要考虑不同的生产工艺和生产的零件质量是否存在关联。分别用四种工艺生产一些零件,生产的零件被分为三类:合格(可以直接使用)、重新打磨(再加工后可用)、废弃,生产零件的数据及质量情况如表9-7表9-7 四种工艺下生产样品检验情况假设工
9、艺与产品质量无关,那么,联合概率等于边际概率的乘积,即:合格重新打磨废弃合计工艺A1441224180工艺B1322018170工艺C5913880工艺D115530150合计4505080580580180580450)(第一单元格P7.139580580180580450ef9.3.2 卡方统计量与独立性检验表9-8 四种工艺下产品的期望频数故落入拒绝域,可以认为加工零件的质量与加工工艺不独立,之间存在相关性。合格重新打磨废弃工艺A139.715.524.8工艺B131.914.723.4工艺C 62.1 6.911.0工艺D116.412.920.75916.12)6(63.19/)(0
10、5.0222eeofff例9.4例:对表9-9所示频数分布表,以5%显著水平,检验色觉与性别是否有关。f11=956/1000*480=459性别色觉男女合计正常色盲44238514695644合计4805201000解:H0:1=2(色觉与性别无关)H1:12(色觉与性别有关)故拒绝原假设,所以有充分理由说明色觉与性别有关。性别色觉男女合计正常色盲459214972395644合计480520100014.27/)(22eeofff84.3)1(14.2705.0229.3.3 一致性检验和独立性检验区别与联系一致性检验和独立性检验所用的统计量都是卡方统计量,所构造的原假设从数学形式上也没有任何差别。第一,从样本取得方式上存在差异。第二,在假设构造上存在差异。第三,期望值的计算存在差异。9.3.4 卡方方检验的期望值准则在卡方检验中,计算卡方统计量的是样本容量足够大。第一,如果变量只分为两类,即仅两个单元格时,要求每个单元格的期望频数必须大于等于5。第二,当单元格多于两个时,期望频数小于5的单元格数应少于所有单元格数的20%。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。