1、心理统计黄华.Ch17:卡方分析date200909.17卡方分析卡方分析n品质品质数据数据及其整及其整理:理:列联表列联表n单因素单因素 检检验验:配合配合度检度检验验n双因素双因素 检检验验:一致一致性和性和独立独立性性n相关相关样本样本的的 检检验验n 检检验验SPSSSPSS操作操作.Review:品质变量和数量变量(:品质变量和数量变量(ch02)变量变量定定量的量的(Quantitative)(Quantitative)离散离散的的(Discrete)(Discrete)连续连续的的(Continuous)(Continuous)定定性的性的(Qualitative)(Qualit
2、ative)有序有序的的(Ordinal)(Ordinal)分分类类的的(Categorical)(Categorical).品质数据品质数据品质变量的结果表现为类别,各类别用符号或数字代码来测度品质变量的结果表现为类别,各类别用符号或数字代码来测度 例如例如:性:性别别 ( (男男, , 女女) )用用1 1跟跟2 2来表示来表示使用定类或定序尺度使用定类或定序尺度 你吸烟吗你吸烟吗? ? 1.1.是;是;2.2.否否 你赞成还是反你赞成还是反对对这一改革方案这一改革方案? ? 1.1.赞成;赞成;2.2.反反对对对品质数据的描述和分析通常使用列联表对品质数据的描述和分析通常使用列联表.列联
3、表列联表由两个以上的变量进行交叉分类的频数分布表由两个以上的变量进行交叉分类的频数分布表行行变量的变量的类别类别用用 r r 表示,表示, r ri i 表示第表示第 i i 个类别个类别列列变量的变量的类别类别用用 c c 表示,表示, c cj j 表示第表示第 j j 个类别个类别每种每种组组合合的的观察频观察频数用数用 f fijij 表示表示一个一个 r r 行行 c c 列列的的列联表称为列联表称为 r r c c 列联表列联表nf12+ f22f11+ f21合合计计f21+ f22f22f21i =2f11+ f12合合计计f12j =1j =1f11i =1列列( cj )行
4、行(ri) 列列.列联表:案例列联表:案例你在一个集团公司担任你在一个集团公司担任HRHR助助理理,本公司在四个不同,本公司在四个不同的的地区设有地区设有分分公司,公司,现现HRHR部门欲进行一项改革,此项改革可能涉及到各部门欲进行一项改革,此项改革可能涉及到各分分公司公司的的利益,故利益,故采采用用抽样调查方式,从四个抽样调查方式,从四个分分公司共抽取公司共抽取420420个样本单个样本单位位( (人人) ),了解,了解职工职工对对此项改革此项改革的的看法,调查结果如下表。问看法,调查结果如下表。问:不同不同的分的分公司公司的的员工员工对对方案方案的的态态度度有差有差异异吗?吗?一一分分公司
5、公司二二分分公司公司三三分分公司公司四四分分公司公司合合计计赞成赞成68755779279反反对对32753331141合合计计10012090110420.观察值的分布观察值的分布边缘分布边缘分布行边缘分布行边缘分布 行观察值的合计数的分布行观察值的合计数的分布 例如,赞成改革方案的共有例如,赞成改革方案的共有279279人,反对改革方案的人,反对改革方案的141141人人列边缘分布列边缘分布 列观察值的合计数的分布列观察值的合计数的分布 例如,四个分公司接受调查的人数分别为例如,四个分公司接受调查的人数分别为100100人人110110人人条件分布与条件频数条件分布与条件频数变量变量X X
6、条件下变量条件下变量Y Y的分布,或变量的分布,或变量Y Y条件下变量条件下变量X X的分布。的分布。每个具体的观察值称为条件频数每个具体的观察值称为条件频数.观察值的分布观察值的分布一一分分公司公司二二分分公司公司三三分分公司公司四四分分公司公司合合计计赞成赞成68755779279反反对对32753331141合合计计10012090110420列边缘分布列边缘分布行边缘分布行边缘分布条件频数条件频数.期望频数期望频数假定行假定行变量和变量和列列变量变量是独立是独立的的一个实际频一个实际频数数f fijij的期的期望频望频数数e eijij ,是总频,是总频数数n n乘以该实际频乘以该实际
7、频数数f fijij落入落入第第i i行行和和第第j j列列的的概率,即概率,即例如,第例如,第1 1行行和和第第1 1列列的的实际频实际频数数为为f f1111, ,它落在第它落在第1 1行行的的概率估概率估计值计值为该行为该行的的频频数数之之和和r r1 1除以总频除以总频数的数的个个数数n n,即,即r r1 1/ /n n;它落在第;它落在第1 1列列的的概率概率的的估估计值计值为该列为该列的的频频数数之之和和c c1 1除以总频除以总频数的数的个个数数n n ,即,即c c1 1/ /n n。根根据据概率乘法公式,该频概率乘法公式,该频数数落在第落在第1 1行行和和第第1 1列列的的
8、概率应为概率应为本案例中本案例中:ncrncnrnejiiiij ncnr116643.66420100279111111 ncrncnrne.期望频数的分布期望频数的分布根根据据上述公式上述公式计计算算的的前例前例的期的期望频望频数数一一分分公司公司二二分分公司公司三三分分公司公司四四分分公司公司赞成赞成实际频实际频数数68755779期期望频望频数数66806073反反对对实际频实际频数数32753331期期望频望频数数34403037.列联表的分析:列联表的分析: 检验检验用用于于检检验列联表中验列联表中变量变量之之间间是否存在显著是否存在显著性性差差异异,或者,或者用用于于检检验验变变
9、量量之之间间是否独立。是否独立。计计算公式为算公式为ijijijeef22)(列类别的期望频数行第列联表中第列类别的实际频数行第列联表中第式中:其自由度为jiijejiijfcr) 1)(1(.17卡方分析卡方分析n品质品质数据数据及其整及其整理:理:列联表列联表n单因素单因素 检检验验:配合配合度检度检验验n双因素双因素 检检验验:一致一致性和性和独立独立性性n相关相关样本样本的的 检检验验n 检检验验SPSSSPSS操作操作.单因素单因素 检验:配合度检验检验:配合度检验卡方配适(配合)度检定卡方配适(配合)度检定( (TheThe Chi-SqaureChi-Sqaure Goodnes
10、s-of-FitGoodness-of-Fit TestTest) ) 检检定资料定资料的的次次数分数分布是否合乎某种特定布是否合乎某种特定的分的分布布;我们经常想要知道样本在某些性质上的比例分布是否与总体相同,例如肇庆我们经常想要知道样本在某些性质上的比例分布是否与总体相同,例如肇庆市居民的年龄分布是否与全广东的人口年龄分布相同市居民的年龄分布是否与全广东的人口年龄分布相同?民意测验调查的样本民意测验调查的样本中,受访者的教育程度分布是否能正确反映广东人口的教育分布?中,受访者的教育程度分布是否能正确反映广东人口的教育分布?此类问题此类问题涉及到单因素的配合度的检验。涉及到单因素的配合度的检
11、验。 H H0 0:总体总体在某在某性性质上呈现某种比例质上呈现某种比例分分布布 H H1 1:总体总体不为某种比例不为某种比例分分布布.案例案例美国商业司以收入来将家户美国商业司以收入来将家户分分类。人口类。人口统计数据统计数据显示美国显示美国的的家庭收家庭收入有下列入有下列的分的分布布:JolietJoliet市市的的市长想要知道该市市长想要知道该市的的收入收入分分布是否与全美国布是否与全美国的的情况情况相相当当:在在JolietJoliet市中抽取市中抽取200200户人家来验证上述假设,并算出每层级收入户人家来验证上述假设,并算出每层级收入中,实际上观察到中,实际上观察到的的次次数分数
12、分布布(observed(observed frequencies)frequencies)分分别为别为5555, , 6565, , 7272, , 8 8。问问:该市该市的的收入收入分分布是否与全美国布是否与全美国的的情况情况相相当当.解答思路解答思路H H0 0: :p p1 1=.2,=.2, p p2 2=.3,=.3, p p3 3=.4,=.4, p p4 4=.1=.1H H1 1:H0H0中至少有一个比例不正确中至少有一个比例不正确;如果我们如果我们的的虚拟假设为真,则虚拟假设为真,则200200户预户预期的分期的分布为下表布为下表:将实际上观察到将实际上观察到的的次次数分数
13、分布与预布与预期的分期的分布作比较,如果布作比较,如果两两个次个次数数十十分分接近,则虚拟假设为真接近,则虚拟假设为真的的机率很大,但如果机率很大,但如果两两者差距很大,则我们虚者差距很大,则我们虚拟假设为真拟假设为真的的机率不高。机率不高。.解答思路解答思路cont.cont.如何知道如何知道两组数两组数字字的的差距是否够大?差距是否够大? 为了为了检检验验两两者者的的差距是否很大,差距是否很大,我们以一个简要我们以一个简要的的指标来衡指标来衡量量,即即 统计量统计量。42443233222212112)()()()(eeoeeoeeoeeo自由度显著水平) 1()(,122keeokikk
14、k.解答思路解答思路cont.cont.042.142 . 7800.417.625. 5)(122kikkkeeo)(2f201.34.1104.14 H3,01.20rejectCriticalCritical valuevalue = = 11.3411.34.配合度检验:总结配合度检验:总结由上述的讨论可知,卡方配合度由上述的讨论可知,卡方配合度检验检验的步骤为:的步骤为: (1)(1)对对于总于总体的分体的分布作了一些假设布作了一些假设; (2)(2)然后找出在假设为真然后找出在假设为真的的前提下,我们预前提下,我们预期期得到得到的的样本样本分分布;布; (3)(3)比较实际观察到比
15、较实际观察到的分的分布与预布与预期分期分布之布之间间是否一致,以此来验证我们是否一致,以此来验证我们对对于总于总体分体分布布的的假设是否合假设是否合理理。我们可以用我们可以用配合配合度度检验检验来检验随机变量来检验随机变量X X是否具有某种是否具有某种概率概率分布分布.练习练习19951995美国暴力犯罪美国暴力犯罪的的类型类型分分布布500500件件9595年以来犯罪年以来犯罪的的随机样本随机样本请问暴力犯罪型态从请问暴力犯罪型态从19951995以来是否已经发生以来是否已经发生变变化化? ?.练习答案练习答案.17卡方分析卡方分析n品质品质数据数据及其整及其整理:理:列联表列联表n单因素单
16、因素 检检验验:配合配合度检度检验验n双因素双因素 检检验验:一致一致性和性和独立独立性性n相关相关样本样本的的 检检验验n 检检验验SPSSSPSS操作操作.双因素双因素 检验:检验:独立性检验独立性检验独立独立性检性检验验:检:检验列联表中验列联表中的的行行变量变量与列与列变量变量之之间间是否独立,或判是否独立,或判断断两两个因素之个因素之间间是否存在是否存在关关联。联。检检验验的的步骤为步骤为 提出假设提出假设 H H0 0:行行变量变量与列与列变量变量独立独立 H H1 1:行行变量变量与列与列变量变量不独立不独立 计计算算检检验验的统计量的统计量 根根据据显著显著性性水水平平 和和自
17、由自由度度( (r r-1)(-1)(c c-1)-1)查出临界查出临界值值 2 2 若若 2 2 2 2,拒绝,拒绝H H0 0;若;若 22=19.82 2 29.4489.448,拒绝,拒绝H H0 082.19)(22ijijijeef.练习练习某学校某学校对对学生学生的的课外活动内容进行调查,结果如表所示。问学生课外活动内容进行调查,结果如表所示。问学生性性别别与他们选择与他们选择的的活动之活动之间间是否存在是否存在关关联?联?.一致性(同质性)检验一致性(同质性)检验一致一致性检性检验验:判断几次重复试验判断几次重复试验的的结果是否结果是否相相同。同。 独立独立性检性检验验关关注注
18、的的是列链表是列链表两两个因素之个因素之间间是否存在是否存在关关联,在一致联,在一致性检性检验中,其中一个因素反映验中,其中一个因素反映的的是几个重复试验,它是几个重复试验,它关关注注的的是这是这几个重复试验几个重复试验的的结果有无显著差结果有无显著差异异。实际上。实际上两两者没有本质差者没有本质差异异,双因素卡方双因素卡方检检验往往既可以验往往既可以理理解为一致解为一致性检性检验,也可以验,也可以理理解为独解为独立立性检性检验。验。数据数据结构、结构、统计量和计统计量和计算算/ /检检验过验过程程与独立与独立性检性检验验相相同。(略)同。(略)ijijijeef22)(.练习:一致性检验练习
19、:一致性检验对男对男/ /女性进行职业观调查,在问及女性进行职业观调查,在问及“面临事业与家庭的两难决策时,面临事业与家庭的两难决策时,你愿意将事业还是家庭放在第一位你愿意将事业还是家庭放在第一位”时,时,7979位被调查的男人中有位被调查的男人中有5151位位选择了事业,而选择了事业,而6868位女性受访者中位女性受访者中4545位选择了家庭。对于这个观点的位选择了家庭。对于这个观点的态度与性别有关系吗?态度与性别有关系吗?请尝试用今天的知识问答。请尝试用今天的知识问答。(H H0 0: :两种性别的受访者的态度一致两种性别的受访者的态度一致/ /相同)相同)如果将如果将H H0 0设定为:
20、性别与受访者的态度有关吗?则为独立性检验。设定为:性别与受访者的态度有关吗?则为独立性检验。并请思考还有其他的解决办法吗并请思考还有其他的解决办法吗?.2 22 2的的 检验检验在双因素卡方在双因素卡方检检验中,验中,两两个因素都只有个因素都只有两两个水个水平平,就成为一个,就成为一个2 22 2的的卡卡方方检检验。验。 每种处每种处理理只产生只产生两两种种相相互互对对立立的的结果,如生与死,支持与反结果,如生与死,支持与反对对,通,通过与不通过,阳过与不通过,阳性性与阴与阴性性,等等。,等等。独立样本独立样本的的情况,如下表所示情况,如下表所示:.基本思想概括基本思想概括若若H H0 0成立
21、,则四个格子的实际频数成立,则四个格子的实际频数A A与理论频数与理论频数T T之差异纯系抽样误差所致,之差异纯系抽样误差所致,故一般不会很大,故一般不会很大, 2 2值也就不会很大;在一次随机试验中,出现大的值也就不会很大;在一次随机试验中,出现大的 2 2值的概值的概率率P P是很小的。是很小的。因此,若根据实际样本资料求得一个很小的因此,若根据实际样本资料求得一个很小的P P,且,且P P ( (检验水准检验水准) ),根据小概,根据小概率原理,就有理由怀疑率原理,就有理由怀疑H H0 0的真实性,因而拒绝它;若的真实性,因而拒绝它;若P P ,则没有理由拒绝,则没有理由拒绝H H0 0
22、(其实思路跟前述的卡方检验思想一致)(其实思路跟前述的卡方检验思想一致).独立样本:四格表专用公式独立样本:四格表专用公式 2 2检检验验的的条件条件: n n 4040 且所有且所有T T 5 5 2 2校正校正的的条件条件: n n4040 但有但有l lT T5 5 当当n n和和T T过小,如过小,如T T1 1或或n n4040时时因近似因近似程度程度太差,不宜太差,不宜用用 2 2检检验,而验,而应改应改用用确切概率法。确切概率法。专专用用公式公式和和矫正公式如下所示矫正公式如下所示:)()()()(22dbcadcbanbcad)()()()2/(22dbcadcbanncbda
23、C.案例案例你打算研究在你打算研究在心理心理咨询中认知疗法与行为疗法咨询中认知疗法与行为疗法的的效果。你效果。你对两对两种疗种疗法法的的结果进行了结果进行了对对比,比,数据数据如下。问如下。问:两:两种疗法之种疗法之间导间导致致的心理的心理障障碍缓解率有差碍缓解率有差异异吗?吗?.案例:解答过程案例:解答过程H H0 0:p p1 1= =p p2 2;(两两个疗法个疗法的的缓解率没有差缓解率没有差异异)H H1 1:p p1 1 p p2 2。 0.050.05。本例本例a a格格的理论的理论频频数数最小,最小,T T1111=12=12 16/41=4.68516/41=4.6840n40
24、,故考虑,故考虑用用校校正公式正公式计计算算 2 2值值。按按dfdf=1=1查附表查附表3 3, 2 2界界值值表,得表,得P P0.050.05,按,按 = = 0.050.05水准不拒绝水准不拒绝H H0 0,差,差异异无无统计统计学意义。故根学意义。故根据据本资料尚不能认为本资料尚不能认为两两种疗法种疗法的的总总体体缓解率有缓解率有差别。差别。84. 336. 22516291241)2/414110152(21 ,05. 022C.练习练习你你对对学校男生与女生学校男生与女生的的幸福感有兴趣,于是你去作随机抽样调查,认幸福感有兴趣,于是你去作随机抽样调查,认为幸福为幸福的的人人和和不
25、幸福不幸福的的人人的分的分布如下。请问布如下。请问:男生与女生之男生与女生之间间幸福水幸福水平平存在差存在差异异吗?吗?.17卡方分析卡方分析n品质品质数据数据及其整及其整理:理:列联表列联表n单因素单因素 检检验验:配合配合度检度检验验n双因素双因素 检检验验:一致一致性和性和独立独立性性n相关相关样本样本的的 检检验验n 检检验验SPSSSPSS操作操作.相关样本的相关样本的 检验检验相关相关样本四格表资料样本四格表资料 2 2检检验验的的目目的的是通过是通过对对单一样本或配单一样本或配对对样本样本数据数据的分析的分析,推断,推断两两种处种处理的理的结果有无结果有无差别差别 。 对对同一样
26、本同一样本分分别别用用甲、乙甲、乙两两种方种方法处法处理理, 配配对对设设计计是是常用的常用的设设计计方法之一,方法之一,二二分分类结果资料类结果资料的的配配对对研究研究常用常用于比较于比较两两种实验处种实验处理理方法、比如方法、比如两两种教学方法种教学方法的的差别。差别。.相关样本相关样本2 2* *2 2 2 2检验的应用检验的应用当当b b+ +c c4040时:时:直接直接计计算算 2 2当当2020b b+ +c c4040时:计时:计算算 2 2C C(矫正(矫正值值)当当b b+ +c c2020时:计时:计算确切概率(略)算确切概率(略)cbcb22)(cbcbC22) 1(.
27、案例案例一家俱乐部想了解观看主场比赛是否一家俱乐部想了解观看主场比赛是否导导致公众致公众对对其支持态其支持态度的度的改改变变。随机选取了随机选取了239239名观看比赛名观看比赛的的球迷进行赛前赛后球迷进行赛前赛后的的调查,结果如下。调查,结果如下。问,比赛是否会影响球迷问,比赛是否会影响球迷对对球队球队的的态态度度。.案例:解答过程案例:解答过程H H0 0:观看比赛前后球迷观看比赛前后球迷对对球队球队的的支持不支持不变变,即总,即总体体B B= =C C;H H1 1:观看比赛前后球迷观看比赛前后球迷对对球队球队的的支持改支持改变变,即总,即总体体B B C C。 =0.05=0.05。计
28、计算算统计量统计量(2020b b+ +c c4040:计:计算算 2 2C C)按按dfdf=1=1查查 2 2界界值值表,表,P P0.0050.005。在。在 =0.05=0.05水准上拒绝水准上拒绝H H0 0 ,接受,接受H H1 1,差,差异异有有统计统计学意义。可认为观看比赛学意义。可认为观看比赛导导致球迷致球迷对对球队球队的的态态度度发生改发生改变变。 90.12526) 1526(22.练习练习某校根某校根据据各方面条件基本各方面条件基本相相同同的的原则,将学生配成原则,将学生配成140140对对,然后将每,然后将每对对学生随机学生随机分分入实验入实验组和对组和对照照组组,经
29、一段,经一段时间时间教学后,确定他们教学后,确定他们的的阅阅读能力,结果如表所示读能力,结果如表所示:问实验问实验组和对组和对照照组组阅读能力有没有显著差阅读能力有没有显著差异异?.17卡方分析卡方分析n品质品质数据数据及其整及其整理:理:列联表列联表n单因素单因素 检检验验:配合配合度检度检验验n双因素双因素 检检验验:一致一致性和性和独立独立性性n相关相关样本样本的的 检检验验n 检检验验SPSSSPSS操作操作.四格表的卡方检验 :SPSS数据结构数据结构.定权重定权重Data-Weight caseData-Weight case.打开列联表设置打开列联表设置Analyze-Descriptive Statistics-Crosstabs Analyze-Descriptive Statistics-Crosstabs .设置设置statistics和和cells.SPSS输出结果输出结果.SPSS输出结果输出结果.SPSSSPSS练习练习某学校某学校对对学生学生的的课外活动内容进行调查,结果如表所示。问学生课外活动内容进行调查,结果如表所示。问学生性性别别与他们选择与他们选择的的活动之活动之间间是否存在是否存在关关联?联?.