分类数据分析PPT课件.ppt

上传人(卖家):三亚风情 文档编号:3438846 上传时间:2022-08-31 格式:PPT 页数:88 大小:844.50KB
下载 相关 举报
分类数据分析PPT课件.ppt_第1页
第1页 / 共88页
分类数据分析PPT课件.ppt_第2页
第2页 / 共88页
分类数据分析PPT课件.ppt_第3页
第3页 / 共88页
分类数据分析PPT课件.ppt_第4页
第4页 / 共88页
分类数据分析PPT课件.ppt_第5页
第5页 / 共88页
点击查看更多>>
资源描述

1、分类数据分析(优选)分类数据分析(优选)分类数据分析概概 述述 第七、八章介绍的估计和检验方法仅主第七、八章介绍的估计和检验方法仅主要针对数值型变量。而列联分析是针对分要针对数值型变量。而列联分析是针对分类变量进行分析的方法。类变量进行分析的方法。第第 9 章章 分类数据分析分类数据分析9.1 分类数据与分类数据与c c2统计量统计量 9.2 拟合优度拟合优度 检验检验9.3 列联分析:独立性检验列联分析:独立性检验9.4 列联表中的相关测量列联表中的相关测量9.5 列联分析中应注意的问题列联分析中应注意的问题学习目标学习目标1.解释列联表解释列联表进行进行 c c2 检验检验n拟合优度检验拟

2、合优度检验n独立性检验独立性检验3.测度列联表中的相关性测度列联表中的相关性分类数据分类数据分类变量的取值表现为类别n例如:性别(男,女)各类别可用符号或数字代码来测度n例如:性别(男用1表示,女用0表示)顺序数据也可以看作分类数据n原料的质量等级:一等品、二等品、三等品数值型数据也可以转化为分类数据n数学期末考试成绩是一个数值型数据,可以根据分数段将成绩为“优秀”、“良好”、“及格”和“不及格”几个类别对分类数据的描述和分析通常使用列联表列联表的构造列联表的构造列联表列联表(contingency table)由两个以上的变量交叉分类的频数分布表由两个以上的变量交叉分类的频数分布表行变量的类

3、别用行变量的类别用 r 表示,表示,ri 表示第表示第 i 个类别个类别列变量的类别用列变量的类别用 c 表示,表示,cj 表示第表示第 j 个类别个类别每种组合的观察频数用每种组合的观察频数用 fij 表示表示表中列出了行变量和列变量的所有可能的组表中列出了行变量和列变量的所有可能的组合,所以称为列联表合,所以称为列联表一个一个 R 行行 C 列的列联表称为列的列联表称为 R C 列联表列联表列联表的结构列联表的结构(2 2 列联表列联表)列联表的结构列联表的结构(r c 列联表的一般表示列联表的一般表示)列联表列联表(例题分析例题分析)列联表的分布列联表的分布观察值的分布观察值的分布边缘频

4、数边缘频数n行边缘分布(频数)行边缘分布(频数)l行观察值的合计数的分布行观察值的合计数的分布l例如,赞成改革方案的共有例如,赞成改革方案的共有279人,反对改革方案的人,反对改革方案的141人人n列边缘分布(频数)列边缘分布(频数)l列观察值的合计数的分布列观察值的合计数的分布l例如,四个分公司接受调查的人数分别为例如,四个分公司接受调查的人数分别为100人,人,120人,人,90人,人,110人人条条件分布与条件频数件分布与条件频数n表中每个具体的观察值都是变量表中每个具体的观察值都是变量 X 条件下变量条件下变量 Y 的的频数,或在变量频数,或在变量 Y 条件下变量条件下变量 X 的频数

5、,称为条件的频数,称为条件分布(频数)分布(频数)观察值的分布观察值的分布(图示图示)百分比分布百分比分布(概念要点概念要点)条件频数反映了数据的分布,但不适合对比n如二分公司赞成人数比一分公司多,并不表明二分公司比一分公司更赞成该方案,因为两公司调查人数不同。为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布百分比分布n行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)n列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)n总百分比:每一个观察值除以观察值的总个数(fij/n)百分比分布百分比分布(图示图示)列联分析是利用列联表来研究:()A.两个分类变量的

6、关系 B.两个数值型变量的关系 C.一个分类变量和一个数值型变量的关系 D.两个数值型变量的分布 以下列联表中,最右边一列称为:()A.列边缘频数;B.行边缘频数;C.条件频数;D.总频数练练 习习(1)AB(3)对于学生宿舍上网收费的新措施,男女学生的抽样调查结果如下列联表所示,在男女生赞成的比例相同的前提下,男女生赞成该措施的期望频数分别为:()A.48和39 B.102和81 C.15和14 D.25和19 Ac c 统计量统计量概概 述述 c c2检验检验(Chi-square test)是现代统计是现代统计学的创始人之一,英国人学的创始人之一,英国人K.Pearson(1857-19

7、36)于)于1900年提出的一种具有广年提出的一种具有广泛用途的统计方法,因此又称为泛用途的统计方法,因此又称为Pearson c c2检验。可用于两个或多个率或构成比间检验。可用于两个或多个率或构成比间的比较,定性资料的关联度分析,拟合的比较,定性资料的关联度分析,拟合优度检验等等。优度检验等等。c c 统计量统计量用于检验列联表中变量间拟合优度和独立性用于检验列联表中变量间拟合优度和独立性检验统计量为:检验统计量为:或或c c2统计量可以看作是检验真实值与期望值的接近程度。统计量可以看作是检验真实值与期望值的接近程度。22211()(1)(1)rcijijijijfijijeijijfeR

8、Cecc列联表中第 行第 列类别的实际频数列联表中第 行第 列类别的期望频数 2221()(1)coejeefoffCffcc实际频数期望频数 c c 统统计计量量分布与自由度的关系(goodness of fit test)期望频数的分布(例题分析)相关系数 B.测度列联表中的相关性4 列联表中的相关测量H1:员工所在分公司和对改革方案的态度并非相互独立V=0表明列联表中的两个变量独立05,得出的结论是:()例如,四个分公司接受调查的人数分别为100人,120人,90人,110人一个分类变量和一个数值型变量的关系由两个以上的变量交叉分类的频数分布表(150/500)(140/500)*500

9、A.列联表中的相关测量(例题分析)H0:1=2=3=4行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)H1:X和Y 不独立fij 表示第 i 行第 j 列的观察频数C 的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大c c 统计量统计量拟合优度检验:拟合优度检验:用于检验一个分类变量中各类别的期望频数和观察频数用于检验一个分类变量中各类别的期望频数和观察频数是否有显著差异。是否有显著差异。其实际为假设检验其实际为假设检验在原假设为观察频数和实际频数一致的前提下,有如下在原假设为观察频数和实际频数一致的前提下,有如下检验统计量:检验统计量:221()1coejeefo

10、fffCfc每一类别的观察频数每一类别的期望频数其自由度为式中:拟合优度检验的期望频数的拟合优度检验的期望频数的计算计算 若可求出第若可求出第i行第行第j列元素的期望概率列元素的期望概率pij,则一个实际频数则一个实际频数 fij 的期望频数的期望频数eij,是总频,是总频数的个数数的个数 n 乘以该实际频数乘以该实际频数 fij 的期望概的期望概率率pijijijen p 期望频数的计算举例期望频数的计算举例 举例:要检验各分公司对某项改革方案的举例:要检验各分公司对某项改革方案的看法是否相同?看法是否相同?期望频数的分布期望频数的分布(例题分析例题分析)在全部在全部420个样本中,赞成改革

11、方案的人数为个样本中,赞成改革方案的人数为279,占,占66.4%;反对的人数占;反对的人数占33.6%。在各分公司对改革方案看法相同的前提下,各分公司赞成(反对)。在各分公司对改革方案看法相同的前提下,各分公司赞成(反对)这项改革不同态度的期望频数为分公司总样本数这项改革不同态度的期望频数为分公司总样本数*66.4%(33.6%)。等价于)。等价于检验各分公司赞成方案的实际频数与期望频数是否一致。检验各分公司赞成方案的实际频数与期望频数是否一致。期望频数的分布期望频数的分布(例题分析例题分析)?等价于检验三个公司的期望购买人数和实际购买人数是否一致。等价于检验三个公司的期望购买人数和实际购买

12、人数是否一致。拟合优度检验拟合优度检验(例题分析例题分析1-1)【例例9.1】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有共2208人,其中男性1738人,女性470人。海难发生后,幸存者为718人,其中男性374人,女性344人,以的显著性水平(0.05)检验存活状况与性别是否有关。拟合优度检验拟合优度检验(例题分析例题分析1-2)分析:分析:在这次海难中,幸存者共在这次海难中,幸存者共718人,即总存活比例为人,即总存活比例为718/2208=0.325。若存活状况与性别无关,则男性存活。若存活状况与性别无关,则男性存活的期望人数为:的期望人数为:0.325 173

13、8565人,女性存活的期望人人,女性存活的期望人数为:数为:0.325 470153人,若男女性期望的存活人数和人,若男女性期望的存活人数和实际的存活人数非常接近,则可以认为存活率与性别无关实际的存活人数非常接近,则可以认为存活率与性别无关,反之,则认为存状况与性别相关。因此可以利用,反之,则认为存状况与性别相关。因此可以利用c c2统计统计量来检验。量来检验。4702208拟拟合合优优度度检检验验(例例题题分分析析1-3)H0:生存状况与性别无关生存状况与性别无关(观察频数与期望频数一致)H1:生存状况与性别相关(生存状况与性别相关(观察频数与期望频数不一致)=0.05df=(2-1)=1临

14、界值临界值(s):221()303coejefffc拟合优度检验拟合优度检验(例题分析例题分析2-1)【例例】一项统计结果声称:某市老年人口(年龄在65岁以上)所占的比例为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人年龄在65岁以上。调查结果是否支持该市老年人口比例为14.7%的说法?(=0.05)。拟合优度检验拟合优度检验(例题分析例题分析2-2)解:解:要回答观察的老年人数与期望的老年人数是否一致,检验如下假设:H0:老年人口比例为14.7%(观察频数与期望频数一致)H1:老年人口比例并非14.7%(观察频数与期望频数不一致)老年人老年人

15、非老年人非老年人实际人数57343期望人数5000.147595000.853341拟拟合合优优度度检检验验(例例题题分分析析2-3)=0.05df=(2-1)=1临界值临界值(s):注意:教材注意:教材P223中作的双侧检验中作的双侧检验有误。有误。221()0.0795coejefffc拟合优度检验拟合优度检验(例题分析例题分析2-1)注意:第注意:第8章介绍的总体比例检验只能用于二项分章介绍的总体比例检验只能用于二项分布,而布,而c c2统计量可用于多项分布的比例检验。统计量可用于多项分布的比例检验。两个变量的独立性两个变量的独立性检验检验独立变量检验独立变量检验(goodness of

16、 fit test)检验两个分类变量是否独立检验两个分类变量是否独立检验的步骤检验的步骤n提出假设提出假设lH0:变量:变量X和和Y独立独立j;H1:X和和Y 不独立不独立 n在原假设成立的前提下,可得到以下检验统计量在原假设成立的前提下,可得到以下检验统计量22211()(1)(1)rcijijijijfeRCecc期望频数的计算期望频数的计算假定行变量和列变量是独立的一个实际频数 fij 的期望频数期望频数 eij,是总频数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即jijiijcrcrennnn 期望频数的分布期望频数的分布(例题分析例题分析)111 111rc

17、rcennnn 11rcnn 独立性检验独立性检验(例题分析例题分析1-1)【例例9.2】一种原料来自三个不同的地区,原料质量一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如下表所示,要求检验各件进行检验,结果如下表所示,要求检验各个地区和原料质量之间是否存在依赖关系?个地区和原料质量之间是否存在依赖关系?(0.05)独立性检验独立性检验(例题分析例题分析1-2)jiijCTRTennn独立性检验独立性检验(例题分析例题分析1-3)独立性检验独立性检验(例题分析例题分析1-4)独立性检验独立性检验(例题

18、分析例题分析2-1)【例例】某集团公司某集团公司 欲进行一项改革,从所属的四个欲进行一项改革,从所属的四个分公司中共随机抽取了分公司中共随机抽取了420名职工,了解它们对名职工,了解它们对改革方案的态度(见下表),以改革方案的态度(见下表),以=0.1的显著性的显著性水平检验员工态度是否受所在分公司的影响。水平检验员工态度是否受所在分公司的影响。独立性检验独立性检验(例题分析例题分析2-1)解:解:若员工态度不受影响,则所在分公司与对改革若员工态度不受影响,则所在分公司与对改革方案的态度是相互独立的。可设定原假设和备择方案的态度是相互独立的。可设定原假设和备择假设分别为假设分别为 (1)确定假

19、设确定假设 H0:员工所在分公司和对改革方案的态度是相员工所在分公司和对改革方案的态度是相互独立的互独立的 H1:员工所在分公司和对改革方案的态度并非相员工所在分公司和对改革方案的态度并非相互独立互独立独立性检验独立性检验(例题分析例题分析2-3)0319.3)(22eefc独立性检验独立性检验(例题分析例题分析2-4)c c2检验的实质检验的实质独立性检验等价于检验多个比例是否相等或由期望独立性检验等价于检验多个比例是否相等或由期望的比例算出的期望频数与实际频数是否相等。的比例算出的期望频数与实际频数是否相等。检验的步骤检验的步骤n提出假设提出假设lH0:1=p1,2=p2,j=pj;H1

20、1=p1,2=p2,j=pj至少有一个不成立至少有一个不成立l原假设意为在一个分类变量原假设意为在一个分类变量C的不同取值下,另一个分类的不同取值下,另一个分类变量变量R的某一类别的占该的某一类别的占该R比例是否等于某个期望比例比例是否等于某个期望比例c c2检验的实质检验的实质n在原假设成立的前提下,可得到以下检验统计量在原假设成立的前提下,可得到以下检验统计量l若列联表中其中一个分类变量只是考虑的一个类别的观测值,若列联表中其中一个分类变量只是考虑的一个类别的观测值,则使用以下统计量(拟合优度检验)则使用以下统计量(拟合优度检验)进行决策进行决策 根据显著性水平根据显著性水平 和自由度和自

21、由度(r-1)查出临界值查出临界值c c 2 若若c c2c c 2,拒绝,拒绝H0;若;若c c2c c 2,拒绝,拒绝H0;若;若c c22,拒绝H0;4 列联表中的相关测量问题1:为什么2检验采用右单侧检验而不采用双边检验?条件百分表的方向(1)拟合优度检验(例题分析2-1)C.分析:设男女存活率分别为1和2男女学生全部都赞成 C.B.在广告宣传战之前,A公司、B公司和其它公司的市场占有率分别为45%、40%和15%。一个分类变量和一个数值型变量的关系 相关系数(原理分析)而列联分析是针对分类变量进行分析的方法。1的显著性水平检验员工态度是否受所在分公司的影响。当时船上共有共2208人,

22、其中男性1738人,女性470人。既不拒绝也不接收原假设列联表中的相关测量列联表中的相关测量品质相关品质相关n对品质数据对品质数据(分分类和顺序数据类和顺序数据)之间相关程之间相关程度的测度度的测度列联表变量的相关属于品质相关列联表变量的相关属于品质相关列联表相关测量的统计量主要有列联表相关测量的统计量主要有n 相关系数相关系数n列联相关系数列联相关系数nV 相关系数相关系数 相关系数相关系数(correlation coefficient)测度测度2 2列联表中数据相关程度列联表中数据相关程度对于对于2 2 列联表,列联表,系数的值在系数的值在01之间之间 相关系数相关系数计算公式为计算公式

23、为独立时的期望频数表示当两分类变量相互即样本容量为实际频数的总个数,)(式中:ijenricjijeijeijfn1 1222cc 相关系数相关系数(原理分析原理分析)一个简化的一个简化的 2 2 列联表列联表 相关系数相关系数(原理分析原理分析)列联表中每个单元格的期望频数分别为列联表中每个单元格的期望频数分别为ndcdbendbbaendccaencabae)()()()(22122111)()()()()()()()(2222222122112212112112dbcadcbabcadneedeeceebeeac 相关系数相关系数(原理分析原理分析)将将c c 入入 相关系数的计算公式得

24、相关系数的计算公式得)()()(2dbcadcbabcadnc 相相关关系系数数取取值值范范围围(原原理理分分析析)n2c)1,1min(0CR列列联联相相关关系系数数C(coefficient of contingency)列联相关系数列联相关系数C用于测度大于用于测度大于2 2列联表中数据的列联表中数据的相关程度相关程度计算公式为计算公式为nC22ccmmc/)1(0列列联联相相关关系系数数(优优缺缺点点)优点:优点:n计算简单,对总体分布没有任何要求。计算简单,对总体分布没有任何要求。缺点:缺点:n根据不同行和列计算的列联相关系数不便根据不同行和列计算的列联相关系数不便于比较。于比较。V

25、 相关系数相关系数(V correlation coefficient)由由Gramer提出,计算公式为提出,计算公式为中较小的一个表示取式中:)1(),1()1(),1(min)1(),1(min2crcrcrnVc列联表中的相关测量列联表中的相关测量(例题分析例题分析)列联表中的相关测量列联表中的相关测量(例题分析例题分析)199.050082.192nc195.050082.1982.1922nCcc141.0250082.19)1(),1(min2crnVc、C、V 的比较的比较同一个列联表,同一个列联表,、C、V 的结果会不同的结果会不同在对不同列联表变量之间的相关程度进行在对不同列

26、联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数的个数要相同,并且采用同一种系数(1)对于学生宿舍上网收费的新措施,男女学生的抽样调查结果如下列联表所示,如果要检验男女生赞成上网的比例是否相同,若根据数据计算得到|=1,则:()A.男学生全部赞成,女学生全部反对 B.男女学生全部都赞成 C.男女学生全部都反对 D.男学生全部赞成,女学生全部反对;或男学生全部反对,女学生全部赞成练练 习习(3)D(2)以下测度列联表中数据的相关程度的参数,取值范围有可能测度列联表中数据的相关程度的参数,取值范围有可能不在不在0,1

27、范围内的是:范围内的是:()A.相关系数 B.C相关系数 C.V相关系数 D.A、B、C都有可能 A条条件件百百分分表表的的方方向向(1)列联表中行列变量的置放位置列联表中行列变量的置放位置习惯做法:将自变量习惯做法:将自变量X放放在列头,因变量在列头,因变量Y放在行放在行头,条件百分比按照自变头,条件百分比按照自变量的方向计算量的方向计算 例如:调查不同职业的人的例如:调查不同职业的人的价值取向,职业看作自变价值取向,职业看作自变量,价值取向为因变量,量,价值取向为因变量,如左表,从左表数据可以如左表,从左表数据可以看出:从事服务业的人更看出:从事服务业的人更注重人情关系。注重人情关系。条条

28、件件百百分分表表的的方方向向(2)列联表中行列变量的置放位置列联表中行列变量的置放位置(2)如果因变量在样本内的分布不能代表其在总如果因变量在样本内的分布不能代表其在总体内的分布,仍以自变量方向计算百分比体内的分布,仍以自变量方向计算百分比,就有可能歪曲事实。,就有可能歪曲事实。条条件件百百分分表表的的方方向向(3)例如:欲研究家庭状况(例如:欲研究家庭状况(自变量)对青少年犯自变量)对青少年犯罪(因变量)的影响罪(因变量)的影响。某地区从未犯罪的。某地区从未犯罪的青少年有青少年有10000名,名,曾犯罪的青少年曾犯罪的青少年150名。如果从未犯罪的名。如果从未犯罪的青年中抽取青年中抽取100

29、名,名,从有犯罪记录的青年从有犯罪记录的青年中抽取中抽取75名,从左表名,从左表调查结果是否可以说调查结果是否可以说在 完 整 家 庭 中,有在 完 整 家 庭 中,有29%的青少年犯罪?的青少年犯罪?条条件件百百分分表表的的方方向向(4)例如:将计算百分比的方例如:将计算百分比的方向交换,可得左表。向交换,可得左表。则 有:在 未 犯 罪 的则 有:在 未 犯 罪 的1 0 0 位 青 少 年 中,位 青 少 年 中,92%来自完整家庭,来自完整家庭,8%来自离异家庭。来自离异家庭。c c2分分布布的的期期望望准准则则 对应用对应用c c2分布进行变量的独立性检验,要求列联分布进行变量的独立

30、性检验,要求列联表中每个单元的期望频数不能过小,需要满足以下几表中每个单元的期望频数不能过小,需要满足以下几个条件:个条件:(1)如果只有两个单元,每个单元的期望频数必须如果只有两个单元,每个单元的期望频数必须在在5或或5以上;(经验)以上;(经验)(2)若有两个以上的单元,如果若有两个以上的单元,如果20%的单元期望频的单元期望频数数fe5,则不能应用,则不能应用c c2检验;检验;本章小结本章小结解释列联表解释列联表计算期望频数计算期望频数进行进行 c c2 检验检验n拟合优度检验拟合优度检验 对列联表进行相关分析对列联表进行相关分析 用用Excel进行进行c c2 检验检验练练 习习P233:练习题9.1、9.2、9.5作作业业(1)1.从过往对应届毕业生的调查可知:希望进政府部门工作的占50%,进国有企事业单位的占20%,进外企工作的占25%,进民营企业工作的占5%。现从大四的学生中抽出500位同学,得到如下结果:选择进入政府部门的有286人,进入国有企事业单位的有124人,进入外企的有75人,进民营企业工作的15人。问:以0.05的显著水平进行检验:现在的情况与过往的调查是否发生了变化。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(分类数据分析PPT课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|