1、编辑课件列联表、列联表、c c2检验和对数线性模型检验和对数线性模型 编辑课件三维列联表三维列联表(关于某项政策调查所得结果(关于某项政策调查所得结果:table7.sav)opinion*income Crosstabulationopinion*income CrosstabulationCount71519414525128252403112301opinionTotal123incomeTotal 观点:赞成(1)观点:不赞成(0)低收入(1)中等收入(2)高收入(3)低收入(1)中等收入(2)高收入(3)男1201055810女025157279s se ex x *o op pi
2、in ni io on n C Cr ro os ss st ta ab bu ul la at ti io on nCount184765233558418212301sexTotal01opinionTotal编辑课件列联表列联表 前面就是一个所谓的三维前面就是一个所谓的三维列联表列联表(contingency table).这些变量中这些变量中每个都有两个或更多的可能取每个都有两个或更多的可能取值值。这些取值也称为。这些取值也称为水平水平;比如收入有三;比如收入有三个水平,观点有两个水平,性别有两个水个水平,观点有两个水平,性别有两个水平等。平等。该表为该表为322列联表列联表 在在SP
3、SS数据中,表就不和课本印的一样,数据中,表就不和课本印的一样,收入的收入的“低低”、“中中”、“高高”用代码用代码1、2、3代表;性别的代表;性别的“女女”、“男男”用代码用代码0、1代表;观点代表;观点“赞成赞成”和和“不赞成不赞成”用用1、0代表。有些计算机数据对于这些代码的形代表。有些计算机数据对于这些代码的形式不限(式不限(可以是数字,也可以是字符串可以是数字,也可以是字符串)。)。编辑课件Table7.sav 数据数据编辑课件列联表列联表 列联表的中间各个变量不同水平的交列联表的中间各个变量不同水平的交汇处,就是这种水平组合出现的频数汇处,就是这种水平组合出现的频数或或计数计数(c
4、ount)。)。二维的列联表又称为二维的列联表又称为交叉表交叉表(cross table)。)。列联表可以有很多维。维数多的叫做列联表可以有很多维。维数多的叫做高维列联表。高维列联表。注意前面这个列联表的变量都是定性注意前面这个列联表的变量都是定性变量变量;但列联表也会带有但列联表也会带有定量变量作为定量变量作为协变量。协变量。编辑课件二维列联表的检验二维列联表的检验 研究列联表的一个主要目研究列联表的一个主要目的是看这些变量是否相关。的是看这些变量是否相关。比如比如前面例子中的前面例子中的收入和收入和观点观点是否相关是否相关。这需要形式上的检验这需要形式上的检验编辑课件二维列联表的检验二维列
5、联表的检验 下面表是把该例的三维表简化成下面表是把该例的三维表简化成只有收入只有收入和观点的二维表和观点的二维表(这是这是SPSS自动转化自动转化的的:Analyze-Descriptive Statistics-Crosstabs-.).OPINION*INCOME CrosstabulationCount71519414525128252403112301OPINIONTotal123INCOMETotal编辑课件二维列联表的检验二维列联表的检验 对于上面那样的二维表。我们检验的零假设对于上面那样的二维表。我们检验的零假设和备选假设为和备选假设为 H H0 0:观点和收入这两个变量不相关观
6、点和收入这两个变量不相关;H H1 1:这两个变量相关。这两个变量相关。这里的检验统计量在零假设下有(大样本时)这里的检验统计量在零假设下有(大样本时)近似的近似的c c2 2分布。分布。当该统计量很大时或当该统计量很大时或p p-值很小时,就可以拒值很小时,就可以拒绝零假设,认为两个变量相关。绝零假设,认为两个变量相关。实际上有不止一个实际上有不止一个c c2 2检验统计量。包括检验统计量。包括Pearson c c2 2统计量统计量和和似然比似然比(likelihood ratio)c c2 2统计量统计量;它们都有渐近的;它们都有渐近的c c2 2分布。分布。根据计算可以得到(对于这两个
7、统计量均有)根据计算可以得到(对于这两个统计量均有)p p-值小于值小于0.0010.001。因此可以说,收入高低的确。因此可以说,收入高低的确影响观点。影响观点。编辑课件21niiiiOEQE12lnniiiiOTOEPearson c c2 2统计量统计量似然比似然比c c2 2统计量统计量Oi代表第代表第i个格子的计数,个格子的计数,Ei代表按照零假设代表按照零假设(行列无关)(行列无关)对第对第i格子的计数的期望值格子的计数的期望值编辑课件二维列联表的检验二维列联表的检验 刚才说,这些刚才说,这些c c2 2统计量是近似的,那么统计量是近似的,那么有没有有没有精确的统计量呢?精确的统计
8、量呢?当然有。这个检验称为当然有。这个检验称为FisherFisher精确检验精确检验;它;它不是不是c c2 2分布,而是分布,而是超几何分布超几何分布。对本问题对本问题,计算计算FisherFisher统计量得到的统计量得到的p p-值也小值也小于于0.0010.001。聪明的同学必然会问,既然有精确检验聪明的同学必然会问,既然有精确检验为什为什么么还要用近似的还要用近似的c c2 2检验呢?检验呢?这是因为当数目很大时,超几何分布计算相这是因为当数目很大时,超几何分布计算相当缓慢(比近似计算会差很多倍的时间);当缓慢(比近似计算会差很多倍的时间);而且在计算机速度不快时,根本无法计算。而
9、且在计算机速度不快时,根本无法计算。因此人们多用大样本近似的因此人们多用大样本近似的c c2 2统计量。而列联统计量。而列联表的有关检验也和表的有关检验也和c c2 2检验联系起来了。检验联系起来了。编辑课件Fisher精确检验精确检验编辑课件C Ch hi i-S Sq qu ua ar re e T Te es st ts s10.288b1.001.002.0019.1071.00310.4961.001.002.001.002.001113Pearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact Test
10、N of Valid CasesValuedfAsymp.Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)Computed only for a 2x2 tablea.0 cells(.0%)have expected count less than 5.The minimum expected count is23.45.b.SPSS:Weight-Describ-crosstab-exact编辑课件table7.sav 其中有变量性别其中有变量性别(sex)、观点、观点(opinion)和收入和收入(income);每一列相应于其代表的
11、变量的水每一列相应于其代表的变量的水平平;每一行为一种水平的组合每一行为一种水平的组合(共有共有23212种种组合组合(12行行),),而每种组合的数目而每种组合的数目(也就是列联表中的频数也就是列联表中的频数)在在number那一列上面,这就是每种组合的权重那一列上面,这就是每种组合的权重(weight),),需要把这个数目考虑进去需要把这个数目考虑进去,称为加权称为加权(weight).).如果不加权,最后结果按照所有组合只如果不加权,最后结果按照所有组合只出现一次来算出现一次来算(也就是说,按照列联表每一格的频也就是说,按照列联表每一格的频数为数为1).).由于在后面的选项中没有加权的机
12、会由于在后面的选项中没有加权的机会,因此因此在一开始就要加权在一开始就要加权.方法是点击图标中的小天平方法是点击图标中的小天平(“(“权权”就是天平的意思就是天平的意思),),出现对话框之后点击出现对话框之后点击Weight cases,然后把,然后把“number”选入即可。选入即可。编辑课件二维列联表情况二维列联表情况加权之后,按照次序选加权之后,按照次序选AnalyzeDescriptive StatisticsCrosstabs。在打开的对话框中,把在打开的对话框中,把opinion和和income分别选入分别选入Row(行)和(行)和Column(列);至于哪个放入行或(列);至于哪
13、个放入行或哪个放入列是没有关系的。哪个放入列是没有关系的。如果要如果要Fisher精确检验则可以点精确检验则可以点Exact,另外在,另外在Statistics中选择中选择Chi-square,以得到,以得到c c2检验结果。检验结果。最后点击最后点击OK之后,就得到有关之后,就得到有关Pearson c c2统计量、统计量、似然比似然比c c2统计量以及统计量以及Fisher统计量的输出了统计量的输出了(这里这里的的Sig就是就是p-值值)。加权:加权:编辑课件Chi-Square Tests20.456a2.000.00021.1902.000.00020.713.00020.290b1.
14、000.000.000.000123Pearson Chi-SquareLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesValuedfAsymp.Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)PointProbability0 cells(.0%)have expected count less than 5.The minimum expected count is 10.33.a.The standardized statisti
15、c is-4.504.b.下面为下面为SPSSSPSS对于对于table7.savstable7.savs数据产生的数据产生的下面二维列下面二维列联表联表相关分析的输出相关分析的输出opinion*income Crosstabulationopinion*income CrosstabulationCount71519414525128252403112301opinionTotal123incomeTotal编辑课件利用利用crosstabscrosstabs处理处理三维列联表三维列联表问题的问题的SPSSSPSS选项选项编辑课件利用利用crosstabscrosstabs处理处理三维三维
16、列联表列联表问题的输出问题的输出income*opinion*sex Crosstabulationincome*opinion*sex CrosstabulationCount22527715229716184765520258101810515233558123incomeTotal123incomeTotalsex0101opinionTotal编辑课件利用利用crosstabscrosstabs处理处理三维三维列联表列联表问题的输出问题的输出Chi-Square TestsChi-Square Tests12.252a2.002.00212.9932.002.00312.340.002
17、12.064b1.001.000.000.000658.782c2.012.0129.0582.011.0128.706.0128.624d1.003.005.003.00258Pearson Chi-SquareLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesPearson Chi-SquareLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid Casessex01ValuedfAsymp.Sig
18、.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)PointProbability1 cells(16.7%)have expected count less than 5.The minimum expected count is 4.43.a.The standardized statistic is-3.473.b.0 cells(.0%)have expected count less than 5.The minimum expected count is 5.95.c.The standardized statistic is-2.93
19、7.d.编辑课件利用利用crosstabscrosstabs处理处理三维三维列联表列联表问题的输出问题的输出123incomeincome0510152025CountCountopinion01sex=0sex=0123incomeincome05101520CountCountopinion01sex=1sex=1编辑课件高维列联表和高维列联表和(多项分布多项分布)对数线性模型对数线性模型 前面例子前面例子原始数据是个三维列联表,原始数据是个三维列联表,对三维列联表的检验也类似。对三维列联表的检验也类似。但高维列联表在计算机软件的选项但高维列联表在计算机软件的选项可有所不同,而且可以构造一
20、个所可有所不同,而且可以构造一个所谓谓(多项分布多项分布)对数线性模型对数线性模型(loglinear model)来进行分析。来进行分析。利用对数线性模型的好处是不仅可利用对数线性模型的好处是不仅可以直接进行预测,而且可以增加以直接进行预测,而且可以增加定定量变量作为模型的一部分。量变量作为模型的一部分。编辑课件对数线性模型对数线性模型 现在简单直观地通过二维表介绍一下对数线性模现在简单直观地通过二维表介绍一下对数线性模型,假定不同的行代表第一个变量的不同水平,型,假定不同的行代表第一个变量的不同水平,而不同的列代表第二个变量的不同水平。而不同的列代表第二个变量的不同水平。用用mij代表二维
21、列联表第代表二维列联表第i行,第行,第j列的频数。列的频数。人们常假人们常假定这个频数可以用下面的公式来确定:定这个频数可以用下面的公式来确定:ln()ijijm这就是所谓的这就是所谓的多项分布多项分布对数线性模型。这里对数线性模型。这里 i i为为行变量的第行变量的第i个水平对个水平对ln(mln(mijij)的影响,而的影响,而 j j为列变为列变量的第量的第j个水平对个水平对ln(mln(mijij)的影响,这两个影响称的影响,这两个影响称为为主效应(主效应(main effect)。编辑课件(多项分布多项分布)对数线性模型对数线性模型 这个模型看上去和回归模型很象,但由于对于分这个模型
22、看上去和回归模型很象,但由于对于分布的假设不同,不能简单地用线性回归的方法来布的假设不同,不能简单地用线性回归的方法来套用套用(和和LogisticLogistic回归类似回归类似);计算过程也很不一;计算过程也很不一样。当然我们把这个留给计算机去操心了。只要样。当然我们把这个留给计算机去操心了。只要利用数据来拟合这个模型就可以得到对于利用数据来拟合这个模型就可以得到对于 i i和和 j j的的“估计估计”。有了估计的参数,就可以预测出任何有了估计的参数,就可以预测出任何i i,j j水平组水平组合的频数合的频数m mijij了(通过其对数)。了(通过其对数)。注意,这里的估计之所以打引号是因
23、为一个变量注意,这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的的各个水平的影响是相对的,因此因此,只有事先固定只有事先固定一个参数值一个参数值(比如比如 1 1=0=0),),或者设定类似于或者设定类似于SSi i=0=0这这样的约束,才可能估计出各个的值。样的约束,才可能估计出各个的值。没有约束,没有约束,则这些参数是估计不出来的。则这些参数是估计不出来的。编辑课件(多项分布)对数线性模型(多项分布)对数线性模型 二维列联表的更完全的对数线性模型为二维列联表的更完全的对数线性模型为ln()()ijijijm 这里的这里的(ijij代表第一个变量的第代表第一个变量的第i i个水平
24、个水平和第二个变量的第和第二个变量的第j j个水平对个水平对ln(mln(mijij)的共同的共同影响影响(交叉效应交叉效应)。即当单独作用时,每个。即当单独作用时,每个变量的一个水平对变量的一个水平对ln(mln(mijij)的影响只有的影响只有 i i(或或 j j)大,但如果这两个变量一同影响就不仅大,但如果这两个变量一同影响就不仅是是 i i+j j,而且还多出一项。,而且还多出一项。这里的交叉项的诸参数的大小也是相对的,这里的交叉项的诸参数的大小也是相对的,也需要也需要约束条件约束条件来得到其来得到其“估计估计”;涉及;涉及的变量和水平越多,约束也越多。的变量和水平越多,约束也越多。
25、编辑课件注意,无论你对模型假定了多少注意,无论你对模型假定了多少种效应,种效应,并不见得都有意义并不见得都有意义;有;有些可能是多余的。本来没有交叉些可能是多余的。本来没有交叉影响,但如果写入,也没有关系,影响,但如果写入,也没有关系,在分析过程中一般可以知道哪些在分析过程中一般可以知道哪些影响是显著的,而那些是不显著影响是显著的,而那些是不显著的。的。编辑课件两种两种对数线性模型对数线性模型前面介绍的前面介绍的多项分布对数线性模型多项分布对数线性模型假假定所有的可能格子里面的频数满足多定所有的可能格子里面的频数满足多项分布。项分布。另一类为另一类为PoissonPoisson对数线性模型对数
26、线性模型.它假它假定每个格子里面的频数满足一定每个格子里面的频数满足一PoissonPoisson分布(后面再介绍)分布(后面再介绍).统计软件的选项中有关于分布的选项统计软件的选项中有关于分布的选项高维表的检验统计量和二维表一样也高维表的检验统计量和二维表一样也包含了包含了Pearson c c2统计量和似然比统计量和似然比c c2统统计量。计量。编辑课件用用table7.savtable7.sav数据拟合对数线性模型数据拟合对数线性模型 假定(多项分布)对数线性模型为假定(多项分布)对数线性模型为 这里这里 i为收入(为收入(i1,2,31,2,3代表收入的低、中、高三代表收入的低、中、高
27、三个水平),个水平),j为观点(为观点(j1,21,2代表不赞成和赞成两代表不赞成和赞成两个水平),个水平),g gk为性别(为性别(k1,21,2代表女性和男性两个代表女性和男性两个水平)水平),mijk代表三维列联表对于三个变量的第代表三维列联表对于三个变量的第ijk水平组合的出现次数。水平组合的出现次数。而从相应的参数估计输出结果,可以得到对而从相应的参数估计输出结果,可以得到对 i i的的三个值的估计为三个值的估计为0.5173,0.2549,0.0000,0.5173,0.2549,0.0000,对对 j j的的两个值的估计为两个值的估计为-0.6931,0.0000,-0.6931
28、,0.0000,对对g gk k的两个值的两个值的估计为的估计为 0.1139,0.00000.1139,0.0000。(多项对数线性模型多项对数线性模型常数无意义,输出的常数项仅仅是数学意义常数无意义,输出的常数项仅仅是数学意义)ln()ijkijkmg编辑课件SPSS输出输出 就这里的三维列联表问题,如只考虑各个就这里的三维列联表问题,如只考虑各个变量单独的影响,而不考虑变量组合的综变量单独的影响,而不考虑变量组合的综合影响,其合影响,其SPSS输出的输出的Pearson c c2统计量统计量和似然比和似然比c c2统计量得到的统计量得到的p-值分别为值分别为0.0029和和0.0011。
29、Goodness-of-Fit TestsGoodness-of-Fit Testsa,ba,b24.1377.00122.5417.002Likelihood RatioPearson Chi-SquareValuedfSig.Model:Multinomiala.Design:Constant+income+opinion+sexb.编辑课件Parameter EstimatesParameter Estimatesc,dc,d2.277a.517.2272.279.023.073.962.255.2391.065.287-.214.7240b.-.693.191-3.624.000-1.
30、068-.3180b.114.181.631.528-.240.4680b.ParameterConstantincome=1income=2income=3opinion=0opinion=1sex=0sex=1EstimateStd.ErrorZSig.Lower BoundUpper Bound95%Confidence IntervalConstants are not parameters under the multinomial assumption.Therefore,theirstandard errors are not calculated.a.This paramete
31、r is set to zero because it is redundant.b.Model:Multinomialc.Design:Constant+income+opinion+sexd.SPSS输出输出编辑课件ln()2.277.517.693.114 income=1,opinion=0,sex=0ln()2.277.255.693.114 income=2,opinion=0,sex=0ln()2.2770.693.114 income=3,opinion=0,sex=0ln()2.277.5170.114 income=1,opinion=1ijijijijmmmm,sex=0
32、ln()2.277.2550.114 income=2,opinion=1,sex=0ln()2.27700.114 income=3,opinion=1,sex=0ln()2.277.517.6930 income=1,opinion=0,sex=1ln()2.277.255.6930 income=2,opinion=0,seijijijijmmmmx=1ln()2.2770.6930 income=3,opinion=0,sex=1ln()2.277.51700 income=1,opinion=1,sex=1ln()2.277.25500 income=2,opinion=1,sex=
33、1ln()2.277000 income=3,opinion=1,sex=1ijijijijmmmm编辑课件SPSS的的实现实现 数据数据table7.sav 假定已经加权假定已经加权(加权一次并存盘了既可加权一次并存盘了既可)这时的选项为这时的选项为AnalyzeLoglinearGeneral,首先选择格子中频数的分布首先选择格子中频数的分布,这里是多项分布这里是多项分布(其默认值其默认值是是Poisson对数线性模型对数线性模型).然后把三个变量然后把三个变量(sex,opinion,income)选入选入Factors(因子因子);再选再选Model(模型模型),如果选,如果选Satu
34、rated(饱和模型饱和模型),那就是那就是所有交叉效应都要放入模型所有交叉效应都要放入模型;但如果不想这样但如果不想这样,可以选可以选Custom(自定义自定义),在在Building Terms(构造模型的项构造模型的项)选选Main effect(主效应主效应),再把三个变量一个一个地选进来再把三个变量一个一个地选进来(如如果两个或三个一同选入,等于选入交叉效应果两个或三个一同选入,等于选入交叉效应).如果想要知道模型参数,在如果想要知道模型参数,在Options中选择中选择Estimates。最后最后Continue-OK即可得出结果即可得出结果.在计算机输出的结果中可以找到我们感兴趣
35、的结果。在计算机输出的结果中可以找到我们感兴趣的结果。如果如果SPSS的的Viewer输出不完全,可以选中不完全的输输出不完全,可以选中不完全的输出,利用出,利用Edit-Copy Objects来复制到例如记事本那样的来复制到例如记事本那样的文件中,就可以看到完整输出了文件中,就可以看到完整输出了编辑课件 Poison Poison对数线性模型对数线性模型 有的时候,类似的高维表并不一定满足多项分布对数线有的时候,类似的高维表并不一定满足多项分布对数线性模型。下面看一个例子。这是关于哮喘病人个数和空性模型。下面看一个例子。这是关于哮喘病人个数和空气污染程度,年龄和性别的数据(气污染程度,年龄
36、和性别的数据(asthma.sav)后面表格为某地在一段时间记录的后面表格为某地在一段时间记录的60组在不同空气污染组在不同空气污染状态的不同年龄及不同性别的人的状态的不同年龄及不同性别的人的发生哮喘的人数发生哮喘的人数。其中其中性别为定性变量性别为定性变量S(sex,1代表女性,代表女性,2代表男性代表男性),空气污染程度空气污染程度P也是定性变量也是定性变量(polut,1、2、3分别代表分别代表轻度、中度和严重污染),轻度、中度和严重污染),年龄年龄A(age)为定量变量为定量变量,为那一组人的平均年龄;,为那一组人的平均年龄;还有一列还有一列计数计数C(count)为这一组的哮喘人数。
37、为这一组的哮喘人数。这个表格和前面的列联表的不同点在于每一格的计数并这个表格和前面的列联表的不同点在于每一格的计数并不简单是前面三个变量的组合的数目不简单是前面三个变量的组合的数目(某个年龄段,某某个年龄段,某种性别及某种污染下的人数种性别及某种污染下的人数),而是代表了某个年龄段,而是代表了某个年龄段,某种性别及某种污染下某种性别及某种污染下发生哮喘的人数发生哮喘的人数。编辑课件编辑课件Poisson对数线性模型简介对数线性模型简介在某些固定的条件下在某些固定的条件下,人们认为某些人们认为某些事件出现的次数服从事件出现的次数服从Poisson分布分布,比比如在某一个时间段内某种疾病的发生如在
38、某一个时间段内某种疾病的发生病数病数,显微镜下的微生物数显微镜下的微生物数,血球数血球数,门诊病人数门诊病人数,投保数投保数,商店的顾客数商店的顾客数,公共汽车到达数公共汽车到达数,电话接通数等等电话接通数等等.然然而而,条件是不断变化的条件是不断变化的.因此因此,所涉及所涉及的的Poisson分布的参数也随着变化分布的参数也随着变化.编辑课件PoissonPoisson对数线性模型对数线性模型 假定哮喘发生服从假定哮喘发生服从PoissonPoisson分布;但是由于条件分布;但是由于条件不同,不同,PoissonPoisson分布的参数分布的参数l l也应该随着条件的变也应该随着条件的变化
39、而改变。这里的条件就是给出的性别、空气污化而改变。这里的条件就是给出的性别、空气污染程度与年龄。当然,如何影响以及这些条件影染程度与年龄。当然,如何影响以及这些条件影响是否显著则是我们所关心的。这个模型可以写响是否显著则是我们所关心的。这个模型可以写成成 这里这里m m为常数项,为常数项,i i为性别为性别(i=1,2i=1,2分别代分别代表女性和男性两个水平),表女性和男性两个水平),j j为空气污染为空气污染程度程度(j=1,2,3j=1,2,3代表低、中高三个污染水代表低、中高三个污染水平),平),x x为连续变量年龄为连续变量年龄,而而g g为年龄前面为年龄前面的系数的系数,e eij
40、ij为为残差项残差项。ln()ijijxlmge编辑课件PoissonPoisson对数线性模型对数线性模型 从对于数据从对于数据(asthma.sav)(asthma.sav)的的PoissonPoisson对数线性模型的对数线性模型的相应相应SPSSSPSS输出,可以得到对输出,可以得到对m m的估计为的估计为4.98204.9820,对对 i i的两个值的的两个值的“估计估计”为为-0.0608-0.0608、0.00000.0000,对,对 j j的的三个值的三个值的“估计估计”为为-0.1484-0.1484,0.12230.1223、0.00000.0000,对,对g g的估计为的
41、估计为 0.01260.0126。注意,这里的对主效应注意,这里的对主效应 I I和和 j j的估计只有相对意义;的估计只有相对意义;它们在一个参数为它们在一个参数为0 0的约束条件下得到的。的约束条件下得到的。从模型看上去,年龄和性别对哮喘影响都不那么重从模型看上去,年龄和性别对哮喘影响都不那么重要。轻度污染显然比中度污染和严重污染哮喘要好。要。轻度污染显然比中度污染和严重污染哮喘要好。但是似乎严重污染时哮喘稍微比中度污染少些但是似乎严重污染时哮喘稍微比中度污染少些(差别差别不显著不显著)。通过更进一步的分析(这里不进行),可以发现,通过更进一步的分析(这里不进行),可以发现,中度和严重空气
42、污染(无论单独还是一起)和轻度中度和严重空气污染(无论单独还是一起)和轻度空气污染比较都显著增加哮喘人数,而中度及严重空气污染比较都显著增加哮喘人数,而中度及严重污染时的哮喘人数并没有显著区别。污染时的哮喘人数并没有显著区别。编辑课件Parameter EstimatesParameter Estimatesb,cb,c4.9821.9162.600.0091.2268.738-.013.043-.294.769-.097.071-.148.142-1.048.295-.426.129.122.1081.135.256-.089.3340a.-.061.153-.398.691-.361.23
43、90a.ParameterConstantagepolut=1.00polut=2.00polut=3.00sex=1.00sex=2.00EstimateStd.ErrorZSig.Lower BoundUpper Bound95%Confidence IntervalThis parameter is set to zero because it is redundant.a.Model:Poissonb.Design:Constant+age+polut+sexc.编辑课件ln()4.982.061.148.013 sex=1,polut=1ln()4.982.061.122.013 s
44、ex=1,polut=2ln()4.982.0610.013 sex=1,polut=3ln()4.9820.148.013 sex=2,polut=1ln()4.9820.122.013 sex=2,pxxxxxlllllolut=2ln()4.98200.013 sex=2,polut=3xl编辑课件数据数据(asthma.sav)(asthma.sav)m=read.table(d:/booktj1/data/asthma.txt)names(m)=c(Sex,Polution,Age,Count)attach(m)a=glm(CountSex+Polution+Age,family=p
45、oisson)Sex=factor(Sex);Polution=factor(Polution)a=glm(CountSex+Polution+Age,family=poisson)summary(a)编辑课件数据数据(asthma.sav)(asthma.sav)m=read.table(d:/booktj1/data/asthma.txt)Call:glm(formula=Count Sex+Polution+Age,family=poisson)Deviance Residuals:Min 1Q Median 3Q Max -1.7901 -0.6700 -0.0651 0.6093 1
46、.5848 Coefficients:Estimate Std.Error z value Pr(|z|)(Intercept)1.730712 0.140238 12.341|z|)(Intercept)-0.655345 0.385525 -1.700 0.089154.Time 0.005937 0.001662 3.571 0.000355*Machine2 0.416216 0.176388 2.360 0.018291*Person2 0.143591 0.176933 0.812 0.417047 -Signif.codes:0*0.001*0.01*0.05.0.1 1(Dispersion parameter for poisson family taken to be 1)Null deviance:85.214 on 59 degrees of freedomResidual deviance:68.375 on 56 degrees of freedomAIC:215.32编辑课件思考:思考:列联表与列联表与Poisson对数线性模型,对数线性模型,以及后以及后面要介绍的试验设计的面要介绍的试验设计的数据表有什么区别?数据表有什么区别?