现代统计分析方法与应用第9章:定性数据的建模分析课件.ppt

上传人(卖家):晟晟文业 文档编号:4324438 上传时间:2022-11-29 格式:PPT 页数:37 大小:535KB
下载 相关 举报
现代统计分析方法与应用第9章:定性数据的建模分析课件.ppt_第1页
第1页 / 共37页
现代统计分析方法与应用第9章:定性数据的建模分析课件.ppt_第2页
第2页 / 共37页
现代统计分析方法与应用第9章:定性数据的建模分析课件.ppt_第3页
第3页 / 共37页
现代统计分析方法与应用第9章:定性数据的建模分析课件.ppt_第4页
第4页 / 共37页
现代统计分析方法与应用第9章:定性数据的建模分析课件.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

1、第第9 9章章 定性数据的建模分析定性数据的建模分析对数线性模型基本理论和方法对数线性模型基本理论和方法对数线性模型分析的上机实验对数线性模型分析的上机实验LogisticLogistic回归基本理论和方法回归基本理论和方法LogisticLogistic回归的方法与步骤回归的方法与步骤 第三章我们曾讨论过定性数据的列联表分析,对数线性模型是进一步用第三章我们曾讨论过定性数据的列联表分析,对数线性模型是进一步用于离散型数据或整理成列联表格式的数据的统计分析工具。它可以把方差分于离散型数据或整理成列联表格式的数据的统计分析工具。它可以把方差分析和线性模型的一些方法应用到对交叉列联表的分析中,从而

2、对定性变量间析和线性模型的一些方法应用到对交叉列联表的分析中,从而对定性变量间的关系作更进一步的描述和分析。列联表分析无法系统地评价变量间的联系,的关系作更进一步的描述和分析。列联表分析无法系统地评价变量间的联系,也无法估计变量间交互作用的大小,而对数线性模型是处理这些问题的最佳也无法估计变量间交互作用的大小,而对数线性模型是处理这些问题的最佳方法。当被解释变量是非度量变量时,可以用判别分析。然而当被解释变量方法。当被解释变量是非度量变量时,可以用判别分析。然而当被解释变量只有两组时,只有两组时,LogisticLogistic回归由于多种原因更受欢迎。首先,判别分析依赖于回归由于多种原因更受

3、欢迎。首先,判别分析依赖于严格的多元正态性和相等协差阵的假设,这在很多情况下是达不到的。严格的多元正态性和相等协差阵的假设,这在很多情况下是达不到的。LogisticLogistic回归没有类似的假设,而且这些假设不满足时,结果非常稳定。回归没有类似的假设,而且这些假设不满足时,结果非常稳定。其次,即使满足假定,许多研究者仍偏好其次,即使满足假定,许多研究者仍偏好LogisticLogistic回归,因为它类似于回归回归,因为它类似于回归分析。两者都有直接的统计检验,都能包含非线性效果和大范围的诊断。因分析。两者都有直接的统计检验,都能包含非线性效果和大范围的诊断。因为这些和更多技术原因,为这

4、些和更多技术原因,LogisticLogistic回归等同于两组的判别分析,在很多情况回归等同于两组的判别分析,在很多情况下更加适用。再者,下更加适用。再者,LogisticLogistic回归对于自变量没有要求,度量变量或者非度回归对于自变量没有要求,度量变量或者非度量变量都可以进行回归,量变量都可以进行回归,这样,本章仅介绍定性数据建模的对数线性模型和这样,本章仅介绍定性数据建模的对数线性模型和LogisticLogistic回归方法。回归方法。第第1 1节节 对数线性模型基本理论和方法对数线性模型基本理论和方法 本节将利用本节将利用2 22 2维的交叉列联表来说明对数线性模型的基本理论和

5、方法,维的交叉列联表来说明对数线性模型的基本理论和方法,同时利用同时利用SPSSSPSS软件对真实的经济定性数据作分析。软件对真实的经济定性数据作分析。从下面的从下面的2 22 2维交叉列联表及其概率表,介绍对数线性模型的基本理论维交叉列联表及其概率表,介绍对数线性模型的基本理论和方法。和方法。在对数线性模型分析中,要先将概率取对数,再分解处理,用公式表示在对数线性模型分析中,要先将概率取对数,再分解处理,用公式表示如下:如下:2,1,lnlnlnlnlnjipppppppppppjiijjijiijjiijij上式可以简写为:上式可以简写为:ijjiijABBA 该式的结构与有交互效应,且各

6、水平均为该式的结构与有交互效应,且各水平均为2 2的双因素方差分析模型的结构的双因素方差分析模型的结构相似,因此仿照方差分析,可以有如下关系式:相似,因此仿照方差分析,可以有如下关系式:21jiji21iijj 2121ijij对上面三式各取其平均数为:对上面三式各取其平均数为:.21.iijj.21.41.若记:若记:jiijijjjii其中:其中:jiijij jiij jiij移项,可得与有交互效应的双因素方差分析数学模型极为相似的关系式:移项,可得与有交互效应的双因素方差分析数学模型极为相似的关系式:2,1;2,1021212121jijijiijjjiiijjiij 在实际分析中,概

7、率表中各项值,以交叉列联表计算得的频率表的对应在实际分析中,概率表中各项值,以交叉列联表计算得的频率表的对应项为无偏估计值。公式表示为:项为无偏估计值。公式表示为:nnpijijnnpiinnpjjnnpijijijlnlnlnnnnnjijjijjijiln)(ln21)(ln2121212121.ijijpln将其代入将其代入 等算式,有:等算式,有:为与方差分析保持一致,可称为与方差分析保持一致,可称i i、j j分别是分别是A A、B B的主效应,的主效应,ijij是是A A、B B因素的交互效应。下面对模型的参数进行估计及检验。因素的交互效应。下面对模型的参数进行估计及检验。模型参数

8、的估计及检验主要是估计模型参数的估计及检验主要是估计ijij值,根据值,根据ijij值的正负和大小,可值的正负和大小,可以判断以判断A A因素的第因素的第i i水平与水平与B B因素的第因素的第j j水平间的交互效应。水平间的交互效应。若若ijij00,表明二者存在正效应;若,表明二者存在正效应;若ijij00,则存在负效应;若,则存在负效应;若ijij=0=0,则则A A、B B因素独立因素独立(也称为非饱和模型也称为非饱和模型)。nnnniijiijiijjln)(ln21)(ln2121212121.nnnnijijijijijijln)(ln41)(ln4141.21212121212

9、1将以上三式代入公式将以上三式代入公式21212121.)(ln41)(ln21)(ln21lnijijiijjijijjiijijnnnn即可得即可得 的估计值的估计值 。实际分析中,二维数据表并不是每个因素都是双水平。实际分析中,二维数据表并不是每个因素都是双水平的,在分析中,把公式的的,在分析中,把公式的i,ji,j的取值上限调整即可。的取值上限调整即可。ijij第第2 2节节 对数线性模型分析的上机实践对数线性模型分析的上机实践 可以使用可以使用SPSSSPSS软件来实现对数线性模型分析。这里举一个例子是软件来实现对数线性模型分析。这里举一个例子是3 32 2维维的交叉列联表的分析。我

10、们用的交叉列联表的分析。我们用SPSSSPSS软件中的软件中的LoglinearLoglinear模块实现分析。模块实现分析。【例例9.19.1】某企业想了解顾客对其产品是否满意,同时还想了解不同收入某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同。在随机发放的的人群对其产品的满意程度是否相同。在随机发放的10001000份问卷中收回有效份问卷中收回有效问卷问卷792792份,根据收入高低和满意回答的交叉分组数据如下表:份,根据收入高低和满意回答的交叉分组数据如下表:收入情况收入情况满意满意不满意不满意合计合计高高535338389191中中4344341

11、08108542542低低1111114848159159合计合计598598194194792792 首先要准备数据,上面的交叉列连表的数据要输入到首先要准备数据,上面的交叉列连表的数据要输入到spssspss的表格里去,的表格里去,具体应当是如下:具体应当是如下:频数频数收入情况收入情况满意情况满意情况535311434434211111113138381210810822484832 按上面的形式输入数据后,还不能马上进行对数线性模型分析,必须先按上面的形式输入数据后,还不能马上进行对数线性模型分析,必须先激活频数,即让频数有效。具体步骤是:激活频数,即让频数有效。具体步骤是:首先,首先

12、,使用使用SPSSSPSS软件,从主菜单中,以软件,从主菜单中,以DataWeight Cases.DataWeight Cases.顺序,打顺序,打开开Weight CasesWeight Cases对话框,选中对话框,选中Weight cases byWeight cases by单选框,从变量列表中选出单选框,从变量列表中选出“频数频数”变量变量,点击点击 钮,使之进入钮,使之进入Frequency VariableFrequency Variable框,然后点击框,然后点击OKOK钮,钮,回到数据表格,这时分析前的准备工作就完成了。回到数据表格,这时分析前的准备工作就完成了。其次,从主

13、菜单中,按其次,从主菜单中,按AnalyzeLoglinearModel Selection.AnalyzeLoglinearModel Selection.的流的流程可打开程可打开Model Selection Loglinear AnalysisModel Selection Loglinear Analysis对话框,从左侧变量栏里选对话框,从左侧变量栏里选中中“收入情况收入情况”,点击,点击 钮使之进入钮使之进入Factor(s)Factor(s)框,这时该框下面的框,这时该框下面的Define Define Range.Range.钮就会从灰色变为黑色,点击弹出钮就会从灰色变为黑色,

14、点击弹出Loglinear Analysis:Define Loglinear Analysis:Define RangeRange对话框,可以定义变量的范围,即该变量的水平范围,本例中对话框,可以定义变量的范围,即该变量的水平范围,本例中“收入收入情况情况”共有三种类型,代号分别是共有三种类型,代号分别是1 1、2 2、3 3,所以在,所以在MinimumMinimum处键入处键入1 1,在,在MaximumMaximum处键入处键入3 3,点击点击ContinueContinue钮,返回钮,返回Model Selection Loglinear AnalysisModel Selectio

15、n Loglinear Analysis对话框;对话框;按同样方法,把按同样方法,把“满意情况满意情况”变量选入,并定以其范围为变量选入,并定以其范围为1 1、2 2;然后选中;然后选中“频数频数”变量,点击变量,点击 钮使之进入钮使之进入Cell WeightCell Weight框;最后,点击框;最后,点击Options.Options.钮,进入钮,进入Loglinear Analysis:OptionsLoglinear Analysis:Options对话框,选择对话框,选择Display for Display for Saturated ModelSaturated Model栏下

16、的栏下的Parameter estimatesParameter estimates项,点击项,点击ContinueContinue钮返回钮返回Model Selection Loglinear AnalysisModel Selection Loglinear Analysis对话框,其他选项保持默认值,最后对话框,其他选项保持默认值,最后点击点击OKOK钮即完成分析步骤。钮即完成分析步骤。得到如下输出结果:得到如下输出结果:首先显示系统对首先显示系统对792792例资料进行分析,这例资料进行分析,这792792例资料可分为例资料可分为6 6类类(3(32)2)。模型中共有二个分类变量:其中

17、模型中共有二个分类变量:其中“收入情况收入情况”变量为变量为3 3水平,水平,“满意情况满意情况”情况变量为情况变量为2 2水平;分析的效应除了两个分类变量,还有两者的交互作用水平;分析的效应除了两个分类变量,还有两者的交互作用(收入情况(收入情况*满意情况)。系统经满意情况)。系统经1 1次叠代后,即达到相邻二次估计之差不大次叠代后,即达到相邻二次估计之差不大于规定的于规定的0.0010.001。由于本例对模型采用系统默认的饱和模型,因而实际倒数由于本例对模型采用系统默认的饱和模型,因而实际倒数(OBS count)(OBS count)与与期望数期望数(EXP count)(EXP cou

18、nt)相同,进而残差相同,进而残差(Residual)(Residual)和标准化残差和标准化残差(Std.Resid)(Std.Resid)均为均为0 0。这是对模型是否有交互效应和高阶效应进行检验,原假设是高阶效应为这是对模型是否有交互效应和高阶效应进行检验,原假设是高阶效应为0 0,即没有高阶效应。检验结果认为拒绝原假设,存在交互效应和高阶效应。在即没有高阶效应。检验结果认为拒绝原假设,存在交互效应和高阶效应。在NoteNote里,表示对饱和模型的观测单元进行了变换。里,表示对饱和模型的观测单元进行了变换。接下来就是对模型参数的估计,以及对参数的检验结果。接下来就是对模型参数的估计,以及

19、对参数的检验结果。为了唯一地估计参数,系统强行限定同一分类变量的各水平参数之和为为了唯一地估计参数,系统强行限定同一分类变量的各水平参数之和为0 0,故根据上表结果可推得各参数为:故根据上表结果可推得各参数为:高收入高收入=-0.6826424527=-0.6826424527中收入中收入=0.8826606586=0.8826606586低收入低收入=0-(-0.6826424527)-0.8826606586=-0.2000182059=0-(-0.6826424527)-0.8826606586=-0.2000182059满意满意=0.4248216629=0.4248216629(满意

20、情况的(满意情况的1 1水平)水平)不满意不满意=-0.4248216629=-0.4248216629高收入高收入.满意满意=-0.2603099566=-0.2603099566中收入中收入.满意满意=0.268901223=0.268901223低收入低收入.满意满意=0-(-0.2603099566)-0.268901223=-0.0085912664=0-(-0.2603099566)-0.268901223=-0.0085912664高收入高收入.不满意不满意=0.2603099566=0.2603099566中收入中收入.不满意不满意=-0.268901223=-0.268901

21、223低收入低收入.满意满意=0-0.2603099566-(-0.268901223)=0.0085912664=0-0.2603099566-(-0.268901223)=0.0085912664 参数值为正,表示正效应;反之为负效应;零为无效应。分析提供的信息参数值为正,表示正效应;反之为负效应;零为无效应。分析提供的信息是:是:满意 为正值,说明接受调查了的多数顾客对其产品还是满意的;为正值,说明接受调查了的多数顾客对其产品还是满意的;中收入低收入高收入 ,说明各收入阶层的顾客对其产品的满意程度,说明各收入阶层的顾客对其产品的满意程度是不同的,其中,高收入的顾客满意程度最低,而中层收入

22、的顾客满意程度是不同的,其中,高收入的顾客满意程度最低,而中层收入的顾客满意程度最高;最高;满意高收入.满意中收入.通过对企业顾客的收入情况和满意情况交互效应的研究,通过对企业顾客的收入情况和满意情况交互效应的研究,为为负值表示高收入与对产品的满意程度是负效应的,负值表示高收入与对产品的满意程度是负效应的,为正表示中等为正表示中等收入者与对其产品的满意程度是正效应的,同理,低收入人群对其产品的满收入者与对其产品的满意程度是正效应的,同理,低收入人群对其产品的满意程度也是负效应的。该企业的产品主要的消费阶层是中等收入者,同时中意程度也是负效应的。该企业的产品主要的消费阶层是中等收入者,同时中等收

23、入者对其产品的满意程度也最好。等收入者对其产品的满意程度也最好。第第3 3节节 LogisticLogistic回归基本理论和方法回归基本理论和方法p1plnQ 通常我们需要研究某一社会现象发生的概率户的大小,比如某一项目成通常我们需要研究某一社会现象发生的概率户的大小,比如某一项目成功或失败的概率,以及讨论功或失败的概率,以及讨论p p的大小与哪些因素有关。但是直接处理可能性的大小与哪些因素有关。但是直接处理可能性数值数值p p存在困难,一是存在困难,一是0p10p1,因此,因此p p与自变量的关系难以用线性模型来描与自变量的关系难以用线性模型来描述;二是当述;二是当p p接近于接近于0 0

24、或或1 1时,时,p p值的微小变化用普通的方法难以发现和处理好。值的微小变化用普通的方法难以发现和处理好。这时,不处理参数这时,不处理参数p p,而处理,而处理p p的一个严格单调函数的一个严格单调函数Q QQ(p)Q(p),就会方便得多。,就会方便得多。要求要求Q(p)Q(p)在在p p0 0或者或者p p1 1的附近的微小变化要很敏感,于是令:的附近的微小变化要很敏感,于是令:将将p p换成换成Q Q,这一变换就称为,这一变换就称为LogitLogit变换,从变换,从LogitLogit变换可以看出,当变换可以看出,当p p从从0 01 1时,时,Q Q的值从的值从-+,因此,因此Q Q

25、的值在区间的值在区间(-(-,+)上变化,这一变上变化,这一变换完全克服了一开始所提出的两点困难,在数据处理上带来很多方便。如换完全克服了一开始所提出的两点困难,在数据处理上带来很多方便。如果对自变量的关系式是线性的、二次的或多项式的,通过普通的最小二乘果对自变量的关系式是线性的、二次的或多项式的,通过普通的最小二乘就可以处理,然后从就可以处理,然后从p p与与Q Q的反函数关系式中求出的反函数关系式中求出p p与自变换。与自变换。例如例如Q=bQ=bx x,则有:,则有:,这就是,这就是LogitLogit变换所带来的方便。变换所带来的方便。xbxbe1e p 根据上面的思想,当因变量是一个

26、二元变量时,只取根据上面的思想,当因变量是一个二元变量时,只取0 0与与1 1两个值时,因两个值时,因变量取变量取1 1的概率的概率p(yp(y1)1)就是要研究的对象。如果有很多因素影响就是要研究的对象。如果有很多因素影响y y的取值,的取值,这些因素就是自变量记为这些因素就是自变量记为x x1 1,x xk k,这些,这些x xi i中既有定性变量,也有定量变中既有定性变量,也有定量变量。最重要的一个条件是:量。最重要的一个条件是:Logistic Logistic回归不同于一般回归分析的地方在于它直接预测出了事件发生回归不同于一般回归分析的地方在于它直接预测出了事件发生的概率。尽管这个概

27、率值是个度量尺度,的概率。尽管这个概率值是个度量尺度,LogisticLogistic回归与多元回归还是有着回归与多元回归还是有着很大的差异。概率值可以是很大的差异。概率值可以是0101之间的任何值,但是预测值必须落入之间的任何值,但是预测值必须落入0101的区的区间。这样,间。这样,LogisticLogistic回归假定解释变量与被解释变量之间的关系类似于回归假定解释变量与被解释变量之间的关系类似于S S形形曲线。而且,不能从普通回归的角度来分析曲线。而且,不能从普通回归的角度来分析LogisticLogistic回归,因为这样做会违回归,因为这样做会违反几个假定。首先,离散变量的误差形式

28、服从贝努里分布,而不是正态分布,反几个假定。首先,离散变量的误差形式服从贝努里分布,而不是正态分布,这样使得基于正态性假设的统计检验无效。其次,二值变量的方差不是常数,这样使得基于正态性假设的统计检验无效。其次,二值变量的方差不是常数,会造成异方差性。会造成异方差性。LogisticLogistic回归是专门处理这些问题的。它的解释变量与被回归是专门处理这些问题的。它的解释变量与被解释变量之间独特的关系使得在估计、评价拟合度和解释系数方面有不同的解释变量之间独特的关系使得在估计、评价拟合度和解释系数方面有不同的方法。方法。kkxbxbbpp1101ln满足上面条件的称为满足上面条件的称为Log

29、isticLogistic线性回归。线性回归。估计估计LogisticLogistic回归模型与估计多元回归模型的方法是不同的。多元回归回归模型与估计多元回归模型的方法是不同的。多元回归采用最小二乘估计,将解释变量的真实值与预测值差异的平方和最小化。采用最小二乘估计,将解释变量的真实值与预测值差异的平方和最小化。而而LogisticLogistic变换的非线性特征使得在估计模型的时候采用极大似然估计的变换的非线性特征使得在估计模型的时候采用极大似然估计的叠代方法,找到系数的叠代方法,找到系数的“最可能最可能”的估计。这样在计算整个模型拟合度的的估计。这样在计算整个模型拟合度的时候,就采用似然值

30、而不是离差平方和。时候,就采用似然值而不是离差平方和。Logistic Logistic回归的另一个好处就是我们只需要知道一件事情回归的另一个好处就是我们只需要知道一件事情(有没有购买、有没有购买、公司成功还是失败公司成功还是失败)是否发生了,然后再用二元值作为我们的解释变量。从是否发生了,然后再用二元值作为我们的解释变量。从这个二元值中,程序预测出事件发生或者不发生的概率。如果预测概率大于这个二元值中,程序预测出事件发生或者不发生的概率。如果预测概率大于0.50.5,则预测发生,反之则不发生。需要注意的是,则预测发生,反之则不发生。需要注意的是,LogisticLogistic回归和系数的回

31、归和系数的解释与多元回归的解释不同。程序计算出解释与多元回归的解释不同。程序计算出LogisticLogistic系数,比较事件发生与不系数,比较事件发生与不发生的概率比。假定事件发生的概率为发生的概率比。假定事件发生的概率为p p,优势比率可以表示为:,优势比率可以表示为:nnxbxbbepp1101估计的系数估计的系数(b b0 0,b b1 1,b b2 2,b bn n)反映优势比率的变化。如果反映优势比率的变化。如果b bi i是正的,它是正的,它的反对数值的反对数值(指数指数)一定大于一定大于1 1,则优势比率会增加;反之,如果,则优势比率会增加;反之,如果b bi i是负的,是负

32、的,则优势比率会减小。则优势比率会减小。前面已提到前面已提到LogisticLogistic回归在估计系数时,是用的极大似然估计法。就象回归在估计系数时,是用的极大似然估计法。就象多元回归中的残差平方和,多元回归中的残差平方和,LogisticLogistic回归对模型拟合好坏通过似然值来测量。回归对模型拟合好坏通过似然值来测量。(实际上是用(实际上是用2 2乘以似然值的自然对数即乘以似然值的自然对数即2 Log2 Log似然值,简记为似然值,简记为2LL2LL)。)。一个好的模型应该有较小的一个好的模型应该有较小的2LL2LL。如果一个模型完全拟合,则似然值为,。如果一个模型完全拟合,则似然

33、值为,这时这时2LL2LL达到最小,为达到最小,为0 0。LogisticLogistic回归对于系数的检验采用的是与多元回回归对于系数的检验采用的是与多元回归中归中t t检验不同的统计量,称为检验不同的统计量,称为WaldWald统计量。统计量。一、分组数据的一、分组数据的LogisticLogistic回归模型回归模型 xxxeeexf111)(针对针对0-10-1型因变量产生的问题,我们对回归模型应该做两个方面的改进。型因变量产生的问题,我们对回归模型应该做两个方面的改进。第一,回归函数应该改用限制在第一,回归函数应该改用限制在00,11区间内的连续曲线,而不能再沿区间内的连续曲线,而不

34、能再沿用直线回归方程。限制在用直线回归方程。限制在00,11区间内的连续曲线有很多,例如所有连续型区间内的连续曲线有很多,例如所有连续型随机变量的分布函数都符合要求,我们常用的是随机变量的分布函数都符合要求,我们常用的是LogisticLogistic函数与正态分布函函数与正态分布函数。数。LogisticLogistic函数的形式为函数的形式为LogisticLogistic函数的中文名称是逻辑斯谛函数,或简称逻辑函数。函数的中文名称是逻辑斯谛函数,或简称逻辑函数。xexf11)(的图形的图形 的图形的图形 xexf11)(第二,因变量第二,因变量y yi i本身只取本身只取0 0,1 1两

35、个离散值,不适于直接作为回归模型中两个离散值,不适于直接作为回归模型中的因变量,由于回归函数的因变量,由于回归函数E(yE(yi i)i i0 0+1 1x xi i表示在自变量为表示在自变量为x xi i的条件下的条件下y yi i的平均值,而的平均值,而y yi i是是0-10-1型随机变量,因而型随机变量,因而E(yE(yi i)i i就是在自变量为就是在自变量为x xi i的的条件下条件下y yi i等于等于1 1的比例。这提示我们可以用的比例。这提示我们可以用y yi i等于等于1 1的比例代替的比例代替y yi i本身作为因本身作为因变量。变量。【例例9.29.2】在一次住房展销会

36、上,与房地产商签定初步购房意向书的共有在一次住房展销会上,与房地产商签定初步购房意向书的共有n=325n=325名顾客中,在随后的名顾客中,在随后的3 3个月的时间内,只有一部分顾客确实购买了房屋。个月的时间内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为购买了房屋的顾客记为1 1,没有购买房屋的顾客记为,没有购买房屋的顾客记为0 0。以顾客的年家庭收入。以顾客的年家庭收入(万元)为自变量(万元)为自变量x x,对如下的数据,建立,对如下的数据,建立LogisticLogistic回归模型回归模型 )p1pln(piii3.3330.6931470.66666710159.595.143

37、0.2876820.57142912218.586.8570.2876820.57142916287.579.5900.2578290.56410322396.5610.698-0.139760.46511620435.5512.692-0.310150.42307722524.5414.345-0.207640.44827626583.537.719-0.379490.40625013322.525.440-0.753770.3200008251.51权重权重wi=nipi(1-pi)逻辑变换逻辑变换实际购房实际购房比例比例pi=mi/ni实际购房实际购房人数人数mi签定意向签定意向书人数书

38、人数ni年家庭收年家庭收入入(万元万元)x序序号号LogisticLogistic回归方程为:回归方程为:cixxpiii,2,1)exp(1)exp(1010式中:式中:c c为分组数据的组数,本例为分组数据的组数,本例c=9c=9。将以上回归方程做线性变换,令:。将以上回归方程做线性变换,令:iiippp1ln则变换后的线性回归模型为:则变换后的线性回归模型为:iiixp10依据本例数据,算出经验回归方程为:依据本例数据,算出经验回归方程为:xp156.0886.0 判定系数判定系数r r2 2=0.9243=0.9243,显著性检验,显著性检验P P值值0 0,高度显著。将经验回归方程代

39、,高度显著。将经验回归方程代入式:入式:cixxpiii,2,1)exp(1)exp(1010得:得:)156.0886.0exp(1)156.0886.0exp(xxpi 这表明在住房展销会上与房地产商签订初步购房意向书的年收入这表明在住房展销会上与房地产商签订初步购房意向书的年收入8 8万元的万元的家庭中,预计实际购房比例为家庭中,预计实际购房比例为5959。或者说,一个签订初步购房意向书的年。或者说,一个签订初步购房意向书的年收入收入8 8万元的家庭,其购房概率为万元的家庭,其购房概率为5959。用用LogisticLogistic回归模型成功地拟合了因变量为定性变量的回归模型,但是回归

40、模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,就是异方差性并没有解决,式仍然存在一个不足之处,就是异方差性并没有解决,式 的的回归模型不是等方差的,应该对其用加权最小二乘估计。当回归模型不是等方差的,应该对其用加权最小二乘估计。当n ni i较大时,较大时,p pi i的近似方差为:的近似方差为:iiixp10)1(1iiiinpD式中式中 ,因而选取权数为:,因而选取权数为:iiyEiiiippnw1对例对例9.29.2重新用加权最小二乘法做估计,计算结果如下:重新用加权最小二乘法做估计,计算结果如下:用加权最小二乘法得到的用加权最小二乘法得到的LogisticLog

41、istic回归方程为:回归方程为:)149.0849.0exp(1)149.0849.0exp(xxpi将将x=8x=8代入回归方程得到的购房比例预测值为:代入回归方程得到的购房比例预测值为:585.0409.11409.1)8149.0849.0exp(1)8149.0849.0exp(ip得年收入得年收入8 8万元的家庭预计实际购房比例为万元的家庭预计实际购房比例为58.5%58.5%,这个结果与未加权的结果,这个结果与未加权的结果很接近。很接近。以上的例子是只有一个自变量的情况,分组数据的以上的例子是只有一个自变量的情况,分组数据的LogisticLogistic回归模型可回归模型可以很

42、方便的推广到多个自变量的情况,在此就不举例说明了。以很方便的推广到多个自变量的情况,在此就不举例说明了。分组数据的分组数据的LogisticLogistic回归只适用于大样本的分组数据,对小样本的未分回归只适用于大样本的分组数据,对小样本的未分组数据不适用。并且以组数组数据不适用。并且以组数c c为回归拟合的样本量,使拟合的精度低。实际为回归拟合的样本量,使拟合的精度低。实际上,我们可以用极大似然估计直接拟合未分组数据的上,我们可以用极大似然估计直接拟合未分组数据的LogisticLogistic回归模型,以回归模型,以下就介绍这个方法。下就介绍这个方法。二、未分组数据的二、未分组数据的Log

43、isticLogistic回归模型回归模型 设设y y是是0-10-1型变量,型变量,x x1 1、x x2 2、x xp p是与是与y y相关的确定型变量,相关的确定型变量,n n组观测数组观测数据为据为(x(xi1i1、x xi2i2、x xipip、y yi i),i=1,2,ni=1,2,n,y y1 1、y y2 2、y yn n其中是取值其中是取值0 0或或1 1的随机变量,的随机变量,y yi i与与x xi1i1、x xi2i2、x xipip的关系为:的关系为:ippiiiixxxfyE22110 其中函数其中函数f(x)f(x)是值域在是值域在0,10,1区间内的单调增函数

44、。对于区间内的单调增函数。对于LogisticLogistic回归,回归,于是于是y yi i是均值为是均值为 的的0101型分布,概率型分布,概率函数为:函数为:xxeexf1)(ippiiixxxf22110iiyp1iiyp10可以把可以把y yi i的概率函数合写为:的概率函数合写为:niyypiyiyiiii,2,11,011于是于是y y1 1、y y2 2、y yn n的似然函数为:的似然函数为:iiiyiyniiniypL1111对似然函数取自然对数,得:对似然函数取自然对数,得:niiiiiyyL11ln1lnlnniiiiiy11ln)1(ln对于对于LogisticLog

45、istic,将,将)exp(1)exp(2211022110ippiiippiiixxxxxx代入得:代入得:niippiippiixxxxyL1110110exp1lnlnln 例例9.39.3 在一次关于公共交通的社会调查中,一个调查项目是在一次关于公共交通的社会调查中,一个调查项目是“是乘坐是乘坐公共汽车上下班,还是骑自行车上下班公共汽车上下班,还是骑自行车上下班”。因变量。因变量y=1y=1表示主要乘坐公共汽表示主要乘坐公共汽车上下班,车上下班,y=0y=0表示主要骑自行车上下班。自变量表示主要骑自行车上下班。自变量x x1 1是年龄,作为连续型变是年龄,作为连续型变量;量;x x2

46、2是月收入是月收入(元元);x x3 3是性别,是性别,x x3 3=1=1表示男性,表示男性,x x3 3=0=0表示女性。调查对象表示女性。调查对象为工薪族群体,数据见下表。试建立为工薪族群体,数据见下表。试建立y y与自变量间的与自变量间的LogisticLogistic回归。回归。01000201151508501801 11 11800180056561 128280 085085018181 114141 11500150052521 127271 11800180058580 013130 01000100048481 126261 12100210056560 012121 1

47、1800180045451 125251 11800180055550 011110 01500150041411 124240 01200120048480 010100 01200120038381 123231 195095046460 09 90 01000100033331 122221 11000100042420 08 80 01800180033331 121211 11500150036360 07 701000321202008503106 619503011919112002805 501500281181819502304 401300271171718502303 3

48、012002511616012002102 2y月收入月收入年龄年龄性别性别序号序号y月收入月收入年龄年龄性别性别序号序号3x1x2x3x1x2x 点选点选SPSSSPSS软件的软件的AnalyzeAnalyzeRegressionRegressionBinaryLogisticBinaryLogistic命令,进入命令,进入LogisticLogistic回归对话框如下所示:回归对话框如下所示:利用利用SPSSSPSS软件进行估计的步骤如下:软件进行估计的步骤如下:将将y y送入送入DependentDependent框;框;将将x x1 1、x x2 2、x x3 3送入送入Covaria

49、teCovariate框中;框中;点击点击OKOK,系统输出以下结果:,系统输出以下结果:上表中上表中SEX(SEX(性别性别)、AGE(AGE(年龄年龄)、X X2 2(月收入月收入)是是3 3个自变量,个自变量,WaldWald是回归系是回归系数检验的统计量值,数检验的统计量值,2jj2)(D.E.SBWaldSigSig是是WaldWald检验的显著性概率,检验的显著性概率,R R是偏相关系数。可以看到,是偏相关系数。可以看到,X X2 2(月收入月收入)不显不显著,决定将其剔除。用著,决定将其剔除。用y y对性别与年龄两个自变量做回归,输出结果见下表。对性别与年龄两个自变量做回归,输出

50、结果见下表。Model SummaryModel Summary25.971a.365.487Step1-2 LoglikelihoodCox&SnellR SquareNagelkerkeR SquareEstimation terminated at iteration number 5 becauseparameter estimates changed by less than.001.a.V Va ar ri ia ab bl le es s i in n t th he e E Eq qu ua at ti io on n-2.5021.1584.6691.031.082.082.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(现代统计分析方法与应用第9章:定性数据的建模分析课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|