《应用多元统计分析》教学全套课件.ppt_163文库

资源描述

1、1,应用多元统计分析,2,第一章绪论,本章主要讨论: 多元统计分析概述多元统计分析的应用线性代数基础,3,第一节多元统计分析概述,本节基本内容: 一、多元统计分析的涵义二、多元统计研究的内容和方法,4,一、多元统计分析的涵义,多元统计分析（简称多元分析），是运用数理统计的方法来研究多变量问题的理论和方法，它是一元统计学的推广。在现实生活中，很多随机现象涉及到的变量不止一个，而经常是多个变量，这些变量之间往往存在一定的联系。按照一元统计方法分析多变量问题，往往不容易取得好的研究结论。这就需要同时对多个随机变量进行分析研究。,5,从应用上讲，多元统计分析实际上是以个变量的次观测

2、数据形成矩阵为依据，根据实际问题的需要所给出种种分析方法。,一、多元统计分析的涵义,6,多元统计研究的内容和方法概括为(Kendall) ：理论基础随机向量、矩阵抽样分布理论，统计推断理论等。降维问题主成分分析，因子分析，对应分析等。归类问题聚类分析，判别分析等。相依问题典型相关分析、回归分析等。,二、多元统计研究的内容和方法,7,第二节多元统计分析的应用,多元统计分析方法是解决实际问题有效的数据处理分析方法，随着电子计算机使用的日益普遍，多元统计分析方法广泛应用于地质科学、气象科学、医疗卫生、体育、语言学、考古学、教育学、心理学以及经济学、管理学等自然学科、社会科学领域。

3、其中，仅就在经济管理中的应用，主要可集中在如下的场合：,8,对多变量进行降维处理，选择数目较少的变量子集合。对研究对象需要进行分类研究、分类处理、构造分类模式。建立经济模型和利用模型进行外推。研究经济现象之间相互关系。,第二节多元统计分析的应用,9,第三节线性代数基础,本节基本内容: 对应用多元统计课程学习过程中所须具备的线性代数知识作简单的回顾和介绍。包括：向量、矩阵及基本运算，行列式，逆矩阵和矩阵的秩，特征根、特征向量，矩阵的迹，正定矩阵和非负定矩阵，投影矩阵，矩阵微商。,10,约定：向量用小写粗体字母(如，等)表示，矩阵用大写粗体字母(如，等)表示，标量用斜体

4、字母(如，等)表示。,第三节线性代数基础,11,向量：由个实数组成的一个数组称为维向量，记为，或注意，我们提到的向量均指列向量；行向量用列向量的转置表示，如。,一、向量,12,维向量在几何上表示一个有方向的线段。向量可以进行数量乘法和加法运算。令为任意常数，和，则向量的数量乘法和加法可分别定义为：,一、向量,13,矩阵：将个数排成一个形如行列的长方形表：称为矩阵，常记为，其中为第行，第列的元素。本书中假定均为实数。,二、矩阵及基本运算,14,矩阵的运算矩阵加法。若与为矩阵，则与的和为矩阵对应元素的和：数量乘积。若为一常数，它与

5、的积定义为该常数与矩阵元素的乘积：,二、矩阵及基本运算,15,矩阵乘法。若，，则与的积定义为：在一般情况下，。从上述矩阵运算定义中可以得到如下运算规律：,二、矩阵及基本运算,16,若为方阵，满足，则称为正交矩阵。,二、矩阵及基本运算,17,矩阵分块矩阵的分块是处理阶数较高的矩阵时常用的方法。有时，我们把一个高阶矩阵看成是由一些低阶矩阵组成的，就像矩阵由数值组成一样。设为矩阵，将剖分称四块，表示成其中，表示矩阵，表示矩阵，表示矩阵，为矩阵。分块矩阵也满足一般矩阵的乘法和加法等运算规律。,二、矩阵及基本运算,18,若矩阵与有相同的分块，则若为

6、矩阵，剖分成其中，为矩阵，为矩阵，为矩阵，为矩阵。则有,二、矩阵及基本运算,19,二、矩阵及基本运算,20,（一）行列式一个阶方阵对应一个数，记为,称为的行列式。,三、行列式、逆矩阵和矩阵的秩,21,直接由行列式的定义计算行列式是很麻烦的，通常利用行列式的一些性质，可以简化计算： (1)若矩阵的某行(或列)为零，则行列式。 (2) 。 (3)将矩阵某行(或列)乘以数所得矩阵的行列式为。 (4)若矩阵的两行(或两列)相同，则行列式。 (5)若将矩阵两行(或两列)互换所得矩阵的行列式为。 (6)若将矩阵的某一行(或列)乘上一个常数加到另一行相应的元素上

7、，所得矩阵的行列式不变，仍为。,三、行列式、逆矩阵和矩阵的秩,22,（二）逆矩阵设一个阶方阵，若，则称为非奇异矩阵，若，则称为奇异矩阵。若为阶非奇异矩阵，则存在唯一的矩阵使得，称为的逆矩阵，记为，可以证明其中，为的代数余子式。,三、行列式、逆矩阵和矩阵的秩,23,逆矩阵具有如下性质： (1) 。 (2) 。 (3)若和均为阶非退化矩阵，则。 (4) 。 (5)若是正交矩阵，则有。 (6)若非退化，即（），则。 (7)若和为非退化方阵，则。,三、行列式、逆矩阵和矩阵的秩,24,（三）逆矩阵的秩设为阶矩阵。若存在的一个阶子

8、方阵的行列式不为零，而的一切阶子方阵的行列式均为零，则称的秩为，记为。矩阵的秩具有下列基本性质： (1) ，当且仅当。 (2)若为阶矩阵，且，则。 (3) 。 (4)若为矩阵和为矩阵，则。,三、行列式、逆矩阵和矩阵的秩,25,(5)若和为矩阵，则 (6)若和为非退化矩阵，则 (7) 阶方阵是非退化的，当且仅当，此时称为满秩矩阵。,三、行列式、逆矩阵和矩阵的秩,26,设为阶方阵，则方程的左边为次多项式，由多项式的理论知道，该方程有个根(可能有重根)，记为，并称为矩阵的特征根或特征值。若是方程的一个根，则为奇异矩阵，故存在一个维

9、非零向量使得,四、特征根、特征向量,27,即是矩阵的特征根，而称为特征根对应的特征向量。今后一般取为单位向量，即满足。特征根和特征向量具有以下性质： (1)矩阵和有相同的特征根。 (2)若为矩阵，为矩阵，则和有相同的特征根。 (3)若为实对称矩阵，则的特征根全为实数，个特征根按大小依次表示为。,四、特征根、特征向量,28,若，则相应的特征向量和必正交，即 (4)若是矩阵的特征根，可逆，则的特征根为。 (5) ，即矩阵行列式等于其特征根的乘积。,四、特征根、特征向量,29,若是阶方阵，其对角线元素之和称为矩阵的迹，记为方阵的迹具有

10、如下性质： (1)若为阶方阵的特征根，则 (2),五、矩阵的迹,30,(3) 。 (4) 。 (5) 。 (6) 。,五、矩阵的迹,31,设为阶对称矩阵，是一个维列向量，则称为的二次型。若对于一切，有，则称为正定矩阵，记为；若对于一切，有，则称为非负定矩阵，记为。,六、正定矩阵和非负定矩阵,32,正定矩阵和非负定矩阵具有如下性质： (1)一个对称阵是正(非负)定矩阵，当且仅当它的特征根为正(非负)。 (2)若，则。 (3)设，则当且仅当。 (4) ，对于一切矩阵成立。,六、正定矩阵和非负定矩阵,33,(5)若 (或），则必存在一个正交矩阵，

11、使得其中，为矩阵的特征根，的列向量为相应的特征向量，于是有。 (6)由性质(1)，均非负，即，记特别地，令，有，称为的平方根矩阵。,六、正定矩阵和非负定矩阵,34,(7)若 (或 )，则存在 (或 )，使得。,六、正定矩阵和非负定矩阵,35,若阶方阵满足，则称为幂等矩阵，对称的幂等矩阵称为投影矩阵。以下是投影矩阵的一些性质： (1)若为投影矩阵，则。 (2)若为投影矩阵，则是投影矩阵。,七、投影矩阵,36,(3)若为秩为的投影矩阵，则有个特征根为1，其余特征根为0。故满秩的投影矩阵必为单位阵。 (4)若和为投影矩阵，且，则。 (5)若

12、是矩形，，，则是投影矩阵，且。,七、投影矩阵,37,若令为实值向量，，其中 ( )。那么规定关于的偏导数定义为：,八、矩阵微商,38,特别地，当时，有根据上述定义，我们给出一个矩阵微商极其重要的特例,八、矩阵微商,39,第一章结束了！,THANKS,应用多元统计分析,第二章多元正态分布,41,第二章多元正态分布,本章主要讨论: 多元分布的基本概念多元正态分布及其参数估计多元正态分布的假设检验,42,第一节多元分布的基本概念,本节基本内容: 一、随机向量二、多元分布函数和多元密度函数三、边缘密度、独立性与条件分布四、多维随机向量的数字特征,43

13、,一、随机向量,所随机变量通俗理解就是“其值随机会而定”的量。本课程讨论的是多变量的情形，也即随机向量：设为个随机变量，由它们组成向量，则称作维随机向量。在不做特别说明的情况下，向量、矩阵用粗体表示；涉及总体的变量用大写字母表示，涉及样本的变量用小写字母表示；随机变量用大写字母表示，其实现值用小写字母表示。,44,在理论上，对多维随机向量的研究和对一维随机变量的研究思路是类似的，通过分布及其特征进行刻画。不同的是，可能要考虑变量之间的相关关系。在统计应用上，对多维随机向量的研究和对一维随机变量的研究思路也是一样的，要通过样本资料来推断总体。,一、随机向量,45,如果同时对

14、个变量作一次观测，得到观测值： ,称观测值为一个样品；若这样的观测重复进行次，可得到个样品 ( )。把这样的个样品放在一起，称之为一个样本。常排成矩阵：,一、随机向量,46,需要说明的是，从横向看，矩阵的第行表示对第个样品的一次观测值。当然，在获得具体观测之前，是一个维随机向量。从纵向上看，矩阵的第列表示对第个变量的次重复观测值，在获得具体观测之前，是一个随机变量。,一、随机向量,47,二、多元分布函数和多元密度函数,随机向量(变量) 离散型、连续型刻画随机向量(变量) 分布函数、密度函数,48,分布函数设为一随机向量，它的多元分布函数定义为：

15、记为。随机向量的统计特性可用它的分布函数来完整地描述。,二、多元分布函数和多元密度函数,49,密度函数(设为维随机向量) 连续型。若称为的的联合分布密度函数。离散型。若存在有限或可列个维向量，使得，且满足，则称 ( )为的概率分布(本质上为密度函数)。,二、多元分布函数和多元密度函数,50,以连续型变量为例进行讨论。多维随机向量的边缘密度。若为维随机向量，由它的 ( )个分量组成的子向量的分布称为的边缘(边际)分布。通过变换中的各分量的次序，总可以假定正好是的前个分量，其余个分量记为，则可表示为：,三、多维随机向量的边缘密度、独立性与条件分布

16、,51,此时，的分布函数为。若的联合分布密度为，则的边缘密度函数为：，(2.3) 多维随机向量的独立性。若个随机变量的联合分布密度等于各自边缘分布的乘积，则称是互相独立的。,三、多维随机向量的边缘密度、独立性与条件分布,52,多维随机向量的条件分布。当的密度函数为，的密度函数为时，给定时的条件密度为称给定时的分布为条件分布。,三、多维随机向量的边缘密度、独立性与条件分布,53,概率分布是对随机变量的概率性质最完整的刻画。优点是刻画的完整性，不便之处在于表示形式有时是非常复杂的。而随机变量的数字特征，则是指某些由随机变量的分布所决定的常数，它刻画了随机变

17、量(或者其分布)的某一方面的性质。对于多维随机变量刻画其性质的最重要的数字特征有均值、自协差阵与协差阵及相关矩阵。为了便于讨论，设为维随机向量，为维随机向量。,四、多维随机向量的数字特征,54,若 ( )存在，则随机向量的均值可定义为：其中是一个维向量，称为均值向量。,四、多维随机向量的数字特征,55,若和的协方差 ( )存在，则称为的自协差阵(简称协差阵)，有时，把简记为。,四、多维随机向量的数字特征,56,若和的协方差 ( )存在，则随机向量、的协差阵记为若 ( 表示零矩阵)，则称与不相关。,四、多维随机向量的数字特征,57,随机向量均值及协差阵

18、具有如下性质： (1) ; (2) ; (3) ； (4) ； (5) 为非负定对称矩阵； (6) ; (7) 。,四、多维随机向量的数字特征,58,若维随机向量的协差阵存在，且每个分量的方差大于零，则称随机向量的相关阵为其中,四、多维随机向量的数字特征,59,若记为自协差阵对角线元素的平方根形成的对角矩阵，则自协差阵和相关阵的关系可表述为：,四、多维随机向量的数字特征,60,第二节多元正态分布及其参数估计,本节基本内容: 一、多元正态分布密度函数二、多元正态分布的数字特征三、多元正态分布的参数估计四、多维随机向量的数字特征,61,用来刻画多维随机向量统计特性的常见的多元

19、分布有很多，除了多元正态分布还有多元对数正态分布、多项式分布、多元超几何分布、多元分布、多元分布、多元指数分布等。这里主要介绍多元正态分布，其原因是多元统计分析的主要方法是建立在多元正态分布的假设之上的。尽管实际分析数据可能不会严格服从多元正态分布的，但有三个原因使多元正态分布在实际中有着广泛的应用：一是，正态分布在许多情况下确实能作为真实总体的一个近似；二是，根据中心极限定理，不论总体的分布如何，许多统计量的分布是近似正态分布的；三是，很多检验统计量的分布对正态分布条件是稳健的，即原始资料对正态的偏离对检验结果影响不大。,62,若维随机向量的概率密度函数为，(2.6) 则称服从

20、维正态分布，简记为，其中是维向量，是阶正定矩阵。,一、多元正态分布密度函数,63,多元正态随机向量具有以下的性质： (1)若，其协差阵是对角阵，则的各分量是相互独立的随机变量。 (2)多元正态分布随机向量的任何一个分量子集的分布仍然服从正态分布。 (3)多元正态分布随机向量的任意线性变换仍然是服从多元正态分布。若，令，为阶方阵，则。,一、多元正态分布密度函数,64,若，则，，即恰好是多维随机向量的均值向量，恰好是多维随机向量的协差阵。其中，，,二、多元正态分布的数字特征,65,在实际应用中，多元正态分布中的均值向量和协差阵通常是未知的，需要由样本

21、资料来估计，而参数估计的方法很多，最常见的是极大似然估计法给出估计量：用样本均值向量估计总体均值向量，用样本协差阵估计总体协差阵。,三、多元正态分布的参数估计,66,一般情况下，从多元正态总体中按照随机原则，抽取容量为的样本，则样本数据矩阵为,三、多元正态分布的参数估计,67,设每个样品是相互独立的，则利用极大似然估计可求出,三、多元正态分布的参数估计,68,矩阵是实对称矩阵，因此只写出上三角部分。事实上，按照最大似然估计的结果，是的无偏估计，但不是的无偏估计。为了得到无偏估计量，通常作出调整：令， (2.7) 则是的无偏估计。在一定得假设下，可以证明和还是和的“最小方

22、差”无偏估计量，即和是和的有效估计。常称为样本均值，为样本协差阵。,三、多元正态分布的参数估计,69,第三节多元正态分布的假设检验,本节基本内容: 一、多元正态总体的三个重要抽样分布二、一个正态总体均值向量的假设检验三、两个正态总体均值向量的检验四、多个正态总体均值向量的检验多元方差分析五、正态总体的协方差阵检验,70,一元正态总体中，参数、的检验要设计到一个总体、两个总体乃至多个总体的检验问题。用于检验、的抽样分布主要有分布、分布、分布等，它们都是由来自正态总体的随机样本导出的检验统计量的分布。推广到多元正态总体，类似于一元假设检验情形，多元统计分析中也需

23、要对各种均值向量和协差阵进行假设检验，涉及到三个重要的统计量：维希特(Wishart)统计量、霍特林(Hotelling) 统计量、威尔克斯(Wilks) 统计量。,一、多元正态总体的三个重要抽样分布,71,假设检验的基本步骤均可归纳为四步：第一步，提出待检验的假设和。第二步，给出检验的统计量及其服从的分布。第三步，给定检验水平，查统计量的分布表，确定临界值，从而得到拒绝域。第四步，根据样本观测值计算出统计量的值，看是否落入拒绝域中，以便对待判假设检验做出决策。,一、多元正态总体的三个重要抽样分布,72,设总体服从，。现从中获得样本 ( )，样本均值向量为，要检验假设， (

24、为已知向量) (1)总体协差阵为已知，且为正定时，可用检验统计量：当原假设成立时，统计量，给定检验水平，查分布表使，可得临,二、一个正态总体均值向量的假设检验,73,界值，再由样本值计算，若，则拒绝原假设，否则假设相容，不能拒绝原假设。 (2)当总体协方差阵未知时，用的无偏估计量代替，则检验统计量为当原假设成立时，统计量服从分布，再利用分布与分布的关系，有,二、一个正态总体均值向量的假设检验,74,所以，给定检验水平，查分布表使，可得临界值，再由样本值计算，若，则拒绝原假设，否则假设相容，不能拒绝原假设。,二、一个正态总体均值向量的假

25、设检验,75,设有总体（），从中获得样本，样本均值向量为，另有一总体 ( )，从中获得样本，样本均值向量为，两组样本相互独立，协差阵和为正定矩阵，且，。现在要检验假设， (1)当协差阵相等，即，且未知时，可用检验统计量：,三、两个正态总体均值向量的检验,76,其中，，当原假设成立时，统计量服从霍特林分布，再利用霍特林分布与分布的关系，有所以，给定检验水平，查分布表可得出，再由样本值计算，若，则拒绝原假设，否则相容，不能拒绝原假设。,三、两个正态总体均值向量的检验,77,(2)协差阵不相等，即，且为未知时，具体分两种情况：第一种情况

26、：时，令 ( )，，于是利用分布与分布的关系，可得检验统计量为：第二种情况：时，不妨设时，令,三、两个正态总体均值向量的检验,78,（），于是利用分布与分布的关系，可得检验统计量为：,三、两个正态总体均值向量的检验,79,设有个元正态总体，，，为正定矩阵，从每个总体中抽取独立样品个数分别为，，具体样本观测数据如下：第一个总体：,四、多个正态总体均值向量的检验多元方差分析,80,第二个总体：第个总体：样本的均值向量为 ( )，要检验的假设为，不全相等,四、多个正态总体均值向量的检验多元方差分析,81,记，，，利用一元情况下方差分析

27、的思想，令总离差阵为，组内离差阵为，组间离差阵为，那么，各离差阵的计算公式为：,四、多个正态总体均值向量的检验多元方差分析,82,则检验用的统计量是通过广义似然比导出的统计量(这里的广义似然比统计量等价威尔克斯统计量)为：给定检验水平，查威尔克斯分布表，确定临界值，然后作出统计判断。当然，若没有查威尔克斯分布表的情况下，可近似用分布或分布来进行检验：设，令,四、多个正态总体均值向量的检验多元方差分析,83,，其中，，，则近似服从分布，近似服从分布，这里不一定是整数，可用与它接近的整数来作为分布的自由度。,四、多个正态总体均值向量的检验多元方差分析,

28、84,设，协差阵为正定矩阵，且为未知。从中获得样本，，为一个单位阵，是一个已知的正定矩阵，要检验假设： (1) ，检验所使用的似然比统计量为其中，。,五、正态总体的协方差阵检验,85,(2) ，因为为正定矩阵，所以存在 ( )使得，令 ( )，则因此,检验等价于检验，检验所使用的似然比统计量为：其中, 。,五、正态总体的协方差阵检验,86,在实际应用中，由于分布的计算比较困难，实际应用中，往往采用分布的近似分布分布来近似，在原假设成立的情况下，当很大时，近似服从。,五、正态总体的协方差阵检验,87,设有个元正态总体，，，进一步假定 ( )

29、为正定矩阵，且为为未知。分别从各总体中取个样本，，要检验的假设为，不全相等令，其中，。,五、正态总体的协方差阵检验,88,检验所用的似然比统计量为在实际应用中，将改为，改为，得修正的统计量，记为，则的近似分布为分布。,五、正态总体的协方差阵检验,89,其中，,五、正态总体的协方差阵检验,90,第二章结束了！,THANKS,应用多元统计分析,第三章多元回归分析,92,第三章多元回归分析,本章主要讨论: 多元线性回归分析自变量选择与逐步回归分析回归分析应用实例,第一节多元线性回归分析,本节基本内容: 一、模型和参数估计二、模型检验三、

30、多重共线性,一、模型和参数估计,(一)总体回归模型,其中: 因变量为随机变量，自变量为确定变量，是固定的但未知的参数，称为总体回归系数；称为随机误差项，表示除了自变量以外被忽略的或无法考虑的其他随机的影响因素。,线性：指可表述为未知参数的线性函数。,对于一个实际问题，如果我们获得组观测数据：则线性回归模型可表述为,一、模型和参数估计,一、模型和参数估计,写成矩阵形式为其中，,为了估计模型，要求：，,一、模型和参数估计,为了能对回归模型进行假设检验，还需假定随机误差项服从正态分布：值得注意的是，对回归模型的解释，主要是对参数 ( )的解释，的含义为保持其他自变量不变，

31、当变动一个单位时，对因变量的平均影响程度。,(二) 参数估计,一、模型和参数估计,现实情况下，总体参数未知，一般需根据样本资料建立样本回归模型，从而推断总体模型，利用样本资料，可以构建模型,其中，是对的估计。需要指出的是，不是像那样是固定的数值，而是随着样本的不同，可以有不同取值，由于样本是随机的，也是随机变量。可由最小二乘法估计得到。,一、模型和参数估计,最小二乘法：其原理是使残差平方和达到最小，即,达到最小。解形如下式的正规方程：,一、模型和参数估计,将其写为矩阵形式：,即经过一系列求解，可得：,一、模型和参数估计,上式中的估计量称为回归参数的最小二乘估计，具有

32、以下的统计特性： (1)线性性。由其表达式可以看出，估计量是 ( )的线性函数。进一步地， ( )在获得具体观测之前是随机变量，由此来讲，估计量也是随机变量。 (2)无偏性。在假定(3.6)的情况下，估计量的期望分别为总体参数。也就是说，估计量是总体参数的无偏估计。,一、模型和参数估计,(3)最小方差性。在假定(3.6)的情况下，的协差阵为， ( )的方差是乘以正规方程系数矩阵逆矩阵中相应对角线元素。可以证明最小二乘估计量在线性无偏估计中具有最小方差。 (4)正态性。在随机误差项服从正态分布的假定下，还可以进一步证明最小二乘法估计量服从正态分布，即此时，最小二乘估计是

33、一切无偏估计中方差最小的估计。特别地，有 ( )，其中，表示矩阵中第行第列的元素。,二、模型检验,通常来说，模型的设定只是基于定性分析作出的假设。这种假设是否符合实际，能否得到样本数据的支持，还需要在求出线性回归方程后，对回归方程进行显著性检验。多元线性回归方程的显著性检验与一元线性回归方程的显著性检验思想是一致的，但也有不同之处。这里我们介绍两种方法，一是回归方程整体显著性的检验，另一个是回归系数显著性的检验。同时，我们还介绍度量回归拟合程度的可决系数，并讨论可决系数与检验的联系。,（一）回归方程的显著性检验,回归方程检验，检验回归方程的回归拟合效果是否显著，实质是对回归模型的

34、整体线性关系的显著性检验，即检验下列假设是否为真,如果假设不能被拒绝，则表明随机变量与解释变量之间的关系由线性回归模型来表述是不恰当的。该检验我们可以通过构建统计量来进行：,二、模型检验,二、模型检验,当原假设成立时，可以利用该分布对回归方程的整体显著性水平进行检验。,（二）回归系数的显著性检验,在多元回归模型中，自变量对因变量的影响是否显著，主要体现为回归系数是否与0存在差异，当某个自变量回归系数为0时，该自变量在回归方程中就不会产生实质影响效应。因此，检验转化为回归系数是否等于0的问题。,二、模型检验,因此，待检验的假设为,注意：在检验中往往未知，一般采用无偏估计量,由此，可构造t

35、统计量,其中,当原假设成立时，构造的统计量服从自由度为的t分布。,二、模型检验,（三）可决系数以及修正可决系数,可决系数用以描述回归方程对样本观测值的拟合程度。其计算公式为,可决系数就是被回归模型解释的波动(回归平方和 )占因变量观测值总波动(总离差平方和 )的比重，其取值在的区间内。越接近1，表明回归方程对样本数据拟合程度越高，模型对预测越有意义；反之，越接近0，表明回归方程拟合效果越差。,二、模型检验,为了拟合优度受模型中自变量个数的影响，可采用自由度修正可决系数。修正可决系数公式为：,分子是残差项的样本方差，分母是因变量的样本方差，二者都考虑了自由度，剔除了受自变量个数影

36、响的问题。实际应用中，常常将与结合应用，以说明回归效果的有效性。将上面两式的结果结合，可得相互的关系为,二、模型检验,还可进一步得到统计量与的关系为：,需要指出，是测定因变量观测值的总离差平方和由回归模型解释的部分所占比重。而检验是因变量和一组变量 ( )之间是否有线性回归关系的检验。,三、多重共线性,在总体模型中，我们曾假定自变量为非随机变量，且不存在完全的线性关系(即假定满秩)，否则，回归模型无法求解。一般在实际应用中，只要变量选择得当，不会出现自变量之间完全的线性关系。但如果自变量的观测值之间表现出明显的高度相关，近似地形成相互线性表述关系，这在实际问题，特别是经济

37、研究中经常出现。这一问题称为多重共线性，是多元回归分析中出现的特有问题。若出现严重的多重共线性问题，则前面的一系列统计方法就可能失效，导致错误的判定，使预测失误。需要特别引起注意。,三、多重共线性,（一）多重共线性的影响多重共线性的存在会改变回归系数。回归系数并不反映方程中任何一个具体自变量对因变量的影响，而只是方程中给定与其他相关的自变量后一个“偏”的影响。多重共线性不降低模型的拟合能力，但使回归平方和、剩余平方和的含义变得模糊。参数估计量的方差随着变量之间的样本相关性增加而增大。,三、多重共线性,（二）多重共线性的识别相关系数识别法。初步识别，较高的相关系数意味着可能存在多重

38、共线性。方差膨胀因子识别法。方差膨胀因子越接近于1，说明自变量之间多重共线性越弱，反之则越严重。直观判定法。当模型中引入或剔除一个自变量，或小幅改变一个观测值时，回归系数的估计值有较大的变化；回归系数估计值的符号与实际经验判断相违背； F检验通过，而有的回归系数的t检验未通过。,三、多重共线性,（三）多重共线性的消除增加样本量剔除对共线性程度影响较大的自变量逐步回归法变量变换法如采用对数变换，差分变换有偏的估计方法如岭回归、主成分回归下面一节主要介绍逐步回归分析。,114,第二节自变量选择与逐步回归分析,本节基本内容: 一、回归模型的变量子集合选择二、逐步回归分析,

39、在自变量的选择过程中，若遗漏对因变量有重要影响的自变量，建立的回归模型效果肯定不好。若回归模型中包含太多的变量，且其中一些变量对因变量的影响不大，有些自变量之间存在大量信息的重叠(多重共线性问题)，会影响模型精度。因此，自变量的选择无疑是建立回归模型过程中一个极为重要的问题。下面我们介绍一些回归模型的自变量选择技术。,一、回归模型的变量子集合选择,一、回归模型的变量子集合选择,设一个实际问题回归建模中，有个备选自变量，每个自变量都有入选回归方程和不入选回归方程两种情况。因变量关于这些自变量的所有可能回归方程有个，其中是指所有自变量都不入选，回归模型只包含一个常数项的情形。我

40、们的目的是在这些所有可能的回归方程中，选择一个 “最优”的。最优的标准要综合考虑：从回归模型的拟合角度看，残差平方和越小越好，或者说复相关系数越接近1越好；从回归模型的简洁性上看，回归方程中包含自变量个数越小越好。,一、回归模型的变量子集合选择,应该说，上述的单个标准只能看作“最优”方程的某个方面，不能独立作为变量选择的准则。兼顾上述两条标准，可以得到许多选择变量子集合的准则：修正可决系数 AIC准则 Cp准则 ,一、回归模型的变量子集合选择,所谓建立“最优”回归方程，实际上就是自变量的选择问题。可采用以下的方法：从所有可能的自变量组合中选择最优。(工作量太大) 逐步剔除法(B

41、ackward) 。逐步引入法(Forward) 。逐步回归分析法(Stepwise) 。逐步回归分析法 “有进有出” ，综合逐步引入和逐步剔除两种方法特点，是一种自动地从大量可供选择的变量中，选择对建立回归方程重要的变量的方法。下面我们着重介绍这种方法。,二、逐步回归分析,从一个自变量出发，依据自变量对因变量的影响显著性大小，从大到小逐个引入回归方程。同时，在逐个自变量选入回归方程的过程中，如果发现先前被引入的自变量在其后由于某些自变量的引入而失去其重要性时，可以从回归方程中随时予以剔除。,（二）逐步回归分析的基本原理,二、逐步回归分析,每步都要进行显著性检验，以便保证每次引入变量

42、前回归方程中只包括显著性变量。这个过程反复进行，直到既无不显著变量从回归方程中剔除，又无显著变量需要选入回归方程时为止。,二、逐步回归分析,（三）逐步回归的基本步骤 (1)考虑能否剔除变量的基本步骤。假设已经引入回归方程的变量为 ( )。计算已在方程中的变量的偏回归平方和（）,其中，表示包含括号中这些下标对所应变量的回归平方和，表示相应的残差平方和。,寻找所有引入方程中偏回归平方和达到最小的变量,二、逐步回归分析,即相应变量是方程中对因变量影响最小的变量。检验对因变量的影响是否显著。对变量进行回归系数的显著性检验，即检验检验统计量为在原假设成立的情况下，。给定显著性水平，查得临界值为。若，表明显著，不能剔除，转入考虑能否

展开阅读全文