1、1,应用多元统计分析,2,第一章 绪 论,本章主要讨论: 多元统计分析概述 多元统计分析的应用 线性代数基础,3,第一节 多元统计分析概述,本节基本内容: 一、多元统计分析的涵义 二、多元统计研究的内容和方法,4,一、多元统计分析的涵义,多元统计分析(简称多元分析),是运用数理统计的方法来研究多变量问题的理论和方法,它是一元统计学的推广。 在现实生活中,很多随机现象涉及到的变量不止一个,而经常是多个变量,这些变量之间往往存在一定的联系。按照一元统计方法分析多变量问题,往往不容易取得好的研究结论。 这就需要同时对多个随机变量进行分析研究。,5,从应用上讲,多元统计分析实际上是以 个变量的 次观测
2、数据形成矩阵 为依据,根据实际问题的需要所给出种种分析方法。,一、多元统计分析的涵义,6,多元统计研究的内容和方法概括为(Kendall) : 理论基础 随机向量、矩阵抽样分布理论,统计推断理论等。 降维问题 主成分分析,因子分析,对应分析等。 归类问题 聚类分析,判别分析等。 相依问题 典型相关分析、回归分析等。,二、多元统计研究的内容和方法,7,第二节 多元统计分析的应用,多元统计分析方法是解决实际问题有效的数据处理分析方法,随着电子计算机使用的日益普遍,多元统计分析方法广泛应用于地质科学、气象科学、医疗卫生、体育、语言学、考古学、教育学、心理学以及经济学、管理学等自然学科、社会科学领域。
3、 其中,仅就在经济管理中的应用,主要可集中在如下的场合:,8,对多变量进行降维处理,选择数目较少的变量子集合。 对研究对象需要进行分类研究、分类处理、构造分类模式。 建立经济模型和利用模型进行外推。 研究经济现象之间相互关系。,第二节 多元统计分析的应用,9,第三节 线性代数基础,本节基本内容: 对应用多元统计课程学习过程中所须具备的线性代数知识作简单的回顾和介绍。包括: 向量、矩阵及基本运算,行列式,逆矩阵和矩阵的秩,特征根、特征向量,矩阵的迹,正定矩阵和非负定矩阵,投影矩阵,矩阵微商。,10,约定: 向量用小写粗体字母(如 , 等)表示, 矩阵用大写粗体字母(如 , 等)表示, 标量用斜体
4、字母(如 , 等)表示。,第三节 线性代数基础,11,向量: 由 个实数组成的一个数组称为 维向量,记为 ,或 注意,我们提到的向量均指列向量; 行向量用列向量的转置表示,如 。,一、向量,12,维向量在几何上表示一个有方向的线段。向量可以进行数量乘法和加法运算。令 为任意常数, 和 ,则向量的数量乘法和加法可分别定义为:,一、向量,13,矩阵: 将 个数 排成一个形如 行 列的长方形表: 称 为 矩阵,常记为 ,其中 为第 行,第 列的元素。本书中假定 均为实数。,二、矩阵及基本运算,14,矩阵的运算 矩阵加法。若 与 为 矩阵,则 与 的和为矩阵对应元素的和: 数量乘积。若 为一常数,它与
5、 的积定义为该常数与矩阵元素的乘积:,二、矩阵及基本运算,15,矩阵乘法。若 , ,则 与 的积定义为: 在一般情况下, 。从上述矩阵运算定义中可以得到如下运算规律:,二、矩阵及基本运算,16,若 为方阵,满足 ,则称 为正交矩阵。,二、矩阵及基本运算,17,矩阵分块 矩阵的分块是处理阶数较高的矩阵时常用的方法。有时,我们把一个高阶矩阵看成是由一些低阶矩阵组成的,就像矩阵由数值组成一样。设 为 矩阵,将 剖分称四块,表示成 其中, 表示 矩阵, 表示 矩阵, 表示 矩阵, 为 矩阵。分块矩阵也满足一般矩阵的乘法和加法等运算规律。,二、矩阵及基本运算,18,若矩阵 与 有相同的分块,则 若 为
6、矩阵,剖分成 其中, 为 矩阵, 为 矩阵, 为 矩阵, 为 矩阵。则有,二、矩阵及基本运算,19,二、矩阵及基本运算,20,(一)行列式 一个 阶方阵 对应一个数,记为,称 为 的行列式。,三、行列式、逆矩阵和矩阵的秩,21,直接由行列式的定义计算行列式是很麻烦的,通常利用行列式的一些性质,可以简化计算: (1)若矩阵 的某行(或列)为零,则行列式 。 (2) 。 (3)将矩阵某行(或列)乘以数 所得矩阵的行列式为 。 (4)若矩阵 的两行(或两列)相同,则行列式 。 (5)若将矩阵 两行(或两列)互换所得矩阵的行列式为 。 (6)若将矩阵 的某一行(或列)乘上一个常数加到另一行相应的元素上
7、,所得矩阵的行列式不变,仍为 。,三、行列式、逆矩阵和矩阵的秩,22,(二)逆矩阵 设一个 阶方阵 ,若 ,则称 为非奇异矩阵,若 ,则称 为奇异矩阵。若 为 阶非奇异矩阵,则存在唯一的矩阵 使得 , 称 为 的逆矩阵,记为 ,可以证明 其中, 为 的代数余子式。,三、行列式、逆矩阵和矩阵的秩,23,逆矩阵具有如下性质: (1) 。 (2) 。 (3)若 和 均为 阶非退化矩阵,则 。 (4) 。 (5)若 是正交矩阵,则有 。 (6)若 非退化, 即 ( ),则 。 (7)若 和 为非退化方阵,则 。,三、行列式、逆矩阵和矩阵的秩,24,(三)逆矩阵的秩 设 为 阶矩阵。若存在 的一个 阶子
8、方阵的行列式不为零,而 的一切 阶子方阵的行列式均为零,则称 的秩为 ,记为 。矩阵的秩具有下列基本性质: (1) ,当且仅当 。 (2)若 为 阶矩阵,且 ,则 。 (3) 。 (4)若 为 矩阵和 为 矩阵,则 。,三、行列式、逆矩阵和矩阵的秩,25,(5)若 和 为 矩阵,则 (6)若 和 为非退化矩阵,则 (7) 阶方阵 是非退化的,当且仅当 ,此时称 为满秩矩阵。,三、行列式、逆矩阵和矩阵的秩,26,设 为 阶方阵,则方程 的左边为 次多项式,由多项式的理论知道,该方程有 个根(可能有重根),记为 ,并称为矩阵 的特征根或特征值。 若 是方程 的一个根,则 为奇异矩阵,故存在一个 维
9、非零向量 使得,四、特征根、特征向量,27,即 是矩阵 的特征根,而 称为特征根 对应的特征向量。今后一般取为 单位向量,即满足 。特征根和特征向量具有以下性质: (1)矩阵 和 有相同的特征根。 (2)若 为 矩阵, 为 矩阵,则 和 有相同的特征根。 (3)若 为实对称矩阵,则 的特征根全为实数, 个特征根按大小依次表示为 。,四、特征根、特征向量,28,若 ,则相应的特征向量 和 必正交,即 (4)若 是矩阵 的特征根, 可逆,则 的特征根为 。 (5) ,即矩阵 行列式等于其特征根 的乘积。,四、特征根、特征向量,29,若 是 阶方阵,其对角线元素之和称为矩阵 的迹,记为 方阵的迹具有
10、如下性质: (1)若 为 阶方阵 的特征根,则 (2),五、矩阵的迹,30,(3) 。 (4) 。 (5) 。 (6) 。,五、矩阵的迹,31,设 为 阶对称矩阵, 是一个 维列向量,则 称为 的二次型。若对于一切 ,有 ,则称 为正定矩阵,记为 ;若 对于一切 ,有 ,则称 为非负 定矩阵,记为 。,六、正定矩阵和非负定矩阵,32,正定矩阵和非负定矩阵具有如下性质: (1)一个对称阵是正(非负)定矩阵,当且仅当它的特征根为正(非负)。 (2)若 ,则 。 (3)设 ,则 当且仅当 。 (4) ,对于一切矩阵 成立。,六、正定矩阵和非负定矩阵,33,(5)若 (或 ),则必存在一个正交矩阵 ,
11、使得 其中, 为矩阵 的特征根, 的列向量为相应的特征向量,于是有 。 (6)由性质(1), 均非负,即 ,记 特别地,令 ,有 ,称 为 的平方根矩阵。,六、正定矩阵和非负定矩阵,34,(7)若 (或 ),则存在 (或 ),使得 。,六、正定矩阵和非负定矩阵,35,若 阶方阵满足 ,则称 为幂等矩阵,对称的幂等矩阵称为投影矩阵。以下是投影矩阵的一些性质: (1)若 为投影矩阵,则 。 (2)若 为投影矩阵,则 是投影矩阵。,七、投影矩阵,36,(3)若 为秩为 的投影矩阵,则 有 个特征根为1,其余特征根为0。故满秩的投影矩阵必为单位阵 。 (4)若 和 为投影矩阵,且 ,则 。 (5)若
12、是 矩形, , ,则 是投影矩阵,且 。,七、投影矩阵,37,若令 为实值向量, , 其中 ( )。那么规定 关于 的偏导 数定义为:,八、矩阵微商,38,特别地,当 时,有 根据上述定义,我们给出一个矩阵微商极其重要的特例,八、矩阵微商,39,第 一 章 结 束 了!,THANKS,应用多元统计分析,第二章 多元正态分布,41,第二章 多元正态分布,本章主要讨论: 多元分布的基本概念 多元正态分布及其参数估计 多元正态分布的假设检验,42,第一节 多元分布的基本概念,本节基本内容: 一、随机向量 二、多元分布函数和多元密度函数 三、边缘密度、独立性与条件分布 四、多维随机向量的数字特征,43
13、,一、随机向量,所随机变量通俗理解就是“其值随机会而定”的量。 本课程讨论的是多变量的情形,也即随机向量: 设 为 个随机变量,由它们组成向量 ,则称作 维随机向量。 在不做特别说明的情况下, 向量、矩阵用粗体表示; 涉及总体的变量用大写字母表示,涉及样本的变量用小写字母表示; 随机变量用大写字母表示,其实现值用小写字母表示。,44,在理论上,对多维随机向量的研究和对一维随机变量的研究思路是类似的,通过分布及其特征进行刻画。不同的是,可能要考虑变量之间的相关关系。 在统计应用上,对多维随机向量的研究和对一维随机变量的研究思路也是一样的,要通过样本资料来推断总体。,一、随机向量,45,如果同时对
14、 个变量作一次观测,得到观测值: ,称观测值 为一个样品; 若这样的观测重复进行 次,可得到 个样品 ( )。把这样的 个样品放在一起,称之为一个样本。常排成 矩阵:,一、随机向量,46,需要说明的是, 从横向看,矩阵 的第 行 表示对第 个样品的一次观测值。当然,在 获得具体观测之前,是一个 维随机向量。 从纵向上看,矩阵 的第 列 表示对第 个变量的 次重复观测值,在 获得具体观测之前,是一个 随机变量。,一、随机向量,47,二、多元分布函数和多元密度函数,随机向量(变量) 离散型、连续型 刻画随机向量(变量) 分布函数、密度函数,48,分布函数 设 为一随机向量,它的多元分布函数定义为:
15、 记为 。 随机向量的统计特性可用它的分布函数来完整地描述。,二、多元分布函数和多元密度函数,49,密度函数(设 为 维随机向量) 连续型。若 称 为 的的联合分布密度函数。 离散型。若存在有限或可列个维向量 ,使得 ,且满足 ,则称 ( )为 的概率分布(本质上为密度函数)。,二、多元分布函数和多元密度函数,50,以连续型变量为例进行讨论。 多维随机向量的边缘密度。若 为 维随机向量,由它的 ( )个分量组成的子向量 的分布称为的 边缘(边际)分布。通过变换 中的各分量的次序,总可以假定 正好是 的前 个分量,其余 个分量记为 ,则 可表示为:,三、多维随机向量的边缘密度、 独立性与条件分布
16、,51,此时, 的分布函数为 。 若 的联合分布密度为 ,则 的边缘密度函数为: ,(2.3) 多维随机向量的独立性。若 个随机变量 的联合分布密度等于各自边缘分布的乘积,则称 是互相独立的。,三、多维随机向量的边缘密度、 独立性与条件分布,52,多维随机向量的条件分布。当 的密度函数为 , 的密度函数为 时,给定 时 的条件密度为 称给定 时 的分布为条件分布。,三、多维随机向量的边缘密度、 独立性与条件分布,53,概率分布是对随机变量的概率性质最完整的刻画。优点是刻画的完整性,不便之处在于表示形式有时是非常复杂的。而随机变量的数字特征,则是指某些由随机变量的分布所决定的常数,它刻画了随机变
17、量(或者其分布)的某一方面的性质。对于多维随机变量刻画其性质的最重要的数字特征有均值、自协差阵与协差阵及相关矩阵。 为了便于讨论,设 为 维随机向量, 为 维随机向量。,四、多维随机向量的数字特征,54,若 ( )存在,则随机向量 的均值可定义为: 其中 是一个 维向量,称为均值向量。,四、多维随机向量的数字特征,55,若 和 的协方差 ( )存在,则称 为 的自协差阵(简称协差阵),有时,把 简记为 。,四、多维随机向量的数字特征,56,若 和 的协方差 ( )存在,则随机向量 、 的协差阵记为 若 ( 表示零矩阵),则称 与 不相关。,四、多维随机向量的数字特征,57,随机向量均值及协差阵
18、具有如下性质: (1) ; (2) ; (3) ; (4) ; (5) 为非负定对称矩阵; (6) ; (7) 。,四、多维随机向量的数字特征,58,若 维随机向量 的协差阵存在,且每个分量的方差大于零,则称随机向量 的相关阵为 其中,四、多维随机向量的数字特征,59,若记 为自协差阵 对角线元素 的平方根形成的对角矩阵,则自协差阵和相关阵的关系可表述为:,四、多维随机向量的数字特征,60,第二节 多元正态分布及其参数估计,本节基本内容: 一、多元正态分布密度函数 二、多元正态分布的数字特征 三、多元正态分布的参数估计 四、多维随机向量的数字特征,61,用来刻画多维随机向量统计特性的常见的多元
19、分布有很多,除了多元正态分布还有多元对数正态分布、多项式分布、多元超几何分布、多元 分布、多元 分布、多元指数分布等。这里主要介绍多元正态分布,其原因是多元统计分析的主要方法是建立在多元正态分布的假设之上的。尽管实际分析数据可能不会严格服从多元正态分布的,但有三个原因使多元正态分布在实际中有着广泛的应用:一是,正态分布在许多情况下确实能作为真实总体的一个近似;二是,根据中心极限定理,不论总体的分布如何,许多统计量的分布是近似正态分布的;三是,很多检验统计量的分布对正态分布条件是稳健的,即原始资料对正态的偏离对检验结果影响不大。,62,若 维随机向量 的概率密度函数为 ,(2.6) 则称 服从
20、维正态分布,简记为 ,其中 是 维向量, 是 阶正定矩阵。,一、多元正态分布密度函数,63,多元正态随机向量具有以下的性质: (1)若 ,其协差阵 是对角阵,则 的各分量是相互独立的随机变量。 (2)多元正态分布随机向量的任何一个分量子集的分布仍然服从正态分布。 (3)多元正态分布随机向量 的任意线性变换仍然是服从多元正态分布。若 ,令 , 为 阶方阵,则 。,一、多元正态分布密度函数,64,若 ,则 , ,即 恰好是多维随机向量 的均值向量, 恰好是多维随机向量 的协差阵。其中, ,,二、多元正态分布的数字特征,65,在实际应用中,多元正态分布中的均值向量 和协差阵 通常是未知的,需要由样本
21、资料来估计,而参数估计的方法很多,最常见的是极大似然估计法给出估计量:用样本均值向量估计总体均值向量,用样本协差阵估计总体协差阵。,三、多元正态分布的参数估计,66,一般情况下,从多元正态总体中按照随机原则,抽取容量为 的样本,则样本数据矩阵为,三、多元正态分布的参数估计,67,设每个样品是相互独立的,则利用极大似然估计可求出,三、多元正态分布的参数估计,68,矩阵是实对称矩阵,因此只写出上三角部分。事实上,按照最大似然估计的结果, 是 的无偏估计,但 不是 的无偏估计。为了得到无偏估计量,通常作出调整:令 , (2.7) 则 是 的无偏估计。在一定得假设下,可以证明 和 还是 和 的“最小方
22、差”无偏估计量,即 和 是 和 的有效估计。常称 为样本均值, 为样本协差阵。,三、多元正态分布的参数估计,69,第三节 多元正态分布的假设检验,本节基本内容: 一、多元正态总体的三个重要抽样分布 二、一个正态总体均值向量的假设检验 三、两个正态总体均值向量的检验 四、多个正态总体均值向量的检验多元方差分析 五、正态总体的协方差阵检验,70,一元正态总体中,参数 、 的检验要设计到一个总体、两个总体乃至多个总体的检验问题。用于检验 、 的抽样分布主要有 分布、分布、分布等,它们都是由来自正态总体 的随机样本导出的检验统计量的分布。 推广到多元正态总体,类似于一元假设检验情形,多元统计分析中也需
23、要对各种均值向量和协差阵进行假设检验,涉及到三个重要的统计量:维希特(Wishart)统计量、霍特林(Hotelling) 统计量、威尔克斯(Wilks) 统计量。,一、多元正态总体的三个重要抽样分布,71,假设检验的基本步骤均可归纳为四步:第一步,提出待检验的假设 和 。第二步,给出检验的统计量及其服从的分布。第三步,给定检验水平 ,查统计量的分布表,确定临界值 ,从而得到拒绝域。第四步,根据样本观测值计算出统计量的值,看是否落入拒绝域中,以便对待判假设检验做出决策。,一、多元正态总体的三个重要抽样分布,72,设总体 服从 , 。现从中获得样本 ( ),样本均值向量为 ,要检验假设 , (
24、为已知向量) (1)总体协差阵 为已知,且为正定时,可用检验统计量: 当原假设 成立时,统计量 ,给定检验水平 ,查 分布表使 ,可得临,二、一个正态总体均值向量的假设检验,73,界值 ,再由样本值计算 ,若 ,则拒绝原假设 ,否则假设 相容,不能拒绝原假设。 (2)当总体协方差阵 未知时,用 的无偏估计量 代替,则检验统计量为 当原假设 成立时,统计量 服从 分布,再利用 分布与 分布的关系,有,二、一个正态总体均值向量的假设检验,74,所以,给定检验水平 ,查 分布表使 ,可得临界值 ,再由样本 值计算 ,若 ,则拒绝原假设 ,否则假设 相容,不能拒绝原假设。,二、一个正态总体均值向量的假
25、设检验,75,设有总体 ( ),从中获得样本 ,样本均值向量为 ,另有一总体 ( ),从中获得样本 ,样本均值向量为 ,两组样本相互独立,协差阵 和 为正定矩阵,且 , 。现在要检验假设 , (1)当协差阵相等,即 ,且未知时,可用检验统计量:,三、两个正态总体均值向量的检验,76,其中 , , 当原假设 成立时,统计量 服从霍特林 分布, 再利用霍特林 分布与 分布的关系,有 所以,给定检验水平 ,查 分布表可得出 ,再 由样本值计算 ,若 ,则拒绝原假设 ,否则 相容,不能拒绝原假设。,三、两个正态总体均值向量的检验,77,(2)协差阵不相等,即 ,且为未知时,具体分两种情况: 第一种情况
26、: 时,令 ( ), , 于是利用 分布与 分布的关系,可得检验统计量为: 第二种情况: 时,不妨设 时,令,三、两个正态总体均值向量的检验,78,( ) , 于是利用 分布与 分布的关系,可得检验统计量为:,三、两个正态总体均值向量的检验,79,设有 个 元正态总体 , , , 为正定矩阵,从每个总体中抽取独立样品个数分别为 , ,具体样本观测数据如下: 第一个总体:,四、多个正态总体均值向量的检验 多元方差分析,80,第二个总体: 第 个总体: 样本的均值向量为 ( ),要检验的假设为 , 不全相等,四、多个正态总体均值向量的检验 多元方差分析,81,记 , , , 利用一元情况下方差分析
27、的思想,令总离差阵为 ,组内离差阵为 ,组间离差阵为 ,那么 ,各离差阵的计算公式为:,四、多个正态总体均值向量的检验 多元方差分析,82,则检验用的统计量是通过广义似然比导出的统计量(这里的广义似然比统计量等价威尔克斯统计量)为: 给定检验水平 ,查威尔克斯分布表,确定临界值,然后作出统计判断。当然,若没有查威尔克斯分布表的情况下,可近似用 分布或 分布来进行检验: 设 ,令,四、多个正态总体均值向量的检验 多元方差分析,83,, 其中, , , 则 近似服从 分布, 近似服从 分布,这里 不一定是整数,可用与它接近的整数来作为 分布的自由度。,四、多个正态总体均值向量的检验 多元方差分析,
28、84,设 ,协差阵 为正定矩阵,且为未知。从中获得样本 , , 为一个单位阵, 是一个已知的正定矩阵,要检验假设: (1) , 检验所使用的似然比统计量为 其中, 。,五、正态总体的协方差阵检验,85,(2) , 因为 为正定矩阵,所以存在 ( )使得 ,令 ( ),则 因此,检验 等价于检验 ,检验所使用的似然比统计量为: 其中, 。,五、正态总体的协方差阵检验,86,在实际应用中,由于 分布的计算比较困难,实际应用中,往往采用 分布的近似分布 分布来近似,在原假设 成立的情况下,当 很大时, 近似服从 。,五、正态总体的协方差阵检验,87,设有 个 元正态总体 , , ,进一步假定 ( )
29、为正定矩 阵,且为为未知。分别从各总体中取 个样 本 , ,要检验的假设为 , 不全相等 令 ,其中 , 。,五、正态总体的协方差阵检验,88,检验所用的似然比统计量为 在实际应用中,将 改为 , 改为 ,得修 正的统计量,记为 ,则 的近似分布为 分布。,五、正态总体的协方差阵检验,89,其中,,五、正态总体的协方差阵检验,90,第 二 章 结 束 了!,THANKS,应用多元统计分析,第三章 多元回归分析,92,第三章 多元回归分析,本章主要讨论: 多元线性回归分析 自变量选择与逐步回归分析 回归分析应用实例,第一节 多元线性回归分析,本节基本内容: 一、模型和参数估计 二、模型检验 三、
30、多重共线性,一、模型和参数估计,(一)总体回归模型,其中: 因变量 为随机变量, 自变量 为确定变量, 是固定的但未知的参数,称为总体回归系数; 称为随机误差项,表示除了自变量以外被忽略的或无法考虑的其他随机的影响因素。,线性:指 可表述为未知参数 的线性函数。,对于一个实际问题,如果我们获得 组观测数据: 则线性回归模型可表述为,一、模型和参数估计,一、模型和参数估计,写成矩阵形式为 其中,,为了估计模型,要求: ,,一、模型和参数估计,为了能对回归模型进行假设检验,还需假定随机误差 项服从正态分布: 值得注意的是,对回归模型的解释,主要是对参数 ( )的解释, 的含义为保持其他自变量不变,
31、当 变动一个单位时,对因变量 的平均影响程度。,(二) 参数估计,一、模型和参数估计,现实情况下,总体参数未知,一般需根据样本资料建立 样本回归模型,从而推断总体模型,利用样本资料,可 以构建模型,其中, 是对 的估计。需要指出的是, 不是像 那样是固定的数值,而是随着样本的不同,可以有不 同取值,由于样本是随机的, 也是随机变量。 可由最小二乘法估计得到。,一、模型和参数估计,最小二乘法:其原理是使残差平方和达到最小,即,达到最小。解形如下式的正规方程:,一、模型和参数估计,将其写为矩阵形式:,即 经过一系列求解,可得:,一、模型和参数估计,上式中的估计量 称为回归参数 的最小二乘估计,具有
32、以下的统计特性: (1)线性性。由其表达式可以看出,估计量 是 ( )的线性函数。进一步地, ( )在获得具体观测之前是随机变量,由此来讲,估计量 也是随机变量。 (2)无偏性。在假定(3.6)的情况下,估计量 的期望分别为总体参数 。也就是说,估计量 是总体参数 的无偏估计。,一、模型和参数估计,(3)最小方差性。在假定(3.6)的情况下, 的协差阵为 , ( )的方差是 乘以正规方程系数矩阵逆矩阵 中相应对角线元素。可以证明最小二乘估计量 在线性无偏估计中具有最小方差。 (4)正态性。在随机误差项服从正态分布的假定下,还可以进一步证明最小二乘法估计量 服从正态分布,即 此时,最小二乘估计是
33、一切无偏估计中方差最小的估计。特别地,有 ( ),其中, 表示矩阵 中第 行第 列的元素。,二、模型检验,通常来说,模型的设定只是基于定性分析作出的假设。这种假设是否符合实际,能否得到样本数据的支持,还需要在求出线性回归方程后,对回归方程进行显著性检验。多元线性回归方程的显著性检验与一元线性回归方程的显著性检验思想是一致的,但也有不同之处。这里我们介绍两种方法,一是回归方程整体显著性的 检验,另一个是回归系数显著性的 检验。同时,我们还介绍度量回归拟合程度的可决系数,并讨论可决系数与 检验的联系。,(一)回归方程的显著性检验,回归方程检验,检验回归方程的回归拟合效果是否显著,实质是对回归模型的
34、整体线性关系的显著性检验,即检验下列假设是否为真,如果假设 不能被拒绝,则表明随机变量与解释变量之间的关系由线性回归模型来表述是不恰当的。该检验我们可以通过构建统计量来进行:,二、模型检验,二、模型检验,当原假设成立时, 可以利用该分布对 回归方程的整体显著性水平进行检验。,(二)回归系数的显著性检验,在多元回归模型中,自变量对因变量的影响是否显著,主要体现为回归系数是否与0存在差异,当某个自变量回归系数为0时,该自变量在回归方程中就不会产生实质影响效应。因此,检验转化为回归系数是否等于0的问题。,二、模型检验,因此,待检验的假设为,注意:在检验中 往往未知,一般采用无偏估计量,由此,可构造t
35、统计量,其中,当原假设成立时,构造的统计量服从自由度为 的t分布。,二、模型检验,(三)可决系数以及修正可决系数,可决系数用以描述回归方程对样本观测值的拟合程度。 其计算公式为,可决系数就是被回归模型解释的波动(回归平方和 )占因变量观测值总波动(总离差平方和 )的比重, 其取值在的区间内。 越接近1,表明回归方程对样 本数据拟合程度越高,模型对预测越有意义;反之, 越接近0,表明回归方程拟合效果越差。,二、模型检验,为了拟合优度受模型中自变量个数的影响,可采用自 由度修正可决系数。修正可决系数公式为:,分子是残差项的样本方差,分母是因变量的样本方差, 二者都考虑了自由度,剔除了受自变量个数影
36、响的问 题。实际应用中,常常将 与 结合应用,以说明回 归效果的有效性。将上面两式的结果结合,可得相互 的关系为,二、模型检验,还可进一步得到 统计量与 的关系为:,需要指出, 是测定因变量观测值的总离差平方和由回归模型解释的部分所占比重。而 检验是因变量 和一组变量 ( )之间是否有线性回归关系的检验。,三、多重共线性,在总体模型中,我们曾假定自变量为非随机变量,且不存在完全的线性关系(即假定满秩),否则,回归模型无法求解。一般在实际应用中,只要变量选择得当,不会出现自变量之间完全的线性关系。 但如果自变量的观测值之间表现出明显的高度相关,近似地形成相互线性表述关系,这在实际问题,特别是经济
37、研究中经常出现。 这一问题称为多重共线性,是多元回归分析中出现的特有问题。若出现严重的多重共线性问题,则前面的一系列统计方法就可能失效,导致错误的判定,使预测失误。需要特别引起注意。,三、多重共线性,(一)多重共线性的影响 多重共线性的存在会改变回归系数。 回归系数并不反映方程中任何一个具体自变量对因变量的影响,而只是方程中给定与其他相关的自变量后一个“偏”的影响。 多重共线性不降低模型的拟合能力,但使回归平方和、剩余平方和的含义变得模糊。 参数估计量的方差随着变量之间的样本相关性增加而增大。,三、多重共线性,(二)多重共线性的识别 相关系数识别法。 初步识别,较高的相关系数意味着可能存在多重
38、共线性。 方差膨胀因子识别法。 方差膨胀因子越接近于1,说明自变量之间多重共线性越弱,反之则越严重。 直观判定法。 当模型中引入或剔除一个自变量,或小幅改变一个观测值时,回归系数的估计值有较大的变化;回归系数估计值的符号与实际经验判断相违背; F检验通过,而有的回归系数的t检验未通过。,三、多重共线性,(三)多重共线性的消除 增加样本量 剔除对共线性程度影响较大的自变量 逐步回归法 变量变换法 如采用对数变换,差分变换 有偏的估计方法 如岭回归、主成分回归 下面一节主要介绍逐步回归分析。,114,第二节 自变量选择与逐步回归分析,本节基本内容: 一、回归模型的变量子集合选择 二、逐步回归分析,
39、在自变量的选择过程中,若遗漏对因变量有重要影响的自变量,建立的回归模型效果肯定不好。 若回归模型中包含太多的变量,且其中一些变量对因变量的影响不大,有些自变量之间存在大量信息的重叠(多重共线性问题),会影响模型精度。 因此,自变量的选择无疑是建立回归模型过程中一个极为重要的问题。 下面我们介绍一些回归模型的自变量选择技术。,一、回归模型的变量子集合选择,一、回归模型的变量子集合选择,设一个实际问题回归建模中,有 个备选自变量,每个自变量都有入选回归方程和不入选回归方程两种情况。 因变量 关于这些自变量的所有可能回归方程有 个,其中 是指所有自变量都不入选,回归模型只包含 一个常数项的情形。 我
40、们的目的是在这些所有可能的回归方程中,选择一个 “最优”的。 最优的标准要综合考虑: 从回归模型的拟合角度看,残差平方和越小越好,或者 说复相关系数越接近1越好; 从回归模型的简洁性上看,回归方程中包含自变量个数 越小越好。,一、回归模型的变量子集合选择,应该说,上述的单个标准只能看作“最优”方程的某个方面,不能独立作为变量选择的准则。 兼顾上述两条标准,可以得到许多选择变量子集合的准则: 修正可决系数 AIC准则 Cp准则 ,一、回归模型的变量子集合选择,所谓建立“最优”回归方程,实际上就是自变量的选择问题。可采用以下的方法: 从所有可能的自变量组合中选择最优。(工作量太大) 逐步剔除法(B
41、ackward) 。 逐步引入法(Forward) 。 逐步回归分析法(Stepwise) 。 逐步回归分析法 “有进有出” ,综合逐步引入和逐步剔除两种方法特点,是一种自动地从大量可供选择的变量中,选择对建立回归方程重要的变量的方法。 下面我们着重介绍这种方法。,二、逐步回归分析,从一个自变量出发,依据自变量对因变量的影响显著性大小,从大到小逐个引入回归方程。 同时,在逐个自变量选入回归方程的过程中,如果发现先前被引入的自变量在其后由于某些自变量的引入而失去其重要性时,可以从回归方程中随时予以剔除。,(二)逐步回归分析的基本原理,二、逐步回归分析,每步都要进行显著性检验,以便保证每次引入变量
42、前回归方程中只包括显著性变量。这个过程反复进行,直到既无不显著变量从回归方程中剔除,又无显著变量需要选入回归方程时为止。,二、逐步回归分析,(三)逐步回归的基本步骤 (1)考虑能否剔除变量的基本步骤。假设已经引入回归方程 的变量为 ( )。 计算已在方程中的变量 的偏回归平方和 ( ),其中, 表示包含括号中这些下标对所应变量的回归平方和, 表示相应的残差平方和。,寻找所有引入方程中偏回归平方和达到最小的变量,二、逐步回归分析,即相应变量 是方程中对因变量影响最小的变量。 检验 对因变量 的影响是否显著。对变量 进行回归系数的显著性检验,即检验 检验统计量为 在原假设成立的情况下, 。给定显著性水平 ,查得临界值为 。若 ,表明 显著,不能剔除 ,转入考虑能否