1、1多元正态分布主要内容包括:多元正态分布主要内容包括:n2.2.1 1 多元多元(概率)分布基本概念(概率)分布基本概念n2.2.2 2 多元正态多元正态分布定义及其性质分布定义及其性质n2.2.3 3 多元正态分布的参数估计多元正态分布的参数估计2n众所周知,众所周知,一元统计一元统计分析是分析是多元统计多元统计分析的分析的基础基础,尤其是,尤其是一元正态分布一元正态分布自然是自然是多元正态多元正态分布分布的的基础基础,它在统计学的理论和实际应用,它在统计学的理论和实际应用方面都有着重要的地位。方面都有着重要的地位。n在一元统计分布中,经常会用到随机变量在一元统计分布中,经常会用到随机变量X
2、 X的概念及其概率分布问题。的概念及其概率分布问题。3n(1 1)随机变量的定义:)随机变量的定义:对于每一个随机结果都对对于每一个随机结果都对应着某个变量的一个数值,这种对应就是一个函数,应着某个变量的一个数值,这种对应就是一个函数,用随机变量来表示。用随机变量来表示。nR.V.R.V.特点:特点:a.a.取值的随机性,即事先不能确定其取哪一个值;取值的随机性,即事先不能确定其取哪一个值;b.b.取值的统计规律性,即完全可以确定取值的统计规律性,即完全可以确定x x取某个值或取某个值或在某个区间内取值的概率。在某个区间内取值的概率。4n有时候,有时候,仅仅用一个随机变量来描述随机现象就仅仅用
3、一个随机变量来描述随机现象就不够了,需要用多个随机变量来共同描述的随机不够了,需要用多个随机变量来共同描述的随机现象和问题,而且这些随机变量间又有联系,所现象和问题,而且这些随机变量间又有联系,所以必须要将它们看做一个整体来研究(即不能一以必须要将它们看做一个整体来研究(即不能一个一个地单独研究多个一元随机变量),这就出个一个地单独研究多个一元随机变量),这就出现了多元随机向量的问题和概念现了多元随机向量的问题和概念n因而因而多元随机向量多元随机向量可看作是可看作是一元随机变量一元随机变量的的推广推广n而而一个随机变量一个随机变量可看作是可看作是特殊特殊的的一元随机向量一元随机向量52.2.1
4、 1 多元(概率)分布基本概念多元(概率)分布基本概念1.二元随机向量的例子由于我们的研究对象涉及的是多个变量的总体,所由于我们的研究对象涉及的是多个变量的总体,所以要用若干个随机变量合在一起看作一个整体,共以要用若干个随机变量合在一起看作一个整体,共同用这个整体来描述随机现象。同用这个整体来描述随机现象。比如比如,要考察一射击手向一平面靶子射击的水平,要考察一射击手向一平面靶子射击的水平,那么,子弹在靶子上的着点位置是随机的,这个平那么,子弹在靶子上的着点位置是随机的,这个平面上的随机点需要用两个随机变量(即横向的面上的随机点需要用两个随机变量(即横向的X X与纵与纵向的向的Y Y)共同来描
5、述,于是共同来描述,于是( (X,Y)X,Y)就构成了就构成了二元(维)二元(维)的随机向量的随机向量。6射击后的子弹着落点的位置射击后的子弹着落点的位置是随机的是随机的n这个点的位置要用两这个点的位置要用两个随机变量个随机变量X与与Y共同共同描述才能确定,即用描述才能确定,即用(X,Y)数组的取值)数组的取值来确定这个点的位置。来确定这个点的位置。n这就是二元随机向量这就是二元随机向量。AXY7n在研究社会、经济现象和许多实际在研究社会、经济现象和许多实际问题时,经常遇到多指标的问题。问题时,经常遇到多指标的问题。n例如,例如,评价学生在校表现时,要考评价学生在校表现时,要考察他的政治思想(
6、德)、学习情况察他的政治思想(德)、学习情况(智)、身体状况(体)等各个方(智)、身体状况(体)等各个方面的情况,仅学习情况就又涉及他面的情况,仅学习情况就又涉及他在各个年度的每门课程成绩,这里在各个年度的每门课程成绩,这里面就有多项指标存在。面就有多项指标存在。P元(维)随机向量元(维)随机向量8n再例如,再例如,研究公司的经营情况,就要考察资研究公司的经营情况,就要考察资金周转能力、偿债能力、获利能力、竞争力金周转能力、偿债能力、获利能力、竞争力等多个指标。显然不能将这些指标分割开来等多个指标。显然不能将这些指标分割开来进行单独研究,那样就不能从整体上综合把进行单独研究,那样就不能从整体上
7、综合把握事物的实质。握事物的实质。n一般地,假设我们研究的问题一般地,假设我们研究的问题涉及涉及p个指标,个指标,对对n个个体进行观察,就会得到个个体进行观察,就会得到np个数据个数据,我们的目的就是对观测对象进行分组、分类、我们的目的就是对观测对象进行分组、分类、或分析考察这或分析考察这p个变量之间的相互关联程度,个变量之间的相互关联程度,或者找出内在规律性等等。或者找出内在规律性等等。9P P元(维)随机向量的定义元(维)随机向量的定义n设设 为为p p个随机变量,个随机变量,将它们合在一起组成的一个整体的向量将它们合在一起组成的一个整体的向量 称作称作p p元随机向量。元随机向量。n注意
8、:注意:X X是列向量,所以横着写时需要转是列向量,所以横着写时需要转置一下。置一下。pXXX,.,21),.,(21pXXXX10n我们要研究的对象是多个变量的总体,我们要研究的对象是多个变量的总体,即研究总体的概率分布,特别是关注其即研究总体的概率分布,特别是关注其数字特征是什么?数字特征是什么?n采用的研究方法是采用的研究方法是统计推断方法。统计推断方法。n通过从总体中随机抽取一个样本的手段,通过从总体中随机抽取一个样本的手段,然后对样本的概率分布(即抽样分布)然后对样本的概率分布(即抽样分布)进行研究,来推断(进行研究,来推断(inferenceinference)未知分未知分布的总体
9、的概率分布。布的总体的概率分布。112.联合分布函数与密度函数n与一元随机变量一样,也可将随机向量分为与一元随机变量一样,也可将随机向量分为离散性和离散性和连续型连续型两类,但是在表达其概率分布时,就非常不方两类,但是在表达其概率分布时,就非常不方便了(因为当它是离散型时,需要用多维表格表示概便了(因为当它是离散型时,需要用多维表格表示概率分布,但超过两维时就不容易表示了),这时我们率分布,但超过两维时就不容易表示了),这时我们就必须借助于就必须借助于分布函数分布函数来刻画它的概率分布。这就充来刻画它的概率分布。这就充分体现出分布函数在表达联合概率分布时的优势。分体现出分布函数在表达联合概率分
10、布时的优势。n对于对于多元的随机向量多元的随机向量,就对应地需要用,就对应地需要用联合分布函数联合分布函数来刻画其概率分布。来刻画其概率分布。12二元随机向量的联合分布函数二元随机向量的联合分布函数 13xyXxYy , (x,y)F(x,y)=P(Xx,Yy)F(x,y)值为随值为随机点落入黄色机点落入黄色矩形区域内的矩形区域内的概率概率14联合分布函数的定义:联合分布函数的定义:n设设 是一随机向量,它的是一随机向量,它的联合分布函数联合分布函数定义为定义为),.,(),.,(1121pppxXxXPxxxF),.,(21pXXXX 对于对于p元的随机向量来说,元的随机向量来说,就对应地需
11、要用就对应地需要用联合分布函数联合分布函数来刻画其概率分布。来刻画其概率分布。15联合密度函数的定义联合密度函数的定义n对于对于多元连续型随机向量多元连续型随机向量来说,其概率分来说,其概率分布也可以用密度函数来描述。布也可以用密度函数来描述。n若存在一个非负的若存在一个非负的p p元函数元函数f(f() ),满足满足对任意的对任意的 都成立,则称都成立,则称p p元函数元函数f(f() )为为p p元随机向量的元随机向量的概率密度函数,并称随机向量为概率密度函数,并称随机向量为连续型的连续型的。pxxppdtdtttfxxFp.),.,(.),.,(1111 ppRxxx),.,(2116联
12、合概率密度函数的基本性质联合概率密度函数的基本性质n两条性质是:1 01111 ppppdtdtttfxxxxf.),.,(.,.,),.,(都都成成立立实实数数对对任任意意17n随机向量的数字特征主要有随机向量的数字特征主要有均值向量均值向量和和协方差矩阵协方差矩阵。1.1.均值向量均值向量就是每一个分量的均值(或叫期望)所组成就是每一个分量的均值(或叫期望)所组成的常数向量。用数学符号表示如下:的常数向量。用数学符号表示如下:n设设p p元随机向量为元随机向量为 ,且每个分量的,且每个分量的期望为期望为 ,则将新向量:,则将新向量:定义为该随机向量的期望,也叫定义为该随机向量的期望,也叫均
13、值向量均值向量而一元随机变量的第一个数字特征名称却称为而一元随机变量的第一个数字特征名称却称为均值或期均值或期望请注意一元与多元在对应概念上的称呼的区别望请注意一元与多元在对应概念上的称呼的区别3.p元随机向量的数字特征),.,(21pXXXXpiXEii,.,1,)() )(),.,(),()(21pXEXEXEXE18P元随机向量的协方差阵元随机向量的协方差阵n注意:一元随机变量注意:一元随机变量与与多元随机向量多元随机向量在第二个数字在第二个数字特征方面的表示有很大不同,其原因是在多元情形特征方面的表示有很大不同,其原因是在多元情形中还要体现出分量之间的相关关系。中还要体现出分量之间的相
14、关关系。n一元的一元的称为称为方差,方差,而而多元的多元的改称为改称为协方差阵。协方差阵。n以二元的为例,就会出现两个分量之间的以二元的为例,就会出现两个分量之间的协方差协方差的的概念。概念。19二元随机向量协方差阵的定义二元随机向量协方差阵的定义n假设二元随机向量为假设二元随机向量为Z=(X,Y),Z=(X,Y),定义其协差阵定义其协差阵为为2 22 2的一个方阵,其的一个方阵,其4 4个元素是两两分量之个元素是两两分量之间的协方差数,用符号间的协方差数,用符号表示,即表示,即n称此称此2 2阶矩阵为阶矩阵为Z=(x,Y)Z=(x,Y)协方差矩阵。其中对协方差矩阵。其中对角线上的两个数就是分
15、量各自的方差。角线上的两个数就是分量各自的方差。n以此可以类推到以此可以类推到P P元随机向量的协差阵的定义。元随机向量的协差阵的定义。22211211),cov(),cov(),cov(),cov(yyxyyxxx20p p元随机向量协方差阵的定义元随机向量协方差阵的定义n一个一个P元随机向量元随机向量 自己自己的方差或协差阵的定义,可用的方差或协差阵的定义,可用D(X)或或表示。表示。n两个两个p元随机向量元随机向量 与与 的的协差阵的定义协差阵的定义。),.,(21pXXXX),.,(21pXXXX),.,(21pYYYY21一个简单对比一个简单对比一元分布情形一元分布情形多元分布情形多
16、元分布情形概率概率分布分布名称名称随机变量随机变量p元元随机向量随机向量分布分布名称名称概率分布概率分布联合概率分布联合概率分布数字数字特征特征期望期望均值是数均值是数均值向量是向均值向量是向量量方差方差方差是一个非负数方差是一个非负数2协方差矩阵协方差矩阵22多元正态分布多元正态分布在多元统计分析中的重要地位,就在多元统计分析中的重要地位,就如同一元统计分析中一元正态分布所占重要地位如同一元统计分析中一元正态分布所占重要地位一样,多元统计分析中的许多重要理论和方法都一样,多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上。是直接或间接建立在正态分布的基础上。原因是原因是:
17、 : (1)(1)许多实际问题研究中的随机向量确许多实际问题研究中的随机向量确实遵从正态分布,或者近似遵从正态分布;实遵从正态分布,或者近似遵从正态分布;(2)(2)对于多元正态分布,已经有一套统计推断方对于多元正态分布,已经有一套统计推断方法,并且得到了许多完整的结果。法,并且得到了许多完整的结果。多元正态分布多元正态分布是最常用的一种多元概率分布,下是最常用的一种多元概率分布,下一节就是多元正态分布的定义。一节就是多元正态分布的定义。232.2 多元正态分布定义及基本性质多元正态分布定义及基本性质n 在多元分布中,最常见也是最重要的分布就是正在多元分布中,最常见也是最重要的分布就是正 态分
18、布。态分布。n定义定义:若:若p p维随机向量维随机向量 n的联合概率密度为的联合概率密度为n其中其中,x x和和都是都是p p维向量,维向量,是是p p阶正定阵,阶正定阵,则称则称 随机向量随机向量 服从服从p p元正态分布元正态分布,n或称或称p p维正态随机向量维正态随机向量,简记为,简记为X XNpNp( (, ,) ) ),.,(21pXXXX)()(21exp)2(1),.,(12/11xxxxfpp),.,(21pXXXX24具体而言,n其中的其中的 的具体形式为的具体形式为n而符号而符号 表示该随机向量的协方差矩阵的行列式,表示该随机向量的协方差矩阵的行列式,它是个它是个非负数
19、值。由此说明非负数值。由此说明是非负定的。是非负定的。 ppXXXX .2121和和 和和X25)1 (1,),Corr(/)Var(),Var()(),(2122211212221111121222212221112221121121221112122221112211XXXXXEXE262222111112222222111121222111122111222111222212221122111211)1 (1,)(xxxxxxxxxx272)1 (21exp)1 (21),(22221111122222221111212212221121xxxxxxf28多元正态分布的性质多元正态分布的
20、性质 显然,当显然,当p=1p=1时,就是一元正态分布的时,就是一元正态分布的密度函数;当密度函数;当p=2p=2时,即为二元正态时,即为二元正态分布。分布。n可以证明:可以证明: n(1 1)恰好是恰好是X X的均值向量;的均值向量; n(2 2)恰好是恰好是X X的协方差矩阵。的协方差矩阵。29P P元正态分布的性质:元正态分布的性质:(1 1)若)若 则任一分量的边缘分布也一定是正态分布。则任一分量的边缘分布也一定是正态分布。并且,当协差阵并且,当协差阵是对角形矩阵时,是对角形矩阵时,则分量则分量 是相互独立的。是相互独立的。(2 2)正态随机向量的线性组合仍然服从正态)正态随机向量的线
21、性组合仍然服从正态分布分布),(),.,( ppNXXXX21pXXX,.,21302.2.3 3 多元正态分布的参数估计多元正态分布的参数估计(均值向量和协方差阵的估计)(均值向量和协方差阵的估计)首先应明确,数理统计是本门课程的理论首先应明确,数理统计是本门课程的理论基础,基础,其基本思想是其基本思想是:以样本提供的信息:以样本提供的信息为依据,以统计量为工具,对总体分布中为依据,以统计量为工具,对总体分布中的未知参数或者未知分布进行推断。的未知参数或者未知分布进行推断。简言之,一句话:简言之,一句话:“用样本来推断总体用样本来推断总体”。正因为如此,数理统计也称为正因为如此,数理统计也称
22、为“统计推统计推断断”。31什么是统计推断?n统计推断统计推断是根据已经收集到的样本数据来推断总体的是根据已经收集到的样本数据来推断总体的分布或者总体中的均值、方差等统计参数(它们往往分布或者总体中的均值、方差等统计参数(它们往往是数字特征)。是数字特征)。n之所以不直接从总体出发之所以不直接从总体出发,而根据样本数据推断总体,而根据样本数据推断总体的概率分布的原因是:的概率分布的原因是:n一是总体数据无法全部收集到;如检验电子器件的寿一是总体数据无法全部收集到;如检验电子器件的寿命,这类检验属于破坏性检验,是不可行的。命,这类检验属于破坏性检验,是不可行的。n二是因为既使总体数据能够收集到,
23、但需要耗费大量二是因为既使总体数据能够收集到,但需要耗费大量的人力、物力和财力。的人力、物力和财力。32n因此大家应牢固树立一个观念:因此大家应牢固树立一个观念:统计推断统计推断的结论是有误差的,通常体现为在一定置的结论是有误差的,通常体现为在一定置信度下结论才成立。同时,信度下结论才成立。同时,有些问题的结有些问题的结论也没有必要要求是论也没有必要要求是100%的精确。的精确。n所以,统计推断方法既能节省成本、又能所以,统计推断方法既能节省成本、又能满足问题的需要,因而在实际中有着广泛满足问题的需要,因而在实际中有着广泛的应用。的应用。33统计推断内容的两大组成部分统计推断内容的两大组成部分
24、一大部分内容是一大部分内容是“参数估计参数估计”。另一大部分内容是另一大部分内容是“假设检验假设检验”。这两种思维方式有很大的差异这两种思维方式有很大的差异34统计推断之一:参数估计统计推断之一:参数估计n参数估计的基本思想参数估计的基本思想:直接利用样本提供的:直接利用样本提供的信息对总体分布中的未知参数进行估计,这信息对总体分布中的未知参数进行估计,这就叫做参数估计。就叫做参数估计。n其思维方式是其思维方式是正向的、直接的、即直接地想正向的、直接的、即直接地想方设法去寻找总体中的未知参数的估计值。方设法去寻找总体中的未知参数的估计值。35n假设检验的基本思想:假设检验的基本思想:由于不知道
25、总体的概率分布由于不知道总体的概率分布或者分布中的未知参数是什么,于是就首先提出一或者分布中的未知参数是什么,于是就首先提出一个类似于猜想的所谓的统计假设,然后再利用样本个类似于猜想的所谓的统计假设,然后再利用样本数据来检验这个假设是否可接受,或者利用样本数数据来检验这个假设是否可接受,或者利用样本数据检验一下是否支持这个假设。据检验一下是否支持这个假设。n如果样本数据不支持这个假设(即发生了意料之外如果样本数据不支持这个假设(即发生了意料之外的现象),则认为这个假设不可接受,否则,就认的现象),则认为这个假设不可接受,否则,就认为没有充分的理由拒绝原来的假设。为没有充分的理由拒绝原来的假设。
26、n这就叫做假设检验。这就叫做假设检验。统计推断之二:假设检验统计推断之二:假设检验36很明显,很明显,n假设检验的思维方式是假设检验的思维方式是逆向的、间接的,即逆向的、间接的,即不是直接地想方设法去寻找总体中的未知参不是直接地想方设法去寻找总体中的未知参数的估计值,而是先猜测它是某个值,然后,数的估计值,而是先猜测它是某个值,然后,再去检验这个猜测是否可接受。再去检验这个猜测是否可接受。n在在SPSS的参数检验中,最关键的要看伴随的参数检验中,最关键的要看伴随(或相伴概率)概率与显著性水平(或相伴概率)概率与显著性水平a进行比进行比较,若概率较,若概率Sig.a, 就接受原假设。就接受原假设
27、。37下面首先学习的是下面首先学习的是“多元正态总体的参数多元正态总体的参数估计估计”问题。问题。在给出多元正态分布定义和性质的基础上,在给出多元正态分布定义和性质的基础上,在实际问题中,通常可以假定被研究对象在实际问题中,通常可以假定被研究对象遵从多元正态分布(即是多元正态总体),遵从多元正态分布(即是多元正态总体),遗憾的是,遗憾的是,总体分布中的参数向量总体分布中的参数向量和和 往往是未知的,这就需要用样本提供的信往往是未知的,这就需要用样本提供的信息来估计它们。息来估计它们。38n参数估计方法有很多,比如,极大似然估计法、最参数估计方法有很多,比如,极大似然估计法、最小二乘法等等。小二乘法等等。n这里采用最大似然估计法,得到这里采用最大似然估计法,得到的估计量是的估计量是n即,总体均值向量的最大似然估计量是样本均值向即,总体均值向量的最大似然估计量是样本均值向量。量。n注意:这个估计量仍是一个随机向量。所以后面要注意:这个估计量仍是一个随机向量。所以后面要讲它的分布问题。讲它的分布问题。1 正态总体均值向量 的估计量X392 总体协方差阵 的估计量n同样地,总体协差阵同样地,总体协差阵的最大似然估计的最大似然估计量是样本协差阵,用符号表示为:量是样本协差阵,用符号表示为:n当然,这个估计矩阵仍然是随机矩阵当然,这个估计矩阵仍然是随机矩阵。 Snnjnjj111 XXXX