第一章多元正态分布课件.ppt

上传人(卖家):晟晟文业 文档编号:5175660 上传时间:2023-02-16 格式:PPT 页数:47 大小:1.04MB
下载 相关 举报
第一章多元正态分布课件.ppt_第1页
第1页 / 共47页
第一章多元正态分布课件.ppt_第2页
第2页 / 共47页
第一章多元正态分布课件.ppt_第3页
第3页 / 共47页
第一章多元正态分布课件.ppt_第4页
第4页 / 共47页
第一章多元正态分布课件.ppt_第5页
第5页 / 共47页
点击查看更多>>
资源描述

1、第一章第一章 多元正态分布多元正态分布 目录 上页 下页 返回 结束 1.1 多元分布的基本概念多元分布的基本概念1.2 统计距离和马氏距离统计距离和马氏距离1.3 多元正态分布多元正态分布1.4 均值向量和协方差阵的估计均值向量和协方差阵的估计1.5 常用分布及抽样分布常用分布及抽样分布 一元正态分布在统计学的理论和实际应用中都有着重要的地位。同样,在多变量统计学中,多元正态分布也占有相当重要的位置。原因是:许多随机向量确实遵从正态分布,或近似遵从正态分布;对于多元正态分布,已有一整套统计推断方法,并且得到了许多完整的结果。目录 上页 下页 返回 结束 多元正态分布是最常用的一种多元概率分布

2、。除此之外,还有多元对数正态分布,多项式分布,多元超几何分布,多元 分布、多元 分布、多元指数分布等。本章从多维变量及多元分布的基本概念开始,着重介绍多元正态分布的定义及一些重要性质。2 2 目录 上页 下页 返回 结束 1.11.1多元分布的基本概念多元分布的基本概念 目录 上页 下页 返回 结束 1.1.1 随机向量随机向量1.1.2 分布函数与密度函数分布函数与密度函数1.1.3 多元变量的独立性多元变量的独立性1.1.4 随机向量的数字特征随机向量的数字特征1.1.1 1.1.1 随机向量随机向量 表示对同一个体观测的表示对同一个体观测的 个变量。若观测了个变量。若观测了 个个体,则可

3、得到如下个个体,则可得到如下表表1-11-1的数据,称每一个个的数据,称每一个个体的体的 个变量为一个样品,而全体个变量为一个样品,而全体 个样品形成一个样品形成一个样本。个样本。pnpn 目录 上页 下页 返回 结束 假定所讨论的是多个变量的总体,所研究的数假定所讨论的是多个变量的总体,所研究的数据是同时观测据是同时观测 个指标(即变量),又进行了个指标(即变量),又进行了 次次观测得到的,把这观测得到的,把这 个指标表示为个指标表示为 常常用向量用向量),(21pXXXXnpXXX,21pp 横看表横看表1-11-1,记,记 ,它表示第它表示第 个样品的观测值。个样品的观测值。竖看表竖看表

4、1-11-1,第第 列的元素列的元素 表示对表示对 第个变量第个变量 的的n n次观测数值。次观测数值。下面为下面为表表1-11-1jxj),(21)(pxxxXn,2,1,),(21njjjjxxxXpj,2,1jnpxn 21 变量变量序号序号1X11x21x1nx2X12x22x2nxpXpx1px2npx 目录 上页 下页 返回 结束 因此因此,样本资料矩阵可用矩阵语言表示为样本资料矩阵可用矩阵语言表示为:/11121(1)/21222(2)12/12()(,)pppnnnpnxxxxxxxxxxxXx xxx 目录 上页 下页 返回 结束 注:若无特别说明,本书所称向量均指列向量pX

5、XX.,21).,(21pXXX定义定义1.1 设 为p个随机变量,由它们组成的向量 称为随机向量。1.1),(),()(1121pppxXxXPxxxFXF 1.1.21.1.2 分布函数与密度函数分布函数与密度函数 描述一维随机变量的最基本工具是分布函数,类似地描述随机向量的最基本工具还是分布函数。目录 上页 下页 返回 结束 定义定义1.21.2 设设 是一随机向量,它的多是一随机向量,它的多元分布函数是元分布函数是式中:式中:FXRxxxxpp,),.,(21并记为),.,(21pXXXX(1.2),),()(111pxxpdtt dttfFpxpR()()0 ()()1pifRiif

6、d xxxx 目录 上页 下页 返回 结束 定义1.3:设 =,若存在一个非负函数 ,使得)(XFX),(21pxxxFf 对一切对一切 成立,则称成立,则称 (或(或 )有分布)有分布密度密度 并称并称 为连续型随机向量。为连续型随机向量。fpRx XFXX1.1.31.1.3 多元变量的独立性多元变量的独立性X 目录 上页 下页 返回 结束(1.3)()(),(yxXyYxXYPPP)()(),(yHxGyxF注意注意:在上述定义中,在上述定义中,和和 的维数一般是不同的。的维数一般是不同的。YXY 若若 有密度有密度 ,用,用 分别表示分别表示 和和 的分布密度,则的分布密度,则 和和

7、独立当且仅当独立当且仅当 (1.5)(1.5),(YX),(yxf)()(yhxg和XXYY1.1.4 1.1.4 随机向量的数字特征随机向量的数字特征 是一个是一个p p维向量,称为均值向量维向量,称为均值向量.目录 上页 下页 返回 结束)8.1()()()2(7.1)()()1(BXAEAXBEXAEAXE当 为常数矩阵时,由定义可立即推出如下性质:BA、p)(PP)(1.6).)()(2121XXEXEXEE1 1、随机向量、随机向量 X X的均值的均值 设 有P个分量.若 存在,我们定义随机向量X的均值为:(1,2,)ip12(,)pXXXX()iiE X(1.9)()D(X ),(

8、),(),()(),(),(),()(2122121211ijPPPPPXXCOVXXCOVXXCOVXDXXCOVXXCOVXXCOVXD)()(),(/XXXXXXXDEEECOV 目录 上页 下页 返回 结束 2、随机向量、随机向量 自协方差阵自协方差阵X则称为X的自协方差阵 目录 上页 下页 返回 结束 3 3、随机向量、随机向量X X 和和Y Y 的协差阵的协差阵)10.1(,1;,1,),(cov(),cov(pjniYXYXji,若0),cov(YX当当A A、B B为常数矩阵时,由定义可推出协差阵有如下性质:为常数矩阵时,由定义可推出协差阵有如下性质:),cov(),cov()

9、2()()()1(BYXABYAXAAAXADAXD 设设 分别为分别为n维和维和p维随机向量,它们之间的协方差阵定义维随机向量,它们之间的协方差阵定义为一个为一个np矩阵,其元素为矩阵,其元素为 ).,().,(2121pnYYYYXXXX和),(covjiYX称X和Y是不相关的。目录 上页 下页 返回 结束(3)设)设X为为 维随机向量,期望和协方差存在记维随机向量,期望和协方差存在记 则则AAAXX)()(trEn常数阵,为nn,)(,)(AXDXE 对于任何随机向量对于任何随机向量 来说来说,其协差阵,其协差阵都是对称阵,同时总是非负定(也都是对称阵,同时总是非负定(也称半正定)的。大

10、多数情形下是正定的。称半正定)的。大多数情形下是正定的。),(21pXXXX(1.11),2,1,)()(),()(),(pjiXDXDXXCOVrrXXcorrjijiijPPijjiR 目录 上页 下页 返回 结束 4 4、随机向量、随机向量X X 的相关阵的相关阵 若随机向量 的协差阵存在,且每个分量的方差大于零,则X X的相关阵定义为:),(21pXXXX 也称为分量 与 之间的(线性)相关系数。ijriXjX 在数据处理时,为了克服由于指标的量纲不同对统计分在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,常析结果带来的影响,往往在使用

11、某种统计分析方法之前,常需将每个指标需将每个指标“标准化标准化”,即做如下变换,即做如下变换1/212/()1,(1.12)(var)(,)()0 ()().1 1jjjjpXE XXjpXXXXEDcorrnXXXXRRX X于是即标准化数据的协差阵正好是原指标的相关阵 (1.13)目录 上页 下页 返回 结束 1.2 1.2 统计距离和马氏距离统计距离和马氏距离 目录 上页 下页 返回 结束 欧氏距离欧氏距离马氏距离马氏距离欧氏距离欧氏距离 在多指标统计分析中,距离的概念十分重要,样品间的不少特征都可用距离去描述。大部分多元方法是建立在简单的距离概念基础上的。即平时人们熟悉的欧氏距离,或称

12、直线距离.如几何平面上的点p=(x1,x2)到原点O=(0,0)O=(0,0)的欧氏距离,依勾股定理有(1.14)(),0(2/12221xxpd 目录 上页 下页 返回 结束 但就大部分统计问题而言,欧氏距离是不能令人满意的。这里因为,每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使得变化较大的坐标比变化小的坐标有较小的权系数,这就产生了各种距离。欧氏距离还有一个缺点,这就是当各个分量为不同性质的量时,“距离”的大小竟然与指标的单位有关。目录 上页 下页 返回 结束 目录 上页 下页 返回 结束 例如,横轴 代表

13、重量(以kg为单位),纵轴 代表长度(以cm为单位)。有四个点A、B、C、D见图1.1,它们的坐标如图1.1所示1X2X图图1.1 目录 上页 下页 返回 结束 1011101251052222CDAB这时显然AB比CD要长。100011100260010502222CDAB结果CD反而比AB长!这显然是不够合理的。2x2x 现在,如果 用mm作单位,单位保持不变,此时A坐标为(0,50),C坐标为(0,100),则2x1x 目录 上页 下页 返回 结束 因此,有必要建立一种距离,这种距离要能够体现各个变量在变差大小上的不同,以及有时存在着的相关性,还要求距离与各变量所用的单位无关。看来我们选

14、择的距离要依赖于样本方差和协方差。因此,采用“统计距离”这个术语,以区别通常习惯用的欧氏距离。最常用的一种统计距离是印度统计学家马哈拉诺比斯(Mahalanobis)于1936年引入的距离,称为“马氏距离”。目录 上页 下页 返回 结束 下面先用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。设有两个一维正态总体 。若有一个样品,其值在A处,A点距离哪个总体近些呢?由图1-2),(:),(:22222111GG和图1-2221 目录 上页 下页 返回 结束 由图1-2可看出,从绝对长度来看,A点距左面总体G1近些,即A点到 比A点到 要“近一些”(这里用的是欧氏距离,比较的是A点坐标与 到

15、 值之差的绝对值),但从概率观点来看,A点在 右侧约4 处,A点在 的左侧约3 处,若以标准差的观点来衡量,A点离 比A点离 要“近一些”。显然,后者是从概率角度上来考虑的,因而更为合理些,它是用坐标差平方除以方差(或说乘以方差的倒数),从而化为无量纲数。1221112马氏距离马氏距离 设X、Y从均值向量为从均值向量为,协方差阵为,协方差阵为的总体的总体G中抽取的两个样品,定义X、Y两点之间的马氏距两点之间的马氏距离为离为(1.21)()(),(1/2YXY)XYXdmXG(1.22)()(),(1/2)X)(XXGdm的马氏距离为与总体定义 目录 上页 下页 返回 结束 设设 表示一个点集,

16、表示一个点集,表示距离,它表示距离,它 是到是到 的函数,可以证明的函数,可以证明,马氏距离符合如下距离的四条基本公马氏距离符合如下距离的四条基本公理理:EdEE),0;0),(yxdEyx,(1 1),(2 2)当且仅当当且仅当 ;0),(yxdyx(3 3)),(),(xydyxdEyx,(4 4)),(),(),(yzdzxdyxdEzyx,目录 上页 下页 返回 结束 1.3 1.3 多元正态分布多元正态分布 多元正态分布是一元正态分布的推广。迄今多元正态分布是一元正态分布的推广。迄今为止为止,多元分析的主要理论都是建立在多元正态多元分析的主要理论都是建立在多元正态总体基础上的总体基础

17、上的,多元正态分布是多元分析的基础。多元正态分布是多元分析的基础。另一方面,许多实际问题的分布常是多元正态分另一方面,许多实际问题的分布常是多元正态分布或近似正态分布,或虽本身不是正态分布,但布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于多元正态分布。它的样本均值近似于多元正态分布。本节将介绍多元正态分布的定义,并简要给本节将介绍多元正态分布的定义,并简要给出它的基本性质。出它的基本性质。目录 上页 下页 返回 结束 1.3 1.3 多元正态分布多元正态分布 目录 上页 下页 返回 结束 1.3.1多元正态分布的定义多元正态分布的定义1.3.2多元正态分布的性质多元正态分布的性质

18、1.3.3条件分布和独立性条件分布和独立性1.3.1 1.3.1 多元正态分布的定义多元正态分布的定义(1.24)()()(21exp)2(1),(1/2/12/10 xxppxxf|为协差阵为协差阵的行列式。的行列式。目录 上页 下页 返回 结束),(XpN 定义定义1.51.5 若若p p元随机向量元随机向量 的概的概率密度函数为:率密度函数为:则称则称 遵从遵从 元正态分布,也称元正态分布,也称X X为为P P元元正态变量。记为正态变量。记为),(21pXXXXp).,(21pXXXX 定理1.1将正态分布的参数和赋于了明确的统计意义。有关这个定理的证明可参见文献3。多元正态分布不止定义

19、1.5一种形式,更广泛地可采用特征函数来定义,也可用一切线性组合均为正态的性质来定义等,有关这些定义的方式参见文献3。目录 上页 下页 返回 结束 定理定理1.11.1:设设 则则 ),(pNX)(,)(XDXE1.3.2 1.3.2 多元正态分布的性质多元正态分布的性质121),()2221(21222121)(2121xxexxexxfxx 目录 上页 下页 返回 结束 1 1、如果正态随机向量、如果正态随机向量 的协方差阵的协方差阵是对角阵,则是对角阵,则X X的各分量是相互独立的随机变量。的各分量是相互独立的随机变量。),(21pXXXX 容易验证,容易验证,但,但 显然不显然不是正态

20、分布。是正态分布。)1,0(,)1,0(1NYNX),(21XX 2 2、多元正态分布随机向量、多元正态分布随机向量X X的任何一个分量子集的分布(称为的任何一个分量子集的分布(称为X X的的边缘分布)仍然遵从正态分布。而反之,若一个随机向量的任何边缘分边缘分布)仍然遵从正态分布。而反之,若一个随机向量的任何边缘分布均为正态,并不能导出它是多元正态分布。布均为正态,并不能导出它是多元正态分布。例如,设例如,设 有分布密度有分布密度21),(XXX 联合正态联合正态 边缘正态边缘正态 目录 上页 下页 返回 结束 4 4、若、若 ,则,则 若为定值,随着若为定值,随着 的变化其轨迹为一椭球面,是

21、的变化其轨迹为一椭球面,是 的密度函数的密度函数的等值面的等值面.若若 给定,则给定,则 为为 到到 的马氏距离。的马氏距离。X,pXN212()dXXp2dX2dXbA 3 3、多元正态向量、多元正态向量 的任意线性变换仍然遵从多元正的任意线性变换仍然遵从多元正态分布。即设态分布。即设 ,而,而m m维随机向量维随机向量 ,其中,其中 是是 m mp p阶的常数矩阵,阶的常数矩阵,b b是是m m维的常向量。则维的常向量。则m m维随机向量维随机向量Z Z也是正态的,也是正态的,且且 。即。即Z Z遵从遵从m m元态分布,其均值向量为元态分布,其均值向量为 ,协,协差阵为差阵为 。),(AA

22、bANZm),(21pXXXX),(pNX)(ijaAbAXZ1mA A 1.3.3 1.3.3 条件分布和独立性条件分布和独立性(1.25),22211211)2()1()2()1(XXX 目录 上页 下页 返回 结束 我们希望求给定我们希望求给定 的条件分布,即的条件分布,即 的分布。下一个定理指出:的分布。下一个定理指出:正态分布的条件分布仍为正态分布。正态分布的条件分布仍为正态分布。qqqX为为其中11)1()1(,1,)1()2(XX时)|()2()1(XX设设 p p2,2,将将X X、和和剖分如下:剖分如下:),(pNX(1)(2)1 211 2(1)1(2)(2)1 21222

23、111 211122221 (|)(,),()(1.26)(1.27)qNXX X 其中证明参见文献证明参见文献33。目录 上页 下页 返回 结束 定理定理1.21.2 设设 ,00,则,则 ),(pNX例:制定服装标准,测得五个指标,分别为X1身高,X2胸围,X3腰围,X4上体上,X5臀围,它们服从 52.9132.6126.7039.8398.154 36.2721.570.2053.1934.1003.723.254.336.986.3954.2585.153.3051.666.29),(5N先取)(),(5)2(4321)1(XXXXXXX(1)(2)11122122由定理1.2 7.

24、032.2354.336.92.2339.8654.2585.13.5454.2553.3051.69.3685.151.666.29)21.570.2053.1934.10()36.27(5.2120.7019.5310.341 6.041.72-18.039.71.72-24.1976.1097.50.18-76.1059.1686.07.3997.586.076.25往求54321XXXXXD54321,XXXXXD54321,XXXXXD 24.1910.765.97-10.7616.590.86-5.97-0.86-25.76)72.118.039.7()04.6(1.72-0.18

25、-7.39171.2371.1087.371.1058.1664.087.304.672.16结论:结论:已知一个人的上臂和臀围时,身高、胸围已知一个人的上臂和臀围时,身高、胸围和腰围的条件方差大大缩小了,减少了误差和腰围的条件方差大大缩小了,减少了误差tsr)3()2()1(XXXXtsr)3()2()1(tsr333231232221131211 (1.28)(1.28)目录 上页 下页 返回 结束 定理定理1.31.3 设设 ,00,将,将X X,剖分如剖分如下:下:),(pNX则则 有如下的条件均值和条件协差阵的递推公式:有如下的条件均值和条件协差阵的递推公式:)1(X)(),|(32

26、)2(132231231)3()2()1(XXXXE(1.29)(1.29)3211322312311)3()2()1(),|(XXXD(1.30)(1.30)在定理在定理1.21.2中,我们给出了对中,我们给出了对X X、和和作形如作形如(1.25)(1.25)式剖分时条件协差阵式剖分时条件协差阵 的表达式及其与非的表达式及其与非条件协差阵的关系,令条件协差阵的关系,令 表示表示 的元素,的元素,则可以定义偏相关系数的概念如下:则可以定义偏相关系数的概念如下:211pqij,1 2112/1,1,1,1,1)(pqjjpqiipqijpqijr定义定义1.61.6 当当 给定时,给定时,与与

27、 的偏相关系数的偏相关系数为:为:)2(XiXjX 目录 上页 下页 返回 结束 KKKKkkXXX ,1111)()1()()1(目录 上页 下页 返回 结束 定理定理1.41.4 设设 将将X X、按同样方按同样方式剖分为式剖分为),(pNX 其中,其中,,1,:,1:,1:)()(kjSSSSXjjjjjjjjjiXXijk对一切相互独立当且仅当则,0,)()1(1 1.4 .4 均值向量和协方差阵的估计均值向量和协方差阵的估计 上节已经给出了多元正态分布的定上节已经给出了多元正态分布的定义和有关的性质义和有关的性质,在实际问题中在实际问题中,通常可通常可以假定被研究的对象是多元正态分布

28、以假定被研究的对象是多元正态分布,但分布中的参数但分布中的参数和和是未知的是未知的,一般一般的做法是通过样本来估计。的做法是通过样本来估计。目录 上页 下页 返回 结束 均值向量的估计均值向量的估计 在一般情况下在一般情况下,如果样本资料阵为:如果样本资料阵为:/)(/)2(/)1(21212222111211),(nPnpnnppxxxxxxxxxXXXXXXX 目录 上页 下页 返回 结束(1.31)112112111)(1pipniiniiniiniXXXXXXnXnX 即均值向量即均值向量的估计量的估计量,就是样本均值向量就是样本均值向量.这可这可由极大似然法推导出来。由极大似然法推导

29、出来。目录 上页 下页 返回 结束 设样品设样品 相互独立相互独立,同遵从于同遵从于P P元正态分元正态分布布 ,而且而且 ,0,0,则总体参数均值则总体参数均值的估计的估计量是量是)()2()1(,nXXX),(pNpn 协方差阵的估计协方差阵的估计总体参数协差阵总体参数协差阵的极大似然估计是的极大似然估计是 目录 上页 下页 返回 结束)(1)()()(11XXXXnLniniipnipipninipipiinipipiniiXXXXXXXXXXXXXXn1211222221111211)()()()()(1 目录 上页 下页 返回 结束 其中L是离差阵,它是每一个样品(向量)与样本均值(向量)的离差积形成的n个 阶对称阵的和。同一元相似,不是的无偏估计,为了得到无偏估计我们常用样本协差阵 作为总体协差阵的估计。p11Lnpp谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第一章多元正态分布课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|