1、多元统计分析全册配套多元统计分析全册配套 教学课件教学课件 经管学院 程兰芳 1 多元统计分析多元统计分析 (Multivariate Statistical Analysis) 多元统计分析多元统计分析 课程性质课程性质: 专业必修课专业必修课 授课对象授课对象: 统计学、金融学专业三年级以上学生统计学、金融学专业三年级以上学生 使用教材使用教材: 于秀林于秀林 任雪松任雪松 编著编著 多元统计分析多元统计分析中国统计出版社中国统计出版社 学习指导书学习指导书: 自编自编 课课 前前 说说 明明 一、课程设置目的一、课程设置目的: 通过本课程的学习,使学生在理解多元统计的基本通过本课程的学习
2、,使学生在理解多元统计的基本 理论、方法的基础上,基本掌握多元分析的应用技能,理论、方法的基础上,基本掌握多元分析的应用技能, 树立依据样本信息进行统计分析的意识,领会其基本思树立依据样本信息进行统计分析的意识,领会其基本思 路,掌握和运用其基本方法。路,掌握和运用其基本方法。 二、课程要求课程要求 重点解释多元统计分析理论和方法的直观意义及应重点解释多元统计分析理论和方法的直观意义及应 用条件,对其中的理论方法和培养学生动手操作能力相用条件,对其中的理论方法和培养学生动手操作能力相 并重,并使学生能够运用计算机软件完成分析计算,为并重,并使学生能够运用计算机软件完成分析计算,为 今后的研究和
3、实践奠定基础。今后的研究和实践奠定基础。 三、学习方法:三、学习方法: 1、课堂教学与自主学习相结合、课堂教学与自主学习相结合、 加以适当的讨论。加以适当的讨论。 2、要做作业和练习,消化课堂内容。、要做作业和练习,消化课堂内容。 特别是通过上机练习达到对知识的理解和特别是通过上机练习达到对知识的理解和 运用,方熟能生巧。运用,方熟能生巧。 3、广泛阅读参考文献,借助各种资、广泛阅读参考文献,借助各种资 源辅助学习。源辅助学习。 4、互相帮助,共同进步。、互相帮助,共同进步。 课课 前前 说说 明(续)明(续) 四、教学和考核安排四、教学和考核安排: : 1.1.课程学时课程学时共共 48 4
4、8 学时。学时。 其中:其中:(1 1)课堂讲授课堂讲授3434学时;学时; (2 2)上机实验)上机实验SPSS SPSS 软件应用软件应用1414学时(学时(共共7 7次上机实次上机实 验验)。)。 2. 2. 课程考试成绩评定课程考试成绩评定: (1 1)平时成绩占平时成绩占20%20%(包括出勤、平时表现、撰写试验报告(包括出勤、平时表现、撰写试验报告 等);等); (2 2)理论知识和操作技能闭卷考试占)理论知识和操作技能闭卷考试占80%80%。 课课 前前 说说 明(续)明(续) 五、几点要求五、几点要求: 1.“1.“出勤”:本课程内容具有连贯性与渐进性,决出勤”:本课程内容具有
5、连贯性与渐进性,决 不可寄希望于期末突击,必须保证出勤,循序渐进,不可寄希望于期末突击,必须保证出勤,循序渐进, 才能学好它。才能学好它。 2.2.“出力”:课上认真听课、思考,课下及时复习出力”:课上认真听课、思考,课下及时复习 巩固。巩固。 3.“3.“几分耕耘几分耕耘 ,几分收获”,平时努力,打好基,几分收获”,平时努力,打好基 础,才会提高能力和素质。础,才会提高能力和素质。 课前说明(续)课前说明(续) 第一章第一章 绪论绪论 多元统计分析的重要性多元统计分析的重要性 众所周知,当今社会是信息社会,而大量的众所周知,当今社会是信息社会,而大量的 信息都是以多个指标的数据形式来表现的,
6、信息都是以多个指标的数据形式来表现的, 因而“因而“用数据说话用数据说话”,挖掘数据背后所隐藏”,挖掘数据背后所隐藏 和揭示的信息,是时下我们做很多统计分析和揭示的信息,是时下我们做很多统计分析 和研究的基本手段和方法。和研究的基本手段和方法。 例如,你们将来撰写毕业论文时,恐怕都离例如,你们将来撰写毕业论文时,恐怕都离 不开数据分析的内容,否则,你们的专业性不开数据分析的内容,否则,你们的专业性 质决定了是很难通过的。质决定了是很难通过的。 多元统计分析多元统计分析是数理统计学的一个是数理统计学的一个 重要分支重要分支,具有很强的应用性具有很强的应用性,它它 在自然科学在自然科学、社会科学和
7、经济学等社会科学和经济学等 各领域中得到了越来越广泛的应用各领域中得到了越来越广泛的应用, 是一种非常有用的数据处理方法是一种非常有用的数据处理方法。 多元分析方法就是处理多维数据不可缺少的重要工具,并日益多元分析方法就是处理多维数据不可缺少的重要工具,并日益 显示出无比的魅力。但是,多元统计分析是依赖于计算机的发显示出无比的魅力。但是,多元统计分析是依赖于计算机的发 展而迅速发展的,如果不使用计算机,多元统计分析中许多计展而迅速发展的,如果不使用计算机,多元统计分析中许多计 算几乎是不可能完成的。算几乎是不可能完成的。 为了做到学以致用为了做到学以致用,在课程中我们将结合授课内容,在课程中我
8、们将结合授课内容, 使用国内外通用的统计软件使用国内外通用的统计软件SPSSSPSS(或者尝试使用(或者尝试使用 SASSAS软件)进行上机练习,以加深对理论知识的理解。软件)进行上机练习,以加深对理论知识的理解。 我们已经知道,时间序列分析是时间序列分析是根据系根据系 统观测得到的时间序列数据,通过曲线统观测得到的时间序列数据,通过曲线 拟合和参数估计来建立数学模型的理论拟合和参数估计来建立数学模型的理论 和方法。和方法。 它一般采用曲线拟合和参数估计方法它一般采用曲线拟合和参数估计方法 (如非线性最小二乘法)进行。时间序(如非线性最小二乘法)进行。时间序 列分析常用在国民经济宏观控制、区域
9、列分析常用在国民经济宏观控制、区域 综合发展规划、企业经营管理、市场潜综合发展规划、企业经营管理、市场潜 量预测、气象预报、水文预报、地震前量预测、气象预报、水文预报、地震前 兆预报、农作物病虫灾害预报、环境污兆预报、农作物病虫灾害预报、环境污 染控制、生态平衡、天文学和海洋学等染控制、生态平衡、天文学和海洋学等 方面。方面。 由于历史发展所形成的习惯,多元统由于历史发展所形成的习惯,多元统 计数据分析被限制在一定的范围,它计数据分析被限制在一定的范围,它 通常只处理所谓截面样本数据,即静通常只处理所谓截面样本数据,即静 态数据,而不考虑多元复杂集合的时态数据,而不考虑多元复杂集合的时 间迹向
10、。统计学中将时序样本数据分间迹向。统计学中将时序样本数据分 析归结为时间序列分析。析归结为时间序列分析。 一些著名的统计学家认为,做这样的一些著名的统计学家认为,做这样的 区别,与其说是逻辑上的原因,倒不区别,与其说是逻辑上的原因,倒不 如说是为了方便。将多元统计分析与如说是为了方便。将多元统计分析与 时间序列动态趋势性研究有效地结合时间序列动态趋势性研究有效地结合 起来,这是数据分析发展的新方向。起来,这是数据分析发展的新方向。 因此可以说,因此可以说, 时间序列分析时间序列分析 多元统计分析多元统计分析 还有还有计量经济学计量经济学 这三门课这三门课是统计学和金融学专业必是统计学和金融学专
11、业必 不可少的必修专业课,希望大家通不可少的必修专业课,希望大家通 过学习能够有所收获。过学习能够有所收获。 本课程将重点介绍:本课程将重点介绍: 多元统计中的最具有实用性的内容:多元统计中的最具有实用性的内容: 数据作图、数据作图、 聚类分析、聚类分析、 判别分析,判别分析, 各种降维技术,将原始的多个指标约各种降维技术,将原始的多个指标约 化为少数几个综合指标,便于对数据进化为少数几个综合指标,便于对数据进 行分析。行分析。 多元统计分析(简记为多元统计分析(简记为MVAMVA)是统计学中是统计学中 一个非常重要的分支,在国外,从一个非常重要的分支,在国外,从2020世纪世纪 3030年代
12、开始,已经在自然科学、管理科学年代开始,已经在自然科学、管理科学 和社会经济等领域得到了广泛应用。和社会经济等领域得到了广泛应用。 我国自上世纪我国自上世纪8080年代开始,也在许多领年代开始,也在许多领 域应用域应用MVAMVA方法,它是一种重要和实用的方法,它是一种重要和实用的 多元数据处理方法。多元数据处理方法。 1.1 1.1 什么是多元统计分析什么是多元统计分析 为什么我们需要它为什么我们需要它? 在经济管理领域中,经常会遇到观测多个变量在经济管理领域中,经常会遇到观测多个变量 或指标或指标. . 比如比如,考察国民经济运行状况需要用,考察国民经济运行状况需要用GDPGDP、总消、总
13、消 费、投资和进出口贸易额等指标共同来描述。费、投资和进出口贸易额等指标共同来描述。 你若欲了解某班学生的学习情况,需要知道每个你若欲了解某班学生的学习情况,需要知道每个 学生的若干门课程的学习成绩。学生的若干门课程的学习成绩。 再如再如, ,人们在体检时也需要检测诸如身高、体重人们在体检时也需要检测诸如身高、体重 、血压、体温、白血球等诸多生理指标的数值,、血压、体温、白血球等诸多生理指标的数值, 以此来反映身体状况。以此来反映身体状况。 类似这样的含有多个指标或变量的例子不胜枚举类似这样的含有多个指标或变量的例子不胜枚举 。 变量指标值的特点变量指标值的特点:具有随机性特:具有随机性特 点
14、,因为实际现象中任何事物都受到点,因为实际现象中任何事物都受到 许多随机因素的影响,因而其取值有许多随机因素的影响,因而其取值有 一定的随机性。一定的随机性。 何谓何谓MVAMVA分析方法分析方法:同时对多个随:同时对多个随 机变量的观测数据进行有效地分析和机变量的观测数据进行有效地分析和 研究研究 ,研究变量之间的相互依赖关系,研究变量之间的相互依赖关系, 以揭示这些变量之间内在的统计规律以揭示这些变量之间内在的统计规律 性性。 经管学院 程兰芳 19 请看使用多元分析方法的文章:请看使用多元分析方法的文章: 第第1 1篇篇2020个国家按基础设施状况的聚类个国家按基础设施状况的聚类 分析分
15、析(聚类分析法)(聚类分析法) 第第2 2篇篇基于主成份因素法的企业绩效比基于主成份因素法的企业绩效比 较方法较方法(主成份分析法)(主成份分析法) 第第3 3篇篇因子分析在企业竞争力评价中的因子分析在企业竞争力评价中的 应用应用(因子分析法)(因子分析法) 经济学例子经济学例子: 企业经济效益的综合评价:指标有:资金利润率、企业经济效益的综合评价:指标有:资金利润率、 人均生产率、投资额、等等,可用主成分分析或人均生产率、投资额、等等,可用主成分分析或 因子分析。因子分析。 社会学例子社会学例子: 分析各地区(分析各地区(31个省市自治区)社会情况,选取个省市自治区)社会情况,选取 有代表性
16、的指标:人口密度、人口受教育程度、有代表性的指标:人口密度、人口受教育程度、 绿化覆盖率、住房情况、收入水平,等等,可用绿化覆盖率、住房情况、收入水平,等等,可用 聚类分析法将它们划分为不同的社会状况类型。聚类分析法将它们划分为不同的社会状况类型。 不同的社会发展状况不同的社会发展状况 1.2 MVA1.2 MVA能解决问题的例子能解决问题的例子 还有在其它领域的广泛应用还有在其它领域的广泛应用 比如:工业、农业、医学、教育学、比如:工业、农业、医学、教育学、 体育、生态学、地质学、社会学、考古体育、生态学、地质学、社会学、考古 学、环境保护、军事、文学等等。学、环境保护、军事、文学等等。 详
17、见教材详见教材PP4-6。 线性代数线性代数课程课程 (由于多个指标的数据要求,经常需要用(由于多个指标的数据要求,经常需要用 矩阵、向量、正定矩阵、矩阵的特征值与矩阵、向量、正定矩阵、矩阵的特征值与 特征向量等符号和术语来表达)特征向量等符号和术语来表达) 概率论与一元数理统计概率论与一元数理统计课程课程 (由于每个指标取值的随机性要求,需要(由于每个指标取值的随机性要求,需要 用以概率论为基础的一元数理统计知识)用以概率论为基础的一元数理统计知识) 本课程所需的基础准备知识本课程所需的基础准备知识 你在学习的过程中,一定会感到理论部分你在学习的过程中,一定会感到理论部分 内容的学习比较吃力
18、,希望你下大力气,内容的学习比较吃力,希望你下大力气, 花大量时间去思考、去读书,你才能有真花大量时间去思考、去读书,你才能有真 正的能力提高。正的能力提高。 同时,同时,要抓紧时间去复习已经学习过的要抓紧时间去复习已经学习过的 线性代数线性代数和和概率论与数理统计概率论与数理统计的的 基础知识,否则,难以深刻理解与掌握理基础知识,否则,难以深刻理解与掌握理 论知识。论知识。 首先,要提醒大家的是:首先,要提醒大家的是: 1. 3 主要内容体系主要内容体系 章目章目 主要内容主要内容 第第1章章 研究对象及其应用范围,线性代数基研究对象及其应用范围,线性代数基 础础 第第24章章 MVA的基本
19、概念和基本理论:的基本概念和基本理论:包括多包括多 元正态分布、元正态分布、Wishart分布、分布、 Hotelling T2分布、分布、Wilks分布,以分布,以 及多元正态总体的参数估计和假设检及多元正态总体的参数估计和假设检 验。还有数据作图验。还有数据作图。 第第56章章 分类问题:分类问题:聚类分析、判别分析聚类分析、判别分析 第第79章章 结构的化简问题:结构的化简问题:主成分分析、因子主成分分析、因子 分析、对应分析分析、对应分析 第第1011章章 两组变量之间的相关关系两组变量之间的相关关系 第第12章章 定性资料统计分析简介定性资料统计分析简介 教学目的 基本清楚每种统计方
20、法所要解决的问基本清楚每种统计方法所要解决的问 题、前提条件、局限性等。各种方法题、前提条件、局限性等。各种方法 之间的相互联系与差别。之间的相互联系与差别。 基本会分析多元观测数据,对给出的基本会分析多元观测数据,对给出的 多元数据能够正确选择所学的分析方多元数据能够正确选择所学的分析方 法,借助统计分析软件,从中提取有法,借助统计分析软件,从中提取有 用信息,对所研究的问题作出合理推用信息,对所研究的问题作出合理推 断或科学的评价。断或科学的评价。 1.4 1.4 线性代数简要复习线性代数简要复习 1. 矩阵定义矩阵定义:将将np个数排成的矩形表格称为个数排成的矩形表格称为 矩阵,记为矩阵
21、,记为 注意:注意:矩阵仅仅是一个表格形式,并没有数值可言。矩阵仅仅是一个表格形式,并没有数值可言。 当当n=p时,称时,称A为为n阶方阵阶方阵。 若若p=1时时, 矩阵矩阵A只有一列,称只有一列,称A为为列向量列向量,记为,记为 若若p=1时,则矩阵时,则矩阵A只有一行,称只有一行,称A为为行向量行向量, 记为记为 n a a a A . . 2 1 npnn p p pnij aaa aaa aaa aA . . . . )( 21 22221 11211 ),.,( 21p aaaA (1)加法加法:若若A与与B都是都是nm阶矩阵,则二者阶矩阵,则二者 的和定义为的和定义为 (2)数乘数
22、乘:k是一个常数,则它与矩阵是一个常数,则它与矩阵A的积定的积定 义为义为 A mnijij )b(aBA 2. 矩阵的运算矩阵的运算 mnij kakA )( (3) 矩阵的乘积矩阵的乘积(这是重点这是重点) 若若A是是pq 阶矩阵,且阶矩阵,且B是是qr 阶矩阵,则二者的乘积阶矩阵,则二者的乘积 定义为定义为 即要知道,何时两个矩阵能够作乘积?乘积后的结果是即要知道,何时两个矩阵能够作乘积?乘积后的结果是 怎样的矩阵?怎样的矩阵? 注意:注意:一般地说,即乘法运算不满足交换率一般地说,即乘法运算不满足交换率 rpkj q k ikb aAB )( 1 BAAB 一个一个P P阶方阵阶方阵
23、对应着一个对应着一个 数,将这个数记为数,将这个数记为|A|A|。 注意:注意:行列式与矩阵有根本的区别,行列式与矩阵有根本的区别, 行列式不仅在形式上(一定是正方形)行列式不仅在形式上(一定是正方形) 用竖线框起来其中的元素,并且在内用竖线框起来其中的元素,并且在内 容(或实质)上是一个数值。而矩阵容(或实质)上是一个数值。而矩阵 仅仅是一种形式上的表格。仅仅是一种形式上的表格。 ppij aA )( 3. 3. 行列式的定义行列式的定义 pppp p p aaa aaa aaa A . . . . 21 22221 11211 4. 逆矩阵逆矩阵(相当于矩阵的逆运算,由(相当于矩阵的逆运算
24、,由 此产生类似于“除法”运算)此产生类似于“除法”运算) 设设A是是p阶方阵阶方阵,若,若|A|0(即方阵的行(即方阵的行 列式的值非零)列式的值非零), 则称则称A是非退化阵或非奇是非退化阵或非奇 异矩阵。若异矩阵。若|A|=0,则,则A称为退化阵或者称为退化阵或者 奇异阵。奇异阵。 若若A是是p阶非退化阵,则存在唯一的矩阵阶非退化阵,则存在唯一的矩阵B, 使得使得AB=I, 称矩阵称矩阵B为为A的逆矩阵,记为的逆矩阵,记为 1 AB 不难证明:不难证明: 其中其中 一般情况下,上述求逆公式只有理论价值。一般情况下,上述求逆公式只有理论价值。 在多元分析中,求逆矩阵是通过消去变换来在多元分
25、析中,求逆矩阵是通过消去变换来 实现的,并且可同时求出该矩阵的行列式。实现的,并且可同时求出该矩阵的行列式。 这在后面将介绍。这在后面将介绍。 ppji A A A )( | 1 1 的代数余子式是 ijij aA 5. 矩阵的秩(矩阵的秩(rank) (1)定义:设)定义:设A为为pq 阶矩阵,若它阶矩阵,若它存在存在 的一个的一个r阶子方阵的行列式非零,且所有阶子方阵的行列式非零,且所有 r+1阶的子方阵的行列式的值都为零,则阶的子方阵的行列式的值都为零,则 称数称数r为矩阵为矩阵 A的秩。记为的秩。记为r(A)=r (2)秩的性质)秩的性质: 0r(A) min(p,q), 当且仅当当且
26、仅当A=0时,时, r(A)=0 r(A)=r(A); r(AB) min(r(A),r(B) r(A+B) r(A)+r(B); 6.特征根、特征向量和矩阵的迹 特征根和特征向量:特征根和特征向量: 设设A是是p阶方阵,则方程阶方阵,则方程 次多项式,则必有次多项式,则必有p个根(包括重根),记为个根(包括重根),记为 ,称为,称为A的的特征根或特征值特征根或特征值。 对于特征根对于特征根 ,若存在一个,若存在一个p 维向量维向量 则称则称 是对应于是对应于 的的 A的的特征向量特征向量。以后总假。以后总假 设特征向量是单位向量,即设特征向量是单位向量,即 pIA p 的是0| p ,.,
27、21 0, ipii lIAl)使得( i l i 1 ii ll i 7. 7. 矩阵的迹(矩阵的迹(tracetrace) 若矩阵若矩阵A是是p阶方阵,它的对角元素阶方阵,它的对角元素 之和称为之和称为A的迹,记为的迹,记为 若若A是是p阶方阵,并设它的特征根为阶方阵,并设它的特征根为 则则A 的迹:的迹: 这体现了特征根与迹的数量关系。这体现了特征根与迹的数量关系。 p i ii aAtr 1 )( p ,., 21 p i i Atr 1 )( 8. 8. 二次型与正定矩阵二次型与正定矩阵( (很重要,后面常用很重要,后面常用) ) (1)二次型的定义:)二次型的定义:称称 p个变量个
28、变量 的二次函数表达式的二次函数表达式 为二次型为二次型,其中的,其中的aij=aji 这个二次型可以改写成三个矩阵的乘积形式:这个二次型可以改写成三个矩阵的乘积形式: (2)正定二次型的定义)正定二次型的定义:若方阵:若方阵A对于所有的非对于所有的非 零列向量零列向量 X0,总是有,总是有 则称则称A以及对应的二次型以及对应的二次型是正定的,记为是正定的,记为A0. ji p i p j ij xxaQ 11 p xxx,., 21 AXXxxaQ ji p i p j ij 11 0AXXQ (3)非负定的定义)非负定的定义:若方阵:若方阵A对于对于所有的所有的 非零列向量非零列向量 X0
29、,总是,总是 ,则,则 称称A以及对应的二次型以及对应的二次型是非负定的,记为是非负定的,记为 A0. 对于正定阵和非负定阵而言,有如下对于正定阵和非负定阵而言,有如下 性质:性质: (4 4)一个对称阵是正定(或非负定)阵的)一个对称阵是正定(或非负定)阵的 充分必要条件是它的特征根为正的(或非负)充分必要条件是它的特征根为正的(或非负) (5 5)若)若A A是正定的,则是正定的,则A A的逆矩阵也是正定的逆矩阵也是正定 的;且乘以一个正数的;且乘以一个正数k k后的新矩阵也是正定后的新矩阵也是正定 的。的。 0 AX X (5)非负定矩阵一定能对角化)非负定矩阵一定能对角化:若对称阵:若
30、对称阵A0, 则必存在一个正则必存在一个正 交阵交阵 其中其中 是是A的特征根,且的特征根,且是由相应的列特征向是由相应的列特征向 量所构成的矩阵,于是有:量所构成的矩阵,于是有: A= (6)非负定矩阵的性质:)非负定矩阵的性质: 若若A0(0), 则则 都非负,且都非负,且 且且 和和 12p Adiag(, ,.,) 使得 p ,., 21 p ,., 21 0),., ,diag(A p21 0),., ,diag( 2 1 2 1 2 2 1 1 2 1 p 11 22 A 正交矩阵的概念正交矩阵的概念 一个一个n阶方阵阶方阵是正交的,则需要是正交的,则需要满足下列满足下列 条件之一
31、:条件之一: (1)=E(单位矩阵单位矩阵) (2)=-1 (3)的的n个列向量或行向量都是单位向个列向量或行向量都是单位向 量,且任意两个列向量的内积都等于数量,且任意两个列向量的内积都等于数0。 正交矩阵的例子正交矩阵的例子 例如例如,下列的一个二阶矩阵:,下列的一个二阶矩阵: 就是一个正交矩阵,满足上述三个条件之就是一个正交矩阵,满足上述三个条件之 一。一。 2 2 2 2 2 2 2 2 A 9. 矩阵的消去变换矩阵的消去变换 在多元分析中经常要解线性方程组,求在多元分析中经常要解线性方程组,求矩矩 阵的逆以及行列式的值阵的逆以及行列式的值,或者进行某种逆,或者进行某种逆 推运算,这些
32、都推运算,这些都可以通过消去变换来实现可以通过消去变换来实现。 设矩阵设矩阵 是是np阶的,若其中阶的,若其中 的元素的元素aij0 ,可以将,可以将A变换为新矩阵变换为新矩阵 (详见教材(详见教材P276) )( ij aA )( * * ij aA 第第2章章 多元正态分布多元正态分布 及其参数估计及其参数估计 本章内容概述 本章是多元分析的理论基础部分,是必 不可少的内容。 主要从复习一元的概率统计入手,进而 介绍多元统计的基本概念,特别是以多 元正态分布为重点,学习相关概念及其 表示,然后是多元正态分布的参数估计。 最后介绍维希特(Wishart)分布 42 主要内容包括:主要内容包括
33、: 2.1 2.1 一元一元(概率)分布简要复习(概率)分布简要复习 2.2 2.2 多元多元(概率)分布基本概念(概率)分布基本概念 2.3 2.3 多元正态多元正态分布定义及其性质分布定义及其性质 2.4 2.4 多元统计多元统计中的基本概念中的基本概念 2.5 2.5 多元正态分布的参数估计多元正态分布的参数估计 2.6 2.6 维希特(维希特(WishartWishart)分布分布定义及性定义及性 质质 43 内容概览内容概览 1.1.一元随机变量一元随机变量R.V.R.V.的概率分布的概率分布 (1)(1)随机变量随机变量(R.V.)(R.V.)的定义、类型的定义、类型 (2)(2)
34、随机变量的概率分布随机变量的概率分布(P.D.)(P.D.)定义、分类定义、分类 (3)(3)另一种描述概率分布的表达方式另一种描述概率分布的表达方式分布函数分布函数F(x)F(x) 2.2.一元随机变量一元随机变量R.V.R.V.的数字特征的数字特征期望与方差期望与方差 3.3.期望与方差的性质期望与方差的性质 4.4.一元中重要的常见分布一元中重要的常见分布 5.5.一元正态分布的定义一元正态分布的定义 2.1 2.1 一元(概率)分布简要复习一元(概率)分布简要复习 44 1. 一元随机变量的概率分布一元随机变量的概率分布 (简称一元分布)(简称一元分布) 众所周知,众所周知,一元统计一
35、元统计分析是分析是多元统计多元统计分析的分析的 基础基础,尤其是,尤其是一元正态分布一元正态分布自然是自然是多元正态多元正态 分布分布的的基础基础,它在统计学的理论和实际应用,它在统计学的理论和实际应用 方面都有着重要的地位。方面都有着重要的地位。 在一元统计分布中,经常会用到随机变量在一元统计分布中,经常会用到随机变量X X 的概念及其概率分布问题。的概念及其概率分布问题。 45 (1 1)随机变量的定义:)随机变量的定义:对于每一个随机结果都对对于每一个随机结果都对 应着某个变量的一个数值,这种对应就是一个函数,应着某个变量的一个数值,这种对应就是一个函数, 用随机变量来表示。用随机变量来
36、表示。 R.V.R.V.特点:特点: a.a.取值的随机性取值的随机性 ,即事先不能确定其取哪一个值;,即事先不能确定其取哪一个值; b.b.取值的统计规律性,即完全可以确定取值的统计规律性,即完全可以确定x x 取某个值或取某个值或 在某个区间内取值的概率。在某个区间内取值的概率。 46 (2)R.V.的分类:主要分为离散型和连续型 下面介绍最重要的随机变量概率分布的含义 (3)R.V.概率分布的定义:对于离散型随机变 量x,其概率分布有两种表达形式:一种是用 公式表示: 第二种是用表格的形式表示: ,.2 , 1,)(kpaXP kk X P n n ppp aaa ,., ,., 21
37、21 47 这这两种表达形式两种表达形式揭示出了离散性随机变量揭示出了离散性随机变量 概率分布的实质,即它们都表达出了概率分布的实质,即它们都表达出了两层两层 含义含义: 一是随机变量的所有取值是哪些?一是随机变量的所有取值是哪些? 二是随机变量取每一个值的概率有多大?二是随机变量取每一个值的概率有多大? 48 对于对于连续型连续型型随机变量型随机变量x来说,其概率分布往来说,其概率分布往 往用所谓的概率密度函数往用所谓的概率密度函数f(x)来描述,来描述, 这两条性质)( )( 满足:概率密度函数 1)(2 , 0)(1 )( dttf xf xf 49 为了统一研究这两类,也可以用分布函数
38、来描述随 机变量的概率分布,这一点将在后面的多元情形中看 得更加清楚,也更加有必要用分布函数来刻画概率分 布。 (4)随机变量X的概率分布函数(简称分布分布) 定义为如下一个普通的函数: 它全面地描述了随机变量x的统计规律性。也就是说, 用分布函数来研究两类随机变量更加方便,至少不用 分开类型来分别说了,可以将二者统一用分布函数来 研究,即只要知道了某个随机变量的分布函数也就知 道了其概率分布,还有表达简洁的优势。正因为它有 这样的优点,很多随机问题都用分布函数来研究。 )()(aXPaF 50 2 随机变量的数字特征数学 期望和方差 对于对于离散型离散型随机变量随机变量x, x, 其数学期望
39、(或称其数学期望(或称 为均值)和方差分别定义为为均值)和方差分别定义为 对于对于连续型连续型随机变量随机变量x x,其期望和方差分别其期望和方差分别 定义为定义为 1 222 1 )()()( )( k kk k k k paxExV paxE dxxfxxExV dxxxfxE )()()()( )()( 222 51 3 数学期望和方差的性质 (1)(1)期望的性质期望的性质: E(k)=kE(k)=k,即常数的期望等于其自身。即常数的期望等于其自身。 E(kXE(kX)=)=kE(XkE(X) ),即数乘的期望可以直接将该数提即数乘的期望可以直接将该数提 出来出来 E(XE(X1 1+
40、X+X2 2+ + +XnXn)=E(X)=E(X1 1)+E(X)+E(X2 2)+)+ +E(XnE(Xn) ) (2)(2)方差的性质方差的性质: V(k)=0V(k)=0,即常数的方差为即常数的方差为0 0; V(kXV(kX)=k)=k2 2 V(X)V(X),即数乘的方差等于将即数乘的方差等于将常数平方常数平方 后后再乘以原来的再乘以原来的X X的方差。的方差。 设设n n个随机变量相互独立,则有个随机变量相互独立,则有 V(XV(X1 1+ X2 + X2 + + XnXn)= V(X)= V(X1 1)+V(X)+V(X2 2)+)+ +V(XnV(Xn) ) 52 4 一些重
41、要和常见的一元分布 两点分布两点分布 二项分布二项分布 泊松分布泊松分布 均匀分布均匀分布 指数分布指数分布 正态分布(下面将复习一元正态分布)正态分布(下面将复习一元正态分布) 离散型 连续型 53 5.5.一元正态分布(一元正态分布(Normal Normal distributiondistribution)的定义的定义 若某个随机变量X 的密度函数是 则称X服从一元正态分布,也称X X是一元正态随是一元正态随 机变量机变量(其中有两个参数其中有两个参数)。 记为记为 X X 。 可以证明:其期望(也叫均值)正好是参数 , 方差正好是 ,它是一非负数 。 ),(, )( 2 1 exp
42、2 1 )( 2 2 2 x x xf ),( 2 N 2 54 有时候,有时候,仅仅用一个随机变量来描述随机现象就仅仅用一个随机变量来描述随机现象就 不够了,需要用多个随机变量来共同描述的随机不够了,需要用多个随机变量来共同描述的随机 现象和问题,而且这些随机变量间又有联系,所现象和问题,而且这些随机变量间又有联系,所 以必须要将它们看做一个整体来研究(即不能一以必须要将它们看做一个整体来研究(即不能一 个一个地单独研究多个一元随机变量),这就出个一个地单独研究多个一元随机变量),这就出 现了多元随机向量的问题和概念现了多元随机向量的问题和概念 因而因而多元随机向量多元随机向量可看作是可看作
43、是一元随机变量一元随机变量的的推广推广 而而一个随机变量一个随机变量可看作是可看作是特殊特殊的的一元随机向量一元随机向量 55 2.2 2.2 多元(概率)分布基本概念多元(概率)分布基本概念 1.二元随机向量的例子 由于我们的研究对象涉及的是多个变量的总体,所 以要用若干个随机变量合在一起看作一个整体,共 同用这个整体来描述随机现象。 比如,要考察一射击手向一平面靶子射击的水平, 那么,子弹在靶子上的着点位置是随机的,这个平 面上的随机点需要用两个随机变量(即横向的X与纵 向的Y)共同来描述,于是(X,Y)就构成了二元(维) 的随机向量。 56 射击后的子弹着落点的位置射击后的子弹着落点的位
44、置 是随机的是随机的 这个点的位置要用两个这个点的位置要用两个 随机变量随机变量X与与Y共同描共同描 述才能确定,即用(述才能确定,即用(X, Y)数组的取值来确定)数组的取值来确定 这个点的位置。这个点的位置。 这就是二元随机向量这就是二元随机向量。 A X Y 57 将二元随机向量将二元随机向量(虽然有些教材上仍然采(虽然有些教材上仍然采 用二元随机变量的叫法,但我认为,用用二元随机变量的叫法,但我认为,用 “向量”二字更能体现出多元的特点)完“向量”二字更能体现出多元的特点)完 全可以全可以推广到三元甚至更多,于是就产生推广到三元甚至更多,于是就产生 了多元随机向量问题了多元随机向量问题
45、 欣慰的是欣慰的是,同学们已经学过二元随机向量,同学们已经学过二元随机向量 的相关知识,只要将维度扩展到更高元的相关知识,只要将维度扩展到更高元 (或维度)就可以理解了(或维度)就可以理解了 58 P P元(维)随机向量的定义元(维)随机向量的定义 设设 为为p p个随个随 机变量,将它们合在一起组成的一机变量,将它们合在一起组成的一 个整体的向量个整体的向量 称作称作p p元随机向量。元随机向量。 注意:注意:X X是列向量,所以横着写时需是列向量,所以横着写时需 要转置一下。要转置一下。 p XXX,., 21 ),.,( 21 p XXXX 59 2.联合分布函数与密度函数 与一元随机变
46、量一样,也可将随机向量分为与一元随机变量一样,也可将随机向量分为离散性和离散性和 连续型连续型两类,但是在表达其概率分布时,就非常不方两类,但是在表达其概率分布时,就非常不方 便了(因为当它是离散型时,需要用多维表格表示概便了(因为当它是离散型时,需要用多维表格表示概 率分布,但超过两维时就不容易表示了),这时我们率分布,但超过两维时就不容易表示了),这时我们 就必须借助于就必须借助于分布函数分布函数来刻画它的概率分布。这就充来刻画它的概率分布。这就充 分体现出分布函数在表达联合概率分布时的优势。分体现出分布函数在表达联合概率分布时的优势。 对于对于多元的随机向量多元的随机向量,就对应地需要用,就对应地需要用联合分布函数联合分布函数 来刻画其概率分布。来刻画其概率分布。 60 定义定义: : 设(X,Y)为二维随机变量,对任意实数x,y,二 元函数 ( , )(,)F x yP Xx Yy