1、1 应用多元统计分析应用多元统计分析 2 课课 程程 介介 绍绍 多元统计分析多元统计分析(简称多元分析简称多元分析)是统计学是统计学的一个重要分支的一个重要分支.它是应用数理统计学来研它是应用数理统计学来研究多变量究多变量(多指标多指标)问题的理论和方法问题的理论和方法;它它是一元统计学的推广和发展是一元统计学的推广和发展.多元统计分析是一门具有很强应用性多元统计分析是一门具有很强应用性的课程的课程;它在自然科学和社会科学等各个领它在自然科学和社会科学等各个领域中得到广泛的应用域中得到广泛的应用;它包括了很多非常有它包括了很多非常有用的数据处理方法用的数据处理方法.3第一章第一章 绪论绪论第
2、二章第二章 多元正态分布及参数的估计多元正态分布及参数的估计第三章第三章 多元正态总体参数的假设检验多元正态总体参数的假设检验第四章第四章 回归分析回归分析-第五章第五章 判别分析判别分析第六章第六章 聚类分析聚类分析第七章第七章 主主成成分分析分分析第八章第八章 因子分析因子分析第九章第九章 对应分析方法对应分析方法第十章第十章 典型相关分析典型相关分析第十一章第十一章 偏最小二乘回归分析偏最小二乘回归分析本课程的内容本课程的内容多变量分析(数据结构简化)多变量分析(数据结构简化)分类方法分类方法两组变量的相关分析两组变量的相关分析基础理论基础理论两组变量的相依分析两组变量的相依分析4普通高
3、等教育普通高等教育”十一五十一五”国家级教材国家级教材北京大学数学教学系列丛书北京大学数学教学系列丛书本科生本科生数学基础课教材数学基础课教材 应用多元统计分析应用多元统计分析(北京大学出版社北京大学出版社,高惠璇高惠璇,2006.10)使用的教材使用的教材51.实用多元统计分析实用多元统计分析(方开泰方开泰,1989,见参考文献见参考文献1)2.多元统计分析引论多元统计分析引论(张尧庭张尧庭,方开泰方开泰,2003,见见2)3.实用多元统计分析实用多元统计分析(王学仁王学仁,1990,见见6)4.应用多元分析应用多元分析(王学民王学民,1999,见见8)5.实用统计方法与实用统计方法与SAS
4、系统系统(高惠璇高惠璇,2001,见见3)6.多元统计分析多元统计分析(于秀林于秀林,1999,见见9)7.多元统计方法多元统计方法(周光亚周光亚,1988,见见28)8.多元分析多元分析(英英.M.肯德肯德 尔尔,1983,见见15)9.SAS系统使用手册等资料系统使用手册等资料(1994-1998,见见17-21)参考书(一)参考书(一)6 (1)An Introduction to Multivariate Statistical Analysis(Anderson 1984,见见22)参考书(二)参考书(二)(2)Applied Multivariate Statistical Ana
5、lysis(Richard A.Johnson and Dean W.Wichern 4th ed 1998)中译本:中译本:实用多元统计分析实用多元统计分析(陆璇译(陆璇译 2001,见见5)(3)Linear Statistical Inference and Its Applications (C.R.Rao 1973)中中 译译 本:线性统计推断及其应用本:线性统计推断及其应用(C.R.劳劳 1987,见见25)7 教学方式教学方式:授课与实际例题相结合授课与实际例题相结合.本课程的特点与教学方式本课程的特点与教学方式 本课程的特点本课程的特点是将常用的多元分析方法的是将常用的多元分析
6、方法的介绍与在计算机上实现这些方法的软件紧介绍与在计算机上实现这些方法的软件紧密地结合起来,不仅介绍每种多元分析方密地结合起来,不仅介绍每种多元分析方法法 的实际背景、统计思想、统计模型、数的实际背景、统计思想、统计模型、数学原理和解题的思路,并结合实例介绍应学原理和解题的思路,并结合实例介绍应用统计软件用统计软件(SAS系统系统)解决问题的步骤和计解决问题的步骤和计算结果的分析。算结果的分析。8 第一章第一章 绪绪 论论1.1 1.1 引引 言言 在实际问题中,很多随机现象涉及到在实际问题中,很多随机现象涉及到的变量不止一个,而经常是多个变量,而的变量不止一个,而经常是多个变量,而且这些变量
7、间又存在一定的联系。我们常且这些变量间又存在一定的联系。我们常常需要处理多个变量的观测数据。例如考常需要处理多个变量的观测数据。例如考察学生的学习情况时,就需了解学生在几察学生的学习情况时,就需了解学生在几个主要科目的考试成绩个主要科目的考试成绩。下表给出从中学某年级随机抽取的下表给出从中学某年级随机抽取的1212名学生中名学生中5 5门主要课程期末考试成绩。门主要课程期末考试成绩。9第一章第一章 绪绪 论论1.1 1.1 引引 言言序号序号 政治政治 语文语文 外语外语 数学数学 物理物理 1 99 94 93 100 1001 99 94 93 100 100 2 99 88 96 99
8、97 2 99 88 96 99 97 3 100 98 81 96 100 3 100 98 81 96 100 4 93 88 88 99 96 4 93 88 88 99 96 5 100 91 72 96 78 5 100 91 72 96 78 6 90 78 82 75 97 6 90 78 82 75 97 7 75 73 88 97 89 7 75 73 88 97 89 8 93 84 83 68 88 8 93 84 83 68 88 9 87 73 60 76 84 9 87 73 60 76 8410 95 82 90 62 3910 95 82 90 62 3911
9、76 72 43 67 7811 76 72 43 67 7812 85 75 50 34 3712 85 75 50 34 3710第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究多元分析的研究 对象和内容对象和内容 上表提供的数据,如果用一元统计方法,势上表提供的数据,如果用一元统计方法,势必要把多门课程分开分析,每次分析处理一门必要把多门课程分开分析,每次分析处理一门课的成绩。这样处理,由于忽视了课程之间可课的成绩。这样处理,由于忽视了课程之间可能存在的相关性,因此,一般说来,丢失信息能存在的相关性,因此,一般说来,丢失信息太多。分析的结果不能客观全面地反映某年级太多。分
10、析的结果不能客观全面地反映某年级学生的学习情况。学生的学习情况。本课程要讨论的多元分析方法,它同时对本课程要讨论的多元分析方法,它同时对多门课程成绩进行分析。这样的分析对这些课多门课程成绩进行分析。这样的分析对这些课程之间的相互关系、相互依赖性等都能提供有程之间的相互关系、相互依赖性等都能提供有用的信息。用的信息。11第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究多元分析的研究 对象和内容对象和内容 由于大量实际问题都涉及到多个变量,这由于大量实际问题都涉及到多个变量,这些变量又是随机变化,如学生的学习成绩随着些变量又是随机变化,如学生的学习成绩随着被抽取学生的不同成绩也有变
11、化(我们往往需被抽取学生的不同成绩也有变化(我们往往需要依据它们来推断全年级的学习情况)。所以要依据它们来推断全年级的学习情况)。所以要讨论多维随机向量的统计规律性。要讨论多维随机向量的统计规律性。多元统计分析就是讨论多维随机向多元统计分析就是讨论多维随机向量的理论和统计方法的总称。量的理论和统计方法的总称。多元统计分析多元统计分析研究研究 的对象的对象就是多就是多维随机向量维随机向量.12第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究多元分析的研究 对象和内容对象和内容 研究的内容既包括一元统计学中某研究的内容既包括一元统计学中某些方法的直接推广,也包括多个随机些方法的直接
12、推广,也包括多个随机变量特有的一些问题。变量特有的一些问题。多元统计分析是一类范围很广多元统计分析是一类范围很广的理论和方法。的理论和方法。企图用三言两语来下一个严格的定义企图用三言两语来下一个严格的定义是困难的是困难的.13第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究多元分析的研究 对象和内容对象和内容 就以学生成绩为例,我们可以研究很多就以学生成绩为例,我们可以研究很多问题:用各科成绩的总和作为综合指标来问题:用各科成绩的总和作为综合指标来比较学生学习成绩的好坏比较学生学习成绩的好坏(如成绩好的与成如成绩好的与成绩差的,又如文科成绩好的与理科成绩好绩差的,又如文科成绩好
13、的与理科成绩好的);研究各科成绩之间的关系(如物理的);研究各科成绩之间的关系(如物理与数学成绩的关系,文科成绩与理科成绩与数学成绩的关系,文科成绩与理科成绩的关系);的关系);等等。所有这些都属于多等等。所有这些都属于多元统计分析的研究内容。元统计分析的研究内容。14第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究多元分析的研究 对象和内容对象和内容 综上所述,多元分析以综上所述,多元分析以个变量的个变量的n次观次观测数据组成的数据矩阵测数据组成的数据矩阵 x11 x12 x1p x21 x22 x2p .xn1 xn2 xnpX=为依据。根据实际问题的需要,给出种种方法为依
14、据。根据实际问题的需要,给出种种方法。英国著名统计学家。英国著名统计学家.肯德尔(肯德尔(M.G.KendallM.G.Kendall)在多元分析一书中把多元分析所研究的在多元分析一书中把多元分析所研究的内容和方法概括为以下几个方面内容和方法概括为以下几个方面:15第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究多元分析的研究 对象和内容对象和内容 1.1.简化数据结构简化数据结构(降维问题降维问题)例如通过变量变换等方法使相互依赖的变量例如通过变量变换等方法使相互依赖的变量变成互不相关的;或把高维空间的数据投影到变成互不相关的;或把高维空间的数据投影到低维空间,使问题得到简化
15、而损失的信息又不低维空间,使问题得到简化而损失的信息又不太多太多.主成分分析,因子分析主成分分析,因子分析,对应分析等多元对应分析等多元统计方法就是这样的一类方法。统计方法就是这样的一类方法。.分类与判别(归类问题)分类与判别(归类问题)对所考查的对象对所考查的对象(样品点或变量)按相似程度进行样品点或变量)按相似程度进行分类(或归类)。聚类分析和判别分析等方法是解分类(或归类)。聚类分析和判别分析等方法是解决这类问题的统计方法决这类问题的统计方法。16第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究多元分析的研究 对象和内容对象和内容 3.3.变量间的相互联系变量间的相互联系
16、(1)(1)相互依赖关系相互依赖关系:分析一个或几个变量的变分析一个或几个变量的变化是否依赖于另一些变量的变化化是否依赖于另一些变量的变化?如果是如果是,建立建立变量间的定量关系式变量间的定量关系式,并用于预测或控制并用于预测或控制-回回归分析归分析.(2)(2)变量间的相互关系变量间的相互关系:分析两组变量间的相分析两组变量间的相互关系互关系-典型相关分析等典型相关分析等.(3 3)两组变量间的相互依赖关系)两组变量间的相互依赖关系-偏最小二偏最小二乘回归分析乘回归分析.17 第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究多元分析的研究 对象和内容对象和内容 5.5.多元统
17、计分析的理论基础多元统计分析的理论基础 包括多维随机向量及多维正态随机向量,及由此定包括多维随机向量及多维正态随机向量,及由此定义的各种多元统计量,推导它们的分布并研究其性质义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论。这些不仅是统计估计和,研究它们的抽样分布理论。这些不仅是统计估计和假设检验的基础,也是多元统计分析的理论基础。假设检验的基础,也是多元统计分析的理论基础。.多元数据的统计推断多元数据的统计推断 参数估计和假设检验问题参数估计和假设检验问题.特别是多元正态分特别是多元正态分布的均值向量和协差阵的估计和假设检验等问布的均值向量和协差阵的估计和假设检验等问题
18、。题。18第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的发展历史多元分析的发展历史 多元统计分析起源于二十世纪初,多元统计分析起源于二十世纪初,19281928年年WishartWishart发表论文多元正态总体样本协方差发表论文多元正态总体样本协方差阵的精确分布阵的精确分布,可以说是多元分析的开端可以说是多元分析的开端.之之后后R.A.FisherR.A.Fisher、H.HotellingH.Hotelling、S.N.RoyS.N.Roy、许宝许宝录等人作了一系列奠基的工作,使多元统计分录等人作了一系列奠基的工作,使多元统计分析在理论上得到迅速的发展析在理论上得到迅速的发展
19、,在许多领域中也在许多领域中也有了实际应用有了实际应用.由于用统计方法解决实际问题由于用统计方法解决实际问题时需要的计算量很大,使其发展受到影响时需要的计算量很大,使其发展受到影响,甚甚至停滞了相当长的时间至停滞了相当长的时间.19第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的的发展历史多元分析的的发展历史 二十世纪二十世纪5050年代中期年代中期,随着电子计算机的出随着电子计算机的出现和发展现和发展,使得多元统计分析在地质、气象、医使得多元统计分析在地质、气象、医学、社会学等方面得到广泛的应用学、社会学等方面得到广泛的应用.60.60年代通过年代通过应用和实践又完善和发展了理论
20、应用和实践又完善和发展了理论,由于新理论、由于新理论、新方法的不断出现又促使它的应用范围更加扩新方法的不断出现又促使它的应用范围更加扩大大.多元统计的方法在我国至多元统计的方法在我国至7070年代初期才受到年代初期才受到各个领域的极大关注各个领域的极大关注,近近3030多年来我国在多元统多年来我国在多元统计方法的理论研究和应用上也取得了很多显著计方法的理论研究和应用上也取得了很多显著成绩成绩,有些研究工作已达到国际水平有些研究工作已达到国际水平,并已形成并已形成一支科技队伍一支科技队伍,活跃在各条战线上活跃在各条战线上.20第一章第一章 绪绪 论论1.21.2 多元统计分析的应用领域多元统计分
21、析的应用领域-教育学教育学 多元统计分析是解决实际问题有效的数据处理方多元统计分析是解决实际问题有效的数据处理方法。随着电子计算机使用的日益普及,多元统计方法法。随着电子计算机使用的日益普及,多元统计方法已广泛地应用于自然科学,社会科学的各个方面。以已广泛地应用于自然科学,社会科学的各个方面。以下我们列举多元分析的一些应用领域。从中可看到多下我们列举多元分析的一些应用领域。从中可看到多元分析应用的广度和深度。元分析应用的广度和深度。1.1.教育学教育学 n个考生报考北大概率统计系个考生报考北大概率统计系.每个考生参加每个考生参加7 7门课门课(语文、语文、数学、政治、外语、物理、化学、生物)的
22、考试,各门课成绩数学、政治、外语、物理、化学、生物)的考试,各门课成绩记为记为Yj1,Yj2,Yj7 。又每个考生在高中学习期间,又每个考生在高中学习期间,m门主要课门主要课程成绩为程成绩为Xj1,Xj2,Xjm(j=1,2,=1,2,n)。经对这大量的资经对这大量的资料作统计分析,我们能够得出:料作统计分析,我们能够得出:21第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-教育学教育学 (1)(1)高考成绩和高中学习期间成绩的关系高考成绩和高中学习期间成绩的关系,即给出两即给出两组变量线性组合间的关系组变量线性组合间的关系,从而可由考生在高中期间的从而可
23、由考生在高中期间的学习成绩来预报高考的综合成绩或某科目的成绩学习成绩来预报高考的综合成绩或某科目的成绩.(2)(2)给出考生成绩次序排队的最佳方案给出考生成绩次序排队的最佳方案(最佳最佳组合组合).).总分可以体现一个考生成绩好坏总分可以体现一个考生成绩好坏,但对报但对报考概率统计系的学生考概率统计系的学生,按总分从高到低的顺序录按总分从高到低的顺序录取并不是最合适的取并不是最合适的.应按适当的权数加权求和应按适当的权数加权求和.如如数学、物理、外语的权数相对高些数学、物理、外语的权数相对高些.22第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-教育学教育
24、学 (3)(3)利用利用n个学生在高中学习期间个学生在高中学习期间m门主科门主科的考试成绩,可对学生进行分类,如按文、理的考试成绩,可对学生进行分类,如按文、理科成绩分类,按总成绩分类等。若准备给优秀科成绩分类,按总成绩分类等。若准备给优秀学生发奖,那么一等奖、二等奖的比例应该是学生发奖,那么一等奖、二等奖的比例应该是多少?应用多元统计分析的方法可以给出公平多少?应用多元统计分析的方法可以给出公平合理地确定。合理地确定。23教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 我我在担任学生班主任期间在担任学生班主任期间,经常会遇到学经常会遇到学校下达的评选三
25、好生校下达的评选三好生,评选学习奖等任务评选学习奖等任务.另另还有评选各种奖学金的工作还有评选各种奖学金的工作;推荐研究生的推荐研究生的工作都要求班主任提出意见工作都要求班主任提出意见.如何利用全班学生在校几年中主要课程如何利用全班学生在校几年中主要课程的学习成绩及各方面的表现更科学的学习成绩及各方面的表现更科学,更合理更合理地进行评选地进行评选?应用多元统计分析中的主成分应用多元统计分析中的主成分方法可以给出公平合理地确定方法可以给出公平合理地确定.24教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 比如全班有比如全班有4040名学生名学生,本科生四年
26、中主要本科生四年中主要课程包括基础课课程包括基础课,专业基础课专业基础课,本专业的限选本专业的限选课课,设共有设共有1212门课门课.从教务可以得到全班从教务可以得到全班4040名学生这名学生这1212门课的成绩门课的成绩,组成的组成的4040行行1212列列的数据阵的数据阵X就是我们的原始数据就是我们的原始数据.(1)(1)全班学生综合成绩的排序全班学生综合成绩的排序 评选三好生评选三好生,评选学习奖评选学习奖,推荐研究生的推荐研究生的工作首先都要了解全班学生的学习情况工作首先都要了解全班学生的学习情况.25教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应
27、用 1212门课的成绩可看成门课的成绩可看成1212个变量个变量,这是多这是多指标指标(变量变量)系统的排序评估问题。系统的排序评估问题。这类问题在实际工作中经常会迂到,比这类问题在实际工作中经常会迂到,比如对某类企业的经济效益进行评估比较,如对某类企业的经济效益进行评估比较,影响企业经济效益的指标有很多,如何更影响企业经济效益的指标有很多,如何更科学、更客观地将一个多指标问题综合为科学、更客观地将一个多指标问题综合为单个综合变量的形式单个综合变量的形式.主成分分析方法为样品排序或多指标系主成分分析方法为样品排序或多指标系统评估提供可行的方法统评估提供可行的方法.26教育学教育学-主成分分析在
28、学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 这里把这里把1212门课的成绩看成门课的成绩看成1212个变量,这个变量,这些变量是相关的,有的相关性强些,有的相些变量是相关的,有的相关性强些,有的相关性一般些。用主成分分析方法从关性一般些。用主成分分析方法从1212个相关个相关的变量中可以综合得出几个互不相关的主成的变量中可以综合得出几个互不相关的主成分它们是原始变量的线性组合。其中第分它们是原始变量的线性组合。其中第一主成分综合原始变量的信息最多(一般在一主成分综合原始变量的信息最多(一般在7070以上),我们就用第一主成分(即单个以上),我们就用第一主成分(即单个综合指标)
29、替代原来的综合指标)替代原来的1212个变量;然后计算个变量;然后计算第一主成分的得分并进行排序。第一主成分的得分并进行排序。27教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 最简单最直观地综合变量就是最简单最直观地综合变量就是1212门课的成绩总和门课的成绩总和。但这个最简单的综合变量并不是最科学地代表。但这个最简单的综合变量并不是最科学地代表1212门门课综合成绩的指标,而用主成分分析得出的第一主成分课综合成绩的指标,而用主成分分析得出的第一主成分(原始变量的线性组合)(原始变量的线性组合)Z1是最科学地代表是最科学地代表1212门课综合门课综合成
30、绩的指标。比如成绩的指标。比如 12432112852.01025.03502.04525.03233.0XXXXXZZ Z1 1是是1212个变量的线性组合,且系数都是正数,个变量的线性组合,且系数都是正数,数值有大有小。显然数值大的变量对综合指标数值有大有小。显然数值大的变量对综合指标(主成分)的贡献大;数值小的变量对综合指(主成分)的贡献大;数值小的变量对综合指标(主成分)的贡献小。标(主成分)的贡献小。28教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 1212个原始变量(课程)提供的信息各为多少?用什个原始变量(课程)提供的信息各为多少?用什么
31、量来表达?最经典的方法是用变量的方差么量来表达?最经典的方法是用变量的方差Var(Var(Xi)为为多少来表达。多少来表达。如果某课程全班学生的成绩都差不多,比如都是如果某课程全班学生的成绩都差不多,比如都是8080分左右,则这门课程在学生成绩的排序中不起什么作分左右,则这门课程在学生成绩的排序中不起什么作用。这反映在原始变量的线性组合用。这反映在原始变量的线性组合Z Z1 1(第一主成分)(第一主成分)上该变量对应的系数会很小(如上该变量对应的系数会很小(如0.1025).0.1025).如果另一门课程全班学生的成绩相差很大,有的如果另一门课程全班学生的成绩相差很大,有的100100分,有的
32、只有分,有的只有3030多分,则这门课程在学生成绩的多分,则这门课程在学生成绩的排序中起的作用很大。这反映在原始变量的线性组合排序中起的作用很大。这反映在原始变量的线性组合Z Z1 1(第一主成分)上该变量对应的系数会很大(比如(第一主成分)上该变量对应的系数会很大(比如0.4525).0.4525).29教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 接着把每个学生接着把每个学生1212门课程的成绩代入第一门课程的成绩代入第一主成分主成分Z1中,计算出每个学生第一主成分中,计算出每个学生第一主成分Z1的的得分值,然后按从大到小的次序对全班学生的得分值,
33、然后按从大到小的次序对全班学生的第一主成分第一主成分Z1的得分值进行排序。这个次序作的得分值进行排序。这个次序作为全班学生在大学本科为全班学生在大学本科4 4年中综合学习成绩的年中综合学习成绩的顺序是更合理更科学的。顺序是更合理更科学的。推荐研究生时可以根据这个次序来依次推荐研究生时可以根据这个次序来依次推荐;评选综合学习奖时也可以根据这个推荐;评选综合学习奖时也可以根据这个次序来评选;评选三好生时这个次序也是次序来评选;评选三好生时这个次序也是很有力的依据。很有力的依据。30教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 (2)(2)全班学生加权综合成
34、绩的排序全班学生加权综合成绩的排序 因因1212门课程(变量)所得的学分不同,学门课程(变量)所得的学分不同,学分的多少反映该课程的重要性,在(分的多少反映该课程的重要性,在(1 1)中进行)中进行排序时没有考虑课程的重要性。排序时没有考虑课程的重要性。由学分的多少由学分的多少对变量的重要程度分别赋于对变量的重要程度分别赋于不同的权数不同的权数.学分多权数大些,学分少权数学分多权数大些,学分少权数小些。即设小些。即设Xj为第为第 j个变量(课程)的个变量(课程)的40名名学生的成绩(学生的成绩(观测向量)观测向量),令令 ),2,1()1(*njXaXjjj31教育学教育学-主成分分析在学生学
35、习成绩排序中的应用主成分分析在学生学习成绩排序中的应用其中其中Xj表示第表示第j门门课程的课程的40名学生的加权成绩名学生的加权成绩(观测向量),可取观测向量),可取)12,2,1(jNnajj其中其中N表示表示1212门课程的总学分数(如门课程的总学分数(如N5050),nj表示表示第第j门课程的学分数(如门课程的学分数(如n1 6 6).某课程若所得的学分多某课程若所得的学分多(即该课程重要即该课程重要),),因乘上的权因乘上的权数大数大,则该门课程的加权成绩变大则该门课程的加权成绩变大.由此得出的新综合指由此得出的新综合指标标(第一主成分第一主成分)Z1*在该变量上的系数也会加大在该变量
36、上的系数也会加大,该变量该变量对第一主成分对第一主成分Z1*的得分贡献加大的得分贡献加大.32教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 把把1212门课程的成绩代入第一主成分门课程的成绩代入第一主成分Z1*中,计中,计算出每个学生第一主成分算出每个学生第一主成分Z1*的得分值,然后的得分值,然后按从大到小的次序对全班学生的第一主成分按从大到小的次序对全班学生的第一主成分Z1*的得分值进行排序。这个次序可作为全班学生的得分值进行排序。这个次序可作为全班学生在大学本科在大学本科4 4年中加权综合学习成绩的顺序。年中加权综合学习成绩的顺序。加权综合学习成
37、绩的顺序与(加权综合学习成绩的顺序与(1 1)中没)中没有加权的综合学习成绩的顺序可能会稍有有加权的综合学习成绩的顺序可能会稍有些差别些差别.加权综合学习成绩的顺序也许比加权综合学习成绩的顺序也许比没加权得出的顺序还更合理更科学的。没加权得出的顺序还更合理更科学的。33教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 同样地同样地,推荐研究生时可以根据这个推荐研究生时可以根据这个更科学的次序来依次推荐;评选综合学习更科学的次序来依次推荐;评选综合学习奖时也可以根据这个更科学的次序来评选奖时也可以根据这个更科学的次序来评选;评选三好生时这个更科学的次序也是很
38、;评选三好生时这个更科学的次序也是很有力的依据。有力的依据。34 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域 2.2.医学医学 3.气象学气象学 (请参阅教材请参阅教材应用多元统计分析应用多元统计分析P5)35 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-医学医学 2.2.医学医学 随机抽取随机抽取300名患有抑郁症的病人名患有抑郁症的病人,按照测量按照测量到的指标到的指标,可以将他们分为几种类型可以将他们分为几种类型-聚类问题聚类问题.医生对病人的诊断是靠对病人观测若干症状来综合医生对病人的诊断是靠对病人
39、观测若干症状来综合评定。如一个人发高烧,医生根据他的体温高低、白评定。如一个人发高烧,医生根据他的体温高低、白血球数目及其它症状来判断他是得感冒、肺炎还是其血球数目及其它症状来判断他是得感冒、肺炎还是其它。再如某人发现腹部有肿瘤,医生根据肿瘤的大小、它。再如某人发现腹部有肿瘤,医生根据肿瘤的大小、生长的速度、边界是否清楚,质硬或软等症状来判断生长的速度、边界是否清楚,质硬或软等症状来判断肿瘤是良性或恶性肿瘤是良性或恶性-判别问题判别问题.36 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-医学医学 为了判断更为准确可靠,事先应有一为了判断更为准确可靠,
40、事先应有一批经专家确诊或手术后经病理化验确诊的批经专家确诊或手术后经病理化验确诊的病例资料,根据这批资料利用多元统计方病例资料,根据这批资料利用多元统计方法建立诊断的准则(即专家系统)。对来法建立诊断的准则(即专家系统)。对来就诊的病人,按专家系统的要求,观测若就诊的病人,按专家系统的要求,观测若干项指标后,根据诊断准则,即可作出诊干项指标后,根据诊断准则,即可作出诊断。断。37 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-气象学气象学 3.3.气象学气象学 全国各地建立了很多气象站,在不同时间各气象站都记录全国各地建立了很多气象站,在不同时间各气象
41、站都记录了降雨量、气温、气压、湿度、风速、风向等气象指标资料。了降雨量、气温、气压、湿度、风速、风向等气象指标资料。对这些资料作统计分析,可以得出:对这些资料作统计分析,可以得出:(1)(1)指标间的关系,如降雨与前一天的气温、气压、湿度等指标间的关系,如降雨与前一天的气温、气压、湿度等的关系,利用该关系可对的关系,利用该关系可对降雨的可能性作预报降雨的可能性作预报。(2)(2)不同地点、气象指标的关系。如某地有气象台站,长期不同地点、气象指标的关系。如某地有气象台站,长期记录各气象指标的资料。今计划在台站附近建一大型化工厂;记录各气象指标的资料。今计划在台站附近建一大型化工厂;厂区气象条件是
42、我们关心的,重建台站又不可能。采用的办法厂区气象条件是我们关心的,重建台站又不可能。采用的办法是先在厂区临时建个观测站,与台站同时测定气象指标。然后是先在厂区临时建个观测站,与台站同时测定气象指标。然后利用这些资料用多元统计分析方法利用这些资料用多元统计分析方法建立二地气象指标的关系建立二地气象指标的关系。以达到今后可由气象台站的气象资料来预报厂区的气象情况。以达到今后可由气象台站的气象资料来预报厂区的气象情况。38 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-环境科学环境科学 4.4.环境科学环境科学 (1)(1)大气环境污染的评估及与职工健康的大
43、气环境污染的评估及与职工健康的关系关系 湖南岳阳化工总厂建厂前没有进行环境评估湖南岳阳化工总厂建厂前没有进行环境评估(因建在因建在文化大革命期间文化大革命期间).工厂投产几年后工厂投产几年后,发现污染严重,如发现污染严重,如很多职工有明显肝大的症状很多职工有明显肝大的症状,到底到底“肝大肝大”是大气污染是大气污染造成的造成的,还是其它还是其它(如水污染如水污染)?故决定进行环境评估。?故决定进行环境评估。具体工作有:具体工作有:定时定点测量大气中多种污染气体的浓度,同时定时定点测量大气中多种污染气体的浓度,同时测量气象条件;测量气象条件;39环境科学环境科学大气环境污染的评估及与职工健康的关系
44、大气环境污染的评估及与职工健康的关系 现场试验现场试验,如施放大量的海军烟雾弹作为示踪物,如施放大量的海军烟雾弹作为示踪物,了解其扩散情况,记录其轨迹。了解其扩散情况,记录其轨迹。调查并统计了大量的职工体检资料;调查并统计了大量的职工体检资料;风洞模拟试验。风洞模拟试验。现场观测试验共用了二个多月的时间,调用了很多的人力和物力,收集了大量的资料。我们(多元分析组)参加其中的数据处理工作,使用了多元统计分析的多种方法进行数据分析处理。以下是其中的部分工作:40环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 (一)大气污染的地区分类 为了了解某大型化工厂对
45、环境的污染程度,在厂区及邻近地区有代表性的选25个监测点(如厂区,生活区,医院,学校),每天定时(2点,8点,14点,20点)同时抽取大气样品,测定其中6种污染气体(二氧化硫,硫化氢,碳4,)的浓度,前后4天共16次数据,对每个监测点,计算每种污染气体16次实测值的平均值,得25行6列的数据阵X,以下由数据阵X出发,进行分析处理.41环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 用统计分析方法分析处理这些资料.具体地说,使用了系统聚类分析方法,主成分分析方法方法,因子分析方法等等.不同的统计方法分类的结果不完全一致,经综合汇总后,把25个取样点按污染
46、情况分为5类,如分为极严重污染,很严重污严重污染染,严重污染严重污染,一般污染和较轻污染五大类.42环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 若使用若使用对应分析方法对应分析方法,不仅可得出分类不仅可得出分类结果结果,还可给出有污染的每一类主要的污还可给出有污染的每一类主要的污染气体染气体(元素元素).).这些分类结果将为今后监测点的布局提这些分类结果将为今后监测点的布局提供既合理又经济的方案供既合理又经济的方案.如果在如果在2525个监测点以外的其它地方也个监测点以外的其它地方也同时定点测量了同时定点测量了6 6种污染气体的浓度种污染气体的浓度
47、,则由则由以上的分类结果用以上的分类结果用判别归类判别归类的方法还可给的方法还可给出该地区的污染分类出该地区的污染分类.43环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系(二)职工体检资料的统计分析 在在2323个监测点附近各随机地抽取个监测点附近各随机地抽取4040人人的体验资料的体验资料,共共920920人人.考查的指标考查的指标(因变因变量量)有有:Y1Y1-78-78年肝大数量年肝大数量;Y2Y2-78-78年的白血球年的白血球;Y3Y3-78-78年血收缩压年血收缩压;Y4Y4-78-78年血舒张压年血舒张压;Y5Y5至至Y8Y8为为7979
48、年同年同Y1Y1至至Y4Y4的指标的指标;Y Y-78-78年到年到7979年的肝增大数量年的肝增大数量;44环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 影响这些指标的因素(自变量)有:X1X1-年龄年龄;X2X2-工龄工龄;X3X3-性别性别;X4X4-所在地区的污染类别所在地区的污染类别.我们的目的是找出职工肝大与所在地区的我们的目的是找出职工肝大与所在地区的污染程度是否关系很显著污染程度是否关系很显著.1)1)用方差分析检验不同类别的污染地用方差分析检验不同类别的污染地区一年之间肝增大量区一年之间肝增大量(Y)Y)是否有显著性差是否有显著性差
49、异异?这是个单因素的方差分析模型这是个单因素的方差分析模型,因变量因变量(指标指标)为为Y,Y,因素为定性因素为定性(属性属性)变量变量X4.X4.45环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 问题可化为假设检验问题:假设问题可化为假设检验问题:假设54321即假设即假设5 5类地区职工中肝的平均增大数量相等类地区职工中肝的平均增大数量相等.用用920920人的观测数据来检验这个假设是否成立人的观测数据来检验这个假设是否成立.分析计算的结果在分析计算的结果在 0.010.01的水平上的水平上否否定这个假设定这个假设.这表明五类不同地区的平均肝这表
50、明五类不同地区的平均肝增大数量有显著性差异增大数量有显著性差异.类似地可以把性别类似地可以把性别(X1)X1)作为因素作为因素,检验男女检验男女职工平均肝增大数量是否有显著差异职工平均肝增大数量是否有显著差异.结果是没结果是没有明显差异有明显差异.46环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 这说明职工肝大主要是由大气污染这说明职工肝大主要是由大气污染引起的引起的.与性别与性别(或或年龄年龄,工龄工龄)无关无关,也也不是由有些人所说是由于水质不好引不是由有些人所说是由于水质不好引起的起的.2 2)用回归分析方法建立用回归分析方法建立Y(Y(肝增大