1、第第16章章 主成分分析主成分分析中国疾病预防控制中心学习目标v了解主成分分析的数学模型;v熟悉主成分分析的方法步骤;v掌握主成分分析的作用和应用领域;v掌握PRINCOMP过程并运用此过程进行数据分析。概述v主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在统计分析中也称为变量。因为每个变量都不同程度地反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问
2、题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。 概述v科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。例如,糖尿病、动脉硬化等疾病的病因是多种多样的,收集的资料中包含的信息是丰富多彩的。再如,在心理学研究中,描述儿童气质的指标可以有9个,描述儿童活动能力的指标可以有6个,;在临床医学研究中,描述儿童生长发育的的可以有12个指标,鉴别阑尾炎病型的可以有27个指标。然而,重叠的、低质量的信息越多,越不利于医生作出诊断。指标较多时,给资料分析带来很多麻烦,增加了分析问题的复杂性和难度。例如,在线性回归分析中,要求模型中的自变量是相互独立
3、的,否则,估计的结果是不准确的,甚至是相反的结论,产生误导。概述v在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。比如描述儿童生长发育的指标中,身高、腿长和臂长这三个指标可能是相关的,而胸围、大腿围和臂围这三个围度指标也会有一定的相关性。如果分别用每一个指标对儿童的生长发育做出评价,那么这种评价就是孤立的、片面的,而不是综合的。仅选用几个“重要的”或“有代表性”的指标来评价,就失去了许多有用的信息,容易得出片面的结论。所以,我们需要一种综合性的分析方法,既可减少指标变量的个数,又尽量不损失原指标变量所包含的信息,对
4、资料进行全面的综合分析。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。概述v主成份分析的基本思想就是将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息,符合专业含义。何为主成分?简而言之,主成分实际上就是由原变量X1Xm线性组合出来的个互不相关、且未丢失任何信息的新变量,也称为综合变量。多指标的主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。主成分分析简介 v主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成
5、另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。v主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。主成分分析的方法步骤 v主成分分析的过程,就是确定原来变量xj( )在各主成分zi( )上的载荷lij。v从主成分分析的基本原理和数学模型可以看出,主成分分析的任务是估计主成分,确定主成分的个数,解释主成分的实际意义和计算主成分得分。v假设有k个指标x1,x2,xk,每一个指标有n个
6、观测值,它们的标准化指标变量是 ,kj, 2 , 1 ki, 2 , 1kXXX,21主成分分析的方法步骤v对原始指标数据进行标准化变换:v将原始数据标准化,然后利用标准化的数据计算主成分。X为标准化后的数据矩阵,则:kjsxxXjjijij, 2 , 1,nknnkkXXXXXXXXXX212222111211主成分分析的方法步骤v计算相关系数矩阵:v其中,111)(21221112212222111211kkkkkkkkkkrrrrrrrrrrrrrrrXCovRnknkjkjikinkjkjikiijxxxxxxxxr11221)()()(主成分分析的方法步骤v计算相关矩阵的特征值和特征
7、值所对应的特征向量:v求主成分的问题,实际上就是要求出标准化指标变量X的协方差矩阵Cov(X)的特征值和特征向量。X的协方差矩阵为:)(0)(0)()(21kZVarZVarZVarLLXCov主成分分析的方法步骤v求得k个非负特征值 ,将这些特征值按从小到大的顺序排列为:v再由v解得每一特征值对应的特征向量,从而求得各主成分:), 2 , 1(kii021kkilllIRiii, 2 , 110)(1kikiiiiXlXlXlXlZ2211主成分分析的方法步骤v计算主成分贡献率及累计贡献率v各主成分互不相关,即的相关系数:v于是,各主成分间的相关系数矩阵为单位矩阵。v一般地,主成分Zi的贡献
8、率为:)(0),(),(),(,jiZZCovZZCovZZCovrjjiijiZZji), 2 , 1(1kikikiii主成分分析的方法步骤v确定主成分的个数v当得到了k个主成分后,要根据确定主成分个数的准则和主成分的实际意义来确定主成分的个数。一般说,确定主成分个数的准则有两个:以累积贡献率来确定:当前P个主成分的累积贡献率达到某一特定值时(一般采用70%85%为准则),则保留前P个主成分。根据特征值大小来确定,一般地,取特征值大于或等于1为准则。若有s个特征值大于或等于1,那么就可以确定主成分的个数为s个。一般可以将两种确定主成分个数的方法结合起来,选出有实际意义的主成分。主成分分析的
9、方法步骤v计算主成分载荷v第i个主成分Zi的特征值的平方根与第j原始指标Xj的系数lij的乘积v为因子载荷。由因子载荷所构成的矩阵为因子载荷阵。实际数,因子载荷qij就是第i主成分Zi与第j原始指标Xj之间的相关系数,它反映了主成分Zi与原始指标Xj之间联系的密切程度与作用方向。ijiijlq主成分分析的方法步骤v计算主成分得分v如果标准化指标变量 的第i个主成分是:v其中, ,v是xj的标准化指标变量。那么,第i个主成分可以转换为原始指标变量的线性组合:v v kXXX,21kikiiiiXlXlXlXlZ2211kjsxxXjjijij, 2 , 1,kisxlsxlsxlxslxslxs
10、lzkkikiikkikiii, 2 , 1),(222111222111主成分分析的应用 v研究多个指标变量之间的依存关系,是医学研究中很重要的一件事情。但是,在研究多个指标变量之间的依存关系时,经常会遇到两个问题:指标变量过多,使得分析难度增加;变量之间的共线性存在,即变量之间不完全独立,这种情况造成分析结果不稳定或不正确。因此,解决自变量之间的多重共线性和减少变量个数对依存关系的分析就很重要了。主成分分析的应用v根据主成分分析原理,它一方面可以将k个不独立的指标变量通过线性变换变成k个相互独立的新变量,这是解决多重共线性问题的一个重要方法。另一方面,主成分分析可以用较少的变量取代较多的不
11、独立的原变量,减少分析中变量的个数。概括地说,主成分分析有以下几方面的应用:主成分分析的应用v对原始指标进行综合:主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原来指标所提供的信息。v探索多个原始指标对个体特征的影响:对于多个原始指标,求出主成分后,可以利用因子载荷阵的结构,进一步探索各主成分与多个原始指标之间的相互关系,分析各原始指标对各主成分的影响作用。v对样本进行分类:求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分类。主成份分析SAS程序 vSAS系统中利用PRINCOMP过程对数据进行主成分分析。vPR
12、INCOMP过程的语法格式如下:vPROC PRINCOMP DATA= OUT= OUTSTAT= NOINT COV N STD VARDEF 选项;vVAR 变量/选项;vPARTIAL 变量;vRUN;主成份分析SAS程序vDATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。vOUT选择项指定统计量的输出数据集名,该数据集保存的是样本的原始指标变量和主成分得分变量。vOUTSTAT指定输出结果的SAS数据集名,该数据集保存的是每一个指标的均值、标准差、样本数、相关系数矩阵、特征值和得分系数。vNOINT选择项指令系统
13、使用未对均值校正的相关系数矩阵或方差协方差矩阵进行主成分分析,它等价于主成分模型中不含常数项。主成份分析SAS程序vCOV选择项指令系统用方差协方差矩阵计算主成分,如果该选择项缺省,系统用相关系数矩阵计算主成分。vN选择项给出主成分的个数。vSTD选择项指令系统在输出数据集中,主成分得分变量的方差被标准化为1。vVAR语句用于列出要分析的原始变量。如果该语句缺省,系统分析其它语句中未涉及到的所有指标变量。vPARTIAL语句用于列出混杂变量,指定系统使用偏相关系数或偏方差、协方差来计算主成分。例如,PARTIAL X;它表示偏相关系数或偏方差、协方差是以变量X为混杂变量的,即所有的相关系数都表
14、示的是在X不变的情况下,两个变量之间的关联程度。但是,该语句列出的变量不能出现在VAR语句中。本章小节 v在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。本章介绍了主成分分析的数学模型、方法步骤以及主成分分析的应用。我们需要一种综合性的分析方法,既可减少指标变量的个数,又尽量不损失原指标变量所包含的信息,对资料进行全面的综合分析。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。主成份分析的基本思想就是将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指
15、标变量中所包含的主要信息,符合专业含义。本章小节v本章对主成分分析的数学模型、分析方法步骤以及应用问题进行了详细地阐述。我们在学习的过程中,要熟悉主成分分析的方法步骤:对原始指标数据进行标准化变换、计算相关系数矩阵、计算相关矩阵的特征值和特征值所对应的特征向量、计算主成分贡献率及累计贡献率、确定主成分的个数、计算主成分载荷和计算主成分得分。本章小节v主成分分析有以下几方面的应用:对原始指标进行综合:主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原来指标所提供的信息。探索多个原始指标对个体特征的影响:对于多个原始指标,求出主成分后,可以利用因子载荷阵的
16、结构,进一步探索各主成分与多个原始指标之间的相互关系,分析各原始指标对各主成分的影响作用。对样本进行分类:求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分类。本章小节vSAS系统中利用PRINCOMP过程对数据进行主成分分析。并利用两个实例讲解主成分分析的应用。第一个实例说明主成分减少指标变量个数的作用。第二个实例阐述了主成分分析可以用来解决自变量共线性的问题,并详细讲解了主成分分析解决自变量共线性问题的具体方法步骤。第第17章章 因子分析因子分析中国疾病预防控制中心学习目标v熟悉因子分析的基本思想;v熟悉因子分析的基本原理;v了解因子分析的数学模型;v掌
17、握因子模型的性质以及一些基本概念:公共度和方差贡献。v熟悉估计因子载荷的分析步骤、因子旋转和因子得分等;v掌握因子分析的步骤以及FACTOR过程实例。因子分析基本思想 v前面章节讨论了多元线性回归分析、主成分分析等,它们的共同特点是讨论内容为可测量变量之间的相互关系,即所分析的这些变量是可以直接观察或测量得到的。但是,在医学研究中,很多情况下我们所要研究的变量是不能直接测量的。例如,研究家庭环境、社会环境和学校环境对儿童智商的影响,这四个变量都是不能或不易直接观测得到的。我们称这种不能或不易直接观测得到的变量为潜在变量或潜在因子。虽然这些潜在变量不能直接测量,但是它们是一种抽象的客观存在,因此
18、一定与某些可测量变量有着某种程度的关联。例如,脑部疾病患者的意识清醒状态是一个不可测变量,但可以通过患者的语言能力、辨识能力、记忆能力、理解能力等一系列可观测的指标来反映。 因子分析基本思想v对于多指标数据中呈现出的相关性,是否存在对这种相关性起支配作用的潜在变量?如果存在,如何找出这些潜在因素?这些潜在因素是怎样对原始指标起支配作用的?这些问题都可以通过因子分析来解决。v因子分析是一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法。因子分析基本思想v其基本思想是从分析多变量数据的相关关
19、系人手,找到支配这种相关关系的少数几个相关独立的潜在因子,并通过建立起这些潜在因子与原变量之间的数量关系来预测潜在因子的状态,帮助发现隐藏在原变量之间的某种客观规律性。因子分析和主成分分析都能够起到清理多个原始变量内在结构关系的作用,但主成分分析重在综合原始变量的信息,而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法。因子分析基本思想v因子分析最初用于心理、智力测验的统计分析,随着计算技术的不断发展,如今已广泛应用于医学、气象、经济学等其他研究领域,在中医辨证论治研究中也有了初步成果。如李文林等利用因子分析法建立隐结构在慢性胃炎辨证中应用的初步分析,确定了28个原始变
20、量中隐含的12个因子,并利用因子载荷最终分析出这12个因子(隐节点)所对应的症状信息。陈启光等在中医证候规范研究中以468例高脂血症的40个四诊信息指标进行因子分析,结果表明:提取的5个公因子能包含四诊信息指标中8392的信息,并提供所有测量指标在不同公因子载荷的大小,为医师评价该指标在不同证候中的主次关系提供了定量的分析手段。因子分析基本思想v因子分析法就是寻找这些潜在因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的潜在因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。v例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢
21、?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。因子分析基本思想v可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。v因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共同的潜在因子代替该组变量。因子分析基本思想v可以说,因子分析是主成分分
22、析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。v因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共同的潜在因子代替该组变量。因子分析基本思想v因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就
23、是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。因子分析的基本原理 v下表给出了三个指标之间的相关系数,其中,x1是孩子的数学成绩,x2是孩子的语文成绩,x3是孩子的英语成绩。求影响支配这三个成绩指标变量的潜在因子。v 三个指标之间的相关系数x1x2x3x11.00 x20.771.00 x30.720.861.00因子分析的基本原理v令 是影响这三个指标变量的潜在因子。显然,每个成绩指标变量除了受这个潜在因子的影响外,可能还受其它因子的影响。把 以外的影响因子记为 ,从数学角度看,它们之间的关系可以表示为:333222111axaxax因子分析的基本原
24、理v如果假设 是方差为1,、 、 、 相互独立,并且假设指标变量被标准化为方差为1的变量 ,那么,123321,XXX21211221212121000)var(),cov(),cov(),cov(),cov(),cov(aaaaaaaaXX因子分析的基本原理v同理可以得到,v也就得到了a1、a2和a3的一个方程组:77. 0),(),cov(12212121rXXcorrXXaa86.072.023321331raaraa86.072.077.0233213311221raaraaraa因子分析的基本原理v解上述方程组,得到一组解为:va1=0.897,a2=0.959,a3=0.803v从
25、而得到三个标准指标Xi与潜在因子以及误差项之间的关系表达式,即:v从这个关系表达式可以看出这个潜在因子对孩子的三门课的成绩都有影响,而且,影响程度比较均衡。332211803.0959.0897.0XXX因子分析的基本原理v再看下面这组表达式,其中X1-X5是五个指标变量,它们分别表示收缩压、舒张压、心跳间隔、呼吸间隔和舌下温度。从医学知识可知,这5个指标是受自主神经的交感神经和副交感神经支配的,而交感神经和副交感神经状态又不能直接测定。用F1、F2分别表示交感神经和副交感神经这2个因子,则可测指标Xi是不可测因子Fj的线性函数,因子分析的基本原理v由于F1、F2与每一个Xi都有关,因此,研究
26、这5个指标变量之间的关系可以转化为研究这两个潜在因子之间的关系。因子分析的基本原理就是依据可测指标变量之间的相关关系,从中寻找出合理的有实际意义的潜在因子,并估计出潜在因子对可测指标变量的影响程度。因子分析的基本原理vFj对各Xi的影响是线性的,再加上其它影响因子ei,则各Xi与F1、F2的关系可表示为:5252151542421414323213132222121212121111eFaFaXeFaFaXeFaFaXeFaFaXeFaFaX因子分析的步骤 v因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题
27、展开的。因子分析的步骤v因子分析常常有以下四个基本步骤:确认待分析的原变量是否适合作因子分析;构造因子变量;利用旋转方法使因子变量更具有可解释性;计算因子变量得分。因子分析的步骤v因子分析的计算过程:将原始数据标准化,以消除变量间在数量级和量纲上的不同;求标准化数据的相关矩阵;求相关矩阵的特征值和特征向量;计算方差贡献率与累积方差贡献率;确定因子:设F1,F2, Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原指标;因子分析的步骤因子旋转v若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。用原指
28、标的线性组合来求各因子得分v采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。综合得分v以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。vF=(w1F1+w2F2+wmFm)(w1+w2+wm)v此处wi为旋转前或旋转后因子的方差贡献率。因子分析的应用v在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题:v简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主
29、要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。因子分析的应用v构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。因子分析的应用v进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性
30、。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。 因子分析的应用v如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。因子分析SAS程序vSAS系统中利用
31、FACTOR过程对数据进行主成分分析。vFACTOR过程的语法格式如下:vPROC FACTOR DATA= N= OUT= OUTSTAT= METHOD= ROTATE= MAXITER= RECORDER HEY 选项;vVAR 变量/选项;vPARTIAL 变量;vRUN;因子分析SAS程序vDATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。vN用来确定潜在因子个数,该选择项缺省时,系统自动根据“特征值大于1”的原则确定潜在因子个数。vOUT选择项用来保存原变量和因子得分变量,变量名为factor1,factor2,。只有使用了N选择项,OUT选择项才能起作用。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。