1、1实用统计方法实用统计方法第七章第七章 聚类分析聚类分析2第七章第七章 聚类分析聚类分析 聚类分析又称群分析聚类分析又称群分析,它是研究对样品或它是研究对样品或指标进行分类的一种多元统计方法指标进行分类的一种多元统计方法.所谓的所谓的“类类”,通俗地说就是相似元素的,通俗地说就是相似元素的集合集合.聚类分析是按照观测聚类分析是按照观测(或变量或变量)取值的相取值的相似程度,对观测似程度,对观测(或变量或变量)进行分类,使在同一进行分类,使在同一类内的观测类内的观测(或变量或变量)是相似的,不同类间的观是相似的,不同类间的观测测(或变量或变量)是不相似的是不相似的.什么是分类什么是分类?它只不过
2、是将一个观测对象它只不过是将一个观测对象指定到某一类指定到某一类(组组).).3第七章第七章 聚类分析聚类分析 分类的问题可以分成两种分类的问题可以分成两种:一种是对当前所研一种是对当前所研究的问题已知它的类别数目,且知道各类的特征究的问题已知它的类别数目,且知道各类的特征(如如分布规律,或知道来自各分布规律,或知道来自各 类的训练样本类的训练样本),),我们的目我们的目的是要将另一些未知类别的个体正确归属于其中某一的是要将另一些未知类别的个体正确归属于其中某一类类,这是第六章判别分析所要解决的问题这是第六章判别分析所要解决的问题.另一种是事先不知道研究的问题应分为几类,更另一种是事先不知道研
3、究的问题应分为几类,更不知道观测到的个体的具体分类情况不知道观测到的个体的具体分类情况,我们的目的正我们的目的正是需要通过对观测数据所进行的分析处理,选定一种是需要通过对观测数据所进行的分析处理,选定一种度量个体接近程度的量,确定分类数目度量个体接近程度的量,确定分类数目,建立一种分建立一种分类方法类方法,并按亲近程度对观测对象给出合理的分类并按亲近程度对观测对象给出合理的分类.这这种问题在实际中大量存在种问题在实际中大量存在,它正是聚类分析所要解决它正是聚类分析所要解决的问题的问题.4第第七七章章 聚类分聚类分 析析 聚类分析是实用多元统计分析的一个聚类分析是实用多元统计分析的一个新的分支新
4、的分支,正处于发展阶段正处于发展阶段,理论上虽不很理论上虽不很完善完善,但由于它能够解决许多实际问题但由于它能够解决许多实际问题,因因此这个方法很受人们的重视此这个方法很受人们的重视,特别是和其特别是和其他方法联合起来使用往往效果更好他方法联合起来使用往往效果更好.例如例如对一批观测对象先用聚类分析进行分类对一批观测对象先用聚类分析进行分类,然后用判别分析的方法建立判别准则然后用判别分析的方法建立判别准则,用用以对新的观测对象判别归类以对新的观测对象判别归类.5第七章第七章7.1 聚类分析的方法聚类分析的方法聚类分析的方法可分为以下几种聚类分析的方法可分为以下几种:(1)系统聚类法:系统聚类法
5、:开始每个对象自成一类开始每个对象自成一类,然然后每次将最相似的两类合并后每次将最相似的两类合并,合并后重新计算合并后重新计算新类与其他类的距离或相近性测度新类与其他类的距离或相近性测度.这一过程这一过程一直继续直到所有对象归为一类为止一直继续直到所有对象归为一类为止.并类的并类的过程可用一张谱系聚类图描述过程可用一张谱系聚类图描述.(2)调优法调优法(动态聚类法动态聚类法);(3)最优分割法最优分割法(有序样品聚类法有序样品聚类法);(4)模糊聚类法模糊聚类法;(5)图论聚类法图论聚类法;(6)聚类预报法聚类预报法.6第七章第七章7.1 聚类分析的方法聚类分析的方法聚类分析的类型及目的聚类分
6、析的类型及目的 聚类分析根据分类对象的不同分为聚类分析根据分类对象的不同分为R型和型和Q型型两大类两大类,R型是对变量型是对变量(指标指标)进行分类处理进行分类处理,Q型是型是对样品进行分类处理对样品进行分类处理.R型聚类分析的目的有以下方面型聚类分析的目的有以下方面:了解变量间及变量组合间的亲疏关系了解变量间及变量组合间的亲疏关系;对变量进行分类对变量进行分类;根据分类结果及它们之间的关系根据分类结果及它们之间的关系,在每一类在每一类中选择有代表性的变量作为典型变量中选择有代表性的变量作为典型变量,利用少数利用少数几个典型变量进一步作分析计算几个典型变量进一步作分析计算,如进行回归分如进行回
7、归分析或析或Q型聚类分析等型聚类分析等.7第七章第七章7.1 聚类分析的方法聚类分析的方法Q型聚类分析的目的型聚类分析的目的 Q型聚类分析的目的主要是对样品进行分类型聚类分析的目的主要是对样品进行分类.分类的结果是直观的分类的结果是直观的,且比传统分类方法更细且比传统分类方法更细致、全面、合理致、全面、合理.当然使用不同的分类方法通当然使用不同的分类方法通常会得到不同的分类结果常会得到不同的分类结果.对任何观测数据都对任何观测数据都没有唯一没有唯一“正确的正确的”的分类方法的分类方法.实际应用中实际应用中,常采用不同的分类方法常采用不同的分类方法,对数据对数据进行分析计算进行分析计算,以便对分
8、类提供意见以便对分类提供意见,并由实际并由实际工作者决定所需要的分类数及分类情况工作者决定所需要的分类数及分类情况.本章重点介绍应用最广泛的系统聚类法;且主要本章重点介绍应用最广泛的系统聚类法;且主要讨论讨论Q型聚类分析问题型聚类分析问题.8第七章第七章7.2 距离与相似系数距离与相似系数 定量变量和定性定量变量和定性(属性属性)变量变量 定量变量就是我们通常所说的连续变量定量变量就是我们通常所说的连续变量,例例如长度、重量、产量、人口、温度等如长度、重量、产量、人口、温度等,它们是由它们是由测量或计数、统计所得到的量测量或计数、统计所得到的量,这类变量具有这类变量具有数值特征数值特征,称为定
9、量变量,或称为区间变量称为定量变量,或称为区间变量.在在区间变量中如存在绝对零点者,又称为比率变区间变量中如存在绝对零点者,又称为比率变量量.而属性变量只有性质上的差异而属性变量只有性质上的差异,例如天气例如天气(阴阴、晴、晴),性别性别(男、女男、女),这些变量都是定性变量这些变量都是定性变量.不同类型的变量在定义距离或相似性测度时不同类型的变量在定义距离或相似性测度时有很大差异有很大差异.9第七章第七章7.2 距离与相似系数距离与相似系数数据的变换方法数据的变换方法 设有设有n个样品个样品,每个样品测得每个样品测得m项指标项指标(变量变量),得得观测数据观测数据xij(i=1,n,j=1,
10、m).通常将数据列成通常将数据列成以下表格的形式以下表格的形式.10第七章第七章7.2 距离与相似系数距离与相似系数数据的变换方法数据的变换方法 1.中心化变换中心化变换变换后数据的均值为变换后数据的均值为0,而协差阵不变,而协差阵不变.2.标准化变换标准化变换变换后的数据变换后的数据,每个变量的样本均值为每个变量的样本均值为0,标准差为标准差为1,而且而且标准化变换后的数据标准化变换后的数据x*ij与变量的量纲无关与变量的量纲无关.3.极差标准化变换极差标准化变换变换后的数据变换后的数据,每个变量的样本均值为每个变量的样本均值为0,极差为极差为1,变换后变换后的数据也是无量纲的量的数据也是无
11、量纲的量.11第七章第七章7.2 距离与相似系数距离与相似系数数据的变换方法数据的变换方法 4.极差正规化变换极差正规化变换(规格化变换规格化变换)变换后的数据变换后的数据0 x*ij 1;极差为极差为1,也是无量纲的量也是无量纲的量.5.对数变换对数变换它可将具有指数特征的数据结构化为线性数据结构它可将具有指数特征的数据结构化为线性数据结构.12第七章第七章7.2 距离与相似系数距离与相似系数样品间的距离和相似系数样品间的距离和相似系数描述样品间的亲疏程度最常用的是距离描述样品间的亲疏程度最常用的是距离.n个样品看成个样品看成m维空间中的维空间中的n个点个点,用用dij表示样表示样品品X(i
12、)和和X(j)之间的距离之间的距离,一般要求:一般要求:dij 0,对一切对一切i,j;当当dij=0 X(i)=X(j);dij=dji,对一切对一切i,j;dij dik+dkj,对一切对一切i,j,k(三角不等式三角不等式).X(k)X(i)X(j)13第七章第七章7.2 距离与相似系数距离与相似系数样品间的距离和相似系数样品间的距离和相似系数 1.闵科夫斯基闵科夫斯基(Minkowski)距离距离当当q=1时的一阶时的一阶Minkowski度量就称为度量就称为绝对值距离绝对值距离.当当q=2时的二阶时的二阶Minkowski度量称为度量称为欧氏距离欧氏距离.欧氏距欧氏距离是聚类分析中用
13、得最广泛的距离离是聚类分析中用得最广泛的距离.当当q=时的时的Minkowski度量称为度量称为切比雪夫距离切比雪夫距离.14第七章第七章7.2 距离与相似系数距离与相似系数样品间的距离和相似系数样品间的距离和相似系数 2.兰氏距离兰氏距离(要求要求xij0)这是由这是由LanceLance和和WilliamsWilliams最早最早提出的提出的,故称为故称为兰氏距离兰氏距离.这是一个无量纲的量这是一个无量纲的量.克服了闵氏距离与各指标克服了闵氏距离与各指标的量纲有关的缺点的量纲有关的缺点.且兰氏距离对大的奇异值不且兰氏距离对大的奇异值不敏感敏感,这样使得它特别适合高度偏倚的数据这样使得它特别
14、适合高度偏倚的数据.但兰氏距离也没有考虑变量间的相关性但兰氏距离也没有考虑变量间的相关性.15第七章第七章7.2 距离与相似系数距离与相似系数样品间的距离和相似系数样品间的距离和相似系数 3.马氏距离马氏距离(Mahalanobis)马氏距离虽然可以排除变量之间相关性的干扰马氏距离虽然可以排除变量之间相关性的干扰,并且不受量并且不受量纲的影响纲的影响,但是在聚类分析处理之前但是在聚类分析处理之前,如果用全部数据计算均值和如果用全部数据计算均值和协差阵来求马氏距离协差阵来求马氏距离,效果不是很好效果不是很好.比较合理的办法是用各个类比较合理的办法是用各个类的样本来计算各自的协差阵的样本来计算各自
15、的协差阵,同一类样品间的马氏距离应当用这同一类样品间的马氏距离应当用这一类的协差阵来计算一类的协差阵来计算,但类的形成都要依赖于样品间的距离但类的形成都要依赖于样品间的距离,而样而样品间合理的马氏距离又依赖于类品间合理的马氏距离又依赖于类,这就形成了一个恶性循环这就形成了一个恶性循环,因此因此在实际聚类分析中在实际聚类分析中,马氏距离也不是理想的距离马氏距离也不是理想的距离.16第七章第七章7.2 距离与相似系数距离与相似系数样品间的距离和相似系数样品间的距离和相似系数 4.斜交空间距离斜交空间距离 在在m维空间中维空间中,为使具有相关性变量的谱系结为使具有相关性变量的谱系结构不发生变形构不发
16、生变形,采用斜交空间距离采用斜交空间距离,即即在数据标准化处理下在数据标准化处理下,rkl为变量为变量Xk和和Xl之间的相关系数之间的相关系数 样品间的亲疏程度除了用距离描述外样品间的亲疏程度除了用距离描述外,有时也可用有时也可用相似系数来表示相似系数来表示.17第七章第七章7.2 距离与相似系数距离与相似系数 变量间的相似系数和距离变量间的相似系数和距离 在对变量进行分类时在对变量进行分类时,通常采用相似系数来表通常采用相似系数来表示变量之间的亲疏程度示变量之间的亲疏程度.设设Cij表示变量表示变量Xi和和Xj间的相似系数间的相似系数,一般要求一般要求 Cij=1 Xi=a Xj(a0,常数
17、常数);|Cij|1,对一切对一切i,j成立成立;Cij=Cji,对一切对一切i,j成立成立.|Cij|越接近越接近1,则表示则表示Xi 和和Xj 的关系越密切的关系越密切,|Cij|越接近越接近0,两者关系越疏远两者关系越疏远.18第七章第七章7.2 距离与相似系数距离与相似系数 变量间的相似系数和距离变量间的相似系数和距离 1.夹角余弦夹角余弦 变量变量Xi的的n次观测值次观测值(x1i,x2i,xni)看成看成n维空间的向维空间的向量量.Xi 和和Xj 夹角夹角ij的余弦称为两向量的相似系数的余弦称为两向量的相似系数,记为记为Cij(1),即即当当i=j时时,夹角夹角ij=0,Cij(1
18、)=1,说明两向量完全相说明两向量完全相似似;当当Xi 和和Xj正交时正交时,ij=90,Cij(1)=0,说明两变说明两变量不相关量不相关.19第七章第七章7.2 距离与相似系数距离与相似系数 变量间的相似系数和距离变量间的相似系数和距离 2.相关系数相关系数 相关系数就是对数据作标准化处理后的夹角相关系数就是对数据作标准化处理后的夹角余弦余弦.变量变量Xi 和和Xj的相关系数常用的相关系数常用rij表示表示,在这里在这里我们记为我们记为Cij(2),即即当当i=j时时,Cij(2)=1表示两变量线性相关表示两变量线性相关.一般情况一般情况,|Cij(2)|1.20第七章第七章7.2 距离与
19、相似系数距离与相似系数 变量间的相似系数和距离变量间的相似系数和距离 3.变量间的距离变量间的距离 (1)利用相似系数来定义变量间的距离利用相似系数来定义变量间的距离令令 dij=1-|Cij|或或 d2ij=1-C2ij (i,j=1,2,m).(2)利用样本协差阵来定义距离利用样本协差阵来定义距离 设样本协差阵设样本协差阵S=(sij)0,变量变量Xi和和Xj 间的距离间的距离可定义为可定义为 dij=sii +sjj -2 sij (3)把变量把变量Xi的的n次观测值看成次观测值看成n维空间的点维空间的点.在在n维空间中按维空间中按“样品间的距离和相似系数样品间的距离和相似系数”中介绍中
20、介绍的方法类似可定义的方法类似可定义m个变量间的种种距离个变量间的种种距离.21第第七七章章 7.2 距离与相似系数距离与相似系数变量间的相似系数和距离变量间的相似系数和距离 4.定性变量间的相似系数定性变量间的相似系数 当变量当变量Xi(i=1,2,m)是定性变量时是定性变量时,也可以也可以定义多种相似系数定义多种相似系数.由两个定性由两个定性(属性属性)变量的观测数据首先生成变量的观测数据首先生成列联表,并由列联表可以定义多种相拟性的度列联表,并由列联表可以定义多种相拟性的度量量.22第第七七章章 7.3 系统聚类法系统聚类法 Hierachical Clustering Method 聚
21、类所需的数据可以是通常的多变量的观测聚类所需的数据可以是通常的多变量的观测记录,也可以是描述样品间或变量间亲近记录,也可以是描述样品间或变量间亲近(proximity)程度的一个矩阵。如用相关系数描程度的一个矩阵。如用相关系数描述相似程度或用距离描述不相关程度。述相似程度或用距离描述不相关程度。根据亲近程度进行聚类有多种方法,根据亲近程度进行聚类有多种方法,常用常用的是系统聚类法的是系统聚类法(Hierachical Clustering Method).他将若干个样品各自看成一类,然后他将若干个样品各自看成一类,然后选择距离最近选择距离最近(或最相似或最相似)的一对合并成一个新的一对合并成一
22、个新类。再将距离最近的两类合并成一个新的类。类。再将距离最近的两类合并成一个新的类。每一步减少一个类,直至所有样品都成为一个每一步减少一个类,直至所有样品都成为一个类为止。类为止。23第第七七章章 7.3 系统聚类法系统聚类法系统聚类法的基本思想和基本步骤系统聚类法的基本思想和基本步骤 设有设有n个样品个样品,每个样品测得每个样品测得m项指标项指标.系统聚类方法的基本思想是系统聚类方法的基本思想是:首先定义样品首先定义样品间的距离间的距离(或相似系数或相似系数)和类与类之间的距离和类与类之间的距离.一开始将一开始将n个样品各自自成一类个样品各自自成一类,这时类间的这时类间的距离与样品间的距离是
23、等价的距离与样品间的距离是等价的;然后将距离最近然后将距离最近的两类合并的两类合并,并计算新类与其他类的类间距离并计算新类与其他类的类间距离,再按最小距离并类再按最小距离并类.这样每次缩小一类这样每次缩小一类,直到所直到所有的样品都成一类为止有的样品都成一类为止.这个并类过程可以用谱这个并类过程可以用谱系聚类图形象地表达出来系聚类图形象地表达出来.24第第七七章章 7.3 系统聚类法系统聚类法系统聚类法的基本思想和基本步骤系统聚类法的基本思想和基本步骤系统聚类法的基本步骤如下:系统聚类法的基本步骤如下:数据变换数据变换:可以使用上节介绍的方法对数可以使用上节介绍的方法对数据进行变换据进行变换.
24、数据变换目的是为了便于比较、计数据变换目的是为了便于比较、计算上的方便或改变数据的结构算上的方便或改变数据的结构.选择度量样品间距离的定义选择度量样品间距离的定义(如欧氏距离如欧氏距离)及及度量类间距离的定义度量类间距离的定义(如最短距离法,见下面如最短距离法,见下面“系统聚类分析的方法系统聚类分析的方法”中的介绍中的介绍).计算计算n个样品个样品(个体个体)两两间的距离,得初两两间的距离,得初始的距离矩阵始的距离矩阵D(1).025第第七七章章 7.3 系统聚类法系统聚类法系统聚类法的基本思想和基本步骤系统聚类法的基本思想和基本步骤 一开始一开始(第一步第一步:i=1)n个样品各自构成一个样
25、品各自构成一类,得类的个数类,得类的个数k=n个类:个类:Gi=X(i)(i=1,n).此时类间的距离就是样品间的距离此时类间的距离就是样品间的距离.然后对步骤然后对步骤i=2,n执行并类过程的步骤和执行并类过程的步骤和.每次合并类间距离最小的两类为一新类每次合并类间距离最小的两类为一新类.此时类的总个数此时类的总个数k减少减少1类,即类,即k=n-i+1.计算新类与其他类的距离,得新的距离矩计算新类与其他类的距离,得新的距离矩阵阵D(i).若此时类的总个数若此时类的总个数k大于大于1类,重复和类,重复和步;直到类的总个数为步;直到类的总个数为1时止时止.26第第七七章章 7.3 系统聚类法系
26、统聚类法系统聚类法的基本思想和基本步骤系统聚类法的基本思想和基本步骤 画谱系聚类图;画谱系聚类图;决定分类的个数及各类的成员决定分类的个数及各类的成员.当临界值当临界值d=2.01应分为两类应分为两类当临界值当临界值d=1.51应分为三类应分为三类当临界值当临界值d=1.01应分为四类应分为四类27第第七七章章 7.3 系统聚类法系统聚类法应用简例应用简例 例例7.3.1 设有设有5个产品,每个产品测得一项个产品,每个产品测得一项质量指标质量指标X,其值如下:,其值如下:1,2,4.5,6,8.试对试对5个个产品按质量指标进行分类产品按质量指标进行分类.解解 设样品间的距离取为欧氏距离设样品间
27、的距离取为欧氏距离,类间的类间的距离取为类间的最短距离距离取为类间的最短距离.根据上面介绍的步根据上面介绍的步骤,计算如下:骤,计算如下:计算计算5个样品两两间的距离,得初始的类个样品两两间的距离,得初始的类间距离矩阵间距离矩阵D(1):28第第七七章章 7.3 系统聚类法系统聚类法应用简例应用简例 一开始一开始n个样品各自构成一类,得个样品各自构成一类,得5个类个类:Gi=xi(i=1,5),类的个数类的个数k=5.由由D(1)可知,首先合并可知,首先合并x1和和x2为一新类,为一新类,记为记为CL4=x1,x2;此时类的总个数;此时类的总个数k减少减少1类类,变为,变为k=4,故把此步得到
28、的新类记为,故把此步得到的新类记为CL4.=D(1)29第第七七章章 7.3 系统聚类法系统聚类法应用简例应用简例 按最短距离法计算新类按最短距离法计算新类CL4与其他类的与其他类的距离,得新的距离矩阵距离,得新的距离矩阵D(2).因此时类的总个数因此时类的总个数k=4大于大于1类,重复并类类,重复并类过程过程.=D(2)30第第七七章章 7.3 系统聚类法系统聚类法应用简例应用简例 由由D(2)可知距离为可知距离为1.5时最小,故合并时最小,故合并x3 和和x4为一新类,记为为一新类,记为CL3=x3,x4;此时类的;此时类的总个数总个数k减少减少1类,变为类,变为k=3,故把此步得到的,故
29、把此步得到的新类记为新类记为CL3.按最短距离法计算新类按最短距离法计算新类CL3与其他类的与其他类的距离,得新的距离矩阵距离,得新的距离矩阵D(3).=D(3)31第第七七章章 7.3 系统聚类法系统聚类法应用简例应用简例 因此时类的总个数因此时类的总个数k=3大于大于1类,重复并类类,重复并类过程过程.由由D(3)可知,应合并可知,应合并x5和和CL3为一新类,为一新类,记为记为CL2=x5,x3,x4;此时类的总个数;此时类的总个数k减少减少1类,变为类,变为k=2,故把此步得到的新类为,故把此步得到的新类为CL2.按最短距离法计算新类按最短距离法计算新类CL2与其他类的距与其他类的距离
30、,得新的距离矩阵离,得新的距离矩阵D(4).=D(4)32第第七七章章 7.3 系统聚类法系统聚类法应用简例应用简例 因此时类的总个数因此时类的总个数k=2大于大于1类,重复并类类,重复并类过程过程.由由D(4)可知,最后应合并可知,最后应合并CL4和和CL2为一为一新类,记为新类,记为CL1=x1,x2,x5,x3,x4;此时类;此时类的总个数的总个数k=1,故把此步得到的新类为,故把此步得到的新类为CL1.此时所有样品全并成一类,得新的距离此时所有样品全并成一类,得新的距离矩阵矩阵D(5).=D(5)33第第七七章章 7.3 系统聚类法系统聚类法应用简例应用简例 根据并类过程绘制的谱系聚类
31、图根据并类过程绘制的谱系聚类图34第第七七章章 7.3 系统聚类法系统聚类法应用简例应用简例 1824.56并类的直观过程并类的直观过程 x1x2x3x4x535第第七七章章 7.3 系统聚类法系统聚类法应用简例应用简例 根据谱系聚类图可得到分类的结果根据谱系聚类图可得到分类的结果:若分为两类若分为两类,则分为则分为:x1,x2 和和 x5,x3,x4 若分为三类若分为三类,则分为则分为:x1,x2 ,x5 和和x3,x4;若分为四类若分为四类,则分为则分为:x1,x2,x5 和和x3和和x4;若分为五类若分为五类,则分为则分为:x1,x2,x5 和和x3和和x4.36第七章第七章 7.3 系
32、统聚类法系统聚类法应用简例的应用简例的sas程序程序PROC TREE DATA=b731 OUT=c731 horizontal graphics nclusters=2;id name;name;RUN;PROC PRINT DATA=c731;RUN;PROC CLUSTER DATA=d731 OUTTREE=b731 NONORM METHOD=single;VAR x;ID name;RUN;假设数据已生成假设数据已生成sas数据集数据集d731(包含变量包含变量x和和name)37第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法 系统聚类法的聚类原则
33、决定于样品间的距离系统聚类法的聚类原则决定于样品间的距离(或相似系数或相似系数)及类间距离的定义及类间距离的定义,类间距离的类间距离的不同定义就产生了不同的系统聚类分析方法不同定义就产生了不同的系统聚类分析方法.几个记号几个记号:用用dij表示样品表示样品X(i)和和X(j)之间的距离之间的距离,当样品间的亲疏关系采用相似系数当样品间的亲疏关系采用相似系数C Cij ij 时时,令令 dij=1-|Cij|(或或 d2ij=1-C2ij););用用D Dijij表示类表示类G Gi i和和G Gj j间的距离间的距离.38第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析
34、的方法-最短距离法最短距离法1.1.最短距离法最短距离法(SINgle linkage)(SINgle linkage)类与类之间的距离定义为两类中最近样品类与类之间的距离定义为两类中最近样品之间的距离之间的距离,即类即类Gp和和Gq之间的距离之间的距离Dpq定义为定义为比如比如:当当G1=1,2,=1,2,G2=4.5,6=4.5,6时时,D12 2=4.5-2=2.5=4.5-2=2.5 (样品样品x2 2=2=2和样品和样品x3 3=4.5=4.5之间的距离之间的距离)39第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-最短距离法最短距离法例例7.3.17
35、.3.1中类间距离就是使用最短距离法定义中类间距离就是使用最短距离法定义的的.当某步类当某步类Gp和和Gq合并为合并为Gr后后,按最短距离法计算按最短距离法计算新类新类Gr与其他类与其他类Gk的类间距离,递推公式为的类间距离,递推公式为40第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-最长距离法最长距离法2.2.最长距离法最长距离法(COMplete method)(COMplete method)类与类之间的距离定义为两类中最远样品之类与类之间的距离定义为两类中最远样品之间的距离间的距离,即类即类Gp和和Gq之间的距离之间的距离Dpq定义为定义为类类Gp和和
36、Gq合并为合并为Gr后后,按最长距离法计算新类按最长距离法计算新类Gr与其他类与其他类Gk的类间距离也有类似的递推公的类间距离也有类似的递推公式式:比如比如:当当G1 1=1,2,=1,2,G2 2=4.5,6=4.5,6时时,D1212=6-1=5.=6-1=5.41第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-中间中间距离法距离法3.3.中间距离法中间距离法(MEDian method)(MEDian method)如果类与类之间的距离既不采用两类间的如果类与类之间的距离既不采用两类间的最近距离最近距离,也不采用最远的距离也不采用最远的距离,而是采用介于而
37、是采用介于两者间的距离两者间的距离,这种方法称为中间距离法这种方法称为中间距离法.GqGr GkDrk(短短)=DpkDrk(长长)=DqkDrk(中中)GpDpq42第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-中间中间距离法距离法 当某步类当某步类Gp和和Gq合并为合并为Gr后后,按中间距按中间距离法离法 计算新类计算新类Gr与其他类与其他类Gk的类间距离,的类间距离,递推公式为递推公式为当当=-1/4时时,由初等几何知由初等几何知Drk就是上面三角就是上面三角形的中线形的中线.如果用如果用最长距离法最长距离法,则则 Drk=Dqk;用最短距离法用最短距离
38、法,则则Drk=Dpk .43第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-重心法重心法4.4.重心法重心法(CENtroid method)(CENtroid method)在定义类与类之间距离时在定义类与类之间距离时,考虑每一类中所考虑每一类中所包含的样品个数包含的样品个数.将两类间的距离定义为两类将两类间的距离定义为两类重心间的距离重心间的距离,这种聚类方法称为重心法这种聚类方法称为重心法.对样品分类而言对样品分类而言,每一类的重心就是属于该每一类的重心就是属于该类样品的均值类样品的均值.设某一步将设某一步将Gp和和Gq合并成合并成Gr,它们所包含的它们
39、所包含的样品个数分别为样品个数分别为np、nq和和nr(nr=np+nq).).重心分重心分别别44第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-重心法重心法显然有显然有设某一类设某一类Gk(kp,q)的重心为的重心为 ,它与新类它与新类Gr的距离是的距离是如果样品间的距离定义为欧氏距离如果样品间的距离定义为欧氏距离,则有则有比如比如:当当G1=1,2,=1,2,G2=4.5,6=4.5,6时时,D1212=5.25-1.5=3.75.=5.25-1.5=3.75.45第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-类平均法类平
40、均法5.5.类平均法类平均法(AVErage linkage)(AVErage linkage)重心法虽有较好的代表性重心法虽有较好的代表性,但并未充分利用但并未充分利用各个样品的信息各个样品的信息.比如下面两组类按重心法类比如下面两组类按重心法类间距离相等间距离相等,这是不合理的这是不合理的.46第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-类平均法类平均法 类平均法把类与类之间的距离定义为两类类平均法把类与类之间的距离定义为两类样品两两之间的平均平方距离样品两两之间的平均平方距离,即即设某一步将设某一步将Gp和和Gq合并成合并成Gr,它们所包含的样它们所包
41、含的样品个数分别为品个数分别为np,nq和和nr(nr=np+nq).).Gr与其他类与其他类Gk的类间距离的递推公式为的类间距离的递推公式为47第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-类平均法类平均法 比如比如:当当G1=1,2,=1,2,G2=4.5,6=4.5,6时时,D D12 12=(4.5-1)+(4.5-2)+(6-1)+(6-2)/4=(4.5-1)+(4.5-2)+(6-1)+(6-2)/4 =15/4=3.75 =15/4=3.75或或 D D2 212 12 =(4.5-1)=(4.5-1)2 2+(4.5-2)+(4.5-2)2
42、2+(6-1)+(6-1)2 2+(6-2)+(6-2)2 2/4/4 =12.25+6.25+25+16/4 =12.25+6.25+25+16/4 =59.5/4=14.875 =59.5/4=14.875 D D12 12=3.85681=3.8568148第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-可变可变类平均法类平均法6.6.可变类平均法可变类平均法(FLExible(FLExiblebeta method)beta method)类平均法的类间距离递推公式中类平均法的类间距离递推公式中,类类Gp和和Gq间的距离没有反映进去间的距离没有反映进去,
43、有人建议将合并后新有人建议将合并后新类类Gr与其他类与其他类Gk的距离公式改为的距离公式改为:其中其中是可变参数是可变参数,一般取一般取1.1.可变类平均可变类平均法是由类平均法和中间距离法适当推广得的法是由类平均法和中间距离法适当推广得的.49第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-离差平方和法离差平方和法7.7.离差平方和法离差平方和法(WARD)(WARD)离差平方和法是离差平方和法是Ward(1936)Ward(1936)提出的提出的,也称为也称为WardWard法法.它基于方差分析思想它基于方差分析思想,如果类分得正确如果类分得正确 ,则同类样
44、品之间的离差平方和应当较小则同类样品之间的离差平方和应当较小,不同不同类样品之间的离差平方和应当较大类样品之间的离差平方和应当较大.50第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-离差平方和法离差平方和法k个类的总离差平方和为个类的总离差平方和为当当k k固定时固定时,要选择使要选择使S达到极小的分类达到极小的分类.51第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-离差平方和法离差平方和法 WardWard法的基本思想是法的基本思想是,先将先将n个样品各自成个样品各自成一类一类,此时此时S=0,=0,然后每次将其中某两类合并
45、为一然后每次将其中某两类合并为一类类,因每缩小一类离差平方和就要增加因每缩小一类离差平方和就要增加,每次选每次选择使择使S增加最小的两类进行合并增加最小的两类进行合并,直至所有样品直至所有样品为一类为止为一类为止.WardWard法把两类合并后增加的离差平方和看成法把两类合并后增加的离差平方和看成类间的平方距离类间的平方距离,即把类即把类Gp和和Gq的平方距离定义的平方距离定义为为52第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-离差平方和法离差平方和法经整理可得经整理可得当样品间距离采用欧氏距离时当样品间距离采用欧氏距离时,上式可表为上式可表为这表明这表明W
46、ardWard法定义的类间距离与重心法只相差法定义的类间距离与重心法只相差一个常数倍一个常数倍.53第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-离差平方和法离差平方和法 当当Gp和和Gq合并为合并为Gr后后,Gr与其他类与其他类Gk的距离的距离有如下递推公式有如下递推公式:在实际应用中在实际应用中,离差平方和法应用比较广离差平方和法应用比较广泛泛,分类效果较好分类效果较好.但它要求样品间距离必须但它要求样品间距离必须采用欧氏距离采用欧氏距离.54第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-离差平方和法离差平方和法 比如比如
47、:当当G1=1,2,=1,2,G2=4.5,6=4.5,6时时,S S1 1=(1-1.5)=(1-1.5)2 2+(2-1.5)+(2-1.5)2 2 =0.25+0.25=0.5=0.25+0.25=0.5 S S2 2=(4.5-5.25)=(4.5-5.25)2 2+(6-5.25)+(6-5.25)2 2 =0.5625+0.5625=1.125 =0.5625+0.5625=1.125记记 G3=G1,G2=1,2,4.5,6(=1,2,4.5,6(均值均值=3.375)=3.375)S S3 3=(1-3.375)=(1-3.375)2 2+(2-3.375)+(2-3.375)
48、2 2+(4.5-3.375)+(4.5-3.375)2 2+(6-3.375)+(6-3.375)2 2 =15.5865 =15.5865 则则 D D2 212 12 =S S3 3-(-(S S1 1+S S2 2)=15.5865-(0.5+1.125)=13.9615 =15.5865-(0.5+1.125)=13.9615 D D12 12=3.7365=3.736555第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-可变法及可变法及MCQMCQ法法 8.8.可变法及可变法及McQuittyMcQuitty相似分析法相似分析法(MCQ)(MCQ)当
49、当Gp和和Gq合并为合并为Gr后后,可变法把可变法把Gr与其他类与其他类Gk的类间距离的递推公式定义为的类间距离的递推公式定义为(1)1)在在cluster过程中使过程中使=0 0时的递推公式时的递推公式:并把此方法称为并把此方法称为McQuittyMcQuitty相似分析法相似分析法.56第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-最大似然谱系聚类最大似然谱系聚类(EML)(EML)9.9.最大似然谱系聚类最大似然谱系聚类(EML)(EML)通过指定选项通过指定选项METHOD=EMLMETHOD=EML实现实现.该方法在多该方法在多元正态混合型、等球面协
50、方差矩阵和不等抽样元正态混合型、等球面协方差矩阵和不等抽样概率的假定下,当用概率的假定下,当用EMLEML方法合并类时,使得在方法合并类时,使得在谱系的每个水平上似然值最大:谱系的每个水平上似然值最大:EMLEML方法除了偏方法除了偏向于生成不等大小的类外,与向于生成不等大小的类外,与WardWard最小方差方最小方差方法很相似法很相似.实际经验表明实际经验表明EMLEML有点偏向于产生大小不等有点偏向于产生大小不等的类的类.选项选项PENALTY=PENALTY=可用于调整偏向的程度可用于调整偏向的程度.57第第七七章章 7.3 系统聚类法系统聚类法系统聚类分析的方法系统聚类分析的方法-密度
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。