1、聚类分析原理介绍聚类分析原理介绍和预测和预测v什么是什么是自然分组结构自然分组结构Natural grouping ?v我们看看以下的例子:我们看看以下的例子:v有有16v如何将他们分为如何将他们分为 一组一组的牌呢?一组一组的牌呢?AKQJ聚类分析原理介绍聚类分析原理介绍v分成四组分成四组v每组里每组里花色相同花色相同v组与组之间花色相异组与组之间花色相异AKQJ花色相同的牌为一副花色相同的牌为一副Individual suits聚类分析原理介绍聚类分析原理介绍v分成四组分成四组v符号相同符号相同的牌为一组的牌为一组AKQJ符号相同的的牌符号相同的的牌Like face cards聚类分析原
2、理介绍聚类分析原理介绍v分成两组分成两组v颜色相同颜色相同的牌为一组的牌为一组AKQJ颜色相同的配对颜色相同的配对Black and red suits聚类分析原理介绍聚类分析原理介绍v分成两组分成两组v大小程度相近大小程度相近的牌分的牌分到一组到一组AKQJ大配对和小配对大配对和小配对Major and minor suits聚类分析原理介绍聚类分析原理介绍v这个例子告诉我们,分这个例子告诉我们,分组的意义在于我们怎么组的意义在于我们怎么定义并度量定义并度量“相似相似性性”Similarv因此衍生出一系列度量因此衍生出一系列度量相似性的算法相似性的算法AKQJ大配对和小配对大配对和小配对Ma
3、jor and minor suitsYOUR SITE HERE第一节第一节 引言引言第二节第二节 聚类统计量聚类统计量第三节第三节 系统聚类法系统聚类法第四节第四节 动态聚类法动态聚类法主要内容主要内容YOUR SITE HERE第一节第一节 引言引言YOUR SITE HERE人类认识事物、认识世界,往往从分类开始。人类认识事物、认识世界,往往从分类开始。聚类分析和判别分析聚类分析和判别分析是研究事物分类的基本方法。是研究事物分类的基本方法。在数学分类和模式识别中,有两类问题:在数学分类和模式识别中,有两类问题:第一类问题第一类问题: :研究对象存在一个事前分类,将未知研究对象存在一个事
4、前分类,将未知个体归属于其中的一类个体归属于其中的一类判别分析(有监督或称判别分析(有监督或称有导师的有导师的SupervisedSupervised,样品的类别属性是,样品的类别属性是“被标记被标记了了”的的labeledlabeled)另一类问题另一类问题: :不存在一个事前分类,对数据结构进不存在一个事前分类,对数据结构进行分类(分组)行分类(分组) 聚类分析(无监督或称无导聚类分析(无监督或称无导师的师的UnsupervisedUnsupervised)YOUR SITE HERE 判别分析数据格式判别分析数据格式YOUR SITE HERE聚类分析数据格式聚类分析数据格式YOUR S
5、ITE HERE 在地学领域中,经常面临着大量的分类问题,即对在地学领域中,经常面临着大量的分类问题,即对一定量的事物一定量的事物(如地质体、样品或变量如地质体、样品或变量)按其属性进按其属性进行归类。行归类。由于地质对象的复杂性,单靠定性标志或少数定量由于地质对象的复杂性,单靠定性标志或少数定量标志进行分类,常常不能揭示客观事物内在本质的标志进行分类,常常不能揭示客观事物内在本质的差别和联系,难以确定地质体本质属性的归属。同差别和联系,难以确定地质体本质属性的归属。同时也造成很多分类计算具有很大的主观性和任意性时也造成很多分类计算具有很大的主观性和任意性,而且所得的结果因人而异,常不能反映客
6、观实际,而且所得的结果因人而异,常不能反映客观实际情况。情况。地学研究中的分类问题较多,如岩石分类、矿物地学研究中的分类问题较多,如岩石分类、矿物分类、构造期次研究、古气候古环境划分等,这分类、构造期次研究、古气候古环境划分等,这些都有可能需要利用聚类分析来研究。些都有可能需要利用聚类分析来研究。YOUR SITE HERE聚类分析是一种研究分类问题的多元统计聚类分析是一种研究分类问题的多元统计方法。方法。聚类分析的职能是建立一种分类方法,它聚类分析的职能是建立一种分类方法,它将一批样品或变量,按照它们在性质上的将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类。亲疏、相似程度进行分类
7、。聚类分析的出发点是研究对象之间可能存在聚类分析的出发点是研究对象之间可能存在的相似性和亲疏关系。的相似性和亲疏关系。所以,根据研究对象之间各种特征标志的相所以,根据研究对象之间各种特征标志的相似程度或相关程度的大小,可将它们进行分似程度或相关程度的大小,可将它们进行分类归组。类归组。物以类聚,人以群分物以类聚,人以群分YOUR SITE HERE聚类分析的聚类分析的分类原则分类原则是是同一类中的分类对象在某种意义上趋于同一类中的分类对象在某种意义上趋于彼此相似(有较大的相似性);彼此相似(有较大的相似性);不同类中的分类对象趋于不相似(有很不同类中的分类对象趋于不相似(有很大的差异)。大的差
8、异)。聚类分析的目的是把分类对象按一定规则聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而分成若干类,这些类不是事先给定的,而是根据数据的特征而确定。是根据数据的特征而确定。YOUR SITE HERE 根据已知数据,计算各观察个体或变量根据已知数据,计算各观察个体或变量之间之间亲疏关系的统计量亲疏关系的统计量(距离、相关系距离、相关系数等数等),根据),根据某种准则某种准则(最短距离法、最短距离法、最长距离法、中间距离法、重心法等最长距离法、中间距离法、重心法等),使同一类内的差别较小,而类与类之,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量间的
9、差别较大,最终将观察个体或变量分为若干类。分为若干类。聚类分析基本思想聚类分析基本思想YOUR SITE HERE两个两个“距离距离”概念概念按照远近程度来聚类需要明确两个概念:按照远近程度来聚类需要明确两个概念:一个是一个是点和点之间点和点之间的距离,一个是的距离,一个是类和类之间类和类之间的距离。的距离。点间距离点间距离有很多定义方式。最简单的是欧氏距离,还有有很多定义方式。最简单的是欧氏距离,还有其他的距离。其他的距离。当然还有一些和距离相反但起同样作用的概念,比如相当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。似性等,两点越相似度越大,就相
10、当于距离越短。由一个点组成的类是最基本的类;如果每一类都由一个由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类包含不止一个点,那么就要确定类间距离,YOUR SITE HERE类间距离类间距离是基于点间距离定义的:比如是基于点间距离定义的:比如两类之两类之间最近点之间的距离间最近点之间的距离可以作为这两类之间的距可以作为这两类之间的距离,也可以用离,也可以用两类中最远点之间的距离两类中最远点之间的距离作为这作为这两类之间的距离;当然也可以用两类之间的距离;当
11、然也可以用各类的中心之各类的中心之间的距离间的距离来作为类间距离。来作为类间距离。在计算时,各种点间距离和类间距离的不同选在计算时,各种点间距离和类间距离的不同选择择, ,其结果会有所不同,但一般不会差太多。其结果会有所不同,但一般不会差太多。 YOUR SITE HERE聚类分析的分类聚类分析的分类按聚类按聚类方法分方法分系统聚类法系统聚类法,也叫分层聚类法,也叫分层聚类法,hierarchical cluster动态聚类法动态聚类法,也叫快速聚类法,也叫快速聚类法quick cluster逐步聚类、迭代聚类逐步聚类、迭代聚类k-均值聚类均值聚类 k-means cluster最优分割法最优
12、分割法(有序样品聚类法)(有序样品聚类法)模糊聚类法模糊聚类法图论聚类法图论聚类法聚类预报法聚类预报法等等YOUR SITE HERE按聚合按聚合方式分方式分聚合法聚合法: 分类开始时每个样品自成一类。分类开始时每个样品自成一类。最常用,分类结果常用分类谱系图表达。最常用,分类结果常用分类谱系图表达。分裂法分裂法: 分类开始将全部样品看成一类。分类开始将全部样品看成一类。通常只能是求局部最优解的方法。通常只能是求局部最优解的方法。调优法调优法: 首先对样品进行粗糙的分个类。首先对样品进行粗糙的分个类。动态聚类法就是其中最典型的方法。动态聚类法就是其中最典型的方法。加入法加入法: 业已存在一个分
13、类结果,确定每业已存在一个分类结果,确定每个新加入样品在分类结构中最合适的位置个新加入样品在分类结构中最合适的位置。等等聚类分析的分类聚类分析的分类YOUR SITE HERE聚类分析的分类聚类分析的分类按聚类按聚类对象对象Q型聚类:对样品的聚类型聚类:对样品的聚类 (cases)R型聚类:对变量的聚类型聚类:对变量的聚类 (variables)R型聚类和型聚类和Q型聚类型聚类这两种聚类在数学处理上是对称这两种聚类在数学处理上是对称的,没有什么不同。的,没有什么不同。 YOUR SITE HERER型聚类分析和型聚类分析和Q型聚类分析型聚类分析研究变量之间的相似程度,对变研究变量之间的相似程度
14、,对变量进行分组。量进行分组。从几何意义上说,是以从几何意义上说,是以N个样品个样品为坐标轴,每个变量视为坐标空为坐标轴,每个变量视为坐标空间的一点或一个向量,研究样本间的一点或一个向量,研究样本空间变量点之间的关系。空间变量点之间的关系。 1. R型聚类分析型聚类分析(对变量的聚类对变量的聚类)如研究控矿地质因素及矿化标志间如研究控矿地质因素及矿化标志间的相关关系,多用于矿物,化学元的相关关系,多用于矿物,化学元素等方面的分组,以助于矿床成因素等方面的分组,以助于矿床成因问题的研究。问题的研究。样品2样品3样品1变量1变量2变量3是一种降维的是一种降维的方法方法YOUR SITE HERER
15、型聚类分析和型聚类分析和Q型聚类分析型聚类分析研究样品之间的相似程度,研究样品之间的相似程度,对样品进行分类。对样品进行分类。从几何意义上说,是以从几何意义上说,是以P个个变量为坐标轴,每个样品视变量为坐标轴,每个样品视为为p维空间中一点或一个向维空间中一点或一个向量,研究样本空间样品点之量,研究样本空间样品点之间的关系。间的关系。 2. Q型聚类分析型聚类分析(对样品的聚类对样品的聚类)变量2变量3变量1样品1样品2样品3YOUR SITE HERE对矿床统计预测来说,主要是进行对矿床统计预测来说,主要是进行Q型聚类。型聚类。(1)对研究区所划分的单元,可视为样品,各单元)对研究区所划分的单
16、元,可视为样品,各单元所测定的各种地质特征作为变量构成原始数据组。所测定的各种地质特征作为变量构成原始数据组。(2)各单元成矿远景的好坏,决定于单元内有利成)各单元成矿远景的好坏,决定于单元内有利成矿地质因素及矿化标志的发育程度,根据这些地质矿地质因素及矿化标志的发育程度,根据这些地质因素和标志的相似程度对单元进行归类分组。这实因素和标志的相似程度对单元进行归类分组。这实际上是一种对地质环境的分类。际上是一种对地质环境的分类。(3)然后,据分类中已知有矿和已知无矿单元的分)然后,据分类中已知有矿和已知无矿单元的分类归组,结合地质条件分析,相对地评价各未知单类归组,结合地质条件分析,相对地评价各
17、未知单元的成矿远景。元的成矿远景。YOUR SITE HERE第二节第二节 聚类统计量聚类统计量npnnppxxxxxxxxxX.212222111211样品样品Case变量变量VariableYOUR SITE HERE绝对值距离绝对值距离欧氏距离欧氏距离闵可夫斯基距离闵可夫斯基距离切比雪夫距离切比雪夫距离方差加权距离方差加权距离兰氏距离兰氏距离马哈拉诺比斯距离马哈拉诺比斯距离夹角余弦夹角余弦相似相似系数系数距离距离系数系数 聚类聚类统计量统计量(也称(也称相似性相似性统计量统计量)dij|Cij|, |rij|越接近于越接近于1,相似程度越高相似程度越高Cij|dij|越小,越小,相似程度
18、越高相似程度越高Q型聚类统计量型聚类统计量R型聚类型聚类统计量统计量相关相关系数系数rijYOUR SITE HERE1|pijikjkkdxx21()pijikjkkdxx1/1|qpqijkikjkkdwxx1max |ijikjkkpdxx 样品样品xi = (xi1, xi2,xip)样品样品xj = (xi1, xi2,xip)间的距离间的距离绝对值距离绝对值距离欧氏距离欧氏距离闵可夫斯基距离闵可夫斯基距离切比雪夫距离切比雪夫距离11121121212.pipiijjjpnnnpxxxxxxxxxXxxxYOUR SITE HERE样品样品xi = (xi1, xi2,xip)样品样
19、品xj = (xi1, xi2,xip)间的距离间的距离方差加权距离方差加权距离兰氏距离兰氏距离马氏距离马氏距离1/21/2*2211()()ikppikjkijjkkkkxxdxxs1|1( )pikjkijkikjkxxdLpxx(要求xij0)1/21()()Ti jijijdxxxx()()11()()1nxxxxnYOUR SITE HERE1221122cos,nkikjkijijnnkikjkkijijx yCxxx xxx变量变量xi = (x1i, x2i,xni)T变量变量xj = (x1i, x2i,xnj)T间的相似系数间的相似系数夹角余弦夹角余弦相关系数相关系数122
20、11()()()()nkiikjjkijijnnkiikjjkkxxxxCrxxxx11111212221. .ijpijpnninjnpxxxxxxxxXxxxxYOUR SITE HERE样品2样品3样品1变量1变量2变量3变量2变量3变量1样品1样品2样品3距离系数距离系数夹角余弦夹角余弦 距离系数是一个衡量空间两点之间相似程距离系数是一个衡量空间两点之间相似程度的统计量,度的统计量,距离系数越小,两点越相似距离系数越小,两点越相似。条件:直角坐标系,要求变量是条件:直角坐标系,要求变量是独立独立的。的。距离系数距离系数ijd在二维情况下在二维情况下22221121122212121()
21、()()kkkdxxxxxxN个样品,个样品,P个指标个指标R型:变量型:变量P个指标个指标2,1,2,1()pi jNikjkijkdxxQ型:样品型:样品N个指标个指标2,1,2,11()pi jNikjkijkdxxp将将N个样品的两两间的距离系数求出来,可排一个样品的两两间的距离系数求出来,可排一个距离系数矩阵个距离系数矩阵 111212122212NNNNNNddddddDddd 相似系数是衡量空间两个向量相似性的一相似系数是衡量空间两个向量相似性的一个指标,相似系数越大,两个向量越相似。个指标,相似系数越大,两个向量越相似。cosij相似系数相似系数ABA BA BCOS ABCO
22、SA B A B 212111 2112 221222222222111221221211kkkkkkkx xx xx xCOSxxxxxx12211pikjkkijppikjkkkx xCOSxx将将N个样品相似系数求出来,排成一个相似系个样品相似系数求出来,排成一个相似系数矩阵数矩阵 111212122212coscoscoscoscoscoscoscoscosNNNNNNQi jr相关系数相关系数 相关系数是衡量变量之间相关程度的一个指相关系数是衡量变量之间相关程度的一个指标,变量标,变量xi与与xj的相关系数定义为:的相关系数定义为: 1221cov,varvar()Nkiikjjij
23、kijNijkiikjjkxxxxx yrxyxxxx111212122212pppppprrrrrrRrrr 1)11ijr (实数) 2)11221pprrr 3)ijjirr YOUR SITE HERE距离和相似系数之间的转换距离和相似系数之间的转换一般说来,距离越小,两样品之间关系越密切,而相似系数越大,两变量之间关系越密切。 为了聚类方便起见,可以用下面的公式从相关系数得到变量间的距离。dij2 = 1-rij2 YOUR SITE HERE第三节第三节 系统聚类法系统聚类法hierarchical clustering method系统聚类方式:系统聚类方式:聚合法聚合法:先视每
24、个为一类:先视每个为一类,再合并为几大类再合并为几大类分裂法:先视为一大类,再分成几类分裂法:先视为一大类,再分成几类可用于可用于Q型聚类和型聚类和 R型聚类型聚类YOUR SITE HERE开始时将每个样品(或变量)都视为一类,开始时将每个样品(或变量)都视为一类,然后将各样品(或变量)相互之间两两加以然后将各样品(或变量)相互之间两两加以比较,根据聚类统计量逐步归类,比较,根据聚类统计量逐步归类,关系密切关系密切的聚合到一个小的分类单位,关系疏远的聚的聚合到一个小的分类单位,关系疏远的聚合到一个较大的分类单位,合到一个较大的分类单位,直到把所有样品直到把所有样品(或变量)都聚合并为一大类完
25、毕为止,形(或变量)都聚合并为一大类完毕为止,形成一个由小到大的成一个由小到大的分类系统分类系统,并绘制聚类,并绘制聚类谱谱系图系图,把样品之间的亲疏关系简明直观地展,把样品之间的亲疏关系简明直观地展示出来。示出来。一、系统聚类的特点一、系统聚类的特点YOUR SITE HERE二、系统聚类的基本思路和做法二、系统聚类的基本思路和做法(1)先将待聚类的)先将待聚类的n个样品(或者变量)各作为一个样品(或者变量)各作为一类;类;(2)选定聚类统计量)选定聚类统计量,计算每两个类之间的聚类统计算每两个类之间的聚类统计量,将关系最密切的两类并为一类,其余不变,计量,将关系最密切的两类并为一类,其余不
26、变,即得即得n-1类。再按前面的计算方法,计算新类与其它类。再按前面的计算方法,计算新类与其它类之间的距离(或者相似系数),再将关系最密切类之间的距离(或者相似系数),再将关系最密切的两类并为一类,其余不变,即得的两类并为一类,其余不变,即得n-2类;类;(3)如此继续下去,每次重复都减少一类,直到最)如此继续下去,每次重复都减少一类,直到最后所有所有样品(或变量)归为一类为止。后所有所有样品(或变量)归为一类为止。 YOUR SITE HEREX = 1.0 2.0 2.5 4.5 2.0 2.0 4.0 1.5 4.0 2.5x1x24513200.511.522.53相似性标尺k=1k=
27、2k=3k=40 1 2 3 4 50 1 2 3 4 5YOUR SITE HERE任给两类任给两类,Gk,Gl ,规定其类间距,规定其类间距离为两类样品间的最短距离,离为两类样品间的最短距离,若类若类Gk与与Gl合并成一个新类合并成一个新类Gm,则,则Gm与任一类与任一类Gr的距离为多的距离为多少?少?GkGlGrGm记类记类Gk与类与类Gl之间的距离为之间的距离为Dkld(xi,xj)表示点表示点xi Gk和和xj Gl之间的距离之间的距离min ( ,)klijDd x xmin,mrkrlrDDD最短距离最短距离三、类间距离三、类间距离问题:当最亲近的两个样品合并问题:当最亲近的两个
28、样品合并为一个类时,则形成一个样品集为一个类时,则形成一个样品集团,即团,即p维空间中的一个点群。维空间中的一个点群。 如何度量类与类之间的距离?如何度量类与类之间的距离?YOUR SITE HERE1.最短距离法最短距离法(single linkage) 2.最长距离法最长距离法(complete linkage) 3.中间距离法中间距离法(median linkage)4.重心法重心法(centroid method)5.类平均法类平均法(average linkage)6.可变类平均法可变类平均法(flexible-beta method)7. 可变法可变法8. 离差平方和法离差平方和法
29、(亦称亦称Ward法,法,Wards minimum-variance method)等等 以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。四、系统聚类方法四、系统聚类方法YOUR SITE HERE四、谱系图的形成和应用四、谱系图的形成和应用1.聚类的原则(谱系图的形成过程)聚类的原则(谱系图的形成过程)2.一步形成法一步形成法3.多步形成法多步形成法YOUR SITE HERE若选出的一对样品在已经分好的组中若选出的一对样品在已经分好的组中都未出现过都未出现过,则把它们则把它们形成一个新组形成一个新组。 (形成新类形成新类)若选出的一对样品中,若选出的一对样品中,有一个出现有一个出
30、现在已经分好的组在已经分好的组里,则把里,则把另一个也加入到该组另一个也加入到该组。 (加入类中加入类中)若选出的两个样品,它们若选出的两个样品,它们分别出现在分别出现在已经分好的已经分好的两两组中组中,则把这,则把这两个组连在一起两个组连在一起。 (合并两类合并两类)若选出的两个样品都若选出的两个样品都出现在同一组中出现在同一组中,则,则不须再分不须再分组组。 (不再分类不再分类)聚合归类时一般应遵从以下四条原则:聚合归类时一般应遵从以下四条原则:按上述四条原则反复进行,直到将所有的样品(或变量)都按上述四条原则反复进行,直到将所有的样品(或变量)都聚合完毕为止。最终可形成谱系图,也称树状图
31、。聚合完毕为止。最终可形成谱系图,也称树状图。1.聚类的原则(谱系图的形成过程)聚类的原则(谱系图的形成过程)YOUR SITE HERE2. 一步形成法一步形成法(一次计算分类法一次计算分类法)一步形成法是一种最简单的聚类方法,计算量不大。它由距离矩阵或相似性系数矩阵出发得到最终的分类结果。方法原理:根据距离或相似系数的大小,依次将诸样品(或变量)归类连接起来,形成一个从小类到大类的分类系统。在连接过程中,要遵循前述四条原则。YOUR SITE HERE例:对鄂东7个矽卡岩体的化探资料的Q型聚类分析。距离矩阵连接表123456YOUR SITE HERE根据相似性水平的地质意义对谱系图进行分
32、组,根据相似性水平的地质意义对谱系图进行分组,并对每组作出地质解释。并对每组作出地质解释。相似性水平的不同反映了要求精度的差别,其结相似性水平的不同反映了要求精度的差别,其结果表现为分组的粗细不同。果表现为分组的粗细不同。587956808398102 0 0.2 0.4 0.6 0.8 1.0Cu/W/Mo型型Cu型型Cu矿化矿化Cu一次形成法一次形成法( (相似系数相似系数) ) 10.962410.94060.984310.99070.97150.935210.93570.96640.94990.925610.94720.98060.96230.95160.98861Q1)1)对原始数据
33、进行变换对原始数据进行变换2)2)计算相似系数计算相似系数 3)用一次形成法形成分群图用一次形成法形成分群图 10.962410.94060.984310.99070.97150.935210.93570.96640.94990.925610.94720.98060.96230.95160.98861Q1 X1 X4 0.9907划去4行4列X1 X 2 X3 X4 X5 X6X1 X2 X3 X4 X5 X61 X1 X4 0.99072 X5 X6 0.9886 10.962410.94060.984310.99070.97150.935210.93570.96640.94990.9256
34、10.94720.98060.96230.95160.98861Q划去6行6列X1 X 2 X3 X4 X5 X6X1 X2 X3 X4 X5 X6 10.962410.94060.984310.99070.97150.935210.93570.96640.94990.925610.94720.98060.96230.95160.98861Q划去3行3列X1 X 2 X3 X4 X5 X6X1 X2 X3 X4 X5 X61 X1 X4 0.99072 X5 X6 0.98863 X2 X3 0.9843 10.962410.94060.984310.99070.97150.935210.93
35、570.96640.94990.925610.94720.98060.96230.95160.98861Q划去5行5列X1 X 2 X3 X4 X5 X6X1 X 2 X3 X4 X5 X61 X1 X4 0.99072 X5 X6 0.98863 X2 X3 0.98434 X2X3 X5X6 0.9664 10.962410.94060.984310.99070.97150.935210.93570.96640.94990.925610.94720.98060.96230.95160.98861Q划去2行2列X1 X 2 X3 X4 X5 X6X1 X 2 X3 X4 X5 X61 X1
36、X4 0.99072 X5 X6 0.98863 X2 X3 0.98434 X2X3 X5X6 0.96645 X1X4 X2X3X5X6 0.9624聚聚类类谱谱系系图图1 X1 X4 0.99072 X5 X6 0.98863 X2 X3 0.98434 X2X3 X5X6 0.96645 X1X4 X2X3X5X6 0.9624优点优点:方法简单,易于操作,工作量小。:方法简单,易于操作,工作量小。缺点缺点:一次形成法有缺点,很可能把不相似的样品:一次形成法有缺点,很可能把不相似的样品归入一类,如上例中第四次挑了归入一类,如上例中第四次挑了X2和和X5,按分类原,按分类原则就把则就把X
37、2 、X3和和X5、X6划为了一类,但划为了一类,但X6是否与是否与X2相似,相似,X3是否与是否与X5相似就没有定量标准相似就没有定量标准 1 X1 X4 0.99072 X5 X6 0.98863 X2 X3 0.98434 X2X3 X5X6 0.96645 X1X4 X2X3X5X6 0.9624YOUR SITE HERE2. 多步形成法多步形成法(逐步计算成群法逐步计算成群法)与一步形成法基本步骤相似,唯一的区别是每一步分类后与一步形成法基本步骤相似,唯一的区别是每一步分类后,要把分过类变量合并成为一个新的变量,即在相关系数,要把分过类变量合并成为一个新的变量,即在相关系数矩阵中划
38、出最大的元素,将相应的变量合并,赋予新的记矩阵中划出最大的元素,将相应的变量合并,赋予新的记号,号,把合并的变量的数据加权平均作为新的变量的数据把合并的变量的数据加权平均作为新的变量的数据,再计算合并后新变量与其余各变量的相关系数,建立新的再计算合并后新变量与其余各变量的相关系数,建立新的相关矩阵,再进行下一步分类,重复这一过程直到把所有相关矩阵,再进行下一步分类,重复这一过程直到把所有变量都合并为一类。最后按归类作谱系图。变量都合并为一类。最后按归类作谱系图。以距离作为聚类统计量(以距离作为聚类统计量(Q型聚类)情形型聚类)情形:见前关于类间距离的系统聚类方法见前关于类间距离的系统聚类方法以
39、相关系数作为聚类统计量(以相关系数作为聚类统计量(R型聚类)情形:型聚类)情形:(1) 转换成距离来处理转换成距离来处理(2) 连续计算相关系数矩阵连续计算相关系数矩阵(1)计算样品(或变量)间的相似性系数矩阵,挑出关系最密切的样品对(或变量对)(2)把挑出的成对样品或样品组(变量或变量组)的值做加权平均,形成一个新的样品(或变量)数据(3)把原有两个样品或代表样品组(变量或代表变量组)的数据删除掉,一般习惯把新数据放在序号小的样品数据上(4)对新形成的样品(变量)数据与剩余样品(变量)数据重新计算相似性系数,再从中挑出关系最密切的样品。重复(2)(3)(4)步骤,直到把所有样品(变量)归类完
40、为止。选择渗透率、孔隙度、平均孔隙半径、分选系数、特征结构参数、排驱压力、饱和度中值压力7个参数,储层分成3类依据样品间欧式距离系数相似性YOUR SITE HERE第四节第四节 动态聚类法动态聚类法也叫快速聚类法、逐步聚类、迭代聚类quick cluster method, k-means model样本量很大,用系统聚类法计算的工作量极大,作出的树状图也十分复杂, 不便于分析 YOUR SITE HERE(1)选取若干样品作为初始凝聚点(给出允许)选取若干样品作为初始凝聚点(给出允许分类的最大个数分类的最大个数k););(2)计算各样品与各凝聚点的距离,并作初始)计算各样品与各凝聚点的距离
41、,并作初始分类;分类;(3)根据初始分类,计算各类重心,用重心代)根据初始分类,计算各类重心,用重心代替初始凝聚点,进行第二次分类;替初始凝聚点,进行第二次分类;(4)重复()重复(2)步,直至所有样品都不再调整,)步,直至所有样品都不再调整,分类达到稳定为止(称为聚类过程收敛)分类达到稳定为止(称为聚类过程收敛)动态聚类的基本思想动态聚类的基本思想首先将样品粗略地分为若干类,然后在按照某种原则逐步修改直到合理的分类为止。计算步骤:计算步骤:选凝聚点,选凝聚点,作初始分类作初始分类调整不适合调整不适合点点修改修改分类分类YOUR SITE HERE小小 结结YOUR SITE HERE与多元分
42、析的其他方法相比,与多元分析的其他方法相比,尽管聚类分析尽管聚类分析较为粗较为粗糙,糙,没有明显的理论性,没有明显的理论性,但应用方面取得了很大成但应用方面取得了很大成功,功,确实是模式识别研究中非常有用的一类技术。确实是模式识别研究中非常有用的一类技术。(1)综合性)综合性:Q型聚类分析可以利用多个变量的信型聚类分析可以利用多个变量的信息对样本进行分类,克服单一指标分类的弊端。息对样本进行分类,克服单一指标分类的弊端。 (2)形象性)形象性:聚类分析可以利用聚类图直观地表:聚类分析可以利用聚类图直观地表现其分类形态,及类与类之间的内在关系。现其分类形态,及类与类之间的内在关系。 (3)客观性
43、)客观性:聚类分析结果克服主观因素,比传:聚类分析结果克服主观因素,比传统分类方法更客观、细致、全面和合理。统分类方法更客观、细致、全面和合理。聚类分析方法与传统的统计分组方法相比,具有如下优点:YOUR SITE HERE应用中须注意的问题应用中须注意的问题同一批数据采用不同的聚类统计量,有时会得到不同同一批数据采用不同的聚类统计量,有时会得到不同的分类结果。的分类结果。同一批数据采用相同的聚类统计量,但采用不同的聚同一批数据采用相同的聚类统计量,但采用不同的聚类方法,有时会产生不同的分类结果。类方法,有时会产生不同的分类结果。采用不同的数据变换方法可得到不同的分类结果。采用不同的数据变换方
44、法可得到不同的分类结果。在进行在进行Q型聚类时,采用的变量并非越多越好,要选型聚类时,采用的变量并非越多越好,要选择对研究的分类问题具有价值的变量。择对研究的分类问题具有价值的变量。在进行在进行R型聚类时型聚类时,采用相关系数为好,采用相关系数为好,Q型聚类时根型聚类时根据具体情况选用相似系数或距离系数。据具体情况选用相似系数或距离系数。YOUR SITE HERE应用中须注意的问题应用中须注意的问题对聚类分析结果的解释要谨慎。聚类分析是一种数对聚类分析结果的解释要谨慎。聚类分析是一种数字分类法,数字上相似,地质上不一定相似。字分类法,数字上相似,地质上不一定相似。聚类分析是一种探索性技术,对
45、于同一问题,可获得聚类分析是一种探索性技术,对于同一问题,可获得多种结果,解释需要结合专业知识。统计标志及数量多种结果,解释需要结合专业知识。统计标志及数量特征上的相似,决不等于地质环境的相似特征上的相似,决不等于地质环境的相似要选取要选取能反映地质环境特征的变量及合理取值能反映地质环境特征的变量及合理取值(要加强地质(要加强地质分析研究,这是一切定量方法必须遵守的共同点)分析研究,这是一切定量方法必须遵守的共同点)YOUR SITE HERE(1)平移变换:将某一指标的数据同减去一数,一般是减去均平移变换:将某一指标的数据同减去一数,一般是减去均值。值。 (2)极差变换:将某一指标的数据同除
46、以该指标的极差。极差变换:将某一指标的数据同除以该指标的极差。 (3)标准差变换:将某一指标的数据同除以该指标的标准差。标准差变换:将某一指标的数据同除以该指标的标准差。 (4)主成分变换:将数据用它们的主成分代替,有时为了简化主成分变换:将数据用它们的主成分代替,有时为了简化,只取前几个主成分、舍去次要的主成分。,只取前几个主成分、舍去次要的主成分。 (5)对数变换:将数据取对数,当数据之间数量级相差较大时对数变换:将数据取对数,当数据之间数量级相差较大时常采用这一变换。常采用这一变换。 以上的变换有时同时采用,例如将数据标准化,就是先作变以上的变换有时同时采用,例如将数据标准化,就是先作变
47、换换(1),后作变换,后作变换(3) 。 在实际问题中,不同的变量一般取的量纲不同,为在实际问题中,不同的变量一般取的量纲不同,为了使不同的量纲也能放在一起比较,通常需要对数了使不同的量纲也能放在一起比较,通常需要对数据作一些变换,有时即使变量用的同一量纲,为了据作一些变换,有时即使变量用的同一量纲,为了使数据更适用某种数学模型,也需要将数据变换。使数据更适用某种数学模型,也需要将数据变换。常用的变换有:常用的变换有: YOUR SITE HERE缩放坐标轴缩放坐标轴会映现会映现最小聚类方法的聚最小聚类方法的聚类结果类结果如果特征空间是如果特征空间是各向各向同性同性的并且数据大致的并且数据大致均匀地分布在各个方均匀地分布在各个方向上,选择欧氏距离向上,选择欧氏距离作为相似性度量一般作为相似性度量一般是合理的。是合理的。选用欧氏距离的分类选用欧氏距离的分类结果不会因特征空间结果不会因特征空间的平移和旋转而改变的平移和旋转而改变(点作(点作刚体运动刚体运动)。)。但是,一般地说,对但是,一般地说,对线性变换线性变换或其它扭曲或其它扭曲距离关系的变换是不距离关系的变换是不能保证的。能保证的。