1、.13.1聚类思想聚类思想3.2相关度分析3.3聚类分析常用方法聚类分析常用方法 3.4聚类分析的步骤聚类分析的步骤.2聚类分析是应用多元统计分析原理研究分类问聚类分析是应用多元统计分析原理研究分类问题的一种统计方法,尽管它理论上还不是很完题的一种统计方法,尽管它理论上还不是很完善,但发展很快,已广泛运用到作物品种分类,善,但发展很快,已广泛运用到作物品种分类,土壤分类,经济分析,地质勘测,天气预报等土壤分类,经济分析,地质勘测,天气预报等各个领域。各个领域。一、定义一、定义聚类分析定义:又称群分析,是研究分类问题聚类分析定义:又称群分析,是研究分类问题的一种方法。类指的是相似元素的集合。的一
2、种方法。类指的是相似元素的集合。 .32.起源起源起源于分类学,考古分类学中,人们主起源于分类学,考古分类学中,人们主要依靠专业知识和经验来实现分类,但随要依靠专业知识和经验来实现分类,但随着科学的发展,分工的细化,人类认识的着科学的发展,分工的细化,人类认识的不断加深,就需要定性和定量分析结合,不断加深,就需要定性和定量分析结合,于是数学工具逐渐被引进到分类学当中,于是数学工具逐渐被引进到分类学当中,形成了数值分类学。再后来随着多元分析形成了数值分类学。再后来随着多元分析析的引进,聚类分析又逐渐从数值分析中析的引进,聚类分析又逐渐从数值分析中分离出来从而形成一个相对独立的分支。分离出来从而形
3、成一个相对独立的分支。 .4l如:对我国如:对我国30个省市自治区独立核算工业企个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自业经济效益进行分析,一般不是逐个省市自治区分析,而是选取能反映企业经济效益的治区分析,而是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税,资代表性指标,如百元固定资产实现利税,资金利税率,产值利税率,百元销售收入实现金利税率,产值利税率,百元销售收入实现利润,全员劳动生产率等等,根据这些指标利润,全员劳动生产率等等,根据这些指标对对30个省市自治区技能型分类,然后根据分个省市自治区技能型分类,然后根据分类结果对企业经济效益进行综合评价就易于
4、类结果对企业经济效益进行综合评价就易于得出科学的分析。诸如此类的例子很多,需得出科学的分析。诸如此类的例子很多,需要分类的问题很多,因此聚类分析这个有用要分类的问题很多,因此聚类分析这个有用的数学工具越来越多的受到重视,在许多领的数学工具越来越多的受到重视,在许多领域都得到了广泛的应用。域都得到了广泛的应用。.53.聚类分析的基本程序聚类分析的基本程序l1.根据样本的多个观测指标,具体找出一些能够根据样本的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量度量样品或指标之间相似程度的统计量l2.利用统计量将样品或指标进行分类。利用统计量将样品或指标进行分类。l根据分类对象不同可分
5、为样品聚类和变量聚类。根据分类对象不同可分为样品聚类和变量聚类。l样品聚类在统计学中又称为样品聚类在统计学中又称为Q型聚类,用型聚类,用SPSS的术语来说就是对事件或案例(的术语来说就是对事件或案例(CASE)进行聚)进行聚类。是根据被观测的对象各种特征,即反映被类。是根据被观测的对象各种特征,即反映被观测对象特征的各变量值进行分类。观测对象特征的各变量值进行分类。l变量聚类在统计学中又称为变量聚类在统计学中又称为R型聚类。反映事物型聚类。反映事物特征的变量有很多,我们往往根据所研究的问特征的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究题选择部分变量对事物的某一方面
6、进行研究 .64.聚类分析内容:聚类分析内容: 系统聚类法,系统聚类法, 序样品聚类法,序样品聚类法, 动态聚类法,动态聚类法, 模糊聚类法,模糊聚类法, 凸轮聚类法,凸轮聚类法, 聚类预报法等。聚类预报法等。本章主要介绍常用的系统聚类法本章主要介绍常用的系统聚类法 .7l一组复杂数据产生一个相当简单的类结构,必一组复杂数据产生一个相当简单的类结构,必然要求进行然要求进行“相关性相关性”或或“相似性相似性”度量。度量。l目前研究样品之间这种关系的用得最多的方法目前研究样品之间这种关系的用得最多的方法主要有两种:主要有两种:l一种方法是定义空间距离。一种方法是定义空间距离。l一种方法是用相似系数
7、一种方法是用相似系数;.8l每个样本有p个指标,因此每个样本可以看成p维空间中的一个点,n个样本就组成p维空间中的n个点,这时很自然想到用距离来度量n个样本间的接近程度。l用 表示第i个样本与第j个样本之间的距离。一切距离应满足以下条件:kjidddjiddjidjidkjikijjiijijij,对于一切,,对于一切的指标相同与样本等价于样本,0,对于一切,0ijd.9lblock distance 绝对值距离绝对值距离:leuclidean distance 欧式距离欧式距离lsquared euclidean distance 平方欧式距离平方欧式距离lchebychev distanc
8、e 切比雪夫距离切比雪夫距离lminkowski distance 明考斯基距离明考斯基距离 (明氏距离)(明氏距离)当当q=1,2时,为绝对值、欧式距离;时,为绝对值、欧式距离;若趋近无穷时,则为切比雪夫距离若趋近无穷时,则为切比雪夫距离xxMaxjtittdptxxdjtit1ptjtitxxd1221ptjtitxxdptqjtitxxdq11.10lLanberra 兰氏距离lMahalanobis 马氏距离l以上都是样本间距离的定义。ptjtitjtitijxxxxpLd1)(|1)()()()()()(1)()(jijiijXXSXXMd.11l通常所说的相关系数是指变量之通常所说
9、的相关系数是指变量之间的相关系数,用来说明任意两间的相关系数,用来说明任意两样品之间由各个变量表现出的相样品之间由各个变量表现出的相似关系,其计算方法可参照统计似关系,其计算方法可参照统计学中的相关系数给出学中的相关系数给出 。l其值介于其值介于-1与与+1之间之间.12lQ Q型聚类型聚类lR R型聚类型聚类12211()()()()pijijppiijjxxxxrxxxx12211()()()()niijjijnniijjxxxxrxxxx.13 3.3聚类分析常用方法聚类分析常用方法 1 1、 最短距离法最短距离法 设抽取五个样品,每个样品只有一个变量,它们是1,2,3.5,7,9。用最
10、短距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵:)0(D1G2G3G4G5G1G2G3G4G5G0102.51.50653.50875.520.14 然后 和 被聚为新类 ,得 : 1G2G6G) 1 (D6G3G5G3G4G01.5053.5075.5206G4G5G.15qpijpqGGdMinDjixx,:定义距离:qplDDMinDqlplrl,递推公式:.16qpijpqGGdMinDjixx,:定义距离:qplDDMinDqlplrl,递推公式: 假设第p类和第q类合并成第类,第r类与其它各旧类的距离按最短距离法为:rlijrlDMin dGGijxx:,ijpqlMin
11、 dGGGijxx:,ijpqlMin dGGGijxx:,,qlplMin DD.1703.505.5207G4G5G7G4G5G.1803.508G7G8G7G.19各步聚类的结果:(1,2) (3) (4) (5)(1,2,3) (4) (5)(1,2,3) (4,5)(1,2,3,4,5).20 2 2、最长距离法、最长距离法 用最长距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵:1G2G3G4G5G1G2G3G4G5G0102.51.50653.50875.520.21 然后和被聚为新类,得:02.5063.5085.5203G5G6G4G5G6G3G4G.22pqijpqD
12、Max dGGijxx定义距离:,rlplqlDMax DDlpq递推公式:, 假设第p类和第q类合并成第类,第r类与其它各旧类的距离按最长距离法为:rlijrlDMax dGGijxx:,ijpqlMax dGGGijxx:,ijpqlMax dGGGijxx:,,qlplMax DD.23PGqGLGrG最长距离最长距离最短距离最短距离中间距离.242G3G4G0106.252.250362512.250644930.2540 用中间距离法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵:)0(D1G2G3G5G1G4G5G .2512231363412DDDD4141225. 225
13、. 663D2222111224lrlplqpqDDDD递推公式:04121212222,递推公式:pqkqkpkrDDDD中间距离法的递推公式中间距离法的递推公式.266G3G4G5G3G4G0 04 40 030.2530.2512.2512.250 056.2556.2530.2530.254 40 05G6G.27 类平均法定义类间的距离是两类间样品的距类平均法定义类间的距离是两类间样品的距离的平均数。对应我们前面讨论的组间离的平均数。对应我们前面讨论的组间2G3G4G0106.252.250362512.250644930.25401G2G3G5G1G4G5G 4、类平均法、类平均法
14、.28 然后和被聚为新类,得 :6G) 1 (D3G4G5G3G4G04.25030.2512.25056.2530.25406G5GqpkqqkpprknnDnDnD222递推公式:.29piqjGxGxijqppqdnnD221 假设第p类和第q类合并成第类,第r类与其它各旧类的距离按最短距离法为:221jlipqrlijxGxGGpqlDdnnn221ipjliqjlijijxG xGxG xGpqlddnnn .30221ipjliqjlplqlijijxGxGxG xGplqlpqln nn nddn nn nnnn 1plplqllqpqln n Dn n Dnnnpplqlqpq
15、n Dn Dnnp类和q类与L类的距离的加权平均数.31l重心法的特点是定义两类之间的距离为两类重重心法的特点是定义两类之间的距离为两类重心之间的距离。何为类的重心?即该类样品的心之间的距离。何为类的重心?即该类样品的均值。计算两类样品重心的距离可以采用多种均值。计算两类样品重心的距离可以采用多种距离计算方法,如明氏距离、绝对距离、欧氏距离计算方法,如明氏距离、绝对距离、欧氏距离、马氏距离等。是将样品的所有指标值都距离、马氏距离等。是将样品的所有指标值都纳入计算的方法。纳入计算的方法。l其聚类方法与过程同最短距离法,合并类别均其聚类方法与过程同最短距离法,合并类别均是按照距离矩阵中最小距离率先
16、合并的原则,是按照距离矩阵中最小距离率先合并的原则,只是生成新类后计算新的距离矩阵需按重心距只是生成新类后计算新的距离矩阵需按重心距离进行计算。离进行计算。.32l该方法的基本思想来自方差分析。即如该方法的基本思想来自方差分析。即如果分类正确,则同类样品的离差平方和果分类正确,则同类样品的离差平方和应当较小,而类间的离差平方和应当较应当较小,而类间的离差平方和应当较大。具体做法是:先令每个样品各自成大。具体做法是:先令每个样品各自成一类,然后每次缩小一类,计算所有可一类,然后每次缩小一类,计算所有可能合并结果带来的离差平方和能合并结果带来的离差平方和S,选择使,选择使S增加最小的两类首先合并,
17、依次类推。增加最小的两类首先合并,依次类推。.33l上述八种系统聚类法的步骤完全一样,只是距离的递推公式不同。上述八种系统聚类法的步骤完全一样,只是距离的递推公式不同。兰斯(兰斯(Lance)和威廉姆斯()和威廉姆斯(Williams)于)于1967年给出了一个统一年给出了一个统一的公式。的公式。 其中其中ap、aq、 、 是参数,不同的系统聚类法,它们取不是参数,不同的系统聚类法,它们取不同的数。同的数。l这里应该注意,不同的聚类方法结果不一定完全相同,一般只是这里应该注意,不同的聚类方法结果不一定完全相同,一般只是大致相似。如果有很大的差异,则应该仔细考查,找到问题所在;大致相似。如果有很
18、大的差异,则应该仔细考查,找到问题所在;另外,可将聚类结果与实际问题对照,看哪一个结果更符合另外,可将聚类结果与实际问题对照,看哪一个结果更符合经验。经验。.34表表3.1 系统聚类法参数表系统聚类法参数表.35 在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍几种方法。 1、给定阈值通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.35,当聚类时,类间的距离已经超过了0.35,则聚类结束。.36 三、三、 系统聚类法的基本性质系统聚类法的基本性质 (一)(一)
19、 单调性单调性 在聚类分析过程中,并类距离分别为在聚类分析过程中,并类距离分别为l k(k=1,2,3,)若满足)若满足 ,则称该聚类,则称该聚类方法具有单调性。可以证明除了重心法和中间距离法之外,方法具有单调性。可以证明除了重心法和中间距离法之外,其他的系统聚类法均满足单调性的条件。其他的系统聚类法均满足单调性的条件。121kkllll(二)空间的浓缩和扩张(二)空间的浓缩和扩张 1、 定义矩阵的大小定义矩阵的大小 设同阶矩阵设同阶矩阵D(A)和)和D(B),如果),如果D(A)的每一个元素)的每一个元素 不小于不小于D(B)的每一个元素,则记为)的每一个元素,则记为 。( )( )D AD
20、 B.37 2、空间的浓缩和扩张、空间的浓缩和扩张 设有两种系统聚类法设有两种系统聚类法A和和B,他们在第,他们在第i步的距步的距离矩阵分别为离矩阵分别为Ai和和Bi(I=1,2,3),若),若AiBi ,则称第一种方法则称第一种方法A比第二种方法比第二种方法B使空间扩张,或使空间扩张,或第二种方法比第一种方法浓缩。第二种方法比第一种方法浓缩。 3、方法的比较、方法的比较 (K) (G) (S) (C) (G) (W) 其中(其中(K)为最短距离法,(为最短距离法,(S)为最长距离为最长距离 法,法,(G)为类平均法,(为类平均法,(C)为重心法,(为重心法,(W)为离为离差平方和法。差平方和
21、法。.381、选择变量、选择变量 (1)和聚类分析的目的密切相关)和聚类分析的目的密切相关 (2)反映要分类变量的特征)反映要分类变量的特征 (3)在不同研究对象上的值有明显的差异)在不同研究对象上的值有明显的差异 (4)变量之间不能高度相关)变量之间不能高度相关2、计算相似性、计算相似性 相似性是聚类分析中的基本概念,他反映相似性是聚类分析中的基本概念,他反映了研究对象之间的亲疏程度,聚类分析就了研究对象之间的亲疏程度,聚类分析就是根据对象之间的相似性来分类的。有很是根据对象之间的相似性来分类的。有很多刻画相似性的测度多刻画相似性的测度.39 3、聚类、聚类 选定了聚类的变量,计算出样品或指
22、标之间选定了聚类的变量,计算出样品或指标之间的相似程度后,构成了一个相似程度的矩阵。的相似程度后,构成了一个相似程度的矩阵。这时主要涉及两个问题:这时主要涉及两个问题: (1)选择聚类的方法)选择聚类的方法 (2)确定形成的类数)确定形成的类数.40 例例3 3 某公司下属某公司下属3030个企业,公司为了考核下属个企业,公司为了考核下属企业的经济效益,设计了企业的经济效益,设计了8 8个指标。为了避免重复,个指标。为了避免重复,需要对这需要对这8 8个指标进行筛选,建立一个恰当的经济效个指标进行筛选,建立一个恰当的经济效益指标体系。通过计算益指标体系。通过计算3030个企业个企业8 8个指标
23、的相关系数个指标的相关系数距离,数据是距离,数据是1-r1-r2 2。得如下表。得如下表: : x1 x1x2x2 x3 x3 x4 x4x5x5x6x6 x7 x7 x8 x8 x1 x10 00.600.600 00.430.430.460.460 00.470.470.450.450.120.120 00.570.570.450.450.230.230.220.220 00.380.380.400.400.210.210.290.290.220.220 00.310.310.790.790.650.650.700.700.800.800.660.660 00.450.450.450.45
24、0.270.270.230.230.140.140.190.190.770.770 0 试用将它们聚类。试用将它们聚类。x2x2x3x3x4x4x5x5 x6 x6 x7 x7 x8 x8.41.42 例例4 4根据美国等根据美国等2020个国家和地区的信息基础设施个国家和地区的信息基础设施 的发展状况进行分类。的发展状况进行分类。CallCall每千人拥有的电话线数;每千人拥有的电话线数;move lmove l每千人户居民拥有的蜂窝移动电话数;每千人户居民拥有的蜂窝移动电话数;feefee高峰时期每三分钟国际电话的成本;高峰时期每三分钟国际电话的成本;compcomp每千人拥有的计算机数;
25、每千人拥有的计算机数;mipsmips每千人计算机功率(每秒百万指令);每千人计算机功率(每秒百万指令); net每千人互联网络户主数。每千人互联网络户主数。 .43 国家国家callcallmovelmovel fee fee comp comp mips mips net netmeiguomeiguo631.6631.6161.9161.90.360.36403403260732607335.3435.34ribenriben498.4498.4143.2143.23.573.5717617610223102236.266.26deguodeguo557.6557.670.6070.60
26、2.182.1819919911571115719.849.84ruidianruidian684.1684.1281.8281.81.41.4246246166601666029.3929.39ruishiruishi64464493.593.51.981.98234234136211362122.6822.68xinjiapoxinjiapo498.4498.4147.5147.52.52.5284284135781357813.4913.49taiwantaiwan469.4469.456.156.13.683.68119119691169111.721.72hanguohanguo43
27、4.5434.573733.363.369999579557951.661.66baxibaxi81.981.916.316.33.023.0219198768760.520.52zhilizhili138.6138.68.208.201.41.43131141114111.281.28moxigemoxige92.292.29.89.82.612.613131175117510.350.35eluosieluosi174.9174.95 55.125.122424110111010.480.48bolanbolan1691696.56.53.683.684040179617961.451.4
28、5xiongyalixiongyali262.2262.249.449.42.662.666868306730673.093.09malaixiyamalaixiya195.5195.588.488.44.194.195353273427341.251.25taiguotaiguo78.678.627.827.84.954.952222166216620.110.11yinduyindu13.613.60.300.306.286.282 21011010.010.01faguofaguo559.1559.142.942.91.271.2720120111702117024.764.76yingguoyingguo521.10521.10122.5122.50.980.98248248144611446111.9111.91.44
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。