1、应用多元统计分析应用多元统计分析第六章部分习题解答第六章部分习题解答-2 第六章第六章 聚类分析聚类分析 6-1 证明下列结论证明下列结论:(1)(1)两个距离的和所组成的函数仍是距离两个距离的和所组成的函数仍是距离;(2)(2)一个正常数乘上一个距离所组成的函数一个正常数乘上一个距离所组成的函数仍是距离仍是距离;(3)(3)设设d为一个距离为一个距离,c0 0为常数为常数,则则仍是一个距离仍是一个距离;(4)(4)两个距离的乘积所组成的函数不一定是两个距离的乘积所组成的函数不一定是距离距离;cddd*.3.,)1(:)2()1()2()1(个条件满足作为距离所要求的以下来验证令为距离和设证明
2、dddddd-3第六章第六章 聚类分析聚类分析.,;,;0,0)2()2()1()1()2()1()2()1()2()1()()()2()1(jkidddddddddjidddddddXXdddkjikkjikkjikijijijjijijiijijijijjiijijij对一切对一切时且仅当(2)设设d是是距离距离,a 0为为正常数正常数.令令d*=ad,显然有显然有;,;0,0*)()(*jidcdcdddXXcddjijiijijijjiijij对一切时且仅当-4第六章第六章 聚类分析聚类分析.,)(*jkiddcdcdddccddkjikkjikkjikijij对一切故故d*=ad是一
3、个距离是一个距离.(3)设设d为一个距离为一个距离,c0 0为常数为常数,显然有显然有;,;0,0*)()(*jidcddcddddXXcdddjijijiijijijijjiijijij对一切时且仅当-5第六章第六章 聚类分析聚类分析.,)0,0()/(11/11*jkiddddcddcddcdddcdddcddddddcdccdddkjikkjikkjkjikikkjikkjkjikikkjikkjikkjikijijijij对一切因故故d*是一个距离是一个距离.-6第六章第六章 聚类分析聚类分析.,2.,)4(*)2()1(*)2()1(不一定是距离下面用反例来说明式但不一定满足三角不等
4、个条件虽满足前令是距离和设ddddddd.41,41,1,5.0,1,0.),1(*)()()(2)()(*)()()2()1(kjikijkjikijkjijiijjiijijddddddXXXXXdmXXdd显然不满足时当则设-7第六章第六章 聚类分析聚类分析6-2 试证明二值变量的相关系数为试证明二值变量的相关系数为(6.2.2)式,夹角余式,夹角余弦为弦为(6.2.3)式式.证明:证明:设变量设变量Xi和和Xj是二值变量,它们的是二值变量,它们的n次观测值记次观测值记为为xti,xtj(t=1,n).xti,xtj 的值或为的值或为0,或为,或为1.由二值变由二值变量的列联表(表量的列
5、联表(表6.5)可知:变量)可知:变量Xi取值取值1的观测次数的观测次数为为a+b,取值取值0的观测次数为的观测次数为c+d;变量变量Xi和和Xj取值均为取值均为1的的观测次数为观测次数为a,取值均为取值均为0的观测次数为的观测次数为d 等等。利用两等等。利用两定量变量相关系数的公式:定量变量相关系数的公式:ntjtjntitintjtjitiijxxxxxxxxr12121)()()(-8第六章第六章 聚类分析聚类分析nbcadcabadcbaancabaannncanbanaxxnxxxxxxntjitjtintjtjiti)()(1)(1)(11)(1)()()(212212dcbanb
6、annbanbanbaxnxxxntitintiti-9第六章第六章 聚类分析聚类分析)(1)()()(212212dbcancanncancancaxnxxxntjtjntjtj)()()()()()7(12121dbcadcbabcadxxxxxxxxCntjtjntitintjtjitiij故二值变量的相关系数为:故二值变量的相关系数为:(6.2.2)-10第六章第六章 聚类分析聚类分析利用两定量变量夹角余弦的公式:利用两定量变量夹角余弦的公式:nttjnttinttjtiijxxxx12121cos,1nttjtiaxxcaxbaxnttjntti1212,其中其中故有故有)3.2.6
7、()(cos)9(cabaacijij-11第六章第六章 聚类分析聚类分析6-3 下面是下面是5个样品两两间的距离阵个样品两两间的距离阵0853601071096040)1()0(DD试用最长距离法、类平均法作系统聚类,并画出谱系试用最长距离法、类平均法作系统聚类,并画出谱系聚类图聚类图.解解:用最长距离法用最长距离法:合并合并X(1),X(4)=CL4,并类距离并类距离 D1=1.408107053090)5()3()2()2(CLXXXD-12第六章第六章 聚类分析聚类分析 合并合并X(2),X(5)=CL3,并类距离并类距离 D2=3.340890100)3()3(CLCLXD 合并合并
8、CL3,CL4=CL2,并类距离并类距离 D3=8.20100)3()4(CLXD 所有样品合并为一类所有样品合并为一类CL1,并类距离并类距离 D4=10.-13第六章第六章 聚类分析聚类分析最长距离法的谱系聚类图如下最长距离法的谱系聚类图如下:-14第六章第六章 聚类分析聚类分析0853601071096040)1()0(DD 合并合并X(1),X(4)=CL4,并类距离并类距离 D1=1.4021002136265053090)5()3()2(222)2(CLXXXD用类平均法用类平均法:-15第六章第六章 聚类分析聚类分析 合并合并X(2),X(5)=CL3,并类距离并类距离 D2=3
9、.34041652106021360)3()3(CLCLXD 合并合并CL3,CL4=CL2,并类距离并类距离 D3=(165/4)1/2.2021210)3()4(CLXD 所有样品合并为一类所有样品合并为一类CL1,并类距离并类距离 D4=(121/2)1/2.-16第六章第六章 聚类分析聚类分析类平均法的谱系聚类图如下类平均法的谱系聚类图如下:-17第六章第六章 聚类分析聚类分析6-4 利用距离平方的递推公式利用距离平方的递推公式来证明当来证明当0,p0,q0,p+q+1时时,系统聚类中的类系统聚类中的类平均法、可变类平均法、可变法、平均法、可变类平均法、可变法、Ward法的单调性法的单
10、调性.|222222qkpkpqqkqpkpkrDDDDDD 证明:证明:设第设第L次合并次合并Gp和和Gq为新类为新类Gr后后,并类距离并类距离DL Dpq,且必有且必有Dpq2Dij2.新类新类Gr与其它类与其它类Gk的距离平方的递的距离平方的递推公式推公式,当当0,p0,q0,p+q+1 时时222222)(pqpqqppqqkqpkpkrDDDDDD 这表明新的距离矩阵中类间的距离均这表明新的距离矩阵中类间的距离均 Dpq DL,故有故有DL1 DL,即相应的聚类法有单调性,即相应的聚类法有单调性.-18第六章第六章 聚类分析聚类分析 对于类平均法,因对于类平均法,因110,0,0,0
11、rqrpqprqqrppnnnnnnnn故类平均法具有单调性。故类平均法具有单调性。对于可变类平均法,因对于可变类平均法,因11)1()1()1(,0)1(,0)1(,0rqrpqprqqrppnnnnnnnn故可变类平均法具有单调性。故可变类平均法具有单调性。-19第六章第六章 聚类分析聚类分析 对于可变法,因对于可变法,因112121)1(,021,021,0qpqp故可变法具有单调性。故可变法具有单调性。对于离差平方和法,因对于离差平方和法,因11,0,0,0krkkrqkkrpkqpkrqkqkrpkpnnnnnnnnnnnnnnnnnnn故离差平方和法具有单调性。故离差平方和法具有单
12、调性。-20第六章第六章 聚类分析聚类分析6-5 试从定义直接证明最长和最短距离法的单调性试从定义直接证明最长和最短距离法的单调性.证明:证明:先考虑最短距离法:先考虑最短距离法:设第设第L步从类间距离矩阵步从类间距离矩阵 出发,假设出发,假设)1()1(LijLDD)1()1(minLijLpqDD故合并故合并Gp和和Gq为一新类为一新类Gr,这时第,这时第L步的并类距离步的并类距离:)1(LpqLDD且新类且新类Gr与其它类与其它类Gk的距离由递推公式可知的距离由递推公式可知),(),min()()1()1()1()(qpkDDDDDLLpqLqkLpkLrk设第设第L+1步从类间距离矩阵
13、步从类间距离矩阵 出发,出发,)()(LijLDD-21第六章第六章 聚类分析聚类分析),(),()1()()1()(qprjiDDDqpkDDDLLijLijLLpqLrk因故第故第L1步的并类距离步的并类距离:,)min()(1LLijLDDD即最短距离法具有单调性即最短距离法具有单调性.类似地类似地,可以证明最长距离法也具有单调性可以证明最长距离法也具有单调性.-22第六章第六章 聚类分析聚类分析6-6 设设A,B,C为平面上三个点为平面上三个点,它们之间的距离为它们之间的距离为将三个点看成三个二维样品将三个点看成三个二维样品,试用此例说明中间距离法试用此例说明中间距离法和重心法不具有单
14、调性和重心法不具有单调性.0.1,1.1222BCACABddd 解解:按中间距离法按中间距离法,取取=-1/4,=-1/4,将将B B和和C C合并为合并为一类后一类后,并类距离并类距离D1 1=1,=1,而而A A与新类与新类Gr=B,C=B,C的的类间平方距离为类间平方距离为85.025.01.1125.0)1.11.1(5.041)(212222BCACABArDDDD-23第六章第六章 聚类分析聚类分析故中间距离法不具有单调性。故中间距离法不具有单调性。按重心法按重心法,将将B B和和C C合并为一类后合并为一类后,并类距离并类距离D1 1=1,=1,而而A与新类与新类Gr=B,C=
15、B,C的类间平方距离为的类间平方距离为85.025.01.1125.01.15.01.15.02222BCrCrBACrCABrBArDnnnnDnnDnnD当把当把A与与B,C并为一类时,并类距离并为一类时,并类距离121922.085.0DD-24第六章第六章 聚类分析聚类分析故故重心法重心法法不具有单调性。法不具有单调性。并类过程如下:并类过程如下:当把当把A与与B,C并为一类时,并类距离并为一类时,并类距离121922.085.0DD 0085.0000.101.11.10)3()2()1(DGADCBADrABC-25第六章第六章 聚类分析聚类分析22222pqrqpqkrqpkrp
16、rkDnnnDnnDnnD解一解一:利用利用如果样品间的距离定义为欧氏距离如果样品间的距离定义为欧氏距离,则有则有)()()()()()()(2)()(qrqprpkrqprkrkrkXnnXnnXnnnXXXXD6-7 试推导重心法的距离递推公式试推导重心法的距离递推公式(6.3.2);)()()(1qqpprrXnXnnX-26)()()()()()()()()()()()()()()()()()(2)()()()()()(2222222)()()()(2)()()()(2)()(2)()(22pqqkqkrqpqppkpkrqpqkrqpkrppkqkrqpqkpkrqpqkrqpkrp
17、rkXXXXXXnnnXXXXXXnnnDnnDnnXXXXnnnXXXXnnnXXnnXXnnD第六章第六章 聚类分析聚类分析-272222)()()()(2)()()()(222222222222)()()()(pqrqpqkrqpkrpqpqkrqpqppkrqpqkrqppkrqpqkrqpkrprkDnnnDnnDnnXXXXnnnXXXXnnnDnnnDnnnDnnDnnD第六章第六章 聚类分析聚类分析-28第六章第六章 聚类分析聚类分析)()()(1qqpprrXnXnnX解二解二:因样品间的距离定义为欧氏距离因样品间的距离定义为欧氏距离,利用利用)()(2)()()()(22)
18、()()()()()()()()()()()()(22122)(1)()(qqqqpqpppprqkrqpkrpkkqqpprkrkrkrkXXnXXnnXXnnXXnnXXnnXXXnXnnXXXXXD-29第六章第六章 聚类分析聚类分析);(1);(11222222)()()()()()(qprprrppqrqrrqkkqkkprkknnnnnnnnnnnnnnXXnXXnnXX利用利用)2()2()2()()()()()()(2)()()()()()()()()()()()(2qqqppprqpqqqkkkrqpppkkkrprkXXXXXXnnnXXXXXXnnXXXXXXnnD-30
19、第六章第六章 聚类分析聚类分析2222)()()()(2)()()()()()()()(2)()()()()()(pqrqpqkrqpkrpqpqprqpqkqkrqpkpkrprkDnnnDnnDnnXXXXnnnXXXXnnXXXXnnD故有故有-31第六章第六章 聚类分析聚类分析6-8 试推导试推导Ward法的距离递推公式法的距离递推公式(6.3.3);解:解:WardWard法把两类合并后增加的离差平方和看成法把两类合并后增加的离差平方和看成类间的平方距离类间的平方距离,即把类即把类Gp和和Gq的平方距离定义的平方距离定义为为).(2qprpqWWWD利用利用Wr的定义的定义:)()(
20、)()()()()()()(1)()()()()()(1)()()()()()(1)()()(rqtntrqtrptntrptrrtntrrtrXXXXXXXXXXXXWqpr-32第六章第六章 聚类分析聚类分析)()()()(1)()()()()(1)()()()()(qpntrqqqtntrppptrXXXXXXXXW00)()()()(00)()()()(1)()(1)()()(1)()(1)()()(qqppntrqntqqtntrpntpptXXXXXXXX:1)()()(代入把qqpprrXnXnnX)()()()()()()()()()(pqrprqqprqrpXXnnXXXXn
21、nXX-33第六章第六章 聚类分析聚类分析)()()()(1)()(21)()(2qpntpqrpntqprqqprXXnnXXnnWWW)()()()()()()()()()()()()()(2)()()()(2qpqprqpqpqpqpqrpqpqpprqqpXXXXnnnWWXXXXnnnXXXXnnnWW-34第六章第六章 聚类分析聚类分析)()()()(2)()()()(2重pqrqpqpqpqpqpqprpqDnnnXXXXnnnnWWWD(当样品间的距离定义为欧氏距离时)当样品间的距离定义为欧氏距离时)记GrGp,Gq,则新类Gr与其它类Gk的平方距离为)()()(2()()()
22、(2重rkkrkrkrkrkrkrrkDnnnnXXXXnnnnD利用重心法的递推公式利用重心法的递推公式(6-7题已证明题已证明)可得:可得:-35第六章第六章 聚类分析聚类分析222)()()()()()()()()()()()(pqkrkqkkrkqpkkrkpkprqpkrkkqkrqkkpkrpkDnnnDnnnnDnnnnXXnnnnnnXXnnnnXXnnnn)()()()()()()()()()()(2)()()()(22222qprqpkqrkprpkrkrpqrqpqkrpkrpkrkrrkXXnnnXXnnXXnnnnnnDnnnDnnDnnnnnnDqq重重重-36第六
23、章第六章 聚类分析聚类分析6-9 设有设有5个样品个样品,对每个样品考察一个指标得数据为对每个样品考察一个指标得数据为1,2,5,7,10.试用离差平方和法求试用离差平方和法求5个样品分为个样品分为k类类(k5,4,3,2,1)的分类法的分类法bk及相应的总离差平方和及相应的总离差平方和W(k).解:解:计算样品间的欧氏平方距离阵计算样品间的欧氏平方距离阵05.45.12325.40025.121805.4805.0009256481042536091601021)1()1(DD 合并合并 1,2 CL4,并类距离并类距离D1=(0.5)1/2=0.707,并,并利用递推公式计算新类与其它类的
24、平方距离得利用递推公式计算新类与其它类的平方距离得1075405.45.12228902612106490)2(CLD-37第六章第六章 聚类分析聚类分析合并合并 5,7 CL3,并类距离并类距离D2=(2)1/2=1.414,并利,并利用递推公式计算新类与其它类的平方距离得用递推公式计算新类与其它类的平方距离得 合并合并 CL3,10=5,7,10 CL2,并类距离并类距离D3=(32/3)1/2=3.266,并利用递推公式计算新类与其,并利用递推公式计算新类与其它类的平方距离得它类的平方距离得10430228933204810)3(CLCLD42062450)4(CLCLD-38第六章第六章 聚类分析聚类分析 合并合并 CL4,CL2=1,2,5,7,10 CL1,并类距离并类距离D4=(245/6)1/2=6.39,并利用递推公式计算新类与其它类,并利用递推公式计算新类与其它类的平方距离得的平方距离得分类法分类法bk及相应的总离差平方和及相应的总离差平方和W(k):10)5(CLDk=51,2,5,7,10 W(5)=0k=4 1,2,5,7,10W(4)=0.5k=3 1,2,5,7,10W(3)=2.5k=2 1,2,5,7,10W(2)=13.666k=1 1,2,5,7,10W(1)=54