1、第第3 3章章 地理学中的经典地理学中的经典统计分析方法统计分析方法本章主要内容相关分析回归分析时间序列分析系统聚类分析主成分分析趋势面分析方法马尔可夫预测方法第1节 相关分析 相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系密切程度的测定,主要是通过对相关系数的计算与检验来完成的。本节主要内容:两要素之间相关程度的测定多要素间相关程度的测定一、两要素之间相关程度的测定相关系数的计算与检验秩相关系数的计算与检验相关系数的计算相关系数的计算 定义:和 为两要素的平均值。niiniiniiixyyyxxyyxxr12121)()()(yx(3.1.1)(一)相关系数的计
2、算与检验(一)相关系数的计算与检验 说明:-1=0.432,所以在=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。rr01.0rxyr01.0r二、多要素间相关程度的测定偏相关系数的计算与检验复相关系数的计算与检验 (一)偏相关系数的计算与检验(一)偏相关系数的计算与检验 定义:在多要素所构成的地理系统中,先不考虑其他要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。n偏相关系数的计算偏相关系数的计算 计算:3个要素的偏相关系数)1)(1(2232132313123.12rrrrrr(3.1
3、.5)(3.1.6))1)(1(2232122312132.13rrrrrr)1)(1(2132121312231.23rrrrrr(3.1.7)4个要素的偏相关系数(3.1.8))1)(1(23.2423.143.243.143.1234.12rrrrrr)1)(1(22.3422.142.342.142.1324.13rrrrrr(3.1.9))1)(1(22.4322.132.432.132.1423.14rrrrrr(3.1.10))1)(1(21.3421.241.341.241.2314.23rrrrrr(3.1.11)例如:对于某4个地理要素x1,x2,x3,x4的23个样本数据
4、,经过计算得到了如下的单相关系数矩阵:1469.0950.0579.0469.01592.0346.0950.0592.01416.0579.0346.0416.0144434241343332312423222114131211rrrrrrrrrrrrrrrrR 利用公式计算一级偏向关系数,如表3.1.6所示:r1234r1324r1423r2314r2413r3412-0.1700.8020.635-0.1870.821-0.337r123r132r142r143r231r241r243r241r3420.8210.8080.6470.895-0.8630.9560.945-0.8750.
5、371 利用公式计算二级偏相关系数,如表3.1.7所示:4个要素的一级偏相关系数有12个,这里给出了9个;二级偏相关系数有6个,这里全部给出来了。表表3.1.6 3.1.6 一级偏相关系数一级偏相关系数 表表3.1.7 3.1.7 二级偏相关系数二级偏相关系数 n 偏相关系数的性质偏相关系数的性质 偏相关系数分布的范围在-1到1之间;偏相关系数的绝对值越大,表示其偏相关程度越大;偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即 R123|r123|。n偏相关系数的显著性检验偏相关系数的显著性检验 偏相关系数的显著性检验,一般采用t检验法。其统计量计算公式为 式中:为偏相关
6、系数;n为样本数;m为自变量个数。11341223412 mnrrtmm(3.1.14)mr312 查t分布表,在自由度为23-3-1=19时,t0.001=3.883,显然 ,这表明在置信度水平 =0.001上,偏相关系数r2413是显著的。268.61323821.01821.02ttt 譬如,对于上例计算得到的偏相关系数 ,由于n=23,m=3,故821.01324r(二)复相关系数的计算与检验(二)复相关系数的计算与检验 复相关系数:反映几个要素与某一个要素之间的复相关程度。n 复相关系数的计算复相关系数的计算 当有两个自变量时 当有三个自变量时(3.1.15))1)(1(11.221
7、212.yyyrrR)1)(1)(1(112.321.2212123.yyyyrrrR(3.1.16)当有k个自变量时)1)1)(1(1)1.(12.21.2212.12.kykyykyrrrR(3.1.17)复相关系数的性质 复相关系数介于0到1之间,即1012.kyR 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。复相关系数必大于或至少等于单相关系数的绝对值。n复相关系数的显著性检验复相关系数的显著性检验 F检验法。其统计量计算公式为kknRRFkyky11212.212.(3.1.18)例题:在上例中,若以x4为因变量
8、,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。解:按照公式(3.1.16)计算 检验:,故复相关达到了极显著水平。974.0337.01)(956.01)(579.01(1)1)(1)(1(1222212.4321.42241123.4)rrrR3010.57190.12001.0FF第2节 回归分析一元线性回归模型多元线性回归模型非线性回归模型一、一元线性回归模型 定义:假设有两个地理要素(变量)x 和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为 式中:a和b为待定参数;为各组观测数据的下标;为随机变量。bxay(3.2.1)n,1,2,a 记
9、和 分别为参数a与b的拟合值,则一元线性回归模型为 (3.2.2)式代表x与y之间相关关系的拟合直线,称为回归直线;是y的估计值,亦称回归值。a bxbay(3.2.2)y 参数a与b的最小二乘拟合原则要求yi与 的误差ei的平方和达到最小,即 根据取极值的必要条件,有 niiininiiiibxayyyeQ121122min)()(niiiiniiixbxaybxay110)(0)((3.2.4)iy(一)参数(一)参数a、b的最小二乘估计的最小二乘估计 (3.2.3)niiniiixxxyxxyyxxLLb121)()(xbya2112111)(1)(1niiniininiiniiiixn
10、xyxnyx(3.2.5)(3.2.6)解上述正规方程组(3.2.4)式,得到参数a与b的拟合值 (二)一元线性回归模型的显著性检验(二)一元线性回归模型的显著性检验 方法:F 检验法。总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为 可以证明(3.2.9)niiyyyyLS12)(总niiyyyyLS12)(总niniiiiUQyyyy1122)()((3.2.8)在式(3.2.9)中,Q称为误差平方和,或剩余平方和 而 称为回归平方和。niiiyyQ12)(xyxxniiniiniiibLLbxxbxbabxayyU21221212)()()(统计量F F越大,模型的效果越
11、佳。统计量FF(1,n-2)。在显著水平下,若FF,则认为回归方程效果在此水平下显著。一般地,当FF0.10(1,n-2)时,则认为方程效果不明显。2nQUF(3.2.10)二、多元线性回归模型n回归模型的建立回归模型的建立 多元线性回归模型的结构形式为 aakaaaxxxyk22110(3.2.11)式中:为待定参数;为随机变量。k,10a 回归方程:如果 分别为式(3.2.11)中 的拟和值,则回归方程为 在(3.2.12)式中,b0为常数,b1,b2,bk称为偏回归系数。偏回归系数的意义是,当其他自变量都固定时,自变量 每变化一个单位而使因变量平均改变的数值。kkxbxbxbby2211
12、0(3.2.12)kbbb,10k,210ix 偏回归系数的推导过程:根据最小二乘法原理,的估计值 应该使 由求极值的必要条件得 方程组(3.2.14)式经展开整理后得 min)()(122211012nakakaaanaaaxbxbxbbyyyQ(3.2.13)),2,1(0)(20)(2110kjxyybQyybQnajaaajnaaa),2,1,0(kii)(k,1,2,0iib(3.2.14)方程组(3.2.15)式称为正规方程组。引入矩阵nanaakanakkanakaakaanakananaaanakkaanaaaanaananaaanakkaanaaanaananaanakkan
13、aaayxbxbxxbxxbxyxbxxbxbxxbxyxbxxbxxbxbxybxbxbxnb11122121101112122122121012111112121121011111212110)(.)()()()()()()()()()()()()()((3.2.15)knnnkkxxxxxxxxxxxxX2132313222121k211111.11knnnkkkknkkknnTxxxxxxxxxxxxxxxxxxxxxxxxXXA213231322212121113212232221113121111111111nakanakaanakaanakanakaanaanaaanaanaka
14、anaaananaanakanaanaaxxxxxxxxxxxxxxxxxxxxxn12121111212212112111211211111211nyyyY21nbbbbb210 则正规方程组(3.2.15)式可以进一步写成矩阵形式BAb naakanaaanaaanaanknkkknnTyyyxyxyyyyyxxxxxxxxxxxxYXB112111321321223222111312111111求解得引入记号 YXXXBAbTT11)(najjiiajiijxxxxLL1)(naaiiaiyyyxxL1)((3.2.16)),2,1,(kji),2,1(ki正规方程组也可以写成kkkyk
15、kkkkykkykkxbxbxbybLbLbLbLLbLbLbLLbLbLbL2211022112222212111212111)51.2.3(n回归模型的显著性检验回归模型的显著性检验 回归平方和U与剩余平方和Q:回归平方和 剩余平方和为 F统计量为 计算出来F之后,可以查F分布表对模型进行显著性检验。k21x,x,xQULSyy总nanaiyiLbyyU112)(nayyaaULyyQ12)()1/(/knQkUFn非线性关系线性化的几种情况非线性关系线性化的几种情况对于指数曲线 ,令 ,可以将其转化为直线形式:,其中,;对于对数曲线 ,令 ,可以将其转化为直线形式:;对于幂函数曲线 ,令
16、 ,可以将其转化为直线形式:其中,;三、非线性回归模型 bxdyexbayxbaylnxbaybdxy xbayyylnxx dalnyy xxlnyylnxxlndaln对于双曲线 ,令 ,转化为直线形式:;对于S型曲线 ,可 转化为直线形式:;对于幂乘积 ,只要令 ,就可以将其转化为线性形式 其中,;xbay1xbayxxxyybaye,1,e1令xbaykkxxdxy2121kkxxxy22110 xxyy1,1kkxxxxxxyyln,ln,ln,ln2211dln0对于对数函数和 只要令 ,就可以将其化为线性形式 例例:表3.2.1给出了某地区林地景观斑块面积(area)与周长(pe
17、rimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型。kkxxxylnlnln22110kkxxxy22110kkxxxxxxyyln,ln,ln,2211 序号面积A周长P序号面积A周长P110 447.370625.39242232 844.3004 282.043215 974.730612.286434 054.660289.307330 976.770775.7124430 833.840895.98049 442.902530.202451 823.355205.131510 858.9201 906.1034626 270.300968.060621
18、 532.9101 297.9624713 573.9601 045.07276 891.680417.0584865 590.0802 250.43583 695.195243.90749157 270.4002 407.54992 260.180197.239502 086.426266.54110334.33299.729513 109.070261.8181111 749.080558.921522 038.617320.396122 372.105199.667533 432.137253.335138 390.633592.893541 600.391230.030146 003.
19、719459.467553 867.586419.406表3.2.1 某地区各个林地景观斑块面积(m2)与周长(m)15527 620.2006 545.291561 946.184198.66116179 686.2002 960.4755777.30556.9021714 196.460597.993587 977.719715.7521822 809.1801 103.0705919 271.8201 011.1271971 195.9401 154.118608 263.480680.710203 064.242245.049 6114 697.1301 234.1142146 941
20、6.7008 226.009624 519.867326.317225 738.953498.6566313 157.6601 172.916238 359.465415.151646 617.270609.801246 205.016414.790 654 064.137437.355256 0619.0201 549.871665 645.820432.355261 4517.740791.943676 993.355503.7842731 020.1001 700.965684 304.281267.9512826 447.1601 246.977696 336.383347.13629
21、7 985.926918.312702 651.414292.235303 638.766399.725712 656.824298.4733158 5425.10011 474.770721 846.988179.8663235 220.6401 877.476731 616.684172.8083310 067.820497.394741 730.563172.1433427 422.5701 934.5967511 303.970881.0423543 071.5501 171.4137614 019.790638.1763657 585.9402 275.389779 277.1728
22、62.0883728 254.1301 322.7957813 684.750712.78738497 261.0009 581.298791 949.164228.4033924 255.030994.906804 846.016324.481401 837.699229.40181521 457.4007 393.938411 608.625225.84282564 370.80012 212.410 解解:(1)作变量替换,令:,将表3.2.1中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.2所示。AylnPxln序号y=lnAx=LnP序号y=lnAx=LnP1
23、 9.254 1066.438 3794212.358 138.362 1862 9.678 7636.417 243 8.307 6225.667 487310.340 996.653 7824410.336 376.797 9184 9.153 0196.273 258457.508 4335.323 655 9.292 7427.552 8164610.176 196.875 2946 9.977 3387.168 551479.515 9096.951 8417 8.838 076.033 2264811.091 187.718 8798 8.214 7895.496 7894911.
24、965 727.786 3649 7.723 25.284 414507.643 2085.585 52810 5.812 1354.602 457518.042 0795.567 65111 9.371 536.326 008527.620 0275.7695 58表3.2.2 经对数变换后的数据127.771 5335.296 653538.140 9385.534 711139.034 8716.385 013547.378 0035.438 211148.700 1346.130 066558.260 3866.038 8391513.176 138.786 501567.573 62
25、65.291 5971612.098 977.993 105574.347 7554.041 328179.560 7486.393 579588.984 4086.573 3341810.034 927.005 852599.866 3996.918 8211911.173 197.051 092609.019 6016.523 136208.027 5565.501 457619.595 4087.118 1092113.059 259.0150 56628.416 2385.787 871228.655 0326.211 917639.484 7597.067 248239.031 15
26、6.028 643648.797 4386.413 133248.733 1136.027 773658.309 9576.080 7442511.012 367.345 927668.638 6716.069 247269.583 1276.674 49678.852 7166.222 1472710.342 397.438 951688.367 3655.590 8062810.182 97.128 478698.754 0635.849 717298.985 4366.822 537707.882 8485.677 56308.199 45.990 776717.884 8875.698
27、 6783113.280 099.347 906727.521 3115.192 2133210.469 397.537 684737.388 1325.152 181339.217 0996.209 381747.456 2025.148 3263410.219 127.567 654759.332 9096.781 1053510.670 627.065 966769.548 2256.458 6143610.961 037.729 906779.135 3126.759 3583710.248 997.187 502789.524 0376.569 1823813.116 879.167
28、 568797.575 1565.431 1123910.096 386.902 648808.485 9125.782 227407.516 275.435 4718113.164 388.908 416417.383 1355.419 8378213.243 479.410 208 (2)以x为横坐标、y为纵坐标,在平面直角坐标系中作出散点图。很明显,y与x呈线性关系。图3.2.2 林地景观斑块面积(A)与周长(P)之间的双对数关系 (3)根据所得表中的数据,运用建立线性回归模型的方法,建立y与x之间的线性回归模型,得到 对应于(3.2.19)式,x与y的相关系数高 达 =0.966 5。
29、(4)将(3.2.19)还原成双对数曲线,即 7505.0505.1xy(3.2.19)7505.0ln505.1lnPA(3.2.20)xyr第3节 时间序列分析时间序列分析的基本原理 趋势拟合方法季节变动预测 一、时间序列分析的基本原理(一)时间序列的组合成份(一)时间序列的组合成份 长期趋势(长期趋势(T T)是指时间序列随时间的变化而逐渐增加或减少的长期变化的趋势。季节变动(季节变动(S S)是指时间序列在一年中或固定时间内,呈现出的固定规则的变动。循环变动循环变动(C C)是指沿着趋势线如钟摆般地循环变动,又称景气循环变动(business cycle movement)。不规则变动
30、(不规则变动(I I)是指在时间序列中由于随机因素影响所引起的变动。(二)时间序列的组合模型(二)时间序列的组合模型 加法模型 假定时间序列是基于4种成份相加而成的。长期趋势并不影响季节变动。若以Y表示时间序列,则加法模型为Y=T+S+C+I乘法模型 假定时间序列是基于4种成份相乘而成的。假定季节变动与循环变动为长期趋势的函数。该模型的方程式为ICSTY(3.3.1)(3.3.2)二、趋势拟合方法 时间序列分析的平滑法主要有三类:n移动平均法 设某一时间序列为 y1,y2,yt,则t+1时刻的预测值为 式中:为t点的移动平均值;n称为移动时距。)(1111101ntttntttnjjttyyn
31、ynyyyynyty (一)平滑法(一)平滑法(3.3.3)n 滑动平均法滑动平均法 其计算公式为 式中:为t点的滑动平均值;l为单侧平滑时距。若l=1,则(3.3.4)式称为三点滑动平均,其计算公式为 若l=2,则(3.3.4)式称为五点滑动平均,其计算公式为)(12111)1(lttttltlttyyyyyylyty 3/)(11ttttyyyy5/)(2112ttttttyyyyyy(3.3.4)(3.3.5)(3.3.6)n指数平滑法指数平滑法 一次指数平滑 为平滑系数。一般时间序列较平稳,取值可小一些,一般取(0.05,0.3);若时间序列数据起伏波动比较大,则应取较大的值,一般取(
32、0.7,0.95)。ttnjjtjtyyyy)1()1(101(3.3.7)高次指数平滑法 二次指数平滑法的预测公式为 三次指数平滑法的预测公式 为 2kckbaytttktkbayttkt(3.3.8)(3.3.9)三种最常用的趋势线 n直线型趋势线直线型趋势线n指数型趋势线指数型趋势线 n 抛物线型趋势线抛物线型趋势线 btaytttaby2ctbtayt(二)趋势线法(二)趋势线法n自相关性判断自相关性判断 时间序列的自相关,是指序列前后期数值之间的相关关系,对这种相关关系程度的测定便是自相关系数。测度:设y1,y2,yt,yn,共有n个观察值。把前后相邻两期的观察值一一成对,便有(n1
33、)对数据,即(y1,y2),(y2,y3),(yt,yt+1),(yn-1,yn)。(三)自回归模型其一阶自相关系数r1为1111211211111)()()(ntntttttntttttyyyyyyyyr二阶自相关系数r2为2121222221222)()()(ntntttttntttttyyyyyyyyrk阶自相关系数为 kntkntktktktkntktktttkyyyyyyyyr11221)()()(n自回归模型的建立自回归模型的建立 常见的线性自回归模型:一阶线性自回归预测模型为 二阶线性自回归预测模型为 一般地,p阶线性自回归模型为 在以上各式中,为待估计的参数值,它们可以通过最小
34、二乘法估计获得。tttyy110ttttyyy22110tptpttyyy110),2,1,0(piin基本步骤基本步骤 (1)对原时间序列求移动平均,以消除季节变动和不规则变动,保留长期趋势;(2)将原序列y除以其对应的趋势方程值(或平滑值),分离出季节变动(含不规则变动),即 三、季节性预测法季节系数=TSCI/趋势方程值(TC或平滑值)=SI (3)将月度(或季度)的季节指标加总,以由计算误差导致的值去除理论加总值,得到一个校正系数,并以该校正系数乘以季节性指标从而获得调整后季节性指标。(4)求预测模型,若求下一年度的预测值,延长趋势线即可;若求各月(季)的预测值,需以趋势值乘以各月份(
35、季度)的季节性指标。求季节变动预测的数学模型(以直线为例)为 式中:是t+k时的预测值;at、bt为方程系数;为季节性指标。kttktkbay)(ktyk 例题:如表3.3.3所示,下面我们用上述步骤,预测该旅游景点2005年各季度的客流量。表3.3.3 某旅游景点20022004年各季度客流量 解题步骤:(1)求时间序列的三次滑动平均值,见表3.3.3第5列。(2)求季节性指标:将表3.3.3中第4列数据分别除以第5列各对应元素,得相应的季节系数。然后再把各季度的季节系数平均得到季节性指标,见表3.3.4。季节性指标之和理论上应等于4。现等于 3.951 5,需要进行校正。校正方法是:先求校
36、正系数:=4/3.951 5=1.012 3。然后将表中的第5行,分别乘以,即得校正后的季节性指标(见表3.3.4第6行)。表3.3.4 季节性指标及其校正值 (3)用二次指数平滑法,求预测模型系数:取平滑指数 ,分别计算一次指数平滑值和二次指数平滑值,然后再分别计算趋势预测模型的系数和,结果如表3.3.5所示。由表3.3.5可知,预测模型为 式中:为校正后的季节性指标。kkky)7529.71666.320(12k2.0表3.3.5 预测模型系数 (4)求预测值。以2004年第4季度为基期,套用步骤(3)中所得预测模型,计算预测2005年各季度的客流量 第1季度:=301.774 6(104
37、人次)第2季度:=400.27(104人次)第3季度:=371.07(104人次)第4季度:=283.17(104人次)由此可以计算出2005年全年度的客流量预测值为 301.774 6+400.27+371.07+283.17=1 356.28(104人次)第4节 系统聚类分析聚类要素的数据处理距离的计算直接聚类法 最短距离聚类法 最远距离聚类法系统聚类法计算类之间距离的统一公式系统聚类分析实例 一、聚类要素的数据处理 在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。在地理分类和分区研究中,被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲
38、,其数值的变异可能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。要 素聚 类 对 象 假设有m 个聚类的对象,每一个聚类对象都有n个要素构成。它们所对应的要素数据可用表3.4.1给出。mi21mnmjmminijiinjnjxxxxxxxxxxxxxxxx2121222221111211njxxxx21表3.4.1 聚类对象与要素数据 在聚类分析中,常用的聚类要素的数据处理方法有如下几种:总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足),2,1;,
39、2,1(1njmixxxmiijijij(3.4.1)miijnjx1),2,1(1 标准差标准化,即 由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有),2,1;,2,1(njmisxxxjjijij(3.4.2)1)(101121mijijjmiijjxxmsxmx 极大值标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。极差的标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。),2,1;,2,1(maxnjmixxxijiijij(3.4.3)),2,1;,2,1(minmaxminnjmix
40、xxxxijiijiijiijij(3.4.4)例题例题:表3.4.2给出了某地区9个农业区的7项指标,它们经过极差标准化处理后,如表3.4.3所示。表3.4.2 某地区9个农业区的7项经济指标数据 区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1)水田比重X3/%复种指数x4/%粮食单产x5/(kghm-2)人均粮食x6/(kg人-1)稻谷占粮食比重x7/%G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773.5683.70.85G30.1230.3165.28148.56 934.5611.16.4
41、9G40.1790.5270.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.15194.710 689634.380.17G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17表3.4.3 极差标准化处理后的数据x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.0
42、00.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00二、距离的计算 常见的距离有 绝对值距离 欧氏距离 明科夫斯基距离),2,1,(1mjixxdnijkikij(3.4.5)),2,1,()(12mjixxdnk
43、jkikij(3.4.6)),2,1,(11mjixxdpnkpjkikij(3.4.7)切比雪夫距离。当明科夫斯基距 时,有 据表3.4.3中的数据,用公式(3.4.5)式计算可得9个农业区之间的绝对值距离矩阵如下),2,1,(maxmjixxdjkikkij(3.4.8)040.132.306.384.451.020.166.162.2003.596.314.529.124.288.032.1007.183.006.493.253.579.5078.199.286.146.472.4077.464.302.686.5023.147.119.2070.210.3052.10)(99ijdD(
44、3.4.9)p三、直接聚类法 原理原理 先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。例题:例题:根据距离矩阵式(3.4.9),用直接聚类法对某地区的9个农业区进行聚类分析,步骤如下:(1)在距离矩阵D中,除去对角线元素以外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第9列;(2)在
45、余下的元素中,除对角线元素以外,d75=d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第7列;(3)在第2步之后余下的元素之中,除对角线元素以外,d82=d28=0.88为最小者,故将第2区与第8区并为一类,划去第8行和第8列;(4)在第3步之后余下的元素中,除对角线元素以外,d43=d34=1.23为最小者,故将第3区与第4区并为一类,划去第4行和第4列,此时,第3、4、9区已归并为一类;(5)在第4步之后余下的元素中,除对角线元素以外,d21=d12=1.52为最小者,故将第1区与第2区并为一类,划去第2行和第2列,此时,第1、2、8区已归并为一类;(6)在第5步之后余
46、下的元素中,除对角线元素以外,d65=d56=1.78为最小者,故将第5区与第6区并为一类,划去第6行和第6列,此时,第5、6、7区已归并为一类;(7)在第6步之后余下的元素中,除对角线元素以外,d31=d13=3.10为最小者,故将第1区与第3区并为一类,划去第3行和第3列,此时,第1、2、3、4、8、9区已归并为一类;(8)在第7步之后余下的元素中,除去对角线元素以外,只有d51=d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9区均归并为一类。根据上述步骤,可以作出聚类过程的谱系图3.4.1。图3.4.1 直接聚类谱系图 四、最短
47、距离聚类法 n原理原理 最短距离聚类法,是在原来的mm距离矩阵的非对角元素中找出 ,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。),(,minqpkdddqkpkrk(3.4.10)minijpqdd 例题例题:以下根据式(3.4.9)中的距离矩阵,用最短距离聚类法对某地区的9个农业区进行聚类分析。(1)在99阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一
48、类,记为G10=G4,G9。按照公式(3.4.10)式分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得 d1,10=mind14,d19=min2.19,2.62=2.19d2,10=mind24,d29=min1.47,1.66=1.47d3,10=mind34,d39=min1.23,1.20=1.20d5,10=mind54,d59=min4.77,4.84=4.77d6,10=mind64,d69=min2.99,3.06=2.99d7,10=mind74,d79=min4.06,3.32=3.32d8,10=mind84,d89=min1.29,1.40=1.29
49、 (2)这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的88阶距离矩阵 029.132.399.277.420.147.119.2003.596.314.524.288.032.1007.183.093.253.579.5078.186.146.472.4064.302.686.5070.210.3052.10108765321108765321GGGGGGGGGGGGGGGG (3)在上一步骤中所得到的88阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。按照公式(3.4.10)式分别计算G1,G2,G3,G
50、6,G8,G10与G11之间的距离,可得到一个新的77阶距离矩阵 (4)在第2步所得到的77阶距离矩阵中,非对角元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。再按照公式(3.4.10)分别计算G1,G3,G6,G10,G11与G12之间的距离,可得到一个新的66阶距离矩阵 032.303.507.193.253.579.5029.199.220.147.119.2096.324.288.032.1086.146.472.4070.210.3052.10111086321111086321GGGGGGGGGGGGGG (5)在第3步所得的66阶距离矩
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。