计量地理学第三章统计分析方法5主成分分析精选课件.ppt

上传人(卖家):三亚风情 文档编号:3294698 上传时间:2022-08-17 格式:PPT 页数:51 大小:563KB
下载 相关 举报
计量地理学第三章统计分析方法5主成分分析精选课件.ppt_第1页
第1页 / 共51页
计量地理学第三章统计分析方法5主成分分析精选课件.ppt_第2页
第2页 / 共51页
计量地理学第三章统计分析方法5主成分分析精选课件.ppt_第3页
第3页 / 共51页
计量地理学第三章统计分析方法5主成分分析精选课件.ppt_第4页
第4页 / 共51页
计量地理学第三章统计分析方法5主成分分析精选课件.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、第三章统计分析方法第1页,共51页。v1地理要素间的相关分析地理要素间的相关分析v2地理要素间的回归分析地理要素间的回归分析v3 时间序列分析法时间序列分析法v4 系统聚类分析方法系统聚类分析方法v5 主成分分析方法主成分分析方法v6 马尔可夫预测方法马尔可夫预测方法v7地理系统的空间趋势面分析地理系统的空间趋势面分析第2页,共51页。主成分分析的原理主成分分析的解法 主成分分析方法应用实例第3页,共51页。问题的提出问题的提出v地理系统是多要素的复杂系统。变量太多,会增加分析问题地理系统是多要素的复杂系统。变量太多,会增加分析问题的难度与复杂性,而且多个变量之间是具有一定的相关关系的难度与复

2、杂性,而且多个变量之间是具有一定的相关关系的的v能否在相关分析的基础上,用较少的新变量代替原来能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?保留原来变量所反映的信息?v主成分分析方法主成分分析方法就是综合处理这种问题的一种强有力的就是综合处理这种问题的一种强有力的工具。主成分分析是把原来多个变量划为少数几个综合指标的工具。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术一种统计分析方法。从数学角度来看,这是一种降维处理技术第

3、4页,共51页。1 主成分分析方法的基本原理 假定有n个地理样本,每个样本共有p个变量,构成一个np阶的地理数据矩阵npnnppxxxxxxxxxX212222111211第5页,共51页。v 当当p较大时,在较大时,在p维空间中考察问题比较麻烦。为维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理了克服这一困难,就需要进行降维处理.要求要求:较少的几个综合指标尽量多地反映原来较多:较少的几个综合指标尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此变量指标所反映的信息,同时它们之间又是彼此独立的独立的第6页,共51页。例,成绩数据v100个学生的数学、物理、化学、语文

4、、历史、英语的成绩如下表(部分)。第7页,共51页。v对于多维变量的情况和二维类似,也有高对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见维的椭球,只不过无法直观地看见v首先把高维椭球的主轴找出来,再用代表首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成量;这样,主成分分析就基本完成v注意,和二维情况类似,高维椭球的主轴注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分是原先变量的线性组合,叫做主成

5、分.第8页,共51页。v正如二维椭圆有两个主轴,三维椭球有三个正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分主轴一样,有几个变量,就有几个主成分v选择越少的主成分,降维就越好。什么是标选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主有些文献建议,所选的主轴总长度占所有主轴长度之和的大约轴长度之和的大约85%即可,其实,这只是即可,其实,这只是一个大体的说法;具体选几个,要看实际情一个大体的

6、说法;具体选几个,要看实际情况而定况而定第9页,共51页。定义:定义:记记x x1 1,x x2 2,x xP P为原变量指标,为原变量指标,z z1 1,z z2 2,z zmm(mmp p)为新变量指标)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111第10页,共51页。v系数系数l lij ij的确定原则:的确定原则:z zi i与与z zj j(i ij j;i i,j j=1=1,2 2,mm)相互无关)相互无关z z1 1是是x x1 1,x x2 2,x xP P的一切线性组合中方差最大者,的一切线性组合中方差最大

7、者,z z2 2是与是与z z1 1不相关的不相关的x x1 1,x x2 2,x xP P的所有线性组合中方差最大者;的所有线性组合中方差最大者;z zmm是与是与z z1 1,z z2 2,z zmm1 1都不相关的都不相关的x x1 1,x x2 2,x xP P,的所有线的所有线性组合中方差最大者。则新变量指标性组合中方差最大者。则新变量指标z z1 1,z z2 2,z zmm分别称为分别称为原变量指标原变量指标x x1 1,x x2 2,x xP P的第一,第二,的第一,第二,第,第mm主成分主成分 第11页,共51页。v从以上的分析可以看出,主成分分析的实质就是从以上的分析可以看

8、出,主成分分析的实质就是确定原来变量确定原来变量x xj j(j j=1=1,2 2,p p)在诸主成分)在诸主成分z zi i(i i=1=1,2 2,mm)上的荷载)上的荷载 l lij ij(i i=1=1,2 2,mm;j j=1=1,2 2,p p)v从几何上看从几何上看,找主成分的问题找主成分的问题,就是找出就是找出P P维空间中椭维空间中椭球体的主轴问题;从数学上容易知道,从数学上可以球体的主轴问题;从数学上容易知道,从数学上可以证明,证明,它们分别是相关矩阵的它们分别是相关矩阵的mm个较大的特征值个较大的特征值所对应的特征向量所对应的特征向量第12页,共51页。2 主成分分析的

9、解法主成分分析的解法v对原始地理数据对原始地理数据npnnppxxxxxxxxxX212222111211第13页,共51页。v进行标准化处理进行标准化处理(标准标准差标准化差标准化),即),即v其中其中jjjjxxx*212)(1jjNjjjxxxNx第14页,共51页。v计算相关系数矩阵计算相关系数矩阵R22)()()(yyxxyyxxrxy第15页,共51页。*1)(1jijijjiiijxxNxxxxNr第16页,共51页。v计算特征值和特征向量计算特征值和特征向量根据特征方程根据特征方程 计算特征值,即解计算特征值,即解的特征多项式,求的特征多项式,求 并使特征值按从大到并使特征值按

10、从大到小的顺序排列,即小的顺序排列,即列出关于每个特征值的特征向量列出关于每个特征值的特征向量 0 IR00111rrrrPnPnP,21021P0)(Re,21kkkTkpkkkeEReeeee),2,1(,112mkepjkj第17页,共51页。|计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率 贡献率贡献率:累计贡献率累计贡献率:一般取累计贡献率达一般取累计贡献率达8595%8595%的特征值的特征值所对应的第一、第二、所对应的第一、第二、第、第mm(mpmp)个主成分)个主成分m,21),2,1(1pkpiikkjpiij11/第18页,共51页。v计算主成分载荷计算主成分载荷

11、(主成分主成分Z Zk k与变量与变量x xi i之间的相关系数之间的相关系数),2,1;,2,1,(),(mkpiexZPkikikmPmPPmmmmkieeeeeeeeelL221122221211212111)(第19页,共51页。v各主成分的得分:各主成分的得分:nmnnmmzzzzzzzzzZ212222111211*22*11*2*222*1212*1*212*1111pmpmmmppppxlxlxlzxlxlxlzxlxlxlz第20页,共51页。3 特征值与特征向量的计算方法特征值与特征向量的计算方法v雅可比法雅可比法适合于对称矩阵适合于对称矩阵任一实对称矩阵任一实对称矩阵A,

12、均存在一正交变换矩阵,均存在一正交变换矩阵T,使,使那么那么 就是就是A的特征值,而的特征值,而变陈之积的各列就是相应的特征向量变陈之积的各列就是相应的特征向量pATT21P21第21页,共51页。二维情况二维情况v如令如令v 则则v将原始矩阵将原始矩阵A化成了对角矩阵化成了对角矩阵 。22211211aaaaAcossinsincosT2211121221aaatg2221221122212211coscossin2sin00sincossin2cosaaaaaaATTT2100第22页,共51页。雅可比法的计算步骤雅可比法的计算步骤v1、选择对称矩阵中非对角线元素最大者,记、选择对称矩阵中

13、非对角线元素最大者,记为为v2、作正交变换、作正交变换)0(00)0(00)0(001221jjiijiaaatg ijjijijiaaamax0000)0(第23页,共51页。v一般的一般的44040)0()0(0000时,取时,取jijiaa第24页,共51页。假设在原始矩阵的对角线以外元素中,以的绝对假设在原始矩阵的对角线以外元素中,以的绝对值为最大。设,作一个转轴变换值为最大。设,作一个转轴变换0000000001cossin1sincos1jijiT第25页,共51页。第26页,共51页。第27页,共51页。第28页,共51页。4 主成分分析方法应用实例第29页,共51页。第30页,

14、共51页。第31页,共51页。第32页,共51页。例例2,2,根据表根据表1 1中给出的数据,对某农业生态经济系统做中给出的数据,对某农业生态经济系统做主成分分析主成分分析样本序号x1:人口密度(人/km2)x 2:人均耕地面积(ha)x 3:森林覆盖率(%)x 4:农民人均纯收入(元/人)x 5:人均粮食产量(kg/人)x 6:经济作物占农作物播面比例()x 7:耕地占土地面积比率()x 8:果园与林地面积之比()x 9:灌溉田占耕地面积之比()1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011

15、752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.1218.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.68314.4010.30322.932表表1 1 某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据 第33页,共51页。668.3372.03276.2041540.29216.398.1284.0650.011

16、4.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.

17、0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.791477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.013.4251699.2650.65460.7021251.03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.2119

18、3.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021313.11236.2926.7247.1620.09210.078第34页,共51页。步骤如下:将表中的数据作标准差标准化处理,然步骤如下:将表中的数据作标准差标准化处理,然后将它们代入公式计算相关系数矩阵后将它们代入公式计算相关系数矩阵x1x2x3x4x5x6x7x8x9x11-0.32

19、7-0.714-0.3360.3090.4080.790.1560.744x2-0.331-0.0350.6440.420.2550.009-0.0780.094x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924x4-0.340.6440.0710.3830.069-0.05-0.0310.073x50.3090.42-0.740.38310.7340.6720.0980.747x60.4080.255-0.7550.0690.73410.6580.2220.707x70.790.009-0.93-0.0460.6720.6581-0.030.89x8

20、0.156-0.078-0.109-0.0310.0980.222-0.0310.29x90.7440.094-0.9240.0730.7470.7070.890.291表表2 2相关系数矩阵相关系数矩阵 第35页,共51页。(2 2)由相关系数矩阵计算特征值,以及各)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表个主成分的贡献率与累计贡献率(见表3 3)。)。由表由表3 3可知,第一,第二,第三主成分的累计可知,第一,第二,第三主成分的累计贡献率已高达贡献率已高达86.596%86.596%(大于(大于85%85%),故只),故只需要求出第一、第二、第三主成分需要求出第一

21、、第二、第三主成分z z1 1,z z2 2,z z3 3即可。即可。第36页,共51页。主成分特征值贡献率(%)累积贡献率(%)z14.66151.79151.791z22.08923.21675.007z31.04311.58986.596z40.5075.63892.234z50.3153.50295.736z60.1932.1497.876z70.1141.27199.147z80.04530.50499.65z90.03150.35100表表3 3特征值及主成分贡献率特征值及主成分贡献率 第37页,共51页。(3 3)对于特征值)对于特征值=4.6610=4.6610,=2.0890

22、=2.0890,=1.0430=1.0430分别求出其特征向量分别求出其特征向量e e1 1,e e2 2,e e3 3,再用公式计算各,再用公式计算各变量变量x x1 1,x x2 2,x x9 9在主成分在主成分z z1 1,z z2 2,z z3 3上的载荷上的载荷(表(表4 4)。)。第38页,共51页。z1z2z3占方差的百分数(%)x10.739-0.532-0.006182.918x20.1230.887-0.002880.191x3-0.9640.00960.009592.948x40.00420.8680.003775.346x50.8130.444-0.001185.811

23、x60.8190.1790.12571.843x70.933-0.133-0.25195.118x80.197-0.10.9798.971x90.964-0.00250.009292.939上述计算过程,可以借助于SPSS或MATLAB软件系统实现。表表4 4 主成分载荷主成分载荷 第39页,共51页。第一主成分第一主成分z1与与x1,x5,x6,x7,x9呈显出较强的正呈显出较强的正相关,与相关,与x3呈显出较强的负相关,而这几个变量则呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一综合反映了生态经济结构状况,因此可以认为第一主成分主成分z1是生态经济结构的代表

24、。是生态经济结构的代表。第二主成分第二主成分z2与与x2,x4,x5呈显出较强的正相关,呈显出较强的正相关,与与x1呈显出较强的负相关,其中,除了呈显出较强的负相关,其中,除了x1为人口总数为人口总数外,外,x2,x4,x5都反映了人均占有资源量的情况,都反映了人均占有资源量的情况,因此可以认为第二主成分因此可以认为第二主成分z2代表了人均资源量代表了人均资源量 分析:分析:第40页,共51页。显然,用三个主成分z1、z2、z3代替原来9个变量(x1,x2,x9),描述农业生态经济系统,可以使问题更进一步简化、明了第三主成分第三主成分z z3 3,与,与x x8 8呈显出的正相关程度最高,其次

25、呈显出的正相关程度最高,其次是是x x6 6,而与,而与x x7 7呈负相关,因此可以认为第三主成分在一呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构定程度上代表了农业经济结构 另外,表另外,表4 4中最后一列(占方差的百分数),在一定程中最后一列(占方差的百分数),在一定程度反映了三个主成分度反映了三个主成分z z1 1、z z2 2、z z3 3包含原变量(包含原变量(x x1 1,x x2 2,x x9 9)的信息量多少)的信息量多少第41页,共51页。例例3 3 下面,我们根据表下面,我们根据表3.4.53.4.5给出的数据,对某农业生态给出的数据,对某农业生态经济系统

26、做主成分分析,经济系统做主成分分析,样本序号x1:人口密度(人/km2)x 2:人均耕地面积(ha)x 3:森林覆盖率(%)x 4:农民人均纯收入(元/人)x 5:人均粮食产量(kg/人)x 6:经济作物占农作物播面比例()x 7:耕地占土地面积比率()x 8:果园与林地面积之比()x 9:灌溉田占耕地面积之比()1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.121

27、8.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.68314.4010.30322.932表表3.4.5 3.4.5 某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据 第42页,共51页。668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9

28、011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.

29、791477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.013.4251699.2650.65460.7021251.03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449

30、.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021313.11236.2926.7247.1620.09210.078第43页,共51页。步骤如下:(步骤如下:(1)将表)将表3.4.5中的数据作标准差标准化中的数据作标准差标准化处理,然后将它们代入公式(处理,然后将它们代入公式(3.5.4)计算相关系数矩)计算相关系数矩阵(见表阵(见表3.5.1)。)。x1x2x3x4x5x6x7x8x9x11-0.327-0.714-0.3360.3090.4080.7

31、90.1560.744x2-0.331-0.0350.6440.420.2550.009-0.0780.094x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924x4-0.340.6440.0710.3830.069-0.05-0.0310.073x50.3090.42-0.740.38310.7340.6720.0980.747x60.4080.255-0.7550.0690.73410.6580.2220.707x70.790.009-0.93-0.0460.6720.6581-0.030.89x80.156-0.078-0.109-0.0310.0

32、980.222-0.0310.29x90.7440.094-0.9240.0730.7470.7070.890.291表表3.5.13.5.1相关系数矩阵相关系数矩阵 第44页,共51页。(2)由相关系数矩阵计算特征值,以及各个主成分)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表的贡献率与累计贡献率(见表3.5.2)。由表)。由表3.5.2可知,可知,第一,第二,第三主成分的累计贡献率已高达第一,第二,第三主成分的累计贡献率已高达86.596%(大于(大于85%),故只需要求出第一、第二、第三主成分),故只需要求出第一、第二、第三主成分z1,z2,z3即可。即可。第45页

33、,共51页。主成分特征值贡献率(%)累积贡献率(%)z14.66151.79151.791z22.08923.21675.007z31.04311.58986.596z40.5075.63892.234z50.3153.50295.736z60.1932.1497.876z70.1141.27199.147z80.04530.50499.65z90.03150.35100表表3.5.23.5.2特征值及主成分贡献率特征值及主成分贡献率 第46页,共51页。(3 3)对于特征值)对于特征值=4.6610=4.6610,=2.0890=2.0890,=1.0430=1.0430分别分别求出其特征向

34、量求出其特征向量e1 1,e2 2,e3 3,再用公式(,再用公式(3.5.53.5.5)计算)计算各变量各变量x x1 1,x2 2,x9 9在主成分在主成分z1 1,z2 2,z3 3上的载荷上的载荷(表(表3.5.33.5.3)。)。第47页,共51页。z1z2z3占方差的百分数(%)x10.739-0.532-0.006182.918x20.1230.887-0.002880.191x3-0.9640.00960.009592.948x40.00420.8680.003775.346x50.8130.444-0.001185.811x60.8190.1790.12571.843x70.

35、933-0.133-0.25195.118x80.197-0.10.9798.971x90.964-0.00250.009292.939上述计算过程,可以借助于SPSS或MATLAB软件系统实现。表表3.5.3 3.5.3 主成分载荷主成分载荷 第48页,共51页。第一主成分第一主成分z1与与x1,x5,x6,x7,x9呈显出较强的正相关,呈显出较强的正相关,与与x3呈显出较强的负相关,而这几个变量则综合反映了生呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一主成分态经济结构状况,因此可以认为第一主成分z1是生态经济是生态经济结构的代表。结构的代表。第二主成分第二

36、主成分z2与与x2,x4,x5呈显出较强的正相关,与呈显出较强的正相关,与x1呈呈显出较强的负相关,其中,除了显出较强的负相关,其中,除了x1为人口总数外,为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第都反映了人均占有资源量的情况,因此可以认为第二主成分二主成分z2代表了人均资源量。代表了人均资源量。分析:分析:第49页,共51页。显然,用三个主成分z1、z2、z3代替原来9个变量(x1,x2,x9),描述农业生态经济系统,可以使问题更进一步简化、明了。第三主成分第三主成分z3,与,与x8呈显出的正相关程度最高,其次是呈显出的正相关程度最高,其次是x6,而与,而与x7呈负相关,因此可以认为第三主成分在一定程度呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构。上代表了农业经济结构。另外,表另外,表3.5.3中最后一列(占方差的百分数),在一定程中最后一列(占方差的百分数),在一定程度反映了三个主成分度反映了三个主成分z1、z2、z3包含原变量(包含原变量(x1,x2,x9)的信息量多少。)的信息量多少。第50页,共51页。ruyipingtaiguanwang 俎英华檶第51页,共51页。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(计量地理学第三章统计分析方法5主成分分析精选课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|