1、第二章 空间点模式分析1.空间点模式的概念与描述1.1.点模式概念点模式是研究区域R内的一系列观测事件的空间位置S1=(x1,y1),S2=(x2,y2),.,Sn=(xn,yn)的组合基本问题:随机?均匀?聚集?1.2. 一组事件构成点模式的要求 模式应当在平面上进行图示 应当客观地确定研究区域 应当包括研究区域中的所有相关实体 区域中的研究对象应该与模式中的事件点一一对应 事件位置必须是恰当的,即应当是实体的点位置,而不是面的质心或线上的点1.3. 点分布的集中趋势1.3.1 平均中心(mean center)也称空间均值(spatial mean),是指一组点的中心位置和平均位置。为点数
2、。点的坐标;是和为平均中心坐标;和其中,niyxyxnynxyxiimmniiniimm),(),(111.3.2 加权平均中心体现了不同位置的影响。点的权重为为加权平均中心,和iwyxwywwxwyxiwmwmniiniiiniiniiiwmwm),(),(11111.3.3 中位数中心不同的定义: 能够将所研究区域划分成包含相同点数的四个部分的位置。(唯一性?) 指到所有点的距离最短的那一位置。niiiiniiivyuxwMinvyuxMin122122)()()()(平均中心中位数中心1.4 点分布的离散趋势1.4.1 标准距离相当于统计中的标准差,表示各位置对平均中心或空间均值的偏离情
3、况。niiniwmiiniwmiiniminimiwyywxxwSDnyyxxSD112121212)()()()(标准距离圆:以标准距离为半径,空间均值为中心所画的圆,可以用来评估各位置在空间均值周围相对分散程度。1.4.2 标准椭圆距离对标准距离圆在方向上的拓展,包括三要素:转角、沿长轴的标准差和沿短轴的标准差。yxyx计算标准差椭圆miimiiyyyxxxniiiniiiniiniiniiniiyxyxyxyx1212121212122)(4)()(tan1.计算平均中心(xm,ym);2.对每个点pi进行坐标转换:3.计算转角:4. 计算沿x轴和y轴方向的标准差nyxnyxniiiyn
4、iiix1212)cossin()sincos(2.样方分析(Quadrat Analysis)2.1 样方分析的思想 通过空间上点分布密度的变化探索空间分布模式。首先将研究区划分为规则的正方形网格,统计落入每个网格中点的数量,然后统计出包含不同数量的点的网格数量的频率分布,最后将观测得到的频率分布和已知的频率分布或理论上的随机分布做比较,判断点模式类型。2.2 样方分析方法样方分析的影响因素:样方形状、采样方式、样方的起点、方向、大小等。 样方的形状与采样方式 样方尺寸样方尺度的最优估算(Greig-Smith 1962,Tylor 1977,Griffith、Amrhein 1991)是研
5、究区中点的数量为研究区面积,是样方的尺寸,式中,nAQnAQ2分布模式聚集模式 观测模式 分散或规则模式2.3 显著性检验2.3.1 K-S检验 K-S检验的原理是通过比较观测频率分布和某一“标准”的频率分布,确定观测分布模式的显著性。首先假设两个频率分布十分相似,按照统计思想,如果两个频率分布的差异非常小,那么这种差异的出现存在偶然性,而如果差异大,偶然发生的可能性就小。检验过程假设两个频率分布之间不存在显著性的差异给定一个显著性水平,如=0.05计算两个频率分布的累计频率分布计算K-S检验的D统计量:D=max|Oi - Ei|,其中Oi 和Ei分别是两个分布的第i个等级上的累计频率;ma
6、x| .|计算的是各个等级上累计频率的最大差异212105. 005. 036. 136. 1mmmmDnD双样本:单样本:计算作为比较基础的门限值,即 式中,n是单组样方数,m1与m2分别是两个样本模式的样方数量。如果计算得出的D值大于D=0.05这一阈值,可得出两个分布的差异在统计意义上是显著的。12|1)( |mt2.3.2 方差均值比的t检验思想:泊松分布的均值=方差=,因此可以用均值与方差的比值作为点模式是否相似于随机分布的判断准则。步骤:首先假设m个样方中分别有(n1,n2,.,nm)个事件的计数,然后用均值和方差比定义一个检验统计量t:上式中,分子为方差-均值比的观测值与期望值(
7、1)之间的绝对差;分母为均值差异的估计标准误差。如果样方数大于30,则t统计量就服从标准正态分布,如果t大于显著水平下的临界值,就可以拒绝零假设,并认为实际观测到的分布模式与随机模式之间存在差异。算例:Ohio城市分布各种模式下不同数量城市的样方的频率分布样方城市数量观测模式(样方数量)均匀模式(样方数量)聚集模式(样方数量)03616721211402620338160411315221600172001110012100131001510020001281004000183001样方总数818181根据观测模式与分散模式下的累计频率得出计算K-S统计量D所需的绝对差样方中城市数量观测模式(
8、样方数)累积观测频率均匀分布(样方数)累计观测频率绝对差异036 0.44 160.20 0.25 1 21 0.70 14 0.37 0.33 2 6 0.78 20 0.62 0.16 3 8 0.88 16 0.81 0.06 4 1 0.89 13 0.98 0.09 5 2 0.91 2 1.00 0.09 6 0 0.91 0 1.00 0.09 7 2 0.94 0 1.00 0.06 11 1 0.95 0 1.00 0.05 12 1 0.96 0 1.00 0.04 13 1 0.98 0 1.00 0.02 15 1 0.99 0 1.00 0.01 20 0 0.99
9、0 1.00 0.01 28 1 1.00 0 1.00 0.00 40 0 1.00 0 1.00 0.00 83 0 1.00 0 1.00 0.00 33. 0215. 08181818136. 105. 0D观测模式与均匀模式的比较:D统计量大于临界值,说明在0.05的显著性水平下,这两种分布存在显著差异,拒绝零假设。观测的点模式与随机的点模式比较kkxpkxpkxpepxxpxpepxxxekxpxk)1()(1)0()1 (1)1()()0(00!)(时,当时,当,因此,一般来说,时,当推:时的概率,然后进行递为简化计算,首先给出泊松分布:通过比较观测模式和由泊松分布生成的随机模式
10、来计算K-S检验的D统计量样方中城市数量观测模式(样方数)累积观测频率期望(泊松)比率累计期望(泊松)比率比率绝对差036 0.44 0.13 0.13 0.32 1 21 0.70 0.26 0.39 0.31 2 6 0.78 0.27 0.66 0.11 3 8 0.88 0.18 0.85 0.03 4 1 0.89 0.09 0.94 0.05 5 2 0.91 0.04 0.98 0.07 6 0 0.91 0.01 0.99 0.08 7 2 0.94 0.00 1.00 0.06 11 1 0.95 0.00 1.00 0.05 12 1 0.96 0.00 1.00 0.04
11、 13 1 0.98 0.00 1.00 0.02 15 1 0.99 0.00 1.00 0.01 20 0 0.99 0.00 1.00 0.01 28 1 1.00 0.00 1.00 0.00 40 0 1.00 0.00 1.00 0.00 83 0 1.00 0.00 1.00 0.00 32. 0151. 08136. 105. 0D观测模式与随机模式的比较:D统计量大于临界值,同样拒绝零假设。方差-均值比计算各样方中的城市数(xi) 观测频数(ni) (xi - )2ni(xi - )20364.09941147.57881211.0500122.0502260.000610.
12、0037380.951217.6097413.901813.90181528.8524117.70487224.7536149.507211180.5560180.5560112199.5066199.50661131120.4572120.4572151168.3584168.3584281674.7162674.7162合计811391.9506平均数2.024717.184696. 13586.471581. 04874. 71812|14874. 8|4874. 80247. 2/1846.1780dft方差均值比计算t统计量: t统计量远大于显著性水平为0.05时的标准正态分布的临界
13、值1.96,所以可以拒绝零假设,即实际观测到的分布模式与随机模式之间确实存在差异。3 核密度估计法3.1 概念与方法核密度估计法(Kernel Density Estimation)认为地理事件可以发生在空间任何位置上,但是在不同的位置上事件发生的概率不一样。点密度高的地方发生概率高,点密度低的地方则相反。因此可以用事件的空间密度分析和表示空间点模式。中的数量。落在圆域表示事件为半径的圆域,为圆心,是以点式中,CSrsrsCrrsCS#),(),(#2设空间模式在点S上的密度或强度是可测度的,设S处的事件密度为(s),其估计值为 ,则:根据概率理论,核密度估计的一般定义为:设X1,.,Xn是从
14、分布密度函数为f的总体中抽取的独立同分布样本,估计f在某点x处的值f(x),通常有Rosenblatt-Parzen核估计:处的距离。到事件表示估值点为带宽;称为核函数;式中,iiniinXxXxhkhXxknhxf)(, 0()(1)(1事件si带宽核k()研究区域R空间位置s核密度估计图示根据Rosenblatt-Parzen核估计公式,对于研究区R内地理事件s的点密度(s)的估计值 ,有)(s之间的距离。和)是需要估值的点程度;(密度估计的光滑值的选择会影响到分布,为带宽,0);1体积为为原点的函数曲面下的被规格化(即以了方便处理,这一函数表示核的权重函数,为()式中,)(1)(12ii
15、inissssskssks两种核函数之间的距离到点是点是核函数的带宽;式中,正态核函数:四次多项式核函数:jidedddijdiijiij22222223)()(13)(=13.2 KDE中的带宽的影响邻域中事件数量的函数是式中,iiiiissssskss)()()(1)(2自适应KDE:3.3 边缘效应内的体积,表示)(1)(其中,)(1)(1)(212RduusssskssRinil缓冲区方法l边缘校正核估计方法例:钦州市台语地名的核密度分析4.最邻近距离法样方分析方法的缺陷4.1 最邻近距离(Nearest Neighbor Distance)城市AkronCincinnatiCleve
16、landColumbusDayton最近城市ClevelandDaytonAkronDaytonCincinnati最近距离28.7347.1228.7365.9447.12事件的分布及其最邻近距离123496758100.1380.0930.0930.1440.1440.2130.0880.0880.1030.233最邻近距离是指任意一个点到其最邻近的点之间的距离。通常采用最邻近指数法(Nearest Neighbour Indictor,NNI)作为最邻近距离测度空间点模式(Clark,Evans,1954)。其思想是计算一组点的最邻近值,取平均值作为评价分布模式的指标,并将之与CSR(C
17、ompletely Spatially Random)模式的NNI比较,就可判断分布模式的类型。4.2NNI计算过程是事件的数量。为研究区中的事件;邻近点的距离;表示每一个事件到其最式中,nsdsdndiniimin1minmin)(1为研究区面积式中, AAndE/21)(min1.计算任意一点到其最邻近点的距离dmin2.对所有的dmin求平均距离3.在CSR模式中同样可以得到平均的最邻近距离,其期望为E(dmin)(minmindEdR CSR模式下的最邻近指数R定义为: 如果R=1,说明观测事件过程属于随机分布 如果R1,说明观测事件的过程不是来自于完全随机模式CSR,由于点之间的最邻
18、近距离大于CSR过程的最邻近距离,事件模式中的空间点是相互排斥地,趋向于均匀分布。4.3 显著性检验rRrSEdEdZAnSE)(/26136. 0minmin2用观测的平均最邻近距离与期望平均距离之差与理论标准差SEr进行比较,以此构造服从标准正态分布的统计量:当显著性水平为时,的置信区间为-ZZRZ,如果ZRZ或ZRCSR(G(d)时,聚集分布当G(d)CSR(F(d)时,均匀分布当F(d)CSR(F(d)时,聚集分布完全随机分布点过程的G函数曲线各种点模式对应的G-F曲线)(min)()(max)(,.,1,.,1dGdLdGdUimiimi5.3.2 显著性检验的随机模拟方法首先在研究
19、区R上利用蒙特卡洛随机模拟的方法产生m次的CSR点模式,并估计理论分布:为评价观测模式和CSR模式差异的显著性,计算m次随机模拟中分布函数G的上界U(d)和下界L(d):次独立随机模拟。的事件个区域上模拟的是在式中,mCSRnRdGdGmdGimii)()(1)(1绘出参考分布图 如果观测模式是和CSR一致的,则累计分布曲线是直线; 如果G(d)函数曲线在U(d)的上方,则可推断观测模式显著聚集; 如果G(d)函数曲线在L(d)的下方,则可推断观测模式显著均匀; 如果G(d)函数曲线在U(d)和L(d)之间,可推断观测模式与CSR模式无显著差别。6.K函数6.1 K函数定义K函数分析法由Rip
20、ley在1976年提出,用来分析多尺度下的空间点分布模式。为研究区内点的总数。为研究区面积,其中,否则则为指示函数,如果为两点之间的距离;表示具体的点,和式中,的缓冲区内点的个数步长为NAdINAhKIIhdIdjijidIhnhnhijijhhhijhijijijh)()(. 01,),()(:)(26.2 K函数分析步骤设定一个距离增量或者空间步长d,将其作为反映空间尺度变化的单位,如果区域内相隔最远的两个点相距D个单位,用r表示覆盖区域内所有的点所需达到的步长数,rD/d。在开始时将迭代次数g设定为1。以h为半径在区域内每个点i的周围创建一个圆形缓冲区,h=d*g。第一次迭代中缓冲区半径
21、为d,第二次为2d,以此类推。对于每个点,计算落在其半径为h的缓冲区内的点的个数,并用n(h)来表示。将缓冲区的半径增大一个d。h值每增大一个d,便重复步骤、,直到g=r或g=D/d。6.3 边缘效应与校正。完整缓冲区中所占比例那一部分缓冲区在整个之内的为中心并且落在研究区表示以点 iwwdINAhKiijiijh)()(2siwi6.4 K函数的点模式判别准则在均质条件下,如果点过程是相互独立的CSR,则K函数的一个理想的理论估计值为h2,即散)的。距离上的点是均匀(分数量更少,因此在的距离上点的数量比期望,表示在)如果(距离上的点是聚集的。数量更多,因此在的距离上点的数量比期望,表示在)如
22、果(同。过程的事件的期望值相和来自于距离上,表示在)如果(hhhhKhhhhKCSRhKhhhKhhKhKE2222)(3)(2)()(1)()(1000个随机点的分布CSR过程的K(d)6.5 L函数K函数在使用上不方便,对估计值和理论值的比较隐含着更多的计算量,其实只需计算它们的差值,其差值函数L(h)为:hhKhLhLhhKhL)()()()()(为:其估计值L函数简化了计算,更容易比较观测值和CSR模式的理论值之间的差异。在L函数图中,正的峰值表示点在这一尺度上的聚集或吸引,负的峰值表示点在这一尺度上的分散或排斥。6.6显著性检验采用蒙特卡洛方法检验:按照CSR过程,在研究区中创建与观测事件模式数量相同的点;计算L(h);重复和n次;对于每一个h,确定最大和最小的模拟L(h)值;根据最大和最小的L(h)值,画出L(h)的包络线。实例