1、第六章 空间统计学分析经典统计学v 研究纯随机变量v 变量可无限次重复观测或大量重复观测v 样本相互独立v 研究样本的数字特征空间统计学v 研究区域化变量v 变量不能重复试验v 样本具有空间相关性v 研究样本的数字特征和区域化变量的空间分布特征经典统计学与空间统计学的区别经典统计学与空间统计学的区别v 空间统计分析方法由来 由于空间现象之间存在不同方向、不同距离成分等相互作用,使得传统的数理统计方法无法很好地解决空间样本点的选取、空间估值和两组以上空间数据的关系等问题,因此,空间统计分析方法应运而生。v 空间统计分析方法组成 空间统计分析方法由分析空间变异与结构的半变异函数和用以空间局部估计的
2、克里格插值法两个主要部分组成,是GIS空间分析的一个重要技术手段。 利用利用空间统计学空间统计学进行矿产资源储量计算及平均品位估计进行矿产资源储量计算及平均品位估计 利用利用空间统计学空间统计学进行矿产资源预测及找矿勘探进行矿产资源预测及找矿勘探 利用利用空间统计学空间统计学进行石油勘探开发进行石油勘探开发1 1、在、在地质学中的应用地质学中的应用 在土壤物理性质空间变异中的应用在土壤物理性质空间变异中的应用。 集中在应用空间统计学方法研究土壤颜色、土粒、土壤水分、土壤水力导度、饱和水压、孔径等土壤物理性质的空间变异。 在土壤化学性质空间变异中的应用在土壤化学性质空间变异中的应用。 针对氮、磷
3、、钾、钙、镁、土壤pH等土壤养分的空间相关性研究。对土壤化学性状的空间属性进行了描述和归类,同时为土壤养分管理、土壤环境背景值制图等提供了必要数据和方法。2 2、在、在土壤学中的应用土壤学中的应用2、在土壤学中的应用、在土壤学中的应用 在土壤学试验设计和采样方法中的应用在土壤学试验设计和采样方法中的应用 分析土壤特性的空间变异规律,可有效指导土壤采样数目、样点分分析土壤特性的空间变异规律,可有效指导土壤采样数目、样点分布、采样密度及采样方法的确定布、采样密度及采样方法的确定。 在土壤质量管理方面的应用在土壤质量管理方面的应用 空间统计学空间统计学提供了利用已知取样点的数据去估测未采样点的土壤特
4、提供了利用已知取样点的数据去估测未采样点的土壤特性指标是否超过某一阈限的方法。近年来,性指标是否超过某一阈限的方法。近年来,空间统计学空间统计学在土壤质量在土壤质量管理方面的应用主要集中在土壤养分管理和土壤污染研究管理方面的应用主要集中在土壤养分管理和土壤污染研究。3、在生态学中的应用在生态学中的应用生态学变量空间变异性的定量描述和解释。生态学变量空间变异性的定量描述和解释。 生物特征的估计。生物特征的估计。 生态学研究对象的时空变化规律分析,及不同相关研究对象的时空生态学研究对象的时空变化规律分析,及不同相关研究对象的时空动态及耦合关系分析。动态及耦合关系分析。4、在环境学中的应用在环境学中
5、的应用 土壤环境研究土壤环境研究 空间统计学中的变异函数和克立格插值技术是进行重金属空间结构分析、模拟和估值的主要工具,通过描述和模拟污染物的空间分布特征以及估算未采样点的取值,揭示出污染物在空间上的分布迁移趋势。 水环境研究水环境研究 用于地下水水位预测和污染物迁移扩散参数的估计、分析预测水环境污染物浓度、水质参数研究等。5、在气象学中的应用在气象学中的应用v 在数值天气预报和日常气象分析中,经常需要将不规则的站点资料插值到规则的网格。v 随着空间统计学方法的兴起,克立格法已经逐步应用于气象学领域。第6章 空间统计学分析6.3 空间局部估计6.1 空间统计分析方法的基本原理6.2 空间自相关
6、6.4 确定性插值法6.5 探索性空间数据分析一、空间统计分析的概念v 20世纪60年代,法国统计学家Matheron G通过大量理论研究,形成了一门新的统计学分支,即空间统计学。v 空间统计学是以区域化变量理论为基础,以变异函数为主要工具,研究具有地理空间信息特性的事物或现象的空间相互作用及变化规律的学科。6.1 空间统计分析方法的基本原理v 自相关 空间统计分析方法假设研究区中所有的值都是非独立的,相互之间存在相关性。在空间或时间范畴内,这种相关性被称为自相关。v 空间统计分析的重要任务 揭示空间数据的相关规律和利用相关规律进行未知点预测。由于空间统计分析包含这两个显著的任务,所以涉及两次
7、使用样点数据,第一次用作估计空间自相关,第二次用作未知点预测。6.1 空间统计分析方法的基本原理二、空间统计分析中的理论假设1、区域化变量 当一个变量呈空间分布时,称之为区域化区域化。 区域化变量区域化变量就是指以空间点x的三个直角坐标(xu,xv,xw)为自变量的随机场Z (xu,xv,xw)= Z (x),它常常反应某种空间现象的特征。v 区域化变量的两重性表现在观测前把它看成是随机场,依赖于坐标(Xu,Xv,Xw),观测后是一个普通的空间三元函数值或一个空间点函数。6.1 空间统计分析方法的基本原理v 区域化变量是一种在空间上具有数值的实函数,它具有以下属性:6.1 空间统计分析方法的基
8、本原理空间局限性连续性各向异性区域化变量被限制于一定空间范围,这称为几何域。在几何域内,区域化变量的属性最为明显;在几何域外,不明显。不同的区域化变量具有不同程度的连续性,用区域化变量的半变异函数来描述。当区域化变量在各个方向上具有相同性质时称各向同性,否则称为各向异性。v 其它属性: 区域化变量在一定范围内呈一定程度的空间相关,当超出这一范围之后,相关性变弱甚至消失。 对于任一区域化变量,特殊的变异性可以叠加在一般的规律之上。6.1 空间统计分析方法的基本原理2、协方差函数v 在随机函数中,当只有一个自变量x时称为随机过程,随机过程Z(t)在时间t1和t2处的随机变量Z(t1)、Z(t2)的
9、二阶混合中心矩定义为随机过程的协方差函数记为CovZ(t1),Z(t2),即CovZ(t1),Z(t2)=EZ(t1)EZ(t1)Z(t2)EZ(t2) (6.1)6.1 空间统计分析方法的基本原理v 当随机函数依赖于多个自变量时,Z(x)=Z(Xu,Xv,Xw)称为随机场,而随机场Z(x)在空间点x和x+h处的两个随机变量Z(x)和Z(x+h)的二阶混合中心矩定义为随机场Z(x)的自协方差函数,即CovZ(x),Z(x+h)=EZ(x)Z(x+h)EZ(x)EZ(x+h) (6.2)v 随机场Z(x)的自协方差函数亦称为协方差函数,一般地,协方差函数依赖于空间点x和向量h。当h=0时,协方差
10、函数变为Cov(x,x+0)=EZ(x)2EZ(x)2 (6.3)6.1 空间统计分析方法的基本原理3、变异函数v 变异函数在一维条件下,当空间点x在一维x轴上变化时,区域变量Z(x)在点x和x+h处的值Z(x)与Z(x+h)差的方差一半定义为区域变量Z(x)在x轴上的变异函数,记为(x,h),即(x,h)=1/2*VarZ(x)Z(x+h)2 =1/2*EZ(x)Z(x+h)21/2*EZ(x)EZ(x+h)2 (6.4)6.1 空间统计分析方法的基本原理v 在二阶平稳假设条件下对任意h有 EZ(x+h)=EZ(x)v 因此,式(6.4)可改写为 (x,h)=1/2*EZ(x)Z(x+h)2
11、 (6.5)v 从式(6.5)可知,变异函数依赖于x和h,当变异函数仅依赖于h,与x无关时,变异函数(x,h)可改写成(h),即 (h)=1/2*EZ(x)Z(X+h)2 (6.6)6.1 空间统计分析方法的基本原理4、平稳性假设及内蕴假设(1)平稳性假设v 设某一随机函数Z(x),其空间分布律不因平移而改变,即若对任一向量h,关系式 G(z1,z2,x1,x2,)=G(z1,z2,x1+h,x2+h,) 成立时,则该随机函数为平稳性随机函数。v 确切的说,无论位移向量h多大,两个k维向量的随机变量Z(x1),Z(x2),Z(xk)和Z(x1+h),Z(x2+h),Z(xk+h)有相同的分布律
12、。6.1 空间统计分析方法的基本原理v 当区域化变量满足下列两个条件时,称该区域化变量满足二阶平稳: 在整个研究区内,区域化变量Z(x)的数学期望对任意x存在且等于常数,即EZ(x)=m(常数),任意x。 在整个研究区内,区域化变量的空间协方差函数对任意x和h存在且平稳,即 CovZ(x),Z(x+h)=EZ(x)Z(x+h)-m2=C(h),任意x,h6.1 空间统计分析方法的基本原理(2)内蕴假设v 一些自然现象和随机函数具有无限离散性,这时区域化变量Z(x)的增量Z(x)-Z(x+h)满足下列两个条件时,就称该区域化变量满足内蕴假设: 在整个研究区内随机函数Z(x)的增量的数学期望为0,
13、即 EZ(x)-Z(x+h)=0, 任意x,h 对于所有矢量的增量的方差函数存在且平稳 VarZ(x)-Z(x+h)=EZ(x)-Z(x+h)2=2(x,h)=2(h),任意X,h即要求Z(x)的半变异函数存在且平稳。6.1 空间统计分析方法的基本原理内蕴假设可以理解为:v 随机函数Z(x)的增量Z(x)-Z(x+h)只依赖于分隔它们的向量h,而不依赖于具体位置x,这样,被向量h分割的每一对数据Z(x),Z(x+h)可以看成是一对随机变量Z(x1),Z(x2)的一个不同现实,而半变异函数(h)的估计量*(h)为 * (h)=1/2N(h)*Z(xi)-Z(xi+h)2 式中,N(h)是被向量h
14、相分隔的试验数据对的数目。6.1 空间统计分析方法的基本原理准平稳假设v 如果随机函数只在有限大小的邻域内是平稳的,则称该随机函数服从准平稳假设。v 准平稳(或准内蕴)假设是一种折中方案,它既考虑到某现象相似性的尺度,也顾及到有效数据的多少。6.1 空间统计分析方法的基本原理一、空间自相关理论v 在空间统计分析中,相关分析可以检测两种现象的变化是否存在相关性,若所分析的统计量为不同观察对象的同一属性变量,则称之为自相关。v 通过检测一个位置上的变异是否依赖于邻近位置的变异来判断该变异是否存在空间自相关性。v 根据变异的性质可以将变异分为三种类型:绝对型变异(花的形态、颜色),等级型变异(植被密
15、度等级)和连续型变异(形态测量、基因频率)。6.2 空间自相关v 空间自相关是针对同一个属性变量而言的,当某一测样点属性值高,而其相邻点同一属性值也高时,为空间正相关;反之,为空间负相关。v 当空间自相关仅与两点间距离有关时,称为各向同性;否则为各向异性。6.2 空间自相关二、空间自相关分析方法v 空间自相关方法按功能大致分为两类:全域型自相关、区域型自相关v 全域型自相关的功能在于描述某现象的整体分布情况,判断该现象在空间是否有聚集特性,但并不指出聚集在哪些区域。区域型自相关能够推算出聚集地的范围,原因原因在于: 1、由统计显著性检定的方法,检定聚集空间单元相对于整体研究范围而言,其空间自相
16、关是否足够显著,若显著性大,即是该现象聚集的地区。 2、度量空间单元对整个研究范围空间自相关的影响程度,影响程度大的往往是区域内的“特例”,“特例点”往往为聚集点。v 最为常用的计算空间自相关方法是:Morans I、Gearys C、Getis、Join count以及空间自相关系数图等6.2 空间自相关1、Morans I法v 建立空间区位相邻矩阵:若在区域内有n个空间单元,每个空间单元皆有一个观察值X,空间单元i与空间单元j的空间关系构成Wij的空间相邻矩阵,以1表示i和j相邻,以0表示i和j不相邻。v 其简单定义为 Wijnn 其中,Wij为表示区位相邻矩阵,Wij=1表示区位相邻,W
17、ij=0则表示区位不相邻。6.2 空间自相关v Moran Index值是应用较广泛的一种空间自相关性判定指标,其计算式为式中, , 。Wij表示区位相邻矩阵;Cij表示属性相似矩阵;Xi和Xj分别为i和j空间单元属性数据值,Wij=1代表空间单元相邻,Wij=0代表不相邻,ij,Wii=0。6.2 空间自相关ninjniiijjninjiijninjijninjijijXXnWXXXXWSWCWI11121111211)(1)( )(niiXXnS122)(1)(XXXXCjiij(6.16) v 若母体为随机分配,常采用统计验证的方式进一步判定Moran Index的期望值和变异数。I的期
18、望值为v 其变异数为其中, ; ; ;6.2 空间自相关)()()(IVarIEIIZ) 1(1)(nIE2202021220212)() 3)(2)(1(62)(3) 33()(IEnnnWWnWWnnKWnWWnnnIVarninjijWW110ninjjiijWWW1121)(niiiWWW122)(21214njjniinXXnXXk;Wi和Wi为相关权重矩阵i及j行的总和。v I值结果一定介于-1到1之间;v I0为正相关,数值越大表示空间分布的相关性越大,即空间上聚集分布的现象越明显;v I0(正相关) I 0(负相关)图6.1 空间自相关正负结果示意图v 由于Morans I值的
19、量测仅能表明属性相似的单元间是否呈聚集状态,无法由简洁的数值表达空间中的聚集分布状态,无法由简洁的数值表达空间中的聚集分布状态,v 根据各空间间隔自相关值的计算,Morans I公式可改写为 其中,d代表空间间隔;Wij代表区位相邻矩阵。d=1代表空间单元是相邻的;d=2定义为与间隔一个的空间单元相接邻,而与原来的空间单元不相邻。6.2 空间自相关 niijininjijninjijXXXXXXdWdWndI121111)()()()()((6.19) v 区域空间自相关的定义为 其中,Ii为Local Moran Index,Wij为区位相邻矩阵。即:n个区域空间自相关值累加和即全域空间自相
20、关的值。6.2 空间自相关(6.20) njjiijiXXXXWI1)(2、Gearys Contiguity Ratio C法v 与Morans I类似,其表达式为 C = 1,表示不相关;0 C 1表示负相关。6.2 空间自相关 ninjijninjiijniiWyyWyynC11112_12_2)()(1(6.21) 3、Getis统计法v Anselin曾归纳各种空间聚集的研究方法,该方法经常表达为 其中,Wij代表i与j的空间关系,即类似上述空间相邻权重矩阵Wij;而yij则是i与j的观察式。 Yij的假设与观念不同,即为不同的空间聚集研究方法。6.2 空间自相关jijijyw(6.
21、22) v 全域型Getis 其中,wij(d)为距离d内的空间相邻权重矩阵。 若i与j相邻,wij(d)=1;若i与j不相邻,wij(d)=0。v 区域型Getis 可量测每一个i在距离d的范围内,与每个j的相关程度。6.2 空间自相关njjnjjiijxxxdwdG11)()(ij (6.23) njjnjjijixxdwdG11)()(ij (6.24) 4、空间自相关系数图分析法(以某地区为例) (1)图中有两处隆起处,代表微视尺度及宏观尺度上,存在显著的聚集分布现象,但聚集现象不存在于中观尺度上。 (2)空间间隔为2时,空间自相关值有波峰,即在空间间隔为2时,其空间分布有最大的自相关
22、性。6.2 空间自相关空间自相关空间间隔135791113151719-1.00-0.501.000.500.001.50图6.2 某地区某种空间自相关系数图 应用实例应用实例 v 中国大陆30个省级行政区人均GDP的空间关联分析。根据各省(直辖市、自治区)之间的邻接关系,采用二进制邻接权重矩阵,选取各省(直辖市、自治区)19982002年人均GDP的自然对数,依照公式计算全局Moran指数I,计算其检验的标准化统计量Z(I),结果如下表所示。年份IZP19980.50014.503 50.000 019990.506 94.555 10.000 020000.511 24.597 80.00
23、0 020010.505 94.553 20.000 020020.501 34.532 60.000 0 从表中可以看出,在19982002年期间,中国大陆30个省级行政区人均GDP的全局Moran指数均为正值;在正态分布假设之上,对Moran指数检验的结果也高度显著。这就是说,在19982002年期间,中国大陆30个省级行政区人均GDP存在着显著的、正的空间自相关,也就是说各省级行政区人均GDP水平的空间分布并非表现出完全的随机性,而是表现出相似值之间的空间集聚,其空间联系的特征是:较高人均GDP水平的省级行政区相对地趋于和较高人均GDP水平的省级行政区相邻,或者较低人均GDP水平的省级行
24、政区相对地趋于和较低人均GDP水平的省级行政区相邻。 选取2001年我国30个省级行政区人均GDP数据,计算局部Gi统计量和局部Gi统计量的检验值Z(Gi),并绘制统计地图如下。 检验结果表明,贵州、四川、云南西部3省的Z值在0.05的显著性水平下显著,重庆的Z值在0.1的显著性水平下显著,该4省市在空间上相连成片分布,而且从统计学意义上来说,与该区域相邻的省区,其人均GDP趋于为同样是人均GDP低值的省区所包围。由此形成人均GDP低值与低值的空间集聚,据此可认识到西部落后省区趋于空间集聚的分布特征。 东部的江苏、上海、浙江三省市的Z值在0.05的显著性水平下显著,天津的Z值在0.1的显著性水
25、平下显著。而东部上海、江浙等发达省市趋于为一些相邻经济发展水平相对较高的省份所包围,东部发达地区的空间集聚分布特征也显现出来。 以(Wz,z)为坐标,进一步绘制Moran散点图 可以发现,多数省(直辖市、自治区)位于第1和第3象限内,为正的空间联系,属于低低集聚和高高集聚类型,而且位于第3象限内的低低集聚类型的省(直辖市、自治区)比位于第1象限内的高高集聚类型的省(直辖市、自治区)更多一些。 上图进一步显示了30个省级行政区人均GDP局部集聚的空间结构。可以看出,从人均GDP水平相对地来看: 高值被高值包围的高高集聚省(直辖市)有:北京、天津、河南、安徽、湖北、江西、海南、广东、福建、浙江、山
26、东、上海、江苏; 低值被低值包围的低低集聚省(自治区)有:黑龙江、内蒙古、新疆、吉林、甘肃、山西、陕西、青海、西藏、四川、云南、辽宁、贵州; 被低值包围的高值省(直辖市)有:重庆、广西、河北;被高值包围的低值省份只有湖南。v 空间局部估计 空间局部估计也称空间局部插值,它是利用在地表不同位置采集的样点生成一个连续表面。v 常见的克立格插值模型有: 普通克立格、简单克立格、泛克立格、概率克立格、指示克立格、析取克立格及协同克立格等v 插值一般分为两步: (1)样点空间结构量化分析半变异函数分析; (2)对未知点进行预测6.3 空间局部估计v 20世纪50年代,南非采矿工程师Daniel Krig
27、e总结多年金矿勘探经验,提出根据样品点的空间位置和样品点之间空间相关程度的不同,对每个样品观测值赋予一定的权重,进行移动加权平均,估计被样品点包围的未知点矿产储量,形成了克里金估计方法(kriging)的雏形。 v 20世纪60年代初期,法国地质数学家Georges Matheron提出数学形式的区域化变量,严格地给出了基本变异函数(variogram)的定义和一般克里金估计方法。一、半变异函数分析1、半变异函数及其性质v 半变异函数是一个关于数据点的半变异值与数据点间距离的函数,设区域化变量Z(xi)和Z(xi+h)分别是Z(x)在空间位置xi和xi+h上的观测值(i=1,2,N(h),则半
28、变异函数可由下式进行估计 其中,N(h)是分隔距离为h的样本量。前提: Z(xi)为区域化变量且满足平稳条件和本征假设6.3 空间局部估计)(12)()()(21)(hNiiihxZxZhNh(6.25) 空间统计学将变异函数理论模型分为3大类: 第1类是有基台值模型,包括球状模型、指数模型、高斯模型、线性有基台值模型和纯块金效应模型; 第2类是无基台值模型,包括幂函数模型、线性无基台值模型、抛物线模型; 第3类是孔穴效应模型。 下面有代表性地介绍几种常见的变异函数理论模型。 6.3 空间局部估计 纯块金效应模型:其一般公式为 式中:c00,为先验方差。该模型相当于区域化变量为随机分布,样本点
29、间的协方差函数对于所有距离h均等于0,变量的空间相关不存在。 000)(0hchh 球状模型:其一般公式为 式中:c0为块金(效应)常数;c为拱高;c0+c为基台值;a为变程。当c0=0,c=1时,称为标准球状模型。球状模型是地统计分析中应用最广泛的理论模型,许多区域化变量的理论模型都可以用该模型去拟合。 ahccahahahcchh03300)223(00)( 指数模型:其一般公式为 式中:c0和c意义与前相同,但a不是变程。当h=3时, ,即 ,从而指数模型的变程 约为 。当c0=0,c=1时,称为标准指数模型。0)1 (00)(0hecchhah195. 0113eeahcca0)3(a
30、a3 高斯模型:其一般公式为 式中:c0和c意义与前相同,a也不是变程。当 时, ,即 ,因此高斯模型的变程 约为 。当 时,称为标准高斯函数模型。0)1 (00)(220hecchhahah3195. 011322eeahcca0)3(1, 00ccaa3 幂函数模型:其一般公式为 式中:为幂指数。当变化时,这种模型可以反映在原点附近的各种性状。但是必须小于2,若 ,则函数 就不再是一个条件非负定函数了,也就是说它已经不能成为变异函数了。 20 ,)(Ahh2(-h) 对数模型:其一般公式为 显然,当 ,这与变异函数的性质 不符 。因此,对数模型不能描述点支撑上的区域化变量的结构。hAhlg
31、)(hhlog, 00)(h线性有基台值模型:其一般公式为 式中:该模型的变程为a,基台值为 。 线性无基台值模型:其一般公式为 从式中可以看出,该模型没有基台值,也没有变程。 ahcahAhhh00c00c)(cc 000)(0hAhhch例如:某地区降水量是一个区域化变量,其变异函数 的实测值及距离h的关系见下表,下面我们试用回归分析方法建立其球状变异函数模型。)(h实测值(h)距离h实测值(h)距离h2.10.69.24.94.31.110.35.15.72.210.56.26.52.510.97.57.83.111.29.58.83.812.49.8 从上面的介绍和讨论,我们知道,球状
32、变异函数的一般形式为 当 时,有ahccahahahcchh03300)223(00)(ah 0330)2()23()(hachacch 如果记 ,则可以得到线性模型 根据表中的数据,对上式进行最小二乘拟合,得到 计算可知,上式的显著性检验参数F=114.054,R2=0.962,可见模型的拟合效果是很好的。32132100,21,23,),(hxhxacbacbcbhy22110 xbxbby2192007. 0731. 1048. 2xxy 比 较 前 两 式 , 并 做 简 单 计 算 可 知 :c0=2.048,c=1.154,a=8.353,所以,球状变异函数模型为535. 8202
33、. 3535. 80)535. 821535. 823(154. 1048. 200)(33*hhhhhh2、影响半变异函数的主要因素(1)样点间的距离和支撑的大小 为了使建立的半变异函数模型能准确地反映各种尺度上的变化特征,要确定采样的最小尺度。 在采样之前,首先需要在满足精度的前提下确定最佳的采样尺度。用块段取样时,要考虑支撑的大小,一般采用正则化变量消除其影响。6.3 空间局部估计(2)样本数量的大小 样本数量在对空间统计学中主要指计算实际半变异函数值时的点对数目。 实际取样工作中点对数目不能无限,一般要求在变程a以内各距离上的点对数目不应小于20对。在小尺度距离上相对要多一些,大尺度距
34、离相对少一些。(3)异常值的影响 如果异常值比较多,块金值C0要增大,随机成分的影响加强,而空间自相关的影响消弱。对于半变异函数的模型来讲,块金效应值C0越小越好。6.3 空间局部估计(4)比例效应的影响 如果平均值和标准差之间存在明显的线性关系,则比例效应存在,反之亦然。 当样品方差随着平均值的增加而增加时,称正比例效应,反之亦然。 比例效应的存在会使实际半变异函数值产生畸变,消除比例效应的方法主要是通过对原始数据取对数,或者通过相对半变异函数的求解。6.3 空间局部估计(5)漂移的影响 当漂移存在时,半变异函数值不再是半变异函数的无偏估计。要消除漂移对半变异函数的影响,主要通过建立合适的漂
35、移形式,即EZ(x)=m(x)中,m(x)的函数式,它使半变异函数曲线真实地符合实际半变异函数值。6.3 空间局部估计3、半变异模型的合并v 假设数据中有两个独特的结构,只用单一模型无法表达,就可以用两个单独的模型来模拟这个半变异图,然后将它们合并为一个模型。6.3 空间局部估计4、半变异模型的步长分组与步长大小的选择v 在所有样点中两两之间均能形成样点对,如下图。要在半变异云图上画出所有样点对是无法操作的。应设法将样点对按照它们之间的距离和方向进行分组,这个分组过程称为步长分组。6.3 空间局部估计图6.5 12个样点两两形成的样点对示意图v 在步长分组过程中将样点对按相同距离和方向进行分组
36、,这样每一个点都具有统一的原点,这个特性使理论半变异图具有对称性。下图中,连线1和2具有非常相似的距离和方向。6.3 空间局部估计2143图6.6 样点对的步长分组示意图v 步长大小的选择:步长大小的选择:v 如果步长太大,短程的自相关性将被掩盖;如果步长太小,就会产生许多空的步长组,并且每个步长组中的样点数太少不能代表步长组的“平均值”。 当用规则格网取样时,格网间距通常可以用来确定步长大小;如果数据是通过不规则取样的,步长大小乘以步长数应等于样点间最大距离的0.5倍。6.3 空间局部估计5、空间数据变化的方向效应v Z(x)能通过半变异函数反应区域化变量的随机性和结构性,因此其在每个方向上
37、呈现相同或不同的性质。v 如果在各个方向上Z(x)的变异性相同或相近,称Z(x)为各向同性。反之,称为各向异性。 v 在结构分析中,半变异函数的变程a在不同方向上的大小反映各向同性或各向异性,如下图所示。6.3 空间局部估计 0 a1 a2 h1(h)2(h)(h)C1C2图6.7 半变异函数的各向异性曲线6.3.2、克立格插值法概述 克立格(Kriging)插值法,又称空间局部估计或空间局部插值法,是空间统计学的主要内容之一。克立格法是建立在变异函数理论及结构分析基础之上的,它是在有限区域内对区域化变量的取值进行无偏最优估计的一种方法。 克立格法适用的条件条件是,如果变异函数和相关分析的结果
38、表明区域化变量存在空间相关性。 其实质实质是利用区域化变量的原始数据和变异函数的结构特点,对未采样点的区域化变量的取值进行线性无偏、最优估计。 6.3 空间局部估计对于任意待估计点的估计值Z(x0)均可以通过待估测点范围内的n个观测样本值Z(xi)(=1, 2, , n)的线性组合得到,即 其中,i为权重系数,其和等于1,Z(xi)为观测样本值,它们位于区域内xi位置。)()( 10iniixZxZv 由于克立格法是一种无偏最优估计,i的确定应满足v 利用拉格朗日定理,由式(6.27)和式(6.28)可推导出i与半方差之间的矩阵方程6.3 空间局部估计0)()( (00 xZxZ(6.28)
39、min)()( (200 xZxZ(6.27) BA(6.29) v 其中,v 由式(6.29)代入式(6.26)计算内插估计值Z(x0)6.3 空间局部估计0111111212222111211nnnnnnrrrrrrrrrA102010nrrrBn21三、常见克立格模型1、普通克立格模型v 当区域化变量Z(x)的数学期望EZ(x)=m为未知常数时,常采用普通克立格法进行局部估计。普通克立格模型为v 在运用普通克立格法进行局部估计时,设待估块段为V,中心为x,其平均值为ZV,则6.3 空间局部估计)()(ssZ(6.31) VVxxZVZd)(1VVmxxZVZEd)(1(6.32) (6.
40、33) v 在待估块段V的领域内,存在一组n个已知样点xi(i=1, 2, , n),其观测值为Z(xi),其数学期望也为m。令ZV#为ZV的线性估计量,由n个已知的样点观测值Z(xi)构成的线性组合,即6.3 空间局部估计(6.34) )(1#iniivxZZv 在满足下面两个条件时,ZV#为ZV的线性无偏、最优估计量 (1)无偏性条件 当 时, ,ZV#为ZV的无偏估计量。 (2)最优性条件 在满足无偏性条件下,估计方差为 在无偏性条件下,使估计方差最小,则ZV#为ZV的无偏、最优估计量。 6.3 空间局部估计nii11mZEZEVV#212#2 )(niiiVVVExZZEZZE(6.3
41、5) 2、简单克立格模型v 简单克立格插值模型可以表示为v 简单克立格法可以使用半变异函数或协方差函数进行分析,可进行变换和剔除趋势,也可进行测量误差分析。6.3 空间局部估计)()(ssZ(6.36) 3、泛克立格模型v 泛克立格法是在漂移的形式EZ(x)=m(x)和非平稳随机函数Z(x)的协方差已知的情况下,一种考虑到有漂移的无偏线性估计量的空间统计方法,其模型可以表示为6.3 空间局部估计)()()(sssZ(6.37) 4、指示克立格模型v 指示克立格法的模型可表示为v 其中,I(s)是一个二进制变量。应用二进制变量后,指示克立格法的预测精度将超过普通克立格法。6.3 空间局部估计)(
42、)(ssI(6.38) 5、析取克立格模型v 析取克立格法的模型表达为v 将指示克立格法的指示函数进行一般化处理便得到析取克立格法的指示函数表达式 6.3 空间局部估计)()(1ssZf(6.39) niiisZfsZg10)()((6.41) 6、协同克立格模型v 普通协同克立格法的模型下式所示v 协同克立格法应用过程中引用了协同变量,以求预测的结果更好。6.3 空间局部估计)()()()(222111ssZssZ(6.42) 四、克立格模型应用条件v 这是一个二阶多项式趋势面方程,由空间坐标(x, y)经线性回归分析获得。如果趋势方程中的回归系数是未知的,便形成了泛克立格模型;如果在任何时
43、候趋势是已知的,会形成简单克立格模型;基于多个变量的克立格模型便形成了协同克立格模型;如果在协同克立格模型中使用的是未经任何变换的Z(s),便形成了概率克立格模型。6.3 空间局部估计XYYXYXs22)((6.44) n 地理学中可能遇到的问题:n了解天津市空气质量宏观分布n天津市空气质量监测点n 了解我国某个地区的气候状况n气象站分布温度降水n某观测站因意外存在缺测、漏测n 解决问题的难点:n到研究区每个点进行观测是非常困难的时间、人力或财力都不允许。空间插值导言空间插值导言vGIS不仅对实际可视的地面对象进行计算,还可以对实际上无法显示,但是可以用数值表示并可视化,称为统计面。v构建统计
44、面实际上和地形分析方法类似,只是要求输入的数据为点数据样本。v由于点数据无法形成一个面,因此需要对点与点之间的空白区域进行估计,以构成一个完整的面,这个构成,成为空间插值。v如何生成表面?v如何才能获得尽可能精确的表面?v如何评价和比较分析的结果?空间插值要解决的问题空间插值要解决的问题一、空间插值的概念一、空间插值的概念 空间插值:用已知点的数值来空间插值:用已知点的数值来估算其他点的数值的过程。估算其他点的数值的过程。 内插内插:在已观测点的区域内估算未在已观测点的区域内估算未观测点的数据的过程;观测点的数据的过程; 外推外推:在已观测点的区域外估算未在已观测点的区域外估算未观测点的数据的
45、过程。观测点的数据的过程。预测预测 通过已知的空间数据,找到一个通过已知的空间数据,找到一个函数关系式,使关系式最好得逼函数关系式,使关系式最好得逼近这些已知的空间数据,并能够近这些已知的空间数据,并能够根据该函数关系式,推求出区域根据该函数关系式,推求出区域范围内其他任意点或多边形分区范围内其他任意点或多边形分区范围的值。范围的值。 空间插值的结果是形成栅格,因此空间插值也可以理解为将点状矢量数据转化为栅格数据的过程。也是将点数据转换为面数据的一种方法。012345678901234567890123456701234567将空间上离散点的测量数据转换为连续的曲面数据,即填补样本点之间的数据
46、空白,以便与其它空间现象的分布进行建模研究。一、空间插值的概念一、空间插值的概念012345678901234567已知数据函数关系式未知数据从存在的观测数据中找到一个函数关系式,使该关系式最好的逼近这些已知的空间数据,并能根据函数关系式推求出区域范围内其它任意点的值。v距离衰减效应空间位置上越靠近的点,越可能具有相似的观察值;而距离越远的点,其特征值相似的可能性越小。vTobler(1970)”地理学第一定律”描述了这样的性质:所有的事物或现象在空间上都是有联系的,但相距近的事物或现象之间的联系一般较相距远的事物或现象间的联系要紧密。v二、空间插值的理论假设二、空间插值的理论假设v缺值估计缺
47、值估计 如何在没有测点的地区得到我们需要的数据? 测点自然或人为的原因,缺少某天或某个时间段的数据。 v内插等值线内插等值线 形象直观的显示空间数据分布 平面制图v数据格网化数据格网化 以不规则点图元组织的Z变量的数据,并不适合于图形显示,也不适于进行分析。多数空间分析要求将Z值转换成一个规则间距空间格网,或者转换成不规则三角形网。 规则格网数据更好的显示空间数据连续分布三、空间插值意义三、空间插值意义 二、空间插值的类型1. 整体插值和局部插值;2. 精确插值和近似插值。3. 确定性插值和地统计插值;v整体插值:用研究区所有采样点数据进行全区特征拟合。在整个区域用一个数学函数表达地形曲面,采
48、用全部控制点计算未知点数据。v整个区域的数据都会影响单个插值点,单个数据点变量值的增加、减少或者删除,都对整个区域有影响。v典型例子是:全局趋势面分析 、回归模型、Fourier Series(周期序列)1、整体插值和局部插值、整体插值和局部插值 局部内插法只使用邻近的数据点(样本控制点)来估计未知点的值,步骤如下:定义一个邻域或搜索范围;搜索落在此邻域范围的数据点;选择能表达这有限个点空间变化的数学函数;为未知的数据点赋值。 将复杂的地形地貌分解成一系列的局部单元,在这些局部单元内部地形曲面具有单一的结构,由于范围的缩小和曲面形态的简化,用简单曲面即可描述地形曲面。 局部内插方法:泰森多边形
49、(Voronoi边形、边界内插)样条函数插值法反距离权重内插Kriging插值(空间自由协方差最佳内插)密度估算单个数据点的改变只影响其周围有限的数据点。 局部内插法局部内插法v 整体插值方法将小尺度的、局部的变化看作随机和非结构性噪声,从而丢失了这一部分信息。局部插值方法恰好能弥补整体插值方法的缺陷。v 整体插值方法通常不直接用于空间插值,而是用来检测总趋势和不同于总趋势的最大偏离部分,即剩余部分,在去除了宏观趋势后,可用剩余残差来进行局部插值。整体插值注意的问题整体插值注意的问题v精确插值:产生通过所有观测点的曲面。精确插值:产生通过所有观测点的曲面。 在精确插值中,插值点落在观测点上,内
50、插值等于估计值。v近似插值:插值产生的曲面不通过所有观测近似插值:插值产生的曲面不通过所有观测点。点。 当数据存在不确定性时,应该使用近似插值,由于估计值替代了已知变量值,近似插值可以平滑采样误差。2、精确插值和非精确(近似)插值、精确插值和非精确(近似)插值v确定性方法确定性方法 基于未知点周围点的值和特定的数学公式,来直接产生平滑的曲面;3、确定性方法和地统计(随机性)方、确定性方法和地统计(随机性)方法法v基于自相关性 (测量点的统计关系),根据测量数据的统计特征产生曲面;v由于建立在统计学的基础上,因此不仅可以产生预测曲面,而且可以产生误差和不确定性曲面,用来评估预测结果的好坏 多种