1、第十章第十章 地统计分析地统计分析主要内容主要内容?10.1 地统计基础?10.2探索性数据分析?10.3空间确定性插值?10.4地统计插值?10.5地统计图层管理?10.6练习10.1 地统计基础地统计基础?10.1.1基本原理?10.1.2克里格插值?10.1.3 ArcGIS地统计分析10.1.1基本原理基本原理?地统计(Geostatistics)又称地质统计,它是以区域化变量为基础,借助变异函数,研究既具有 随机性随机性又具有结构性,或空间相关性和依赖性又具有结构性,或空间相关性和依赖性 的自然现象的一门科学。凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关
2、的研究,并对这些数据进行最优无偏内插估计,或 模模拟这些数据的离散性、波动性拟这些数据的离散性、波动性 时,皆可应用地统计学的理论与方法。前提假设前提假设:?前提假设前提假设正态分布在获得数据后首先应对数据进行分析,若不符合正态分布的假设,应对数据进行变换,转为符合正态分布的形式,并尽量选取可逆的变换形式。平稳性1,均值平稳,即假设均值是不变的并且与位置无关。2,二阶平稳,是假设具有相同的距离和方向的任意两点的协方差是相同的,协方差只与这两点的值相关而与它们的位置无关。Z(xi)变异分析变异分析1.协方差函数协方差又称半方差,表示两随机变量之间的差异。在概率论中,随机变量X与Y的协方差定义为:
3、Cov(X,Y)?E(X?E(X)(Y?E(Y)借鉴上式,地统计学中的协方差函数可表示为:1C(h)?N(h)N(h)i?1?Z(x)?Z(x)Z(xiii?h)?Z(xi?h)变异分析变异分析2.半变异函数半变异函数又称半变差函数、半变异矩,是地统计分析的特有函数。区域化变量Z(x)在点x和x+h处的值Z(x)与Z(x+h)差的方差的一半称为区域化变量Z(x)的半变异函数,记为r(h),2r(h)称为变异函数。根据定义有:112r(x,h)?EZ(x)?Z(x?h)?EZ(x)?EZ(x?h)222区域化变量Z(x)满足二阶平稳假设,因此对于任意的h有:EZ(x?h)?EZ(x)12因此,半
4、变异函数可改写为:r(x,h)?EZ(x)?Z(x?h)2变异分析变异分析3.变异分析半变异值的变化随着距离的加大而增加,协方差随着距离的加大而减小。这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现,当两事物彼此距离较小时,它们应该是相似的,因此协方差值较大,而半变异值较小;反之,协方差值较小,而半变异值较大。r(h)c(h)变程(Range)块金(Nugget)偏基台值(Partial Sill)基台值(Sill)变程(Range)偏基台值(Partial Sill)基台值(Partial Sill)块金(Nugget)距离(h)距离(h)图10.1 半变异函数图图10.2 协方
5、差函数图空间估值:空间估值过程,一般为:首先是获取原始数据,检查、分析数据,(正态分布,趋势效应)然后选择合适的模型进行表面预测,(半变异模型,预测模型)最后检验模型是否合理或几种模型进行对比。(如图所示)数据显示数据检查12345模型拟合模型诊断模型比较图10.3 空间估值流程图克里格插值克里格插值克里格插值(Kriging)又称空间局部插值法,是以变异函数理论和结构分析为基础,在有限区域内对区域化变量进行无偏最优估计的一种方法,是地统计学的主要内容之一。插值方法插值方法插值方法按其实现的数学原理可以分为两类:一是确定性插值方法,另一类是地统计插值,也就是克里格插值。全局性插值:全局多项式插
6、值确定性插值局部性插值反距离权插值径向基插值局部多项式插值空间插值普通克里格插值简单克里格插值地统计插值泛克里格插值概率克里格插值析取克里格插值协同克里格插值图10.4 空间插值分类体系(数学原理)插值方法插值方法空间插值方法根据是否能保证创建的表面经过所有的采样点,又可以分为精确性插值和非精确性插值。反距离权插值精确性插值径向基插值空间插值全局多项式插值简单克里格插值非精确性插值局部多项式插值泛克里格插值克里格插值概率克里格插值析取克里格插值协同克里格插值普通克里格插值图10.5 空间插值分类体系(表面是否经过所有的采样点)ArcGIS地统计分析地统计分析?探索性数据分析探索性数据分析(Ex
7、plore Data)?数据分析工具可以让用户更全面地了解所使用的数据,以便于选取合适的参数及方法。如数据是否服从正态分布,是否存在某种趋势等.?地统计分析向导地统计分析向导(Geostatistical Wizard)?地统计分析模块提供了一系列利用已知样点进行内插生成研究对象表面图的内插技术。地统计分析向导通过完善的图形用户界面,引导用户逐步了解数据、选择内插模型、评估内插精度,完成表面预测(模拟)和误差建模。?生成数据子集生成数据子集(Create Subsets)?就是将原始数据分割成两部分,一部分用来空间结构建模及生成表面,另一部分用来比较和验证预测的质量10.2探索性数据分析探索性
8、数据分析10.2.1 数据分析工具10.2.2 检验数据分布10.2.3 寻找数据离群值10.2.4 全局趋势分析10.2.5 空间自相关及方向变异10.2.6 多数据集协变分析10.2.1 数据分析工具?直方图?Voronoi地图?QQPlot分布图?趋势分析?方差变异分析直方图直方图指对采样数据按一定的分级方案(等间隔分级、标准差分,等等)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。图10.7 直方图示例Voronoi地图Voronoi地图是由在样点周围形成的一系列多边形组成的。某一样点的Voronoi多边形按下述方法生成:多边形内任何位置距
9、这一样点的距离都比该多边形到其它样点的距离要将要近。图10.8 Voronoi地图示例QQPlot分布图QQ图提供了另外一种度量数据正态分布的方法,利用QQ图,可以将现有数据的分布与标准正态分布对比,如果数据越接近一条直线,则越接近于服从正态分布。QQ 图可分为以下两种:图10.9 正态QQPlot图图10.10 普通QQPlot图趋势分析空间趋势反映了空间物体在空间区域上变化的主体特征,它主要揭示了空间物体的总体规律,而忽略局部的变异。趋势面分析是根据空间抽样数据,拟合一个数学曲面,用该数学曲面来反映空间分布的变化情况。图10.11 趋势分析操作对话框方差变异分析1.半变异协方差函数云半变异
10、协方差函数云表示的是数据集中所有样点对的理论半变异值和协方差,并把它们用两点间距离的函数来表示,用此函数作图来表示。图10.12 协方差变异分析操作对话框方差变异分析2.正交协方差函数云正交协方差函数云表示的是两个数据集中所有样点对的理论正交协方差,并把它们用两点间距离的函数来表示。图10.13 正交方差变异分析操作对话框10.2.2 检验数据分布?在地统计分析中,克里格方法是建立在平稳假设的基础上,这种假设在一定程度上要求所有数据值具有相同的变异性。另外,一些克里格插值都假设数据服从正态分布克里格插值都假设数据服从正态分布。如果数据不服从正态分布,需要进行一定的数据变换,从而使其服从正态分布
11、。因此,检验数据分布特征,了解和认识数据具有非常重要的意义。10.2.3寻找数据离群值数据离群值分为全局离群值和局部离群值两大类。全局离群值是指对于数据集中所有点来讲,具有很高或很低的值的观测样点。局部离群值值对于整个数据集来讲,观测样点的值处于正常范围,但与其相邻测量点比较,它又偏高或偏低。用直方图查找离群值离群值在直方图上表现为孤立存在或被一群显著不同的值包围,直方图上最右边被选中的一个柱状条即是该数据的离群值,相应地,数据点层面上对应的样点也被刷光。但需注意的是,在直方图中孤立存在或被一群显著不同的值包围的样点不一定是离群值。图10.14 离群值的直方图查找和图面显示用半变异/协方差函数
12、云识别离群值如果数据集中有一个异常高值的离群值,则与这个离群值形成的样点对,无论距离远近,在半变异/协方差函数云图中都具有很高的值。如下图所示,这些点可大致分为上下两层,对于上层的点,无论位于横坐标的左端或右端(即无论距离远近)都具有较高的值。刷光上层的一些点,右图是对应刷光的样点对。可以看到,这些高值都是由同一个离群值的样点对引起的,因此,需要对该点进行剔除或改正。图10.15 离群值的半变异/协方差函数云查找和图面显示用Voronoi图查找局部离群值用聚类和熵的方法生成的Voronoi图可用来帮助识别可能的离群值。熵值是量度相邻单元相异性的指标。通常,距离近的事物比距离远的事物具有更大的相
13、似性。因此,局部离群值可以通过高熵值的区域识别出来。同样的原理,聚类方法也可将那些与它们周围单元不相同的单元识别出来。图10.16 离群值的Voronoi图查找10.2.4全局趋势分析对比分析可以发现,左图显示采样数据在东西方向和南北方向具有微弱的 U型趋势;右图显示采样数据在东南-西北方向具有明显的 U型趋势,而在南北方向基本不具有任何趋势。图10.17 全局趋势分析对比图全局趋势分析趋势分析过程中,透视面的选择应尽可能采样数据在透视面上的投影点分布比较集中,通过投影点拟合的趋势方程才具有代表性,才能有效反映采样数据集全局趋势。左图反映的趋势显然要比右图要更为准确。图10.18 不同透视面选
14、择的全局趋势分析对比图10.2.5空间自相关及方向变异如图所示,jsJDP2中 GDP采样值在空间基本不具有空间相关性,虽然在左侧有一个明显的突变局势,但它反映的采样点(右图中线段相连接的数据点)的连线距离过于短小,不具有实际意义。图10.19 空间自相关及方向变异分析和图面显示空间自相关及方向变异?空间相关性也可能仅仅与两点间距离有关,这时称为各项同性。在实际应用中,各项异性现象更为普遍,也就是说,当考虑方向影响时,有可能在某个方向距离更远的事物具有更大的相似性,这种现象在半变异和协方差分析中成为方向效应。ab图10.20 空间自相关的各项同性(a)和各项异性(b)10.2.6多数据集协变分
15、析?下图是某地区GDP与人口的正交协方差云图。从图中可以看出,该地区人口数量和GDP的交叉相关性似乎并不对称,具有明显的西北-东南方向性。图10.21 多数据集协变分析10.3空间确定性插值空间确定性插值10.3.1 反距离加权插值反距离权(IDW Inverse Distance Weighted)插值法是基于相近相似的原理:即两个物体离得近,它们的性质就越相似,反之,离得越远则相似性越小两个物体离得近,它们的性质就越相似,反之,离得越远则相似性越小。它以插值点与样本点间的距离为权重进行加权平均,离插值点越近的样本点赋予的权重越大。10.3.2 全局多项式插值整体插值方用研究区所有采样点的数
16、据用一个多项式进行全区特征拟合。全局多项式插值法适用的情况有:1.当一个研究区域的 表面变化平缓表面变化平缓。2.检验长期变化的、全局性趋势的影响全局性趋势的影响时一般采用全局多项式插值法。10.3.3 局部多项式插值局部多项式插值则采用多个多项式,每个多项式都处在特定重叠的邻近区域内。局部多项式插值法产生的表面更多地用来解释 局部变异局部变异。10.3.4 径向基函数插值径向基函数插值法包括一系列精确的插值方法,所谓精确的插值方法就是指表表面必须经过每一个已知样点面必须经过每一个已知样点。径向基函数包括五种不同的基本函数:平面样条函数,张力样条函数,规则样条函数,高次曲面函数和反高次曲面样条
17、函数。图10.24 局部多项式插值得到的表面图图10.23 全局多项式插值得到的表面图图10.25 径向基函数插值得10.4地统计插值地统计插值10.4.1 克里格插值基础10.4.2 普通克立格插值10.4.3 简单克立格插值10.4.4 范克立格插值10.4.5 指示克立格插值10.4.6 概率克立格插值10.4.7 析取克立格插值10.4.8 协同克里格插值克里格插值基础1.克里格方法概述克里格方法(Kriging)又称空间局部插值法,是以变异函数理论和结构分析为基础,在有限区域内对区域化变量进行无偏最优估计的一种方法,是地统计学的主要内容之一。其实质是利用区域化变量的原始数据和变异函数
18、的结构特点,对未知样点进行线性无偏、最优估计。无偏是指偏差的数学期望为0,最优是指估计值与实际值之差的平方和最小。与反距离权插值不同的是,克里格方法在赋权重时,不仅考虑距离与权重因素,而且通过变异函数和机构分析,考虑了已知样本点与未知样本点的空间方位关系。克里格插值基础2.克里格方法的具体步骤导入数据进行预测数据分析否计算克里格系数数据变换是 否 服 从正态分布是是否存在趋势否根据数据选择合适的方法计算样点间的距离矩阵计算样点间的属性方差拟合理论半变异函数图绘制经验半变异函数图是泛克里格方法绘制方差变异云图按组统计平均距离及对应的平均方差按距离分组图10.26 克里格方法流程图克里格插值基础3
19、.在克里格插值过程中,需注意以下几点:(1)数据应符合前提假设(2)数据应尽量充分,样本数尽量大于80,每一种距离间隔分类中的样本对数尽量多于10对(3)在具体建模过程中,很多参数是可调的,且每个参数对结果的影响不同。如:块金值:误差随块金值的增大而增大;基台值:对结果影响不大;变程:存在最佳变程值;拟合函数:存在最佳拟合函数(4)当数据足够多时,各种插值方法的效果相差不大。克里格插值基础4.克里格方法的分类目前,克里格方法主要有以下几种类型:普通克里格(Ordinary Kriging);简单克里格(Simple Kriging);泛克里格(Universal Kriging);协同克里格(
20、Co-Kriging);对数正态克里格(Logistic Normal Kriging);指示克里格(Indicator Kriging);概率克里格(Probability Kriging);析取克里格(Disjunctive Kriging)等。普通克里格插值?普通克里格(Ordinary Kriging)是区域化变量的线性估计,它假设数据变化成正态分布,认为区域化变量Z的期望值是未知的。插值过程类似于加权滑动平均,权重值的确定来自于空间数据分析。?ArcGIS中普通克里格插值包括 4部分功能:创建预测图(Prediction Map)、创建分位数图(Quantile Map)、创建概率图
21、(Probability Map)、创建标准误差预测图(Prediction Standard Error Map)。简单克里格插值简单克里格插值简单克里格是区域化变量的线性估计,它假设数据变化成正态分布,认为区域化变量 Z的期望值为已知的某一常数。ArcGIS中普通克里格插值包括 4部分功能:创建预测图(Prediction Map)、创建分位数图(Quantile Map)、创建概率图(Probability Map)、创建标准误差预测图(Prediction Standard Error Map)。泛克里格插值泛克里格插值泛克里格假设数据中 存在主导趋势存在主导趋势,且该趋势可以用一个确
22、定的函数或多项式来拟合。在进行泛克里格分析时,首先分析数据中存在的变化趋势,获得拟合模型;其次,对残差数据(即原始数据减去趋势数据)进行克里格分析;最后,将趋势面分析和残差分析的克里格结果加和,得到最终结果。由此可见,克里格方法明显优于趋势面分析,泛克里格的结果也要优于普通克里格的结果。?ArcGIS中普通克里格插值包括 4部分功能:创建预测图(Prediction Map)、创建分位数图(Quantile Map)、创建概率图(Probability Map)、创建标准误差预测图(Prediction Standard Error Map)。指示克里格插值指示克里格插值在很多情况下,并不需要
23、了解区域内每一个点的属性值,而只需了解属性值是否超过某一阈值,则可将原始数据转换为(0,1)值,选用指示克里格法(Indicator Kriging)进行分析。ArcGIS中普通克里格插值包括2部分功能:创建概率图(Probability Map)和创建标准误差指示图(Standard Error of Indicator Map)。析取克里格插值析取克里格插值如果原始数据不服从简单的分布(高斯或对数正态等),则可选用析取克里格法(Disjunctive Kriging),它可以提供非线性估值方法。ArcGIS中普通克里格插值包括 4部分功能:创建预测图(Prediction Map)、创建概
24、率图(Probability Map)、创建标准误差预测图(Prediction Standard Error Map)和创建标准误差指示图(Standard Error of Indicator Map)。协同克里格插值当同一空间位置样点的多个属性之间存在某个属性的空间分布与其它属性密切相关,且某些属性获得不易,而另一些属性则易于获取时,如果两种属性空间相关,可以考虑选用协同克里格法。协同克里格法把区域化变量的最佳估值方法从单一属性发展到二个以上的协同区域化属性。但它在计算中要用到两属性各自的半方差函数和交叉半方差函数,比较复杂。协同克里格插值预测图(Prediction Map)图10.47 协同克里格插值预测图