1、单元单元27 空间数据地统计分析空间数据地统计分析负责院校: 天津石油职业技术学院 基本概念 空间统计分析主要用于空间数据的分类与综合评价,涉及空间和非空间数据的处理和统计计算。 具体包括“空间数据的统计分析”及“数据的空间统计分析”,前者着重于空间物体和现象的非空间特性的统计分析,后者直接从空间物体的空间位置、联系等方面出发,研究既具有随机性又具有结构性,或具有空间相关性和依赖性的自然现象。基本统计量基本统计量探索性数据分析探索性数据分析分级统计分析分级统计分析 空间插值空间插值基本统计量 统计量反映了数据集的范围、集中情况、离散程度、空间分布等特征,对进一步的数据分析起着铺垫作用基本统计量
2、基本统计量探索性数据分析探索性数据分析分级统计分析分级统计分析 空间插值空间插值 数据分析包括探索阶段和证实阶段。 探索性数据分析首先分离出数据的模式和特点,再根据数据特点选择合适的模型。可用来揭示数据对于常见模型的意想不到的偏离。探索阶段基本分析工具基本分析工具1. 直方图直方图 2. Voronoi地图地图 3. QQPlot分布图分布图4. 趋势分析趋势分析 5. 方差变异分析方差变异分析1.直方图直方图 直方图指对采样数据按一定的分级方案(等间隔分级、标准差分,等等)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。直方图示例2.Voronoi
3、地图 Voronoi地图是由在样点周围形成的一系列多边形组成的。某一样点的Voronoi多边形按下述方法生成:多边形内任何位置距这一样点的距离都比该多边形到其它样点的距离要将要近。Voronoi地图示例3.QQPlot分布图分布图 QQ图提供了另外一种度量数据正态分布的方法,利用QQ图,可以将现有数据的分布与标准正态分布对比,如果数据越接近一条直线,则越接近于服从正态分布。QQ 图可分为以下两种: 1.正态QQPlot(Normal QQPlot)分布图 2.普通QQPlot(General QQPlot)分布图 正态QQPlot图普通QQPlot图4.趋势分析趋势分析 空间趋势反映了空间物体
4、在空间区域上变化的主体特征,它主要揭示了空间物体的总体规律,而忽略局部的变异。趋势面分析是根据空间抽样数据,拟合一个数学曲面,用该数学曲面来反映空间分布的变化情况。趋势分析操作对话框5.方差变异分析方差变异分析1)半变异协方差函数云表示的是数据集中所有样点对的理论半变异值和协方差,并把它们用两点间距离的函数来表示,用此函数作图来表示。协方差变异分析操作对话框 2)正交协方差函数云表示的是两个数据集中所有样点对的理论正交协方差,并把它们用两点间距离的函数来表示。正交方差变异分析操作对话框检验数据分布检验数据分布 在空间统计的分析中,许多统计分析模型,如地统计分析,都是建立在平稳假设的基础上,这种
5、假设在一定程度上要求所有数据值具有相同的变异性。因此,在进行地统计分析前,检验数据分布特征,了解和认识数据具有非常重要的意义。 数据的检验可以通过直方图和正态QQPlot分布图完成。如果数据服从正态分布,数据的直方图应该呈钟形曲线,在正态QQPlot图中,数据的分布近似成为一条直线。寻找数据离群值寻找数据离群值 数据离群值分为全局离群值和局部离群值两大类。全局离群值是指对于数据集中所有点来讲,具有很高或很低的值的观测样点。局部离群值值对于整个数据集来讲,观测样点的值处于正常范围,但与其相邻测量点比较,它又偏高或偏低。-直方图查找离群值 离群值在直方图上表现为孤立存在或被一群显著不同的值包围,直
6、方图上最右边被选中的一个柱状条即是该数据的离群值,相应地,数据点层面上对应的样点也被刷光。但需注意的是,在直方图中孤立存在或被一群显著不同的值包围的样点不一定是离群值。 离群值的直方图查找和图面显示-半变异/协方差函数云识别离群值 如果数据集中有一个异常高值的离群值,则与这个离群值形成的样点对,无论距离远近,在半变异/协方差函数云图中都具有很高的值。如下图所示,这些点可大致分为上下两层,对于上层的点,无论位于横坐标的左端或右端(即无论距离远近)都具有较高的值。刷光上层的一些点,右图是对应刷光的样点对。可以看到,这些高值都是由同一个离群值的样点对引起的,因此,需要对该点进行剔除或改正。离群值的半
7、变异/协方差函数云查找和图面显示-Voronoi图查找局部离群值用聚类和熵的方法生成的Voronoi图可用来帮助识别可能的离群值。熵值是量度相邻单元相异性的指标。通常,距离近的事物比距离远的事物具有更大的相似性。因此,局部离群值可以通过高熵值的区域识别出来。同样的原理,聚类方法也可将那些与它们周围单元不相同的单元识别出来。离群值的Voronoi图查找全局趋势分析全局趋势分析 空间趋势反映了空间物体在空间区域上变化的主体特征,它主要揭示了空间物体的总体规律,而忽略局部的变异。趋势面分析是根据空间抽样数据,拟合一个数学曲面,用该数学曲面来反映空间分布的变化情况。 对比分析可以发现,左图显示采样数据
8、在东西方向和南北方向具有微弱的U型趋势;右图显示采样数据在东南-西北方向具有明显的U型趋势,而在南北方向基本不具有任何趋势。全局趋势分析对比图 趋势分析过程中,透视面的选择应尽可能采样数据在透视面上的投影点分布比较集中,通过投影点拟合的趋势方程才具有代表性,才能有效反映采样数据集全局趋势。左图反映的趋势显然要比右图要更为准确。不同透视面选择的全局趋势分析对比图空间自相关及方向变异 左图所示,jsJDP2中 GDP采样值在空间基本不具有空间相关性,虽然在左侧有一个明显的突变局势,但它反映的采样点(右图中线段相连接的数据点)的连线距离过于短小,不具有实际意义。 空间自相关及方向变异分析和图面显示空
9、间自相关及方向变异 空间相关性也可能仅仅与两点间距离有关,这时称为各项同性。在实际应用中,各项异性现象更为普遍,也就是说,当考虑方向影响时,有可能在某个方向距离更远的事物具有更大的相似性,这种现象在半变异和协方差分析中成为方向效应。 空间自相关的各项同性(a)和各项异性(b)ab多数据集协变分析 下图是某地区GDP与人口的正交协方差云图。从图中可以看出,该地区人口数量和GDP的交叉相关性似乎并不对称,具有明显的西北-东南方向性。 多数据集协变分析基本统计量基本统计量探索性数据分析探索性数据分析分级统计分析分级统计分析 空间插值空间插值分级统计分析 数据分级根据一定的方法或标准把数据分成不同的级
10、别,也就是把一个数据集划分成不同的子集,在此过程中,还可设置分级精度和分级数目等。数据分级之后,仅使原来的数据重新归类,数据的属性没有发生改变,研究人员可以根据分级后的数据进行下一步的应用分析。自定义分级模式分级等间距分级分位数分级等面积分级标准差分级自然裂点法其它分级方法有系统的不等间距分级面积正态分布分级嵌套平均值分级分级方法的类型等间距分级示意图分位数分级示意图标准差分级示意图自然裂点法分级示意图基本统计量基本统计量探索性数据分析探索性数据分析分级统计分析分级统计分析 空间插值空间插值空间数据插值空间数据插值1. 反距离加权插值2. 全局多项式插值3. 局部多项式插值4. 径向基函数插值
11、反距离加权插值反距离加权插值(IDW Inverse Distance Weighted) 反距离权插值法是基于相近相似的原理:即两个物体离得近,它们的性质就越相似,反之,离得越远则相似性越小。它以插值点与样本点间的距离为权重进行加权平均,离插值点越近的样本点赋予的权重越大。反距离权插值得到的表面图全局多项式插值全局多项式插值 整体插值方用研究区所有采样点的数据用一个多项式进行全区特征拟合。全局多项式插值法适用的情况有:1.当一个研究区域的表面变化平缓。2.检验长期变化的、全局性趋势的影响时一般采用全局多项式插值法。 全局多项式插值得到的表面图局部多项式插值 局部多项式插值则采用多个多项式,每个多项式都处在特定重叠的邻近区域内。局部多项式插值法产生的表面更多地用来解释局部变异。 局部多项式插值得到的表面图径向基函数插值 径向基函数插值法包括一系列精确的插值方法,所谓精确的插值方法就是指表面必须经过每一个已知样点。径向基函数包括五种不同的基本函数:平面样条函数,张力样条函数,规则样条函数,高次曲面函数和反高次曲面样条函数。径向基函数插值得到的表面图