1、地理学第一定律地理学第一定律 世界上万千事物的状态都可以由一个三维的空间坐世界上万千事物的状态都可以由一个三维的空间坐标系与一个一维的时间坐标系来唯一刻画。时间或空间标系与一个一维的时间坐标系来唯一刻画。时间或空间上距离相近的两个事物的状态是相互关联的,即不能被上距离相近的两个事物的状态是相互关联的,即不能被认为是相互独立的,且两事物越是接近,它们状态的相认为是相互独立的,且两事物越是接近,它们状态的相关性越强。当两点距离为零关性越强。当两点距离为零(实则是同一个体实则是同一个体),它们将,它们将完全相关。越是相距遥远的事物相关性越弱,当两事物完全相关。越是相距遥远的事物相关性越弱,当两事物之
2、间距离为无穷远,可近似地认为两者完全不相关。之间距离为无穷远,可近似地认为两者完全不相关。概述概述空间计量经济学空间计量经济学(spatial econometrics)空间计量经济学作为现代微观计量经济学空间计量经济学作为现代微观计量经济学(micro-econometrics)的一个分支,是旨在为的一个分支,是旨在为处理截面数据或面板数据中的空间效应处理截面数据或面板数据中的空间效应(spatial effect),空间相关性,空间相关性(spatial dependence)与与空间异质性空间异质性(spatial heterogeneity)发展专门的发展专门的建模、估计与统计检验方法
3、。建模、估计与统计检验方法。一、概述一、概述概述概述 在时间序列分析中,时间自回归过程将在时间序列分析中,时间自回归过程将时刻时刻t的反应变量与过去时刻的变量相联系,的反应变量与过去时刻的变量相联系,表示一时刻所发生的事件受过去时间发生表示一时刻所发生的事件受过去时间发生事件结果的影响。如:事件结果的影响。如:概述概述空间相关性是指一地所发生的事件,行为空间相关性是指一地所发生的事件,行为与现象,会直接或间接影响到另一地发生与现象,会直接或间接影响到另一地发生的事件行为和现象。因此某一处的观测与的事件行为和现象。因此某一处的观测与其他各地观测之间存在着函数关系。其一其他各地观测之间存在着函数关
4、系。其一般表达为般表达为空间相关性的根源空间相关性的根源 1.观测数据地理位置接近(geographical proximity)由于地理位置的接近而导致的空间相关性是空间相关性最初始的定义,与地理学第一定律吻合。这种相关性是环境,地质等学科中的普遍现象。空间相关来源空间相关来源 空间相关来源空间相关来源2.截面上个体间互相竞争(competition)和合作 最典型的例子是在一个寡头竞争的市场中,厂商对自己产品定价时将同时对市场上其他厂商的价格作出反应,最后决定的价格将是博弈的均衡点。3.模仿行为(copy cat)在一群体中,个体会重复或模仿一个或几个特定个体的行为。例如在班级中中游成绩的
5、学生会以成绩优秀的学生为榜样,竞争性体育比赛中,选手会以领先选手为心中目标,在以上这些情况下,如果不考虑空间相关性,所建立的模型会和真实模型相差甚远。空间相关来源空间相关来源4.溢出效应(spillover effect)溢出效应是指经济活动和过程中的外部性对未参与经济活动和过程其中的周围个体的影响。散发有毒气体的植物会对周围的植物产生有害的影响,屋主拥有一座漂亮花园也显然对周围邻居有正效应。同样不断加强的贸易往来所带来的经济利益对地区性国家多边联盟的形成具有正的溢出效应。空间相关来源空间相关来源5.测量误差 A,B,C三处的观测本来是相互独立的,但是研究者由于无法准确识别A,B和B,C相邻的
6、边界,而将整个区域分成两个部分I和II,在图中用两中颜色表示。显然,由于I和II共享B,所以有理由相信,I和II上的观测是空间相关的。空间相关来源空间相关来源 假设随机变量 ,和 互相独立,当 时,可以证明 不为零。我们把这种空间相关性的来源称为测量性误差。这一来源说明,当我们处理带有空间特性的数据时,无论经济理论是否明确显示空间相关性,我们都应该在设定模型形式时候对空间相关性给予足够重视和相应考虑。测量误差测量误差空间统计学VS空间计量经济学 首先首先,空间统计学的理论是空间计量经济学发展的基,空间统计学的理论是空间计量经济学发展的基础。正如计量经济学其他分支的发展都广泛借助统计学础。正如计
7、量经济学其他分支的发展都广泛借助统计学的理论,空间计量经济学也尽可能吸收一切可以利用的的理论,空间计量经济学也尽可能吸收一切可以利用的现存有关空间统计的理论。现存有关空间统计的理论。其次,统计学的应用范围不仅限于经济学一门学科。统计学的应用范围不仅限于经济学一门学科。某一空间统计学理论最初就是为处理经济学中的空间效某一空间统计学理论最初就是为处理经济学中的空间效应而提出,之后完全可能被应用到除经济学外的其他学应而提出,之后完全可能被应用到除经济学外的其他学科。空间计量经济学补充和扩展了空间统计学。科。空间计量经济学补充和扩展了空间统计学。概述概述 最后最后,正如,正如Anselin(1988)
8、所认为,空间统计所认为,空间统计学是以数据为出发点的学是以数据为出发点的(data-driven),而空间计,而空间计量经济学是以模型为出发点的量经济学是以模型为出发点的(model-driven)。这说明,由经济学问题建立合适的刻画相关性的这说明,由经济学问题建立合适的刻画相关性的计量模型,并发展相关的估计,假设检验,预测计量模型,并发展相关的估计,假设检验,预测方法才是空间计量经济学的主要任务。方法才是空间计量经济学的主要任务。概述概述空间权重矩阵空间权重矩阵 计量经济学经常用线性模型来近似非线性模型,即可将 近似写成记 矩阵 的元素为 ,它的对角元素都为零。二、空间自相关二、空间自相关
9、一般我们无法利用容量为 的样本去估计 个参数。为了确保模型参数可识别,我们需要对 的形式加以限制。最常用的限制方式之一就是假设 其中 称为空间权重矩阵(spatial weighting matrix),它刻画的是截面上个体之间空间相关的结构,是一个无量纲的矩阵。称为是空间自回归系数,表示了空间相关性在给定空间结构下的方向和强弱。空间自相关空间自相关二元相关(0-1相关)例例1.1.1.在地图上的在地图上的 个子区域中,如果个子区域中,如果 和和 具有相具有相邻的边界邻的边界(boundary),则定义,则定义 ,否,否则则 。空间自相关空间自相关,1n ijW,0n ijW 以上定义的空间权
10、重矩阵有如下两大缺点以上定义的空间权重矩阵有如下两大缺点:(1)按以上定义,空间权按以上定义,空间权重矩阵总是一个对称阵,这显然是不符合有些情况的,例如现实中重矩阵总是一个对称阵,这显然是不符合有些情况的,例如现实中存在作用是单向或非对称双向的情形存在作用是单向或非对称双向的情形(模仿效应模仿效应),(2)0-1元素的设元素的设置无法区分各邻居空间作用的强弱。置无法区分各邻居空间作用的强弱。空间权重矩阵空间权重矩阵011100101000110011100010001101001010i jW 克服以上两个缺点的办法之一是,定义克服以上两个缺点的办法之一是,定义 其中其中 分子可以理解成是分子
11、可以理解成是 和和 的边界相同的边界相同部分的长度,分母是部分的长度,分母是 与其他相邻接的个体与其他相邻接的个体边界的总长。根据这一定义所得的权重矩阵边界的总长。根据这一定义所得的权重矩阵如下所示:如下所示:空间权重矩阵空间权重矩阵,1n ijn ijnn ijjWwW 以上定义的权重矩阵的合理性在于,如果以上定义的权重矩阵的合理性在于,如果j和和i同时和同时和k相邻,则由于相邻,则由于j与与k和和i与与k相邻的边界长度不同,相邻的边界长度不同,j和和k对对i的空间作用分别不同,正比于它们与的空间作用分别不同,正比于它们与i相接的边界的长相接的边界的长度。度。空间权重矩阵空间权重矩阵10 1
12、/3 1/3 1/3 001/20 1/2 0001/4 1/400 1/4 1/4/1/2000 1/2000 1/3 1/3 0 1/300 1/2 0 1/20nijijijjw WW注意:对于模型而言,权重矩阵W的元素是非随机的、外生的。基于一个距离衰减函数、社会网络结构、经济距离、k个最邻近、经验流量矩阵等也可以确定空间权重,尽管这些选择可能间接表明空间权重的确定是相当任意的。附附1.1.基于距离的空间权值矩阵基于距离的空间权值矩阵 根据距离标准,根据距离标准,为:为:基于距离的空间权值矩阵(基于距离的空间权值矩阵(Distance Based Spatial Weights)方法是
13、假定空间相互作用的强度是决定于地区)方法是假定空间相互作用的强度是决定于地区间的质心距离或者区域行政中心所在地之间的距离,是一间的质心距离或者区域行政中心所在地之间的距离,是一种在实践应用中常用的空间权值矩阵。种在实践应用中常用的空间权值矩阵。ijW不相邻);和区域之外(即区域在距离和区域当区域;相邻)和区域之内(即区域在距离和区域当区域jidjijidjidWij01)(在这种情况下,不同的权值指标随距离在这种情况下,不同的权值指标随距离dij的定义而变化,的定义而变化,其取值取决于选定的函数形式(如距离的倒数或倒数的平其取值取决于选定的函数形式(如距离的倒数或倒数的平方,以及欧氏距离等)。
14、方,以及欧氏距离等)。当然,还需要定义一个门槛距离,超过了某给定的门槛距当然,还需要定义一个门槛距离,超过了某给定的门槛距离则区域间的相互作用可以忽略不计。离则区域间的相互作用可以忽略不计。附附2.2.经济社会流量空间权值矩阵经济社会流量空间权值矩阵 除了使用真实的地理坐标计算地理距离外,还有除了使用真实的地理坐标计算地理距离外,还有包括经济和社会因素的更加复杂的权值矩阵设定包括经济和社会因素的更加复杂的权值矩阵设定方法。方法。比如,根据区域间交通运输流、通讯量、比如,根据区域间交通运输流、通讯量、GDP总总额、贸易流动、资本流动、人口迁移、劳动力流额、贸易流动、资本流动、人口迁移、劳动力流等
15、确定空间权值,计算各个地区任何两个变量之等确定空间权值,计算各个地区任何两个变量之间的距离。间的距离。空间权值矩阵的选择空间权值矩阵的选择 尽管二进制的空间邻近权值矩阵并非适用于所有的空间计尽管二进制的空间邻近权值矩阵并非适用于所有的空间计量经济模型,但是,处于某些情况下的实用性,空间统计量经济模型,但是,处于某些情况下的实用性,空间统计学家在构建空间计量模型时的首选就是从二进制的邻近矩学家在构建空间计量模型时的首选就是从二进制的邻近矩阵开始的。阵开始的。一般是先从空间邻近的最基本二进制矩阵开始,逐步选择一般是先从空间邻近的最基本二进制矩阵开始,逐步选择确定空间权值矩阵。确定空间权值矩阵。关于
16、各种权值矩阵的选择,没有现成的理论根据,一般可关于各种权值矩阵的选择,没有现成的理论根据,一般可考虑空间计量模型对各种空间权值矩阵的适用程度,检验考虑空间计量模型对各种空间权值矩阵的适用程度,检验估计结果对权值矩阵的敏感性,最终的依据实际上就是结估计结果对权值矩阵的敏感性,最终的依据实际上就是结果的客观性和科学性。果的客观性和科学性。Anselin(1999,2003)研制开发的空间统计分析软)研制开发的空间统计分析软件件GeoDa095i可以直接生成邻近矩阵来测算并确定地区之可以直接生成邻近矩阵来测算并确定地区之间的空间效应。间的空间效应。空间滞后算子 定义定义 的空间滞后的空间滞后 (列向
17、量)为(列向量)为 的第的第i行是行是 ,这正是,这正是i所有邻居所有邻居的加权平均的加权平均,赋予邻居的权为赋予邻居的权为 。有时为了更加突有时为了更加突出加权平均的含义,我们可以令的每一行权数之和为出加权平均的含义,我们可以令的每一行权数之和为1。空间滞后算子空间滞后算子地区YWAWBWcWDWEWF空间滞后算子A1200.50.30.50022.3B150.300.300023.5C350.30.5000.30.518.8D170.30000.3020E28000.30.500.524F20000.300.3031.5为什么进行归一化处理?归一化处理(行和单位化)将原来空间矩阵的每一个归
18、一化处理(行和单位化)将原来空间矩阵的每一个元素分别除以所在行的元素之和,这使得元素分别除以所在行的元素之和,这使得 变得不再具有变得不再具有量纲。由于量纲。由于 将变得与将变得与 具有相同的量纲,空间自回具有相同的量纲,空间自回归系数因此具有更加清晰准确的含义,它可以被解释成空归系数因此具有更加清晰准确的含义,它可以被解释成空间相关的方向与大小,且不同模型之间还可以进行直接的间相关的方向与大小,且不同模型之间还可以进行直接的比较比较。想一想想一想数据的空间自相关 在统计学中,我们用样本相关系数说明两个变量之间的相关:22()()()()iiiixxyyrxxyy全局空间自相关指标 1.Mor
19、an指数(Morans I)W是二进制权数。111122111112211()()()()()()(;)nnnnijijijijijijnnnnnijiijijiijnniiiinWXXXXWXXXXIWXXSWXXXSXnn Morans I的取值一般为-1,+1,解释同相关系数。正空间自相关:相似的观测值在空间集聚;负空间自相关:相似的观测值在空间分散;无空间自相关:观测值在空间分布上没有规律(完全随机)。2y地区YWAWBWcWDWEWFA12-9.101110082.3B15-6.110100036.8C3513.9110011194D17-4.110001016.6E286.9300
20、110148F20-1.10010101.14y Y Y 地区地区A A-108.84-108.84 55.05 55.05-126.35-126.35 36.91 36.91-62.86-62.86 9.70 9.70 B B-136.05-136.05 36.84 36.84-84.56-84.56 24.70 24.70-42.07-42.07 6.49 6.49 C C-317.45-317.45-84.56-84.56 194.04 194.04-56.70-56.70 96.53 96.53-14.91-14.91 D D-154.19-154.19 24.70 24.70-56.
21、70-56.70 16.56 16.56-28.21-28.21 4.35 4.35 E E-253.96-253.96-42.07-42.07 96.53 96.53-28.21-28.21 48.02 48.02-7.42-7.42 F F-181.40-181.40 6.49 6.49-14.91-14.91 4.35 4.35-7.42-7.42 1.14 1.14*Ayy*By y*Cyy*Dyy*Eyy*Fyy地地区区A A055.1-12636.9100B B-1360-85000C C-317-850096.5-14.91*AAWyy*BBWyy*CCWyy*DDWyy*EEW
22、yy*FFWyy6(607.6929.51 129.298.760.922.33)(82.336.8 194 16.648 1.14)166 719.220.712379 16I 2.Geary指数C GearyC相当于时间序列中的DW统计量,I相当于一阶自相关系数。DW2(1-)2112111(1)()12()nnijijijnnnijiijinwxxCIwxx 全局G统计量ijiiijiiijWX XGX X 局部空间自相关 空间联系的局部指标(Local indications of spatial association:LISA)描述该区域单元变量与周围区域单元的相似程度(即变量的集
23、聚程度),与全局空间相关指标成比例。包括局部Morans I、局部Gearys C和Moran散点图。11211()()()nniijjiijjiinniiiin XXWXXnxW xIXXxi1.Local Morans I2.Local G统计量ijiiijjW XGX3.Moran散点图Moran scatterplot(Morans I=0.511)Residential burglaries&vehicle thefts per 1,000 householdsWzz-3-2-10123-2-1012417465164948451144713122644258271528186219
24、10291135323432022304239972124413637314033323834 横坐标是变量数据z,纵坐标是变量空间滞后wz。全局Morans I相当于回归系数(z、WZ标准化后,就是相关系数)。四个象限:HH LH LL HL回归方程误差项的空间自相关诊断 对于回归模型iiiiyxuyxeyyx样本回归模型为检验误差项是否存在空间自相关的Moran统计量:112111()nnij ijijnnnijiijinW eeIWeW 为二进制权数。如果考虑到残差e0,这个公式与全面完全相同Moran I统计量的零分布在一定的正则性假定下,当空间自相关不存在时,。证明从略。Moran
25、I统计量统计量011nnijijSw 如果如果Morans I的正态统计量的的正态统计量的Z值绝对值值绝对值大于正态分布函数在大于正态分布函数在0.05(0.01)水平下)水平下的临界值的临界值1.65(1.96),表明在误差项空),表明在误差项空间分布上具有明显的相关关系。间分布上具有明显的相关关系。正(负)的空间相关代表相邻地区的类似正(负)的空间相关代表相邻地区的类似特征值出现集群(或分散)趋势。特征值出现集群(或分散)趋势。这时如果不考虑空间自相关问题,回归模这时如果不考虑空间自相关问题,回归模型的系数将是有偏的。型的系数将是有偏的。地区XY预测 Y残差ee2A2129.592.415
26、.81B51518.65-3.6513.32C93530.734.2718.23D41715.631.371.88E82827.710.290.08F72024.69-4.6922合计61.32地地区区残差残差e eWAWBWcWDWEWFA A2.41 2.41 0 01 11 11 10 00 0B B-3.65-3.65 1 10 01 10 00 00 0C C4.27 4.27 1 11 10 00 01 11 1D D1.37 1.37 1 10 00 00 01 10 0E E0.29 0.29 0 00 01 11 10 01 1F F-4.69-4.69 0 00 01 10
27、 01 10 0地区eAeeBeeCeeDeeEeeFeA A5.78 5.78-8.80-8.80 10.29 10.29 3.30 3.30 0.70 0.70-11.30-11.30 B B-8.76-8.76 13.32 13.32-15.59-15.59-5.00-5.00-1.06-1.06 17.12 17.12 C C10.25 10.25-15.59-15.59 18.23 18.23 5.85 5.85 1.24 1.24-20.03-20.03 D D3.29 3.29-5.00-5.00 5.85 5.85 1.88 1.88 0.40 0.40-6.43-6.43 E
28、 E0.70 0.70-1.06-1.06 1.24 1.24 0.40 0.40 0.08 0.08-1.36-1.36 F F-11.26-11.26 17.12 17.12-20.03-20.03-6.43-6.43-1.36-1.36 22.00 22.00 地区WAeAeWBeBeWCeCeWDeDeWEeEeWFeFeA0.00.00 0-8.8.8 80 0 10.210.29 9 3.33.30 0 0.00.00 0 0.00 0.00 B-8.8.7 76 6 0.00 0.00-1 15.5.5 59 9 0.00.00 0 0.00.00 0 0.00 0.00 C10
29、.10.2 25 5-1 15.5.5 59 9 0.00 0.00 0.00.00 0 1.21.24 4-2 20.0.0 03 3 其Z值为1.55,不能拒绝0假设(即误差项存在空间自相关的证据不足)(4.7824.3824.083.70.2821.39)661.32 160.374Moran sI 也可以采用也可以采用Gearys C的值进行检验。可的值进行检验。可以证明,以证明,C总是取正值,取值范围一般介于总是取正值,取值范围一般介于0-2之间。当之间。当Gearys C的值接近的值接近1时,表示不存时,表示不存在空间自相关,观测值或扰动项在空间上呈现在空间自相关,观测值或扰动项在
30、空间上呈现随机分布;当随机分布;当Gearys C的值接近的值接近0时,表示时,表示存在正的空间自相关,相似的观测值或扰动项存在正的空间自相关,相似的观测值或扰动项在空间上呈现集聚;当在空间上呈现集聚;当Gearys C的值接近的值接近2时,表示存在负的空间自相关,相异的观测值时,表示存在负的空间自相关,相异的观测值或扰动项在空间上呈现集聚。或扰动项在空间上呈现集聚。Gearys C1-MoranIGearys CStata算例某城市某城市49个街区:个街区:Id-地区编号;地区编号;hoval房屋价值(千万);房屋价值(千万);income-家庭收入(千家庭收入(千/户);户);crime盗
31、窃案件(件盗窃案件(件/千户);千户);X、y街区重心的横、纵坐标。数据如下:街区重心的横、纵坐标。数据如下:idhovalincomecrimexy144.56721.23218.801758.3113.996233.24.47732.387768.44413.724337.12511.33738.425868.41713.3724758.4380.1782698.1313.292580.46719.53115.725988.8314.3694876.118.32416.530536.42411.2144944.33325.87316.491897.07711.2941.数据 打开Stata
32、11columbusdata.dta(坐标);Stata11columbusswm.dta(是否相邻);Stata11columbusdata.dta(变量数据)(变量数据)查看数据。2.计算权重(spatial weight matrix:spatwmat)计算权重矩阵:常用命令:.spatwmat using ColumbusSWM.dta,name(W)spatwmat:空间权重命令 using ColumbusSWM.dta:数据来源 name(W):空间权重命名为W。spatwmat using ColumbusSWM.dta,name(WW)standardize 行标准化。spa
33、twmat,name(WWW)xcoord(x)ycoord(y)band(0 3)binary 距离小于3为1,反之为0.spatwmat using ColumbusSWM.dta,name(WW)standardize eigenval(E)计算特征根矩阵(列向量)E.第二步:查看W:菜单模式或命令:.matrix list 矩阵名称矩阵名称3.度量全局空间相关统计量(Measures of global spatial autocorrelation:spatgsa)spatgsa hoval income crime,weights(W)moran geary 计算各变量Morans
34、 I,Gearys c及其单侧检验概率 .spatgsa hoval income crime,weights(W)moran geary twotail 计算各变量Morans I,Gearys c及其双侧检验概率4.度量局部空间相关统计量(Measures of local spatial autocorrelation:spatlsa).spatlsa crime,weights(W)moran go2 各区域与其它区域的moranI和G .spatlsa crime,weights(WW)moran graph(moran)symbol(n)画出图形。WW是行标准化的权重矩阵。spat
35、lsa crime,w(W)go2 graph(go2)map(ColumbusBoundary.dta)x(x)y(y)G的地图。5.根据距离计算空间自相关(Spatial correlogram:Spatcor).spatcorr crime,bands(0(1)5)xcoord(x)ycoord(y)距离从0到5,每一个单位分段,分别计算MoranI。.spatcorr crime,bands(0(1)5)xcoord(x)ycoord(y)cumulative 距离从0到5,每一个单位分段,累计计算MoranI.spatcorr crime,bands(0(1)5)xcoord(x)ycoord(y)graph 作图。6.回归方程存在空间自相关诊断(Diagnostic tests for spatial dependence in OLS regression:spatdiag)先进行OLS,然后诊断。第一步:regress crime hoval income 第二步:spatdiag,weights(W)空间回归命令.spatreg crime hoval income,weights(W)eigenval(E)model(lag).spatreg crime hoval income,weights(W)eigenval(E)model(error)