1、数据探测和稳健估计赵超英提 纲v 概述概述v 多余观测与可靠性多余观测与可靠性v 可靠性理论与数据探测法可靠性理论与数据探测法v 稳健估计稳健估计五、五、稳健估计稳健估计( (抗差估计抗差估计, Robust Estimation), Robust Estimation)1 1、问题的提出、问题的提出LS 是在偶然误差下最优的,不具有抗差性当存在粗差时,可以采用Baarda数据探测法剔除粗差,对单个粗差很有效。基于假设检验的方法。也可以采用验后方差分量估计的方法,还可以通过其他方式改变权的大小从而减弱含有粗差的观测值对结果的影响。 2 2、稳健估计原理、稳健估计原理稳健估计应满足的条件:稳健估
2、计应满足的条件:稳健估计 在存在粗差的情况下,通过选择适当的估计方法,使所估参数尽可能少地受到粗差的影响,得出接近正常数据分布下的最佳的估值稳健。a)在假定模型正确时,所估计的参数具有良好的性质,是接近最优的。b)在实际模型与假定模型差别较小时,其估值或统计方法所受的影响也较小;c)在实际模型与假设模型有严重偏离时,其估值的性能仍能“过得去”,不致使估值受到破坏性的影响。稳健估计与稳健估计与LSLS的区别:的区别: LS追求绝对意义上的最优;Robust追求抗差意义下的最优或接近最优,追求估值的抗差性和可靠性 薄克斯(G.E.P.Box)于1953年提出了稳健估计(Robust Estimat
3、ion)概念 1964年,胡倍尔(P.J.Huber)发表了“位置参数的稳健估计”,使稳健估计真正步入到研究与应用阶段 1968年,荷兰的巴尔达(W.Baarda)教授利用数理统计方法建立了测量粗差的“数据探测”(Data-Snooping)和可靠性理论 周江文(1989)、李德仁(1988)等系统研究了粗差统计学(Robust statistics),形成了具有特色的抗差最小二乘估计理论 1991年,杨元喜提出了相关观测估计方案,建立了相关观测抗差估计理论,进一步完善了抗差估计的理论与应用 3 3、稳健估计的发展历史、稳健估计的发展历史M估计广义的极大似然估计(重点)L估计排序统计量线性组合
4、估计R估计秩检验估计(列序统计量的秩)4 4、稳健估计的分类、稳健估计的分类1、M估计是一种广义的极大似然估计极大似然估计,又分为选权迭代法选权迭代法和P P范数最小范数最小法法两类,由于其易于实施,是目前应用最为广泛的一种稳健估计法 2、L估计是顺序统计量线性组合型估计类,它需将观测子样按其大小排列 3、R估计是指非参数型非参数型秩检验估计 半参数法=参数+非参数 稳健估计的抗差性主要研究当实际模型分布与理论模型分布有少许差异时,估计方法的性能受到的影响如何?或估计方法抵制这些影响的能力如何?抗差性的度量指标,有定性抗差性、影响函数和崩溃污染率 定义:是用来判断估计统计量对异常值敏感程度的指
5、标,反映了在不同位置上异常数据对估值所造成的相对影响的大小 ,IFIF越小,估值对异常越小,估值对异常值越不敏感!值越不敏感!观测值向量为 L,联合分布为F,异常观测引起的阶跃分布x污染分布为) 10( ,1xFF FXFXXFLIFx1lim,0描述了异常值对估计函数的影响,这就是影响函数的实际含义 nsFXFXXFLIF,该式描述了删除s个含粗差的数据,对估值的影响大小或敏感程度,即抗差性的一个量度 观测值向量为 L,联合分布为F,异常观测引起的阶跃分布x污染分布为) 10( ,1xFFX未知参数为则在分布F处,观测值L对泛函 的影响函数为X 最小二乘 残差平方和最小 大残差导致平方和迅速
6、增大,为了使 ,则估值必然要迁就大残差,导致整个估值受影响。即LS不具有抗差性。 当存在大残差时,用其他估计其他估计代替最小二乘minPVVTminPVVTHuber于1960年代提出了M M估计估计,即为极大似然估计极大似然估计。1 1、问题的提出、问题的提出2 2、极大似然估计、极大似然估计设有参数向量X,是未知的非随机变量,观测值为L,用于估计参数 X,由极大似然估计有niiXlf1max,lnniiXlf1min,ln其中f是观测值L的概率密度函数。HuberHuber(19641964) min,1niiXl0,1niiXlXXlXl,式中基于以上准则的参数估计,就是广义极大似然估计
7、,简称广义极大似然估计,简称M M估计估计3 3、M M估计(广义极大似然估计),估计(广义极大似然估计),HuberHuber(19641964) 选取不同的选取不同的 函数,可得到不同的函数,可得到不同的M M估计;估计;M M估计不是一个估计,而是一类估计。估计不是一个估计,而是一类估计。4 4、M M估计的原理估计的原理在测量平差中,观测量L的残差为V,权为P,且独立。M估计的函数 可取为 min,1niiXl0,1niiXlXXlXl,)(iv测量中的测量中的M M估计准则为:估计准则为: min1niiivp niiivp10 Xvvii 2iivv例:minmin12PVVvpT
8、niii一定要掌握一定要掌握等价权等价权的思想!的思想!1 1、选权迭代法原理、选权迭代法原理间接平差的误差方程式为PlXAV,iiiiplXav,M M估计准则:估计准则: niiivp10 011iiiniiiiniiiavpXvvpXvp niiiiiTivvvpa10 权因子,iiivvw令:等价权函数,iiiwpp 0VPAT0lPAXAPATTlPAAPAXTT1)(抗差最小二乘法抗差最小二乘法2 2、选权迭代法解算步骤、选权迭代法解算步骤1、建立数学模型PlXAV,2、按最小二乘法求解参数估值及其残差PlAPAAXTT1)1()(lXAV)1()1(3、求解观测值的等价权矩阵,迭
9、代计算,设定阈值,使满足 |)1()(kkXX4、最后结果lPAAPAXkTkTk)1(1)1()()(lXAVkk)()(v 该方法的关键是确定等价权确定等价权。选择不同的 Rou函数,就构成不同的权函数,通常权函数是一个在平差过程中随随改正数变化的量改正数变化的量,经过多次迭代,从而使含有粗差的异常观测的权函数为零(或接近于零)。v 这样一种通过在平差过程中的变权实现参数估计的稳健变权实现参数估计的稳健性性的方法,称之为选权迭代法。v 数学中的稳健估计,假定观测值是等权的,而在测量中引入权阵权阵的稳健估计理论由周江文教授提出,称之为等价权抗差估计。 2 2、选权迭代法解算步骤、选权迭代法解
10、算步骤 当所有改正数均在-c和c之间时,Huber估计就是经典的最小二乘估计。而当改正数大于c时,改正数越大,权越小,从而对参数估计的影响越小 权因子,iiivvw等价权函数,iiiwpp 1、Huber法 cvcvcvcvv22212 cvvccvvw12cC为常系数,通常可取 权因子,iiivvw等价权函数,iiiwpp 2、 Hampel法 cvabcaabcvbbcvcabcaabbvaavaavvv2211221212122222 cvcvbvbcvcabvavaavvw017 . 1a4 . 3b5 . 8c参数的取值一般为 将改正数分了四段!将改正数分了四段! 权因子,iiivv
11、w等价权函数,iiiwpp 3、丹麦法此法实质是淘汰法!此法实质是淘汰法! 2vvwv 权因子以幂函数为基本函数,有多种不同形式,其中Krarup等提出的权因子为 2212vaevvwKv 权因子,iiivvw等价权函数,iiiwpp 4、IGG法k相对 是一个很小的量IGG法是周江文在法是周江文在1989年提出年提出的一种抗差权函数构造方法!的一种抗差权函数构造方法! 5 . 25 . 25 . 15 . 122vdvvvvv 5 . 205 . 25 . 115 . 11vvkvvvwv 权因子,iiivvw等价权函数,iiiwpp 5、一次范数最小法(L估计)k相对 是一个很小的量v v
12、v vvw1 kvvw1 权因子,iiivvw等价权函数,iiiwpp 6、p范数最小法(Lp估计) pvv 20 , 10 ,12pkkvvwp7、相关等价权当观测值相关时,观测值的权阵为nnnnppppP1111当采用选权迭代法进行抗差估计时需要建立相关等价权,其权阵为nnnnppppP1111jjijjiiiiijijijiiiiivvvwvvvwwppwpp/ ),(/ ),(,与独立等价权相比,相关等价权的权函数构造更加复杂! IGG- 等价权函数(杨元喜,等价权函数(杨元喜,19941994)0/jjvu |,0|110020jjjjjijijijukkukkudukppp)/(|
13、)|(011kkukdjj平滑因子10jd0k1k可取1.01.5,可取2.53.0 8、验后方差估计法(李德仁,(李德仁,19841984)上述权因子或权函数多为经验法经验法所选取。由于改正数仅是真误差的可见部分,所以上述权函数均为顾及平差的几何条件均为顾及平差的几何条件。将粗差视为来自期望为零,方差很大的正态母体子样,通过最小二乘法的验后方差估计,求出该观测值的验后方差,再利用方差检验找出方差异常大(即含粗差)的观测值,然后根据经典的权与观测值方差成反比的定义给予它一个相应小的权进行下一步迭代计算便可逐步进行粗差定位设有多组观测,每组内为同精度观测,各观测不相关,第组,第 个观测值的权函数
14、为iijr为 F分布的检验统计量,为多余观测分量jiirijijijrijiiijFTvrFTpp, 1 ,220, 1 ,22022iijijT图6.9为模拟水准网,设为等权观测,7个观测高差配赋了随机误差,其中第六条路线的观测高差中附加了10mm,的粗差,试用上述选权迭代法进行计算,方 法高程改正数高程改正数H1H2H3给定值0 00 00LS-1.65-1.651.261.262.83L1.2-0.77-0.770.730.730.29L1-0.81-0.810.730.730.26Huber-0.31-0.310.920.920.49丹麦法丹麦法0.140.63-0.13各种平差方法高
15、程改正数比较方法v1v2v3v4v5v6v7给定误差0.640.73-0.84 -0.260.01-10.481.86LS-2.290.53-0.812.572.906.00-3.42L1.2-1.4100.07-0.031.499.42-1.42L1-1.4500.0301.539.41-1.39Huber-0.95 -0.200.53-0.231.239.68-1.42丹麦法-0.58 -0.100.980.390.4810.75-1.10各种平差方法高差改正数比较表可以看出,各种选权迭代法均比可以看出,各种选权迭代法均比LSLS具有较强的抗粗差性质具有较强的抗粗差性质! !参考文献(部分
16、)杨元喜. 抗差估计理论及其应用. 八一出版社 1993黄维彬. 近代平差理论及其应用.解放军出版社.1992李德仁,袁修孝.误差处理与可靠性理论. 武汉大学出版社. 2002周江文,欧吉坤,杨元喜等. 测量误差理论新探. 地震出版社.1999 周江文. 经典误差理论与抗差估计. 测绘学报,18(2),1989:115-120刘大杰,陶本藻. 实用测量数据处理方法. 测绘出版社,2000周秋生. 测量控制网优化设计.测绘出版社1992陶本藻. 测量数据统计分析. 测绘出版社1992陶本藻. 测量数据处理的统计理论和方法. 测绘出版社2007武汉大学测绘学院测量平差学科组. 误差理论与测量平差基础. 武 汉大学出版社. 2003编程与练习表 1作业作业:在如图所示的水准网中,A,B为已知点,HA =5.530m, HB =7.220m,观测高差和各路线长度为如下表1所示,试用数据探测法和稳健估计法进行平差观测值中是否含有粗差。h1= +1.157m=2kmh2= +0.532m=2kmh3= -1.023m=2kmh4= -0.663m=2kmh5= +0.498m=4km