1、Box-Cox 变换方法及其实现运用变换方法及其实现运用主要内容主要内容Box-Cox转换的应用前提1数据不同转换方法的比较2Box-Cox转换的具体内容3Box-Cox转换的实例效果4Box-Cox变换变换Box和Cox在1964年提出的变换可以使线性回归模型满足线性性、独立性、方差齐性以及正态性的同时,又不丢失信息,此种变换称之为BoxCox变换。后经过一定的推广和改进,扩展了其应用范围。 应用前提应用前提在做线性回归的过程中,一般线性模型假定: 线性性独立性方差齐性正态性E(Y)是X中各变量的线性函数相互独立服从正态分布12.n、21( ) .( )nDD 12.n、2, (0)Y XN
2、I ,应用前提应用前提在处理实际经济问题和社会问题时,由于海量数据比较凌乱,同时在建立回归模型时,个别变量的系数通不过。例如生物医学等数据的特殊性,往往不可观测的误差 可能是和预测变量相关的,不服从正态分布,于是给线性回归的最小二乘估计系数的结果带来误差,为了满足上述四个条件而不丢失信息,有时需要改变一下数据形式,进而Box-Cox变换得到了广泛推广。非正态数据的不同处理方法及其比较非正态数据的不同处理方法及其比较普通数据转换方法 该方法坚持正态性假设,通过各种数据转换函数将非正态数据转换为正态,例如原始测量值为 ,转换后的对应值为 ,常用的几种数据转换方式为: 对数转换: 平方根转换: 倒数
3、转换: 平方根后取倒数: 平方根后再取反正弦: 幂转换: 其中 ,参数ixiyln()iiyxiiyx1iiyx1iiyxsin()iiyArcx1/1()nniixx 1.5,111iixyx表中数据来自于豪爵摩托车用户满意度问卷调查的样本。通过大量重复试验,得到如下规律:P值为0.003视为平方转换的一个界点,如果正态检验得到的p值大于0.003,通过平方转换一般可实现正态化处理,否则通过平方转换很难实现正态化处理,其他几种转换方法也往往达不到正态处理的目的。Box-Cox变换方法变换方法上述问题下,当P值小于0.003时,由于普通数据转换方法很难使其实现正态化处理,运用Box-Cox变换
4、方法对原数据进行正态化处理就表现出巨大的价值。当P值大于0.003时,两种变换方法均可,但优先考虑普通的平方变换。Box-Cox变换和逆变换公式变换和逆变换公式Box-Cox变换是对反应变量y进行变换,变换公式为:逆变换公式为:显然,y的Box-Cox变换是一个变换族,由可变参数 决定着具体变换的形式,当 时,该变换为对数变换。1()()(1) ,0exp(),0yyy01,0()log,0yyy( )广义的广义的Box-Cox变换公式变换公式在前面的变换中,运用的log(y),因此必须要求y0.但对于一般的数据,对于任意取值的y的Box-Cox变换可用下面的公式:其中,参数c就是为了使 ,g
5、的默认取值为1,也可取 ,为y的几何平均。显然参数c的取值很好确定,公式中需要估计的参数就是 .为了简便处理,一般理论上我们假定反应变量y0.()1,0()lo g (),0ycgycgy0yc 1yy两种公式对比两种公式对比通过对比Box-Cox特殊变换公式和数据变换公式,我们可以发现Box-Cox特殊变换公式就是数据变换,只是在形式上有一定的改进。n当当 时,时,n当当 时时n当当 时,时,n当当 时时,iiyx=0.5= - 11iiyx( )=22yy()1= 1yy=0.5= -1两种转换方式的优劣势对比两种转换方式的优劣势对比两种转换方式的优劣势对比两种转换方式的优劣势对比保持原始
6、数据集中数据的大小次序。也就是说,变换函数应该是个严格递增的函数,这样能够保证在原有尺度下比较大的数据,在数据变换后的新尺度下仍然比较大,只是数据间的相对距离有所改变是连续函数,这保证原始数据比较集中接近的数据,在转换后仍然比较接近,至少相对于新的尺度来说很接近函数可导,变换函数族没有尖锐“拐角”函数族各函数之间随参数改变平滑过渡,且都经过一个公共点,以增强不同函数之间的可比性两种转换方式的优劣势对比两种转换方式的优劣势对比函数族内每个函数在公共点两边的变化趋势有一定的对称性除具有一个公共点(1,0)外,函数族所有的曲线都以同样的方向通过这公共点,即在(1,0)点有同样的斜率,在公共点附近的函
7、数图象几乎重合函数族的曲线是按P值大小排序的,较大的P值对应的函数曲线位于较小P值得上方。Box-Cox变换的具体内容变换的具体内容对因变量的n个观测值 应用上述提到的Box-Cox变换公式,得到变换后的向量 即要确定变换参数 的值,使得新向量 满足 也就是说,通过对因变量的变换,使得变换过的向量 与回归自变量具有线性相依关系,误差服从正态分布,同时各个误差是等方差且相互独立。12, ,., ,ny yy( )( )( )( )12(,.,)nyyyy()y( )2, (0)yXee NI,()y参数参数 的确定方法的确定方法最大似然估计Bayes方法Box-Cox变换软件:SAS、STATA
8、、Minitab最大似然法估计参数最大似然法估计参数 由于 , 的似然函数为 其中:上式分别对 求导,令导函数为0,得到 的最大似然估计:将 的最大似然估计值带入步骤一的式子中,得到似然函数的最大值:为计算方便,求 ,得到参数 的最优值 ( )( )222/21exp -2( ,)( , )(2)nYXYXLJy ()()( )2, (0)yXee NI,2、( )111( , )=nniiiiidyJyydy2、2、( )/1/( )2()( )YIX X XX Yn ( )、2、2/2/2max( ) (2 )( )( , )nnLJy maxln( )L/1/( )( )()X X X
9、Y参数估计步骤参数估计步骤2( ) () 、m a xln ()Lmaxln( )L实例分析实例分析按照原始数据进行回归分析Box-Cox变换参数 的估计结果Box-Cox 变换后进行回归分析 一组服从一组服从F分布的随机数分布的随机数经过正态性检验,检验统计量为0.1234,临界值为0.089,检验p值为0.001可判断不服从正态分布。一组服从一组服从F分布的随机数分布的随机数经过正态性检验,检验统计量为0.0520,临界值为0.089,检验p值为0.50可判断服从正态分布。结论结论使用Box-Cox变换后的数据得到的回归模型优于变换前的模型,变换可以使模型的解释力度等性能更加优良。 使用B
10、ox-Cox变换后,残差可以更好的满足正态性、独立性等假设前提,降低了伪回归的概率。 使用Box-Cox变换族一般都可以保证将数据进行成功的正态变换,但在二分变量或较少水平的等级变量的情况下,不能成功进行转换,此时,我们可以考虑使用广义线性模型,如LOGUSTICS模型、Johnson转换等。结论结论进行数据变换并不一定会达到我们预定的目标,没有一个数学原理保证所做的数据变换就一定在各个方面对原始数据有所改善,更常见的是,为一个目的所做的变换可能仅仅使得原始数据的一个或几个方面得到改善。Box-Cox变换的一个很大的优势在于对选择变换的问题给出了一个系统化的处理方法,讲寻找变换的问题转化为一个估计参数 的过程。谢谢 谢!谢!