1、第九章第九章 一元非参数回归一元非参数回归一元非线性回归模型:给定一组观测值(xi,yi),i=1,2,n2(),1,2,.,()(|),(|)0,var(|)iiiYm xinmE Y XEXxXx 假定()m xx其中是关于 的非线性函数.概概 述述 可以采用多项式回归.A1A25101520250246810H1H21020304050-100-50050概概 述述 9.1 核回归光滑模型核回归光滑模型()()iixxxKh11(),()()iinnnjijnxxKyhxxxKh则 局部加权最小二乘估计:2111()min()()()nniiiiniijjx yxyx 如果取核函数9.1
2、 核回归光滑模型核回归光滑模型1()()nniiim xx y1(),()()ininjjnxxKhxxxKh其中 利用核密度估计的基本思想,估计yi的权重。11()()niinnxxp xKnVh加权平均核hn小,yi的权重小,反之,则越大。9.1 核回归曲线核回归曲线2112111()exp 0.5*()()()()exp 0.5*()nniiiininiiinnjjijjnxxxxKyyhhm xx yxxxxKhhNadaraya-Watson核估计为:111()(),2iinsiiiisixxuxm xKdu ysh Gasser-Muller核估计为:9.1 核回归曲线核回归曲线2
3、112111()exp 0.5*()()()()exp 0.5*()nniiiininiiinnjjijjnxxxxKyyhhm xx yxxxxKhhNadaraya-Watson核估计为:以鲑鱼和鲈鱼为例,绘制核回归曲线如下。M1-function(x,h)sum(y1:260*exp(-0.5*(xx1:260-x)/h)2)/sum(exp(-0.5*(xx1:260-x)/h)2)x-seq(min(xx),max(y),length=50),z=rep(0,50)for(i in 1:50)zi-M1(xi,0.2)plot(xx,y)lines(x,z)核回归估计范例核回归估计范
4、例 A1A25101520250246810A1A25101520250246810h=0.2h=0.89.2 局部线性回归局部线性回归()()(),.im xa xb x xxxh xh是局部最小二乘估计.可以用矩阵形式表达出来 主要避免边界估计不精确.在x的邻域用线性函数取代yi的平均.特别,如果K(.)是-1,1上的均匀分布,则211,1()(),()min()()(),()()iiiniihiha biya xb x xxxh xhxya xb x xKxxK uh K h u其中9.2 局部多项式回归局部多项式回归0201,.,1min()()()pnpiiipihixxyxxxxK
5、h 01()()()pipim xxxxx 在局部线性函数回归的基础上确定的矩阵表达式:011121111(),1(),ppnnnpnyxxxxyyxxxxxxxxh diag KKhh-1(XWX)XWYXYW9.3 Lowess稳健回归稳健回归1.(9.6)()()iiim xrym x对模型进行局部线性估计,得到,并得到残差1222.(/(6(|,|)()(1|)(|1)iinB rmedian rrB ttIt 计算稳健权数其中 异常点可能导致线性回归模型最小二乘估计发生偏差,改进局部线性拟合方法来降低异常点对估计的影响.基本思想:首先局部线性回归拟合,其次对权数进行平滑.算法步骤:1
6、3.()(9.6),4.,.iiiK hxxrs使用权对模型进行局部加权最小二乘估计 得到新的重复 次 可得到新的稳健估计9.4 k-近邻回归近邻回归,1,1,:(,)(,)1,(,)0,x kinniiix kix kknIi xxkm x kx k yiIx kkiI令记离 最近的 个点之一则其中 与k-近邻核密度估计类似,基本思想是用距离x最近的k个样本点处yi的值来估计当前点的取值,并确定权值.一.k-近邻估计特点:比核密度回归简单。9.4 k-近邻回归近邻回归 knearhg-function(A,x,k)na-nrow(A)or-1:na dis-NULL for(i in 1:n
7、a)dis-c(dis,(abs(x-Ai,1)ra-rank(dis)find.k-orrak+1 knearhg-sum(Afind.k,2)/k return(knearhg)9.4 k-近邻回归近邻回归k=3k=10A,1A,25101520250246810A,1A,251015202502468109.4 k-近邻回归近邻回归,11,1,:()/(,)(,)()/(,),(,)max|:x kiniiinniiix kknIi xxkKxxR x k ym x kKxxR x kR x kxx iI令记离 最近的 个点之一则其中二.k-近邻核估计9.4 k-近邻回归近邻回归knea
8、rm-function(A,x,k)na-nrow(A)or-1:na dis-NULL for(i in 1:na)dis-c(dis,(abs(x-Ai,1)ra-rank(dis)find.k-orrak+1 R-max(abs(x-Afind.k,1)knearm-sum(A,21:260*exp(-0.5*(A,11:260-x)/R)2)/sum(exp(-0.5*(A,11:260-x)/R)2)return(knearm)9.4 k-近邻回归近邻回归 k=5A,1A,25101520250246810A,1A,25101520250246810k=29.4 k-近邻回归近邻回归
9、k=15A,1A,251015202502468109.5 正交序列回归正交序列回归1,0,()(),(),.ibijaiiiiia bijxx dxcijm xx0假设 构成上的一组正交基,满足如下条件:则回归函数:()=其中 是常系数 前面讲的三种情况回归是局部的思想.预测只能是局部的,全局估计法效果比较好的是正交多项式回归.正交基的概念:9.5 正交序列回归正交序列回归1(),1,2,.,mijjiijYxvin=回归模型近似为:进行最小二乘估计:11121112121()()()(),()()()()()mnnmnnn mmjjjxxxyyxxxym xx TTZ ZZ YZY则=9.
10、5 正交序列回归正交序列回归0122334245351113(),(),2215()(31),2217()(53),2219()(35303),82111()(637015)82:(1)()(21)()()mmmP xP xxP xxP xxxP xxxP xxxxmPxmxP xmPx递推公式区间-1,1上的Legendre多项式正交基:9.5 正交序列回归正交序列回归例9.7 对摩托车数据采用Legendre多项式正交基建立回归模型,效果图如下.注意:对解释变量施行变换:()/2,1,1()/2:()()/2XabZXa bZbaXba Zab 则反变换9.5 正交序列回归正交序列回归B,2B,31020304050-100-50050