1、第九章 应用于序列和组的统计图 EViews提供了几种对数据进行初步分析的方法。在第七章我们已列出了几种图来描述序列分布特征。在本章,列出了几种散点图且允许我们可以用有参数或无参数过程来做拟合曲线图。这些图包含着复杂计算和大量的特殊操作,这些将在下面详细论述。对某些完全技术性的介绍,你不必掌握所有细节。EViews中设置的缺省值除了对极特殊的分析外,对一般分析而言是足够的用的。直接点击ok键接受缺省设置,就可以轻松的展现出每个图。9.1 序列分布图序列分布图 本节列出了三种描述序列经验分布特征的图。9.1.1 CDFSurvivorQuantile图 这个图描绘出带有加或减两个标准误差带的经验
2、累积分布函数,残存函数和分位数函数。在序列菜单中或组菜单中选择View/Distribution/CDFSurvivorQuantile时(组菜单的Multiple Graphs中),就会出现右面的对话框:其中,Cumulative Distribution(累积分布)操作用来描绘序列的经验累积函数(CDF)。CDF是序列中观测值不超过指定值r的概率)()(rxprobrFx)(1)()(rFrxprobrSxxSurivor(残存)操作用来描绘序列的经验残存函数 Quantile(分位数)操作用来描绘序列的经验分位数。对 的分位数 满足下式:Xq,10)(qxqxxprobq)()(qxxp
3、robq1)()(,且 分位数函数是CDF的反函数,可以通过调换CDF的横纵坐标轴得到。All选项包括CDF,Survivor和Quantile函数。Saved matrix name可以允许把结果保存在一个矩阵内。Include standard errors(包括标准误差)操作标绘接近95%的置信区间的经验分布函数。Options键提供了几种计算经验CDF的方法:给定N个观测值,针对r的(CDF)被估计为:(1)Rankit(缺省)(2)Ordinary (3)Van der Waerden (4)Blom (5)Tukey 这几种方法的不同之处在于它们如何调整针对CDF计算的非连续性,这
4、种区别将随样本数的增加而变得微不足道。9.1.2 QuantileQuantile图图 QuantileQuantile(QQ图)对于比较两个分布是一种简单但重要的工具。这个图标绘出一个被选序列的分位数分布相对于另一个序列的分位数分布或一个理论分布的异同。如果这两个分布是相同的,则QQ图将在一条直线上。如果QQ图不在一条直线上,则这两个分布是不同的。当选择View/Distribution Graphs/Quantile-Quantile.下面的QQ Plot对话框会出现:可以选与如下的理论分布的分位数相比较:Normal(正态)分布:钟形并且对称的分布.Uniform(一致)分布:矩形密度函
5、数分布.Exponential(指数)分布:联合指数分布是一个有着一条长右尾的正态分布.Logistic(逻辑)分布:除比正态分布有更长的尾外是一种近似于正态的对称分布.Extreme value(极值)分布:I型极小值分布是有一条左长尾的负偏分布,它非常近似于对数正态分布.可以在工作文件中选择一些序列来与这些典型序列的分位数相比较,也可以在编辑框中键入序列或组的名称来选择对照的序列或组,EViews将针对列出的每个序列计算出QQ图。Options钮提供计算经验分位数函数的几种方法。这与上面在CDF-Survivor-Quantile中相一致,除非样本非常小,几种方法的区别将随样本数的增加而变
6、得微不足道。9.1.3 Kernel Density(核密度核密度)这个视图标绘出序列分布的核密度估计。一个序列的分布的最简单非参数密度估计是直方图。你通过选View/Desctriptive Statistics/Histogram and Stats可以得到直方图,直方图对原点的选择比较敏感并且是不连续的。核密度估计用“冲击”代替了直方图中的“框”,所以它是平滑的。平滑是通过给远离被估计的点的观测值以小的权重来达到的。一个序列X在点x的核密度估计是靠下式:NiihXxKNhxf1)(1)(这里,N是观测值的数目,h是带宽(或平滑参数),K是合并为一体的核函数。当你选View/Distrib
7、ution Graphs/Kernel Density会出现下面的核密度对话框:要展现核密度估计,你需要指定如下几项:1、Kernel(核核)核函数是一个加权函数,它决定冲击的形状。Eviews针对核函数K提供如下操作:Epanechnikov(default)Triangular Uniform(Rectangular)Normal(Gaussian)Biweight(Quartic)Triweight Cosinus 11uIu)1()1(432uIu121uI221exp21u11161522uIu11323532uIu12cos4uIu这里u是核函数的辐角,I(.)是指示函数,辐角为真
8、时,它取1,否则取0。2 2、Bandwidth(带宽)带宽)带宽h控制密度估计的平滑程度;带宽越大,估计越平滑。带宽的选取在密度估计中非常重要,Silverman操作(缺省设置)是一种基于数据的自动带宽,34.1/,min9.05/1RskNh 这里N是观测值的数目;S是标准离差;R是序列的分位数间距;因子k是标准带宽变换,标准带宽变换用来调整带宽以便对不同的核函数自动密度估计有大致相当的平滑。也可以自定带宽,先点击User Specified,在下面的对话框中键入一个非负数。Bracket Bandwith(括号带宽)操作可以让你研究针对带宽变化所得到的估计的敏感程度。如选这项,相当于给出
9、0.5h,h,1.5h三项带宽。Number Points(点数)为估计密度函数,必须给出点数M,缺省设置M=100点。设最大最小值为XUXL,在M个等间距点中估计出 1,1,0,)(MiforMXXiXxlULi Method(方式)缺省时,Eviews采用Linear Binning(线性单元)近似算法规则系统去限制在计算密度估计中所需要估计的点的数目。对大样本来说,计算量的减少是可观的。除非有特殊原因或样本非常小,一般情况下要求使用Linear Binning 算法。Saved matrix name(保存矩阵名)这一项的作用是用矩阵保存结果。9.2 带有拟合线的散点图带有拟合线的散点图
10、 通过view/Graph/Scatter打开一个组的视图菜单包括四种散点图。9.2.1 Simple Scatter(简单散点图简单散点图)其第一个序列在水平轴上,其余的在纵轴上。9.2.2 Scatter with Regression(回归散点图回归散点图)在组中对第一个序列及第二个序列进行总体变换来进行二元回归,选择Regression后出现对话框:下面是针对二元拟合的序列变换:None Logarithmic Inverse Power Box-Cox Polynomial yxylogxlogy1x1aybxaya)1(bxb)1(bxxx,12 在编辑框中来指定参数a,b。如果变
11、换是不可以的,会出现错误提示,对多项式(Polynomial)的阶数定的过高。Eviews会自动降低阶数以避免共线性。点击ok后,Eviews拟合出一条回归线,可以在Fitted Y series编辑框中键入一个名称保存这个拟合的序列。Robustness lterations(稳健叠代稳健叠代)最小二乘法对一些无关观测值的存在非常敏感,稳健叠代操作就是产生一种对残差平方的加权形式,使无关的观测值在估计参数时被加最小的权数。21)(iiNiibxayr这里 是变形后的序列,权值r通过下式得到:iiyx,otherwisemeformeriii016)361(222 ,m是 的中间数,大的残差的
12、观测值给一个小权数。选择叠代次数应是一个整数。iiibxayeie9.2.3 Scatter with Nearest Neighber Fit(最邻近拟合散点图最邻近拟合散点图)这是一种带宽基于最邻近点的局部回归。简而言之,对样本中的每一数据点,它拟合出一条局部的并经加权的回归线。局部是说只用邻近点也就是样本的子集来一步步回归,加权是说邻近点越远给越小的权数。当你选择后,会出现如下的对话框:1Method 操作操作 可以选择在样本中的每一个数据点作局部回归或在数据点的子集中作局部回归。Exact(full sample)在样本中的每一数据点都作局部回归 Cleveland subsampli
13、ng 在选取的子样本中进行回归,可以在编辑框中键入子样本的大小。作回归实际上不是在样本每点都作,实际计算的点数非常接近于M。这里隐含着这样的原因,选用子样本回归不会丢失信息,因为特别邻近点的回归值几乎没有差别。2Specification(说明说明操作)操作)因为要靠子样本点周围的点来进行局部回归,并来求拟合值,因此specification操作就是确定选择识别周围进行回归的观测值的规则。(1)Bandwidth span(带宽范围)带宽范围)用来决定在局部回归中应包括哪些观测值,你可以选取在0,1之间的一个数。带宽控制拟合线的平滑程度,分数越大拟合线越平滑。这个分数指示Eviews在给定点使
14、用N个观测值做局部回归,N是总样本个数的100%,再取整。注意标准的最邻近定义意味着被估计点周围点的个数不必是对称的。如果想对称,就选Symmetric neighbors。(2)Polynomial degree(多项式次数多项式次数)制定多项式的次数来拟合每一局部回归 如果选择Bracket bandwidth span(分类带宽)操作,Eviews将显示出带宽为0.5,1.5的三种最邻近拟合。3其他操作其他操作 (1)Local weighting(Tricube)局部加权局部加权 给每个局部回归的观测值加权,加权回归使残差平方和最小 22211kikiiiNiixbxbxbay 三次方
15、权重通过下式是给出:otherwiseNddforNddiii01133这里 ,是距该样本点最近的第 个点距样本点的距离。如果你不做选择,将默认 =1。xxdiiNd N (2)Robustness Iterations(稳健叠代稳健叠代)通过调整权数去降低远离的观测值的权重来叠代局部回归。最初的拟合用权数wi,若你选择了Local weighting 则wi为3次,否则为1。来自最初拟合的残差ei,被用来计算权数ri,在第二次叠代中,局部拟合用权数wiri。我们重复这个过程直到我们选定的叠代次数,在每次叠代里,稳健权数ri都通过来自上次叠代的残差来重新计算。(3)Symmetric Neig
16、hbors(对称邻近)对称邻近)使被估计点的两侧有相同数目的观测值。可以在Fitted series(拟合序列)框中键入一名称来储存拟合值为一序列。如果你选择了Bracket bandwidth span,那么Eviews将给三个序列在你定的名称后自动分别加上L,M,N并把它们存起来,它们的带宽分别为0.5,和1.5。9.2.4 Scatter with Kernel Fit(核拟合分布)核拟合分布)这也是一种局部回归拟合,不过是无参数的。另外与最邻近回归拟合相比,区别主要体现在局部带宽的选取上。最邻近拟合的有效带宽可以有很多种,而核拟合则固定带宽且局部的观测值通过核函数来加权。局部核回归拟合
17、通过选取参数使加权残差平方和最小。hXxKXxXxYxmiNikikii1210 N是观测值的个数,h是带宽(或光滑参数),K是核函数。注意注意:对于不同的 ,的估计值不同。x 打开Scatter with kernel fit,出现下面的对话框:Regression用来指定局部回归的形式,指定多项式的阶数k。Nadaraya-Watson操作设置k=0。Local linear操作设置k=1。对于高阶多项式,应使用 Local polynomial 操作,可在下面编辑框中输入k的值。Kernel用来定义核函数,这里的核函数用来在每个局部回归中给观测值加权,对核函数的操作前面已经介绍过。核心函
18、数如下:Epanechnikov(default)Triangular Uniform(Rectangular)Normal(Gaussian)Biweight(Quartic)Triweight Cosinus)1()1(432uIu 在这里I是指示器,1表示真,2表示假。h带宽决定每个局部回归的观测值的权数。越大越平滑。12cos4uIu11323532uIu11161522uIu221exp21u121uI 11uIu Bandwidth在这里,Eviews自动设立带宽 ,是X的范围。也可以点击User Specified,在下面的编辑框中自己设置一个带宽。Bracket Bandwid
19、th(分类带宽)即用带宽分别为0.5h,h,1.5h来做3个核密度回归。Number of grid points(分类点数)指定一个点数M(缺省值是100),假设序列X的样本值范围是 ,则在如下点进行多元回归估计:1,1,0MiforiMXXXxLULi Method 与核分布中介绍相一致,也分为精确和线性单元两种方式。Fitted series 可以在编辑框中给拟合后序列起名,然后存起来。Bracket Bandwidth 即为0.5,1.5,还是分别以“_ L”,“_M”,“_H”做后缀。ULXX,)(15.0LUXXh),(ULXX 9.3 函数命令函数命令 lwage.cdfplot
20、(a)表示对序列LWAGE做CDF,quantile和survive函数。lwage.kdensity(k=n)表示对序列LWAGE做核密度估计,核函数用正态,带宽自动选取。Lwage.kdensity(k=e,b=.25)表示对序列做核密度估计,核函数操作选缺省项,带宽为0.25,并且为加括号带宽。group aa lwage age aa.linefit(yl,xl)表示建立一个组包括序列LWAGE和AGE,再经过对两个序列的对数变换然后进行回归拟合。aa.linefit(yl,d=3)对Y轴上的序列经对数变换,且次数取3来拟合X轴上的序列。aa.nnfit表示在组aa中进行最邻近点拟合。aa.kerfit表示在组aa中进行核拟合。返回