1、第三章 基础单方程分析基础单方程分析 简单回归分析的基本理论 EViews方程对象和回归模型的估计 违反假定的情形与估计方法的选择 其他回归分析方法简单回归分析的基本理论 回归分析的基本概念 有关统计学基本概念的回顾 多元回归模型的基本形式 参数估计 模型检验 模型评价回归分析的基本概念 回归分析回归分析:是关于研究一个叫做应变量的变量对另一个或多个叫做解释变量的变量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设定值,去估计和(或)预测前者的(总体)均值。一个人为的例子(Gujarati)假想一个国家人口总体由60户家庭组成,要研究家庭消费支出Y与可支配收入X的关系。也就是说,知道家
2、庭收入,预测消费支出的(总体)平均水平 下表是总体数据 每个纵列给出对应于给定收入水平X的消费支出Y的分布;就是说,给出了以X的给定值为条件的Y的条件分布 条件概率:给定X的Y的概率;条件期望:对Y 的每一条件概率分布,算出它的均值,称为条件均值或条件期望。E(Y|X=Xi)表示在X取Xi时Y的期望值总体回归线(population regression line):条件均值落在一根有正斜率的直线上 在几何意义上,总体回归线就是(当)解释变量取给定值时应变量的条件均值或期望值的轨迹总体回归函数PRF 从上面总体回归线看出,每一条件均值E(Y|Xi)与Xi表现出函数关系,用符号表示:E(Y|Xi
3、)=f(Xi),称为总体回归函数 线性总体回归函数:回归分析中,我们的兴趣就在于估计PRF,而问题在于总体始终是未知的,我们所能做的是从样本来对总体进行估计E Y|Xi12Xi抽样和随机样本 实际情况下,我们未知总体,只能通过抽样,获得样本,从样本来估计总体 在我们条件分布的例子中,我们抽样得到的是对应与某个固定X只有Y值的一个样本(样本容量为1?)对总体的一次抽样,我们能获得一个随机样本,N次抽样会获得N个样本 从N个不同的样本会得到N个不同的SRF,问题是那一条会比较接近“真实的”总体回归线呢?问题?理解 实际上,不同的抽样会得出不同的SRF,但那个SRF更接近真实的总体,是个始终无法知道
4、的问题。因为总体不可知。也就是说我们不知道标准答案。但是我们能够设计一套规则,保证对于某个样本,能够构造出一个最接近总体的SRF,尽管我们根本不知道总体究竟如何。OLS是其中的一种从样本构造SRF的方法。普通最小二乘法OLS PRF:SRF 最小二乘准则就是得出SRF,使 尽可能小E Y|Xi12XiuiYiE Y|XiYiE Y|XiuiYi12XiuiYi12XiYE Y|Xi的估计量11的估计量22的估计量引入样本残差ui,类似于ui,并可作为ui的估计量Yi12Xiuiui2YiYi2Yi12Xi2经典线性回归模型:最小二乘法的基本假定 如果仅仅是根据样本利用OLS得到SRF我们的理论
5、就可以到此为止。但我们的最终目的是要通过SRF对总体的情况做出推断。而为了满足统计推断的要求,我们需要对解释变量和误差项做出要求,即基本假定。把满足这些基本假定的模型,称为经典线性回归模型CLRM基本假定 线性回归模型。对参数是线性的,在重复抽样中X值是固定的,这意味着我们的回归分析是条件回归分析,就是以回归元X的给定值作为条件的Yi12Xiui 干扰项ui的均值为0,同方差或ui的方差相等 各干扰间无自相关基本假定E ui|Xi0var ui|Xi2cov ui,uj|Xi,Xj0 对于多变量模型,增加:无多重共线性,也就是解释变量间没有完全的线性关系基本假定有关统计学基本概念的回顾(附录A
6、)统计学可以被定义为一组由(1)收集数据(2)分析数据(3)由数据得出结论而组成的概念、原则和方法 概率(probability)为由数据得出结论提供了基础 变量(variable)是指一个可以取两个或更多个可能值(value)的特征或属性 常数(constant)是变量的反义词。总是有一个固定的值。有关统计学基本概念的回顾 统计推断是一个过程,它能从样本数据得出与总体参数值有关的结论。它由两部分构成:估计和假设检验 样本统计量是从样本数据中计算出来的数,因此是已知的。统计量(statistic)是statistics的单数形式。最平常的样本统计量是样本均值、样本百分比和样本标准差。人们习惯用
7、26个字母来标记常用的样本统计量 在总体中,性质类似的量为总体参数(population parameter),一般用希腊字母标记。是在原理上可以从整个总体中计算出来的数。多元回归模型的基本形式YXYy1y2.ynX1 X11X12.X1p1 X21X22X2p.1 Xn1Xn2Xnp12.p12.n参数估计OLS:X X1X Y模型检验 方程显著性检验F检验ni 1yiy2ni 1yiy2ni 1yiyi2SSTSSRSSE总平方和回归平方和误差平方和H0:01.p0检验统计量FSSR/pSSE/n p 1F p,np1F若大于临界值,Fp,np1,则拒绝H0。认为在显著性水平下,Y 对自变
8、量有显著的线性关系,回归方程是显著的。同时给出拒绝零假设时犯错误的概率,称为相伴概率p,若此值低于事先确定的置信度,则可拒绝 回归系数的显著性检验t检验模型检验H0:i0,i1,2,.,p检验统计量tiSi在零假设下服从自由度为np1的t分布当|t|小于临界值t/2np1 时,未通过检验,说明该系数对应的变量可以剔除 D.W检验模型检验只能用于检验扰动项具有一阶自回归形式的序列相关问题tt 1tH0:0,即残差序列无序列相关首先计算出回归估计式的残差D.Wnt 2tt 12nt 1t22 1一般来说,D.W值距离2较远,可认为有一定程度自相关存在模型评价 目的是不同模型间的择优 拟合优度 对数
9、似然值 AIC准则 SC准则拟合优度ni 1yiy2ni 1yiy2ni 1yiyi2SSTSSRSSE总平方和回归平方和误差平方和R2SSRSST总离差中由回归方程可以解释的比例R2随模型中自变量个数增加而增大,引入修正的R2R21n 1n k1R2n为样本容量,k为参数个数对数似然值对数似然值(Log Likelihood,简记为L)是基于极大似然估计法得到的统计量,即对数似然函数取的最大值,对数似然函数值:Ln2log 2n2log2n2n是样本容量,2是未知参数2的极大似然估计,与残差有关由上式可知,残差越小,L取值越大。因此,L越大说明模型越精确。残差的大小和自变量数目有关,变量越多
10、残差越小,因此,变量越多L越大AIC准则 赤池信息准则(Akaike Information Criterion)AIC2Ln2knL是对数似然值,n是观测值数目,k是估计参数个数AIC要求AIC越小越好。k小意味着模型简洁,因此,AIC和R2类似,在评价模型时,兼顾了简洁性和精确性SC准则 施瓦茨准则(Schwarz Criterion)SC2Ln2k lnnn与AIC类似,也要求SC越小越好EViews方程对象和回归模型的估计 在EViews中,对回归模型的估计过程也可以看作是建立方程对象建立方程对象设定方程的具体形式单一方程模型的估计方法方程估计时的选项方程对象窗口的功能键把方程对象保存
11、到工作文件中建立方程对象 主菜单中选择:objects/new/object/equation将包括:最小二乘法、二阶段最小二乘方法,以及其他如ARCH,Logit和Probit等高级方程分析的估计方法方程的系数可以是非线性的,方程中可以包含ARIMA和多项式分布滞后项,方程的样本范围也可以改变 组窗口中:procs/Make Equation EViews主菜单中:Quick/estimate equation进入方程设定对话框 该对话框中指定4个项目方程的估计方法方程的具体形式方程的样本估计区间方程估计时所采用的选项设定方程的具体形式 在Equation Specification(方程设
12、定)下面的文本框中可以指定方程的因变量、自变量和方程的函数形式。可以采用列表方式或公式方式设定方程假设创建了序列对象Y 和X,要估计模型Y=+X+的系数,那么在文本框中输入:Y C X。C 是EViews 的内置序列对象,用于指定方程的常数项。用公式方式设定方程,只要在文本框中输入方程的公式即可。EViews 将自动加上随机扰动项并用最小二乘法估计模型的系数。事实上,用列表方式设定方程后,EViews 会自动转换成公式形式再进行估计。设定方程的具体形式设定含滞后序列的线性模型或非线性模型的方程时,可以直接输入因变量的表达式和自变量的表达式。例如:Y C Y(-1)X(Y 对常数项、一阶滞后值和
13、变量X 回归);LOG(Y)C X(Y 的自然对数对常数项和变量X 回归);1/Y C X(Y 的倒数对常数项和变量X 回归);LOG(Y)C LOG(Y(-1)(X+X(-1)/2)(Y 的自然对数对常数项、Y 一阶滞后值的自然对数、X 的二阶移动平均值回归)对于非线性回归模型,只要直接输入公式,EViews 将检测其非线性并采用非线性最小二乘法估计模型系数。例如,Y=C(1)+C(2)*(KC(3)+LC(4)方程的样本估计区间 EViews 在Sample右边的文本框中显示工作文作的样本区间作为默认方程估计区间 可输入新的样本区间进行估计。新的样本区间只影响当前方程,并不会改变工作文件的
14、当前样本区间估计方法的选择 在Estimate Setting(估计设置)中的Method(方法)下拉列表中,可以选择方程的估计方法。EViews 提供的单方程估计方法有:LS最小二乘法,包括普通最小二乘法(OLS)、加权最小二乘法(WLS)、非线性最小二乘法(NLS)和自回归移动平均(ARMA);TSLS二阶段最小二乘法、二阶段非线性最小二乘法和二阶段自回归移动平均;ARCH自回归条件异方差估计法;GMM广义矩估计方法;Binnary二值因变量模型估计方法,包括Probit、Logit 和Gompit(极端值)等估计方法;方程估计时所采用的选项 当Equation Specification
15、对话框中的估计方法选择最小二乘法时,单击Option(选项)按钮,将显示估计选项对话框 异方差校正选择Heteroskedasticity and Autocorrelation Consistent Covariance自相关相容协方差 和White,用White 方法进行异方差校正,适用于方差形式未知时异方差处理。选择Heteroskedasticity Consistent Covariance 和Newey-West,用Newey-West HAC 方法进行异方差校正 WLS选择Weighted LS/TSLS并在Weight右边的文本框中输入一个序列作为权数序列,进行加权最小二乘法估
16、计 迭代程度与ARMA选项Iterative procedure和ARMA options用于控制估计非线性模型时的迭代过程和设置ARMA 选项。方程估计时所采用的选项方程对象窗口的功能键 方程对象窗口的视图ViewRepresentations Representations:以三种形式显示方程,例如:Estimation Command:LS X C Z Estimation Equation:X=C(1)+C(2)*Z Substituted Coefficients:X=11061.18571+0.2427279031*ZEstimation Output Estimation Out
17、put:显示前面介绍的方程估计结果。也可以单击方程对象窗口工具栏Stats 按钮Actual,Fitted,Residual Actual,Fitted,Residual.:以表格或图形的形式显示因变量的实际值和拟合值以及残差。Actual,Fitted,Residual Table 以表格形式显示这些值并在表格右边显示残差图;Actual,Fitted,Residual Graph 以标准EViews 图形形式显示因变量的实际值和拟合值以及残差;Residual Graph只绘制残差的图形;Standardized Residual Graph 绘制标准化残差(即残差除以残差标准差估计值)图
18、形 Covariance Matrix:显示系数估计的方差协方差矩阵。方程的过程procsSpecify/Estimate Specify/Estimate:显示设定方程的对话框,可以修改前面的设定,改变方程估计方法或估计样本区间。也可以单击方程对象窗口工具栏Estimate按钮。Forecast 用估计的方程进行预测。单击Procs=Forecast或方程对象窗口工具栏上的Forecast按钮,Forecast Forecast name:输入预测的因变量序列的名称。EViews 会给出一个序列名称,但用户可改成任意有效的序列名称,但不能与因变量同名,否则会覆盖因变量序列的数据。S.E.(o
19、ptional):提供一个保存预测标准误差的序列名称,这是个可选项。Method:预测方法。Sample range for forecast:设定用于预测的区间。默认设置为工作文件的区间。如果设定的预测区间大于估计区间,那么EViews 将进行外推预测,这时必须对预测期内估计区间外的自变量赋值。Output:以图形和/或数字形式显示预测结果。Make Residual Series Make Residual Series:把方程的残差序列保存为工作文件中的一个序列对象。Make Regressor Group:创建一个包括方程中所有变量(常数项C 除外)的组对象(未命名)Make Mode
20、l:创建一个包括已估计方程的模型对象 Update Coefs from Equation:把方程系数估计值存放到系数向量对象(Coefficient)中把方程对象保存到工作文件中 每次估计操作后,EVIEWS都将保留系数估计值及其方差协方差矩阵,残差以及一些统计量。他们组成一个方程对象。这些可用于后面的计算,包括:设定和诊断检验、预测计算和模型模拟方程对象中的NAME键,保存在WORKFILE中单独对方程对象存盘:objects/store或store as另一种方式是在工作文件目录中选择方程对象,点工具栏中的store键使用工作文件工具栏的fetch键调入方程对象到工作文件中例 下表给出了
21、黑龙江省伊春林区1999年16个林业局的年木材采伐量和相应伐木剩余物数据。要求:建立数据文件、画图、进行OLS估计违反假定的情形与估计方法的选择 违反经典线性回归模型的情况下,如果数据违背了其中一条或几条假设,那么,OLS就不能准确估计参数,各种检验问题也会产生多重共线性multicollinearity异方差性Heteroscedasticity自相关autocorrelation多重共线性多重共线性是在p个回归变量x1,x2,.,xp间存在严格的或近似的线性关系,即1x12x2.pxp0其中,1,2,.p不全为0后果是:回归系数参数估计的标准误差大,置信区间变宽,估计值的稳定性降低,得不到
22、正确的参数估计值,意思是系数不能以很高的精度或准确度加以估计诊断方法:一般如果模型R2很大,F检验通过,但有些系数不能通过t检验;或模型的自变量之间简单相关系数很高,或回归系数的符号与简单相关系数的符号相反,都有理由怀疑存在多重共线性EViews中可以通过自变量的相关系数矩阵进行诊断多重共线性 克曼塔Kmenta:多重共线性是一个程度问题而不是有无的问题。有意义的区分不在于有与无之间,而在于它的不同程度由于多重共线性是对被假定为非随机的解释变量的情况而言,所以它是一种样本而非总体特征 我们没有侦破它或度量它的强度的唯一方法,我们所有的是一些经验规则多重共线性 在Eviews中,当自变量间存在完
23、全或高度的共线性时,将不能给出回归模型的参数估计值,Eviews将给出错误提示信息:nearly singular matrix 异方差 意义及影响 诊断方法 异方差的处理意义及影响 随机误差项中包含多个因素对因变量的影响,如其中一个或多个因素随自变量观测值的变化而对因变量产生不同影响,则存在异方差性 存在异方差时,采用OLS导致参数估计值虽然无偏,但不是有效的,或最优的(即有最小方差),显著性检验失去意义,预测失效等Var uii2,则存在异方差性 异方差问题在截面数据中比时间序列数据中更常见。截面数据常时在一个给定时点上对总体中的一些成员进行观测,而这些成员大小不一,比如平均而言,大企业比
24、小企业的平均工资更高,但不同规模企业工资收入有较大的变异诊断方法 散点图:先产生残差序列,再把它和因变量一起绘制散点图 Quick/Graph/Graph type 选Scatter Diagram 在方程 对象窗口procs产生残差序列 例中的散点图表明残差序列因变量没有呈现系统的样式散点图:例rd2.1诊断方法 怀特(white)检验对原模型:Yi01x1i2x2ii把2作因变量,原先自变量和自变量的平方项,以及交叉项作为自变量,建回归模型。H0:残差不存在异方差201x12x23x124x225x1x2white统计量是:mnR2n为样本观测值,R2是上式的拟合优度m近似服从自由度为k(
25、除常数项外回归系数个数)的2分布如果2值超过了临界值,就有异方差,没有超过,也就是:123450也可由相伴概率作出是否拒绝原假设的结论怀特(white)检验:例Lewis根据41个国家的截面数据估计如下模型:ln Yi12ln X2i3ln X3ii其中Y表示贸易税收与政府总收入之比,X2表示进出口总值与GNP之比,X3表示人均GNP。模型表示贸易额越高,贸易税收越多,但随收入增长,贸易税会相对下降。模型估计出来以后,因为多个国家的截面数据,因此我们还需要考虑数据中有没有异方差性。i25.84172.5629 ln Tradei0.6918 ln GNPi0.4081 ln Tradei20.
26、0491 ln GNPi20.0015 ln Tradeiln GNPiR20.1148现有:nR241 0.11484.7068服从自由度为5的2分布,5的临界值是11.0705,10%的是9.2363。所以不存在异方差。诊断方法 Eviews中,在方程对象窗口,view/residual tests/white heteroskedasticity cross terms有交叉项no cross terms无交叉项 得到两个统计量 obs*R-squared是white检验统计量 F统计量是对所有交叉项系数的显著性检验,其精确分布不能得到,列在表中只是为了比较异方差的处理 加权最小二乘法W
27、LS:用于异方差形式已知的情况对于原模型Yi12Xii令X0i1,有Yi1X0i2Xii已知i2,用1i作为权数Yii1X0ii2Xiiuii写成:Yi1X0i2Xii可以证明:variEi2Euii21i2Ei21i2i21异方差的处理 异方差形式未知,使用异方差修正 在方差设定窗口,点option进入estimation option窗口,选择:white怀特异方差修正:有异方差但无自相关 Newey-west HAC(自相关相容协方差,Heeroskedasticity and Autocorrelation Consistent Covariances):异方差且有自相关 trunca
28、tion lag截断滞后q指用来近似表示残差变化的自相关的个数,根据Newey和West建议,Eviews把q设置为q4 T/1002/9自相关 自相关的含义 经典模型假定,任一次观测的干扰项都不受任何其他观测的干扰项的影响 如果回归模型中各残差项之间不满足相互独立的假设,即 称随机误差项间存在自相关现象 使用OLS将导致参数估计值虽然无偏,但不会有效,显著性检验失效,预测失效等covi,j0,i,j1,.,n,ij自相关 自相关可定义为按时间(时间序列数据)或空间(截面数据)排序的观测值序列成员之间的相关。如某一季度产量收罢工影响,其他季度的产出并不受其影响;一个家庭收入增加对消费支出的影响
29、,不会影响到另一个家庭的消费支出自相关模式自回归假定干扰的产生机制是tt 1t其中称为自协方差系数,t满足OLS的随机设定这种模式称为一阶自回归模式AR(1)移动平均假定干扰的产生机制是tvtvt 1这种误差发生机制被称为一阶移动平均MA(1)自回归移动平均如果tt 1vtvt 1称为一阶自回归和一阶移动平均模式,ARMA 1,1诊断方法 对误差项进行分析,包括残差序列图、回归检验与D.W检验 绘制残差序列图:方程对象窗口 Procs/make residual series生成残差序列 view/actual,fitted,residual graph 也可以对残差序列进行view/line
30、 graph,如果残差序列随时间变化而规律性变动,存在自相关 回归检验法诊断方法应用OLS求出的估计值,即残差e,以et为被解释变量,以各种可能的相关变量如et 1,et 2等作为自变量进行线性拟合,如etet 1tet1et 12et 2t.选择显著的最优拟合形式作为序列相关的具体形式,好处是在确定自相关的同时也确定了自相关形式 D.W检验:适用于小样本的一阶自相关情况,但方程右边存在因变量的滞后项时,检验失效诊断方法自相关的克服方法 自相关结构已知情况下的差分法 以增量数据代替原来的样本数据,但往往存在拟合不佳,且改变原有模型形式,实际不常用假定t遵循一阶自回归方式,即tt 1t其中|1,
31、而t遵循0期望,恒定方差和无自相关的OLS假定,对于Yt12Xtt在时刻t成立,那么在t1时刻也成立:Yt112Xt1t1用 乘两边:Yt112Xt1t1用原式减上式,得:(YtYt1)1(1)2(XtXt1)t上式称广义差分方程,可替换为:Yt12Xttt满足OLS假定,可对Y 和X 应用OLS差分法科克伦奥克特(cochrane-orcutt)迭代法利用估计的残差t获得关于未知的 的信息Yt12Xtt,假定t由AR 1 方式产生,即tt 1t,估计 的步骤:1)OLS估计方程得到残差t2)利用t作回归tt 1t得到3)利用 做广义差分方程,即(YtYt1)1(1)2(XtXt1)(tt 1
32、)有Yt12Xtet4)将新的估计值1、2代入原回归,求新残差ttYt12Xt5)新的估计tt 1wt得到 的第二轮估计值当相继的估计值相差很小时,停止迭代Eviews提供的序列相关检测 包括:D.W.、相关图与Q、LM检验其他回归分析方法 非线性最小二乘 虚拟因变量模型非线性最小二乘使Sni 1Yif Xi,2yf x,yf x,达到最小的,为 的非线性最小二乘估计求解的方法使令上式对 的偏导等于0。但f非线性的形式复杂的情况下,即使令上式对的偏导等于0也无法求出精确解,这时往往采用迭代法逼近。即现给出参数估计的初始值,通过迭代求出一个新的估计值,重复迭代直到估计值收敛非线性最小二乘 Evi
33、ews 直接输入非线性方程 选项设置Estimation Option:显示无法收敛时,需要设定option重新估计,设定初始值 在Eviews中,NLS以开始估计的系数向量中对应的值作为初始值,所以可先查看系数向量中的各个参数值,如需更改,可直接在系数向量窗口更改,可输入更改值 或语句更改:param c(1)0.2 c(2)0.5 max iterative最大迭代次数 convergence比率值,小于该值停止虚拟因变量模型:Logit和Probit模型 我们一般假定因变量Y是定量的,而解释变量可以是定量的,也可以是定性的,或两者都有,而因变量是定性的情况就是虚拟因变量模型。Logit
34、modelYi12Xii其中X 家庭收入,Y1 如果家庭拥有住宅 0没有住宅因为Yi在给定Xi下的条件期望E Yi|Xi可解释为在给定Xi下事件(拥有住宅)将发生的条件概率,即PiYi1|Xi那么,PiE Y1|Xi12Xi现在方程设定为:PiE Y1|Xi11 e12XiPi11 ezi其中,zi12Xi方程代表一个以累积逻辑斯蒂分布函数为名的模型zi,Pi01设Pi1 Pi1 ezi1 eziezi为有利于拥有住房的机会比率那么,LilnPi1 Pizi12XiL称对数单位,上式被称为对数单位模型(Logit Model)估计方法1)对每一收入水平Xi,计算拥有住房的估计概率Pini/Ni2)对每一Xi求对数单位:Liln Pi/1Pi3)为解决异方差,对LilnPi1 Pi12Xi进行变换。因为iN 0,1NiPi1 PiwiLi1wi2wiXiwiiLi1wi2XiviwiNiPi1Pi4)用OLS估计上面的方程,即为WLS5)建置信区间和假设检验用Eviews估计 在主菜单中选择objects/new objects/Equation,选择Logit或Probit方法 只支持变量列表的线性设定,而不能输入一个明确的方程
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。