1、l最小二方程原理和参数估计最小二方程原理和参数估计=a+bx y Q=(y-)最小最小 =(y-a-bx)2 最小最小 对对a和和b求一阶微分求一阶微分 2Q/2A=2(y-a-bx)(-a)=0 2Q/2B=2(y-a-bx)(-bx)=0 x得得:y-na-b x=0 y=na+bx=0 xy-ax-bx2=0 xy=ax+bx2=0得:得:a=y/n-b(y/n)b=xy-(x)(y)/n/x2-(x)2=Lxy/Lxx回归系数回归系数b说明当说明当x变动一个单位时,变动一个单位时,y平均变动一个平均变动一个b的值的值l回归误差估计和相关系数回归误差估计和相关系数估计标准误差:Sy=(y
2、-)2/(n-2)=(y2-a y-b xy)/n-2相关系数:R=Lxy/LxxLyy L Lxyxy=xy-(x y)/n L Lxxxx=x2-(x)2/n L Lyyyy=y2-(y)2/n 当计算回归模型由大样本计算时(n30),其预测区间的误差分布服从正态分布,则预测区间为:0=(a+bx0)(Z2/2)Sy 当计算回归模型由小样本计算时(n30),其预测区间的误差分布服从七分布,则预测区间为:0=(a+bx0)(Ta/2)Sy 1+1/n+(X0-X)2/(X-X)2l例:建筑面积(万m2)x建造成本(万元)yx2y2xyy-(y-)2414.816219.0459.214.58
3、20.2180.047524212.84163.8425.612.5860.2140.045796313.39176.8939.613.588-0.0840.047524515.425237.1677.015.580-0.1800.032400414.316204.4957.214.582-0.2820.079524515.925252.8179.515.580-0.3200.010240 2386.5951254.23338.486.49_0.181924l解:b338.41/6(23)(86.5)/95-1/6(23)2=0.998 a86.5/60.998(23/6)=10.59待线性回
4、归方程:10.59+0.998x 即建筑面程每增加一万m2,建造成本要平均增加0.998万元Sy=(y-)2/(n-2)=0.0181924/(6-2)=0.2133r=Lxy/LxxLyy=(xy-x y/n)/x2-(x)2/ny2-(y)2/n=0.973预测:假设x0=4.5时,y0=10.59+0.9984.5=15.081(万元),当n=62.365,tb3=-2.45 2.365,说明b1和b2均能通过检验,说明x1和x2对y的影响是显著的,而tb1=1.822.365,不能通过检验,说明在建立回归方程时,不必设常数项,由此再根据实际资料,建立拟合的多元回归方程。3.回归方程的显
5、著性检验该检验应用下检验来进行:F=S回/(k-1)S残/(n-k),上例中S总=224.4,S残=27.08S回=S总-S残=224.4-27.08=197.32则F=197.32/(3-1)/27.08(10-3)=25.50查F分布表,当a=0.01,自由度为(2.7)时,F2=9.55,当a=0.05,自由度为(2.7)时,Fa=4.74,可知F=25.50都大于Fa,说明该多元回归方程是比较显著的,可以用该方程进行经济预测。设x1=2200元,x2=50元/件时,对某商品需求量(y)的预测值为y=4.5875+1.868522+(-1.7996)5=36.70(百件)在多元回归模型中
6、,要求模型中任何自变量之间不存在密切的线性相关关系存在,则说明自变量之间存在多重共线性。1.多重共线性产生的经济背景和原因当人们进行多元回归分析时,涉及的自变量较多,一时很难确定究竟要用哪个自变量来建立多元回归方程,也很难找到一组互不相关而都对因变量有显著影响的自变量,严格地讲,当某一经济现象的变量涉及多个自变量影响因素时,这些自变量的因素大都共有一定的线性相关关系,当其中的某些自变量两两相关关系较强时,就可认为该回归方程存在多重共线性。当人们所研究的问题涉及到时间序列资料时,由于所涉及到的自变量往往随着时间变化(或共同的政策倾向)而表现出共同的变化趋势,从而产生共线性现象。例如人们在研究社会
7、消费水平时,所涉及的影响因素有社会人均GDP水平,城镇居民收入水平,农民平均收入水平,银行储蓄存款余额,消费价格指数等指标,而这些指标之间都可能存在着很强的相关关系,如果从这些指标作为多元回归模型的自变量,该回归模型就存在着多重共线性。对于利用横截面资料建立多元回归模型,也可能存在自变量之间高度相关的问题。例如应用横截面资料建立粮食产量模型,其自变量有农业投资;化肥投入,水利灌溉面积等。其实农业投资已在化肥投入和水利灌溉面积中体现出来了,它们之间存在较强的相关关系,而表现出共线性问题。2.多重共线性带来的问题:当回归模型从矩阵形式表示时y=XB,当存在自变量之间的完全多衙共线性时,存在 xx=
8、0,xx -1也不存在,矩阵的行列式计算等于0,则B=(xx)-1xy也无法计算。在实际生活中,经常见到的是自变量之间存在近似共线性情况,即 xx 0,xx 1的对角线元素较大,从而使得方程估计的精度下降,甚至出现 回归系数的经济意义无法解释的可能。3.多重共线性的判断多种共线有各种判断方法,这里举一个简单的判断方法:设自变量有x1、x2、x3、xp,其回归方程为:y=f(x1、x2、x3、xp),如果这多个自变量中两两自变量(xj)之间存在相关系数很大,则说明这个回归方程可能存在多重共线性问题,这时就要剔除其中的一个自变量或把这两个自变量相加,以求得计算过程的简化。4.对多重共线性问题的消除
9、方法常用的消除多重共线方法有:(1)剔除一些不重要的解释变量,或对某些变量进行合并。(2)增大样本容量。在实际经济问题的多元回归分析中,如果所搜集的样本数据太少,也容易产生多重共线性问题。(3)改变变量的定义形式。对于某些样本变量数据是时间序列资料时,因各变量往往随着时间的变化向表现出共同的变化趋势,回归方程存在多种共线性,此时,对变量彩差分法重新定义,可能取得较好的效果。例如,建立的多元回归方程y=a+bx1+cx2+dx3+ex4,其中当各自量之间可能出现两两变量高度相关出现多重共寿终正寝性问题,则令:y=yi-yi-1x1=x1i-x1(i-1)x2=x2i-x2(i-1)x3=x3i-
10、x3(i-1)x4=x4i-x4(i-1)y=a+b x1+c x2+d x3+e x4,然后去估计回归参数(4)利用已知的信息,进行变量之间的替换。(1)准则在解决了多重共线性问题之后,多元回归方程的自变量选择应当使所拟合的回归方程的可决系数达到最大R2=(-y)2/(-y)2=S回/S总=1-S残/S总残差平方程达到最小,Sy2=(y-)2/n-p-1对回归系数的检验,若该回归系数不能通过显著性检验,就剔除该自变量,然后重新建立一个新的回归方程,然后再进行显著性水平检验。(2)逐步回归的方法当建立一个多元回归方程时,由于人们事先不知道哪些变量来作为自变量,往往凭经验或定性分析多选择几个自变
11、量建立多元回归模型,然后逐步对方程进行显著性检验,逐步剔除退出或变换增加某个自变量,如此反进行,最后使得整个方程的所有检验都可以通过为止。l虚拟变量的应用在回归模型分析中经常发生:因变量(y)不仅受诸如产量、价格、成本、身高、温度等可测量的数量变量的影响,而且也受到诸如:性别、文化程度、种族、宗教信仰、战争、地震、季节等及政府政策变化等品质变量的影响;因此,在建立回归方程时,不仅要引入数量变量,也要引入质量变量。当某种品质变量以是(1)非(0)表示时,就称其为虚拟变量。常见的虚拟变量的回归模型有以下三种表现形式:1.反映政府政策发生重大变化或其他因素发生重大变异的跳跃式,间断式的回归模型,其模
12、型的形式为:=1+2xi1+3Di Di=0 ii0 1 ii0图示:y x Xi0如果上图由一条址线回归方程来拟合,就会出现较大的误差 2.具有某种转折点的系统趋势的变化模型,其模型的形式为:=1+2xi1+3(xi1-xi0)Di Di=0 ii0 1 ii0i0=为发生转折的年份图示:Xi0显然如果上图由一条曲线方程来拟合,就会出现较的误差3.含有多个虚拟变量的因归模型。根据品质变量的不同特征和回归模型的需要,可以引入多个虚拟变量来表示多次转折、跳跃和间断的情况。例如建立个人医疗保障年支出回归模型:i=1+2xi1+3Di 1+4Di 2式中xi1为个人收入额 1 文化程度为大专及以上D
13、i 1 0 其它 1 机关及行政事业单位Di 2 0 其它例如:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为logQ=1+2 P+3 logY其中:Q 3120个样本家庭的年住房面积(平方英尺)P 家庭所在地的住房单位价格 Y 家庭收入经计算:logy=4.17-0.247log P+0.96logy R2=0.371 (0.11)(0.017)(0.026)上式中2=0.247的价格弹性系数,3=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。但白人家庭与黑人家庭对住房的需求是不一样的,引进虚拟变量D:1 黑人家庭Di 1
14、 0 白人家庭或其它家庭logQ=1+X1D+2 log P+a2D log P+3log Y+a3D log Y年份农资购买力(yi)农民倾向收入(xi)Di19751.34.7019761.35.4019771.45.5019781.56.9019791.89.0119802.110.0119812.311.3119822.613.4119832.715.2119843.019.3119853.227.81解:根据上述数据建立一元线性回归方程=1.0161+0.09357xR2=0.8821 Sy=0.2531 F=67.3266 带虚拟变量的回归模型,因1979年中国农村政策发生重大变化
15、,引入虚拟变量来反映农村政策的变化 0 i1979年 Di=1 i1979年建立回归方程为:=0.9855+0.0692x+0.4945D (9.2409)(6.3997)(3.2853)R2=0.9498 Sy=0.1751 F=75.6895虽然上述两个模型都可通过显著性水平检验,但可明显产生带虚拟变量的回归模型的可决系数更高,回归的估计误差(Sy)更小,说明模型的拟合程度更高,代表性更好。对有些经济现象的波动带有明显的阶段性,这时为提高回归方程的拟合效果,可彩分段回归的方法来建立回归方程。阶段性转折点的确定可以用散点图来观察确定 y x x0 x1 1+2xt 0 x1l异方差1.回归分
16、析的假定性和异方差回归分析的一个基本假定就是回归模型中随机误差项商店销售收入(x)利润总额(y)因归估计值()残差(e=y-)1160.012.810.22.62151.88.99.6-0.73108.14.16.7-2.44102.82.86.3-3.5589.38.45.43.0668.74.34.10.2766.84.03.90.1856.24.53.21.3955.73.13.2-0.11053.02.33.0-0.7商店销售收入(x)利润总额(y)因归估计值()残差(e=y-)1149.34.12.81.31243.02.02.4-0.41342.91.32.3-1.01437.61
17、.82.0-0.21529.01.81.40.41627.41.41.30.11726.22.01.20.81822.40.91.0-0.11922.21.01.002020.70.50.9-0.4根据最小二乘法计算出来的回归模型和回归估计值,然后再计算残差。从参数估计可看出该回归模型可决系数较高,一有关参数可能性通过检验,直观上认为该模型可作为预测所用。但若从残差值(e=y-)做座标图分析,可看出:从坐标图上看,残差的波动基本上呈一个喇叭型状态,销售收入小的单位,其残差一般较小,销售收入大的单位,其残差一般也较大,即残差随着商店规模扩大,销售额的增加而扩大。这表明,不同销信规模的商店,其利润
18、总额的方差各不相同,由于回归模型中随机误差的方差不是一个常数,这里就存在着异方差的现象。这种现象经常出现在以横截面数拓建立的回归模型分析中,对时间序列数据有时也会出现异方差性,例如对某公司的C-D生产函数的估计,因不同时期的数据内涵标准不同,企业的投资水平,管理水平等不同,也会发生异方差性现象。2.回归模型存在异方差的后果参数的最小二乘法估计虽然是元偏的,但却是非有效的。参数估计量的方差是有偏的,这将导致参数的假设检验也是非有效的。3.异方差性的检验判断(1)残差图分析法 e一般情况下,对随机数据所做的回归分析,当回归模型满足所有的假定时,残差图上的点是随机分布的,无任何规律,如上图所示。如图
19、回归模型存在异方差性,残差图上的点出现相应的有规律性的趋势,即随着y的增大,而出现e随之增大或减少的趋势,如下图:(2)等级相关系数法斯皮而曼检验这种检验既可以用大样本,也可以用小样本进行检验。其步骤如下:第一步:作回归方程 =a+bx,并求e=y-第二步:取e的绝对值,并与x按递增或递减顺序排成等级,然后计算相关系数。r e x=(1-6d2)/n(n2-1)式中n为样本容量,d为相应的x与e的等级差数。第三步:检验,设H0:r=0l;H1:r0统计量为:t=r/1-r2 ta/2(n-2)当t ta/2(n-2)时,接受H0,可认为异方差性不存在,否刚就接受H1,认为x与 ei 之间存在系
20、统关系,异方差性存在。在多元线性回归模型中,对任一变量xj做等级相关检验,若不通过检验,则认为整个回归模型存在异方差性。(3)样本分段比较法检验戈德菲尔德匡特检验该检验法的步骤是:将样本按某个解释变量的大小顺序排列,并将其分为两段;然后分别用最小平方法拟合两个回归模型,并分别计算各段的残差平方和S残1和S残2,计算高段的样本单位n1和低段的样本单位n2;计算各段模型随机误差的残差平方和,1=S残1(n1-k-1),2=S残1(n2-k-1);由此构造F统计量F=1/a2,该统计量服从第一自由度(n2-k-1)的F分布,在给定的显著性水平(a)下,进行Fa检验,若FFa,刚认为该组数据存在异方差
21、例如用前述某城市20家商店的销售额,分为5亿元以上的10家商店和5亿元以下的10家商店,分别用最小二乘法拟保两段的回归方程得:1=-0.75190+0.06875x,R2=0.6354 (1.1845)(0.0184)1=4.70372=-0.63129+0.07207x,R2=0.5623 (0.7535)(0.6225)2=0.4801F=12/22=4.7037/0.4801=9.7973 查第一自由度和第二自由度均为8,d=0.01时Fa=F(0.01)=6.03,即FFa,即认为存在异方差。存在异方差情况下的参数估计由于异方差存在时用普通最小二乘法对参数旱进行估计的非有效性,这时回归
22、模型的参数估计就不宜直接采用普通紧小二乘法进行参数估计,这时通常采用加权最小二乘法进行参数估计。对一元回归方程一种解的做法是用 xi 去除模型的两边各项。y/x=(a/x+bx/x=a/x+b x 还有一种方法是先用普通最小二乘法求出回归模型参数a和b,得回归方程=a+bx),然后用(a+bx)去除模型的两边各项,计算y/(a+bx)对1/(a+bx)和x/(x+bx)的无常数项的回归方程,这种方法称为二阶段加权最小二乘法1.序号相关的概念 对时间序列资料,往往由于经济经济发展,某一时间的变量值对未来某一时间的变量值的影响就产生了序列相关。例如以前所提到的一元回归方程=a+bx,x为自烃量,y
23、为因变量。而在离列相关时,所建立的回归方程为t=a+byt-i,这时同是一个变量y,但yt-i为自变量。例如美国的轿车一般折旧期为3年,则前三年的轿车销售量往往会对后三年的轿车销售量发生影响,这时建立的序列相关回归模型为:t=a+byt-3。当然在=a+bx的方程中,也会存在序列相关的问题。在有的统计学课本中,所序列相关回归称为自相关,因回归,即自身的变量对滞后时期的本变量发生影响。年份GDP Xt总消费 yt回归值 t残差Et=yt-t1978197919801981198219831984198519861987198819891990108.84120.11139.07139.15154
24、.94183.13216.61257.12284.86326.82410.22455.96500.7240.9849.3457.4463.7271.2281.3196.14112.30125.16147.87178.49197.67230.9656.0760.1466.9967.0172.7282.8994.98109.61119.63134.78164.89181.41197.57-15.09-10.80-9.55-3.29-1.50-1.581.162.695.5313.0913.6016.2633.36年份GDP Xt总消费 yt回归值 t残差Et=yt-t199119921993199
25、419951996598.79709.00863.231084.331395.121616.03225.47262.97310.28396.29506.58617.85232.98272.78328.47408.30520.52600.29-7.519.81-18.19-12.01-13.9417.56根据上述数据建立的回归方程为:=16.769+0.361x R2=0.99285 et2=3354.2986 (4.9374)(0.0074)DW=/=3217.2167/3354.2986=0.961715,否则很难做出正确判断221)(ntttee21tntel序列相关情形下的参数估计当模型
26、存在一阶序列相关时,对参数估计采用的有一阶差方法和方义差分法及选代法等几种。这里年份简单的一阶差分法。令:yt=yt yt-1 xt=xt-xt-1,则一阶差分回归模型=a+b x,然后用普通最小二乘法估计其参数。例如对上述某城市资料无截距(常数)项的一元回归模型,得:yt=0.3756 xt,R2=0.8495.S残=3166.3395 (0.0269)l在什么情况可能产生序列自相关现象(1)遗漏某些关键变量时可能产生序列自相关。例如,研究居民消费水平时,漏掉居民可支配收入的有关数据变量,则用居民消费水平数据建立的回归模型可能产生正自相关。(2)经济变量的滞后性会带来序列自相关。例如前述美国
27、轿车一般三年更新的例子。(3)采用错误的回归方式也可能引起。(4)经济上的蛛网现象可能引起。(5)对数据的错误加工可能导致误差项的自相关,例如,在季节性时间序列资料建立模型中,我们要常常消除季节性影响,对数据进行修匀处理后,可能会导致序列自相关。(一)简单外推模型。1、简单外推模型。(1)对一元回归时间序列线性模型。y=a+bt ,按模型趋势发展时,令时间增长到t0,则y0=a+bt0 Sy=对大样本数据(n30),区间预测为y0=(a+bt0)土土Z Z S Sy y,区间为一平行线外推。对小样本数据(n30),区间预测为y0=(a+bt0)土t S Sy y ,这时区间为一双曲线。(2)抛
28、物线模型22nyy)(22011)()(ttttn一阶:y=a+bt+ct2 二阶:y=a+bt+ct2+dt3 y y t t 一阶抛物线 二阶抛物线y=k+abt对修正指数曲线模型的参数估计:三和法第一段:把序列(y)分为三段,每段都包括相等的几个数据,然后对各段求和,得各数:y )(101bbbankyynttt011nktt1)1(12bbayytt 1第二段:=nk+abn第三段:=nk+ab2n 令(2)-(1)得令(3)-(2)得)(122bbbabnkyynnttt011n11bbn)(1323bbbabnkyynntttn2011n11bb 2 32n2)5()4(1)1(1
29、2bbayytt1)1(23bbbayyttnn2令(5)(4)得:bn=b=(4)得:a=(1)得:k=nttttyyyy21321223ttttyyyynttttyyyy2132)6(1112bbyyttnn2)7(1111bbaynt)8()8(t销售量(yt)一阶差分一阶差分环比(%)yt1234.604.905.140.300.2480.0014.644.60314.89975.13734565.335.485.600.190.150.1279.1778.9480.0016.415.32775.48015.60237895.705.785.840.100.080.0683.3380.
30、0075.0017.325.70025.77865.8418tyity上述时间序列数据的一阶差分得环比大致为一常数,故拟合修正指数曲线模型。b=0.8011 a=(16.41-14.64)=-1.4912K=1/314.64-(-1.4912)*(0.08113-1)/(0.8011-1)=6.0913 k=修正指数曲线模型:=6.0913+(-1.4912)(0.8011)t第9年 t=9时的预测 y9=6.0913+(-1.4912)(0.8011)=5.8917(万台)第10年 t=10时的预测 y10=6.0913+(-1.4912)(0.8011)=5.9320(万台)364.144
31、1.1641.1632.1718011.018011.032910(4)S曲线模型成长曲线模型A.龚析兹曲线模型=对该模型两边对对数得lg=lgk+(lga)*bt (1)令y=lgy k=lgk A=lga 代入方程(1)得:Y=K+A*bt,该模型为修正指数曲线模型,仿上例可求出有关参数后再求反对数可求出参数k,a,b的值b.逻辑斯特曲线模型=对该方程求倒数 =k+abt,这时方程表现为修正龚柏兹曲线与逻辑斯特曲线的图形区别:S曲线的特征可分为三个阶段,经常用来对某个产品的生命周期或人口的增长状况进行描述和预测。它的第一阶段为萌芽期,第二阶段为增长期,在拐点的左边为边际递增,拐点的右边为边
32、际递减,第三阶段为饱和期,曲线对拐点而言是旋转的对称。tbak*tabk1y1移动平均法是根据时间序列资料,逐项推移,依次计算移动平均,来反映现象的变动趋势时,运用移动平均法,消除这些因素的影响,进行动态数据的修匀,以利于旱灾行长期趋势的分析和预测。(1)简单移动平均tyt三项移动平均五项移动平均12345678910111242335843444552742942650248038442744640541246946746145246945643043743945246647344444413419452对三项移动平均:M4=(y3+y2+y1)/3=(434+358+423)/3=405M
33、5=(y4+y3+y2)/3=(445+434+358)/3=412以下类推对五项加权平均:M6=(y5+y4+y3+y2+y1)/5=(527+445+434+358+423)/5=437M6=(y6+y5+y4+y3+y2)/5=(429+527+445+434+358)/5=439以下类推对移动时间长度的选择,上述分别取三项移动平均和五项移动平均,得出t=13时的预测值分别为419只和452只。但究竟应该取几项移动平均呢?有效的办法是多取几个N,计算其移动平均值,然后分别求其均方误差。MSE=(-y)2/n,然后选取MSE较小的那个N,作为预测时的移动平均的时间长度。从上例中可看出:当N
34、=3时,MSE=(1/9)*(-y)2=28893/9=3210.33当N=5时,MSE=(1/7)*(-y)2=11143/7=1591.86由此可见,当N=5时,MSE较小,选择N=5,t=13时预测M13=452只。如果时间序列数字变化较大,用简单移动平均法就会产生较大的偏差。tyt三项加权移动平均()相对误差(%)123456789106.356.206.226.667.157.898.728.949.289.806.246.446.837.448.188.699.076.319.9314.4314.688.506.367.45对表中所列出的(yt)作出预测:4=M4=(6.22*3+
35、6.20*2+6.35*1)/(3+2+1)=6.245=M5=(6.60*3+6.22*2+6.20*1)/(3+2+1)=6.44.10=M10=(9.28*3+8.94*2+8.72*1)/(3+2+1)=9.0711=M11=(9.80*3+9.28*2+8.94*1)/(3+2+1)=9.48相对误差=(6.66-6.24)/6.66=6.31%,以此类推上表中,总的相对误差为:1-(t/yt)*100%=1-(52.89/58.44)*100%=9.50%则经过相对误差后的u=9.48*1/(1-9.5%)=10.48(万吨)(3)趋势移动平均法当现象出现线性增加或减少的趋势时,用
36、简单移动平均或加权移动平均法来预测,就会出现滞后偏差,对此作出的修正的方法是二次移动平均,利用移动平均滞后偏差的规律建立线性方程,作出预测趋势移动平均的线性模型:t+T=at+btT式中:at=2 Mt(1)-Mt(2)bt=2/(N-1)(Mt(1)-Mt(2)对下表取N=6,分别计算Mt(1)和Mt(2)列于下表M21(1)=(4107+3770+3514+3277+3093+3006)/6=3461.2 M21(2)=(3461.2+3246.7+3046.0+2832.7+2625.0+2435.8)/6=2941.2由公式得:a21=2 Mt(1)-Mt(2)=2*3461.2-29
37、41.2=3981.2b21=2/(6-1)(Mt(1)-Mt(2)=(2/5)(3461.2-2941.2)=208得直线趋势模型 t+T=3981.2+208T 当t+T=22时,T=1 得:22=3981.2+208*1=4189.2(亿度)23=3981.2+208*2=4397.2(亿度)tyt一次性移动平均Mt(1)N=6二次移动平均Mt(2)N=612.89101112131415161718192021676825.152416681688195820312234256628203006309332773514377041072216.22435.82625.02832.730
38、46.03246.73461.22733.62941.2(1)一次指数平滑预测模型t+1=ayt+(1-a)t 式中a为平滑系数St(1)=ayt+(1-a)St-1(1)式中t+1=St(1)(2)平滑系数的选择当时间序列数字波动不大,发展比较平稳时,a可取小一点,例如(0.1-0.3);当时间序列数字有明显的迅速的变动倾向,则a可取大一点,例如(0.6-0.8),在实际应用中,可多取几个a值,然后计算均方误差(MSE),看哪一个MSE较小,就选用哪个a作为平滑系数。(3)初始值的确定一般初始值以最初几期的实际值简单平均即可。tytt(a=0.2)t(a=0.5)t(a=0.8)123456
39、78910111247524751494851404852515951.050.851.0450.2350.3850.1049.6849.9447.9547.9648.7749.2251.050.551.2549.1350.0749.5448.7749.8944.9546.4849.2450.1251.050.251.6447.9350.3949.2848.2650.4542.0946.8250.9650.99上表列出a=0.2,a=0.5,a=0.8时,初始值(1)=(y1+y2)/2=(50+52)/2=51时各年平滑值计算。例如:当a=0.2时,2=ay1+(1-a)1=0.2*50+(
40、1-0.2)*51=50.8 3=ay2+(1-a)2=0.2*52+(1-0.2)*50.8=51.04以下类推。从上表可看出,当a分别为0.2、0.5、0.8时各年平滑值各不相同;通过计算均方误差(SME)来比较:当a=0.2时,MSE=(y-)2/12=243.14/12=20.26 a=0.5时,MSE=252.82/12=21.07 a=0.8时,MSE=281.4/12=23.45可见,当a=0.2时,MSE较小,故选择a=0.2做预测 13=ay12+(1-a)12=0.2*59+(1-0.2)*49.22=51.176(万元)(4)二次指数平滑预测模型当时间序列数据出现线性变动
41、趋势时,用一次指数平滑法来进行预测,仍会出现滞后偏差,这时可应用二次指数平滑法加以修正。其计算公式:St(1)=ayt+(1-a)St-1(1)St(2)=St(1)+(1-a)St-1(2)试中St(1)为一次指数平滑值,St(2)为二次指数平滑值。当时间序列数值具有线性趋势时,直线趋势模型:t+T=at+btT at=2 St(1)+St(2)bt=a/(1-a)(St(1)-St(2)tYtSt(1)St(2)t+112.15161718192021676825.2820300630933277351437704107676720.7.2305.42515.62688.82865.330
42、59.93272.93523.1676689.4.1897.02082.62264.52244.72629.32822.43032.6676.2603.42888.83134.23294.93466.23675.03916.5解:上表中:令S0(1)=S0(2)=676,a=0.3得:S21(1)=3523.1,S21(2)=3032.6 a21=2*S21(1)-S21(2)=2*3523.1-3032.6=4013.6 b21=a/(1-a)(S21(1)S21(2)=0.3/(1-0.3)(3523.1-3032.6)=210.21则 21+T=4013.6+210.21T得:22=21
43、+1=4013.6+210.21*1=4223.81(亿度)23=21+2=4013.6+210.21*2=4434.02(亿度)1.时间序列数据的影响分布长期超势因素(T)Trend季节变动因素(S)Season循环变动因素(C)Cycle不规则变动因素(I)Irregular时间序列的四个因素表示为乘法关系:t=TS C I2.季节变动指数测定季节变动是指经济现象在一年内随着季节的变换而引起的比较有规律的变化,例如,某些生活消费品因季节的变化而表现出旺季或淡季有规律周期性的变动。通过对季节变动的分析和研究,可以判断现象的季节变化规律,以作为当前经营活动的依据。同时在长期的时间序列数据分析中
44、,可以消除季节变动的影响,而观察长期趋势的变化及其它因素变化对数据的影响。(1)按季(月)平均法计算季节指数其步骤:1、列出各年各季(月)的有关数据(一般不少于5年)2、计算各年各季(月)的同季(月)平均数(yj)3、计算全部总的平均数(yj)4、计算季节指数(S)=yj/yj该方法适用于时间序列各年数据的变动不大,较平稳变化。年份销售额1季度2季度3季度4季度全年合计19781979198019811982198362.671.574.875.985.286.588.095.3106.3106.0117.6131.179.188.596.495.7107.3115.464.068.768.5
45、69.978.490.3293.7324.0346.0347.5388.5423.3合计456.5644.3582.4439.82123.0同季平均76.08107.3897.0773.3088.46季节指数 (%)86.01121.39109.7382.86100.00上表数据中:第一季度的各年同季平均yj=465.5/6=76.08,其余类推。各年各季的总平均yj=(76.08+107.38+97.07+73.30)/4=8846季节指数:第一季度S1=(76.08/88.46)*100%=86.01%第二季度S2=(107.38/88.46)*100%=121.39%第三季度S3=(97
46、.07/88.46)*100%=109.73%第四季度S4=(73.30/88.46)*100%=82.86%人、从计算可看出,第二季度是春耕春忙季节,是农业生产资料的销售旺季。该方法计算简明易理解,但有一个假定,即各年各季数据没有明显的长期趋势。但在实际的经济现象数据分析时,往往有长期趋势的变化,因此该方法计算的季节指数不够准确而应该用趋势除法来计算季节指数。季度tyt四项移动平均趋势值(t)y/t(%)季节指数S(%)季节调整后收入(y/s)回归趋势值(t)1978.1 2 3 4123462.688.079.164.074.5476.56106.1283.5988.39122.33109
47、.0180.2670.8271.9372.5679.7471.3872.8874.3775.861979.1 2 3 4123471.595.388.568.778.6580.4181.4183.2090.91118.51108.7182.5788.39122.33109.0180.2680.8977.9081.1885.5977.3678.8580.3481.831980.1 2 3 4123474.8106.396.468.585.5686.5386.6486.7487.42122.85111.2778.9788.39122.33109.0180.2684.6286.8988.4385.3
48、583.3384.8286.3187.81季度tyt四项移动平均趋势值(t)y/t(%)季节指数S(%)季节调整后收入(y/s)回归趋势值(t)1981.1 2 3 4123475.9106.095.769.986.6186.7088.0490.6587.63122.26108.7077.1188.39122.33109.0180.2685.8786.6587.7987.0989.3090.7992.3993.781982.1 2 3 4123485.2117.6107.378.493.5596.0697.2999.1491.07122.42110.2979.0888.39122.33109.
49、0180.2696.3996.1398.4397.6895.2796.7698.2699.751983.1 2 3 4123486.5131.1115.490.3101.84104.3484.94125.6588.39122.33109.0180.2697.86107.17105.86112.51101.24102.74104.23105.72年份第一季度第二季度第三季度第四季度合计19781979198019811982198390.9187.4287.6391.0784.94118.51122.85122.26122.42125.65106.12108.71111.27108.70110.
50、2983.5982.5778.9777.1179.08合计441.98611.70545.09401.332000.10平均88.40122.34109.0280.27100.005季节指数88.39122.33109.0180.26100.00从上表可看出,剔除长期趋势变支后,农业生产资料的销售旺季仍为第二季度。(三)季节变动的调整及预测对时间数据剔除变动后的调整,可以在设有季节因素影响的情况下,时间序列数据变化的趋势。对调整后的序列拟合线性回归方程t=69.89+1.493t,对计算出来的趋势值t数据可看出呈现现增长趋势。也可以用这个回归方程进行预测。对1984年各季度的农业生产资料销售额