1、第四章第四章 回归技术与需求估计回归技术与需求估计回归技术回归技术需求估计需求估计回归分析中的问题回归分析中的问题动因:根据假设(理论)模型,动因:根据假设(理论)模型,使用变量的已有(历史)数据,确定模型中的参数。使用变量的已有(历史)数据,确定模型中的参数。思路:拟合思路:拟合先以青歌赛歌手得分为例。O 歌手个人得分90123456789109585得分均值=90分通俗组O 歌手个人得分90123456789109585得分均值=90分民族组O 歌手个人得分90123456789109585美声组得分均值=90分相比较而言,相比较而言,水平参差不齐水平参差不齐O 歌手个人得分90O 歌手数
2、1234567891090 歌手 歌手得分歌手总得分90规律曲线下面以成本函数为例说明如何得到规律曲线O成本产量成本函数的一般形式:曲线式成本函数的一般形式:曲线式(见第(见第7章)章)O成本Y产量X成本函数的简化形式:直线式成本函数的简化形式:直线式平均成本Y总成本和总产量数据生产期生产期总成本(总成本(Yi)总产量(总产量(Xi)110002150531608424010523015637023741025O成本成本Y Y产量产量X X以直线函数式表示:Y=a+bX,b0其中,系数a为截距。截距a系数b为直线斜率。对(X1,Y1)和(X2,Y2)两点,b=(Y2-Y1)/(X2-X1)但是
3、这个直线的得出靠目测等简单的方法,不科学。估计系数参考“方差”和“标准差”的思路,利用已知的X、Y系列数据,用合理的方式构造出直线的方程,求出系数a和b。O Y Y X X希望得到的直线希望得到的直线,称为“估计曲线”,或“拟合(fit)曲线”。O Y Y X X“拟合曲线拟合曲线”的拟合原则,的拟合原则,是使直线尽可能贴近所有的散点,是使直线尽可能贴近所有的散点,总偏差最小。总偏差最小。哪一条曲线是最合适的拟合曲线??局部放大,选择2个点观察Yi到拟合曲线的离差0Yi到拟合曲线的离差t0,则拟合的系数则拟合的系数b表征了拟合曲线和样本的关系,表征了拟合曲线和样本的关系,即回归直线是统计上显著
4、的。即回归直线是统计上显著的。X21.1208.87Y在回归方程 例中,t=12.211.19=10.26这个数大于查自由度为7-1-1=5的t分布表的t值tn-k-1=2.571,统计上显著。n为原始数据的组数,k为方程中自变量的数目。(查表:教材P549附表III)T统计量评测评价单个自变量的解释能力或用如下方式来估计b的95%的置信区间:b的95%的置信区间=12.21-2.571*1.19,12.21+2.571*1.19 =9.15,15.27或:b的95%的置信区间为9.15 15.27bknStb1T统计量评测评价单个自变量的解释能力利用回归方程进行预测利用回归方程进行预测X21
5、.1208.87Y对于回归方程只要给定自变量X的值,就可以求出在回归曲线上Y的值。例如,当X=20时,Y=87.08+12.21*20=331.28因为给定自变量X并非此前真实存在,所以这时求出的Y值称拟合值,或称理论值、预测值。而实际上,如此精确的结果并非有实用价值,而实际上,如此精确的结果并非有实用价值,可以变通一下,给出当给定自变量X时,Y的可能区间。称区间估计。度量预测值可能的误差,用估计值标准差Se1)()(2knYYXXbYYSiiieeknStY1Y的95%置信区间为:利用回归方程进行预测例如X=22,代入回归方程,Y=87.08+12.21*22=355.7014.271177
6、1.6245*21.1286.79942eS而所以生产22个单位产品成本的95%的置信区间为:355.702.571*27.14即:285.92 425.48多变量回归例如Y=A+bX+cZ假定其他变量不变,某一自变量(X或Z)单独发生变化时,其一单位变化对因变量的影响为系数b、c的含义。多元回归建立理论模型收集数据选择函数形式估计和解释结果建立理论模型),I,(dTPPfQo注意每个变量的内涵和关联关系收集数据调查 问卷调查 电话调查 网络调查 入室调查市场实验查询档案资料 企业资料 政府统计资料 行业统计资料时间序列数据:纵向,按时间进程排列横断面数据:横向,同一时间点上选择函数形式 解释
7、系数 计算弹性 ),I,(dTPPfQo模型TaaIaPaBTOIPOdPQ线性方程幂函数方程TOaIpaOaadTPIBPQ 不能直接用最小二乘法来估计,求对数后可以使用:TaPaIaPaBQTOOIpdloglogloglogloglog一种选择是:一种选择是:另一种选择是:另一种选择是:使用幂函数及其对数方程,可方便地将系数和弹性建立关系TOaIpaOaadTPIBPQ TOaIpaOaapdTPIBPaPQ1两侧同乘以P/QddaOaapddpQTPIBPaQPPQETOaIp*TOaIpaOaadTPIBPQ ppaE 同样,aI、aO、aT分别是需求的收入弹性、交叉弹性和偏好弹性。
8、估计和解释结果变量常数BPIPO估计的系数50.7836 4.98920.0034 1.2801样本标准差10.21891.34580.00450.5890t-统计量(4.97)(3.71)(0.76)(2.17)观察次数=182R2=0.6837OdPQOIPaIaPaB对某线性函数 系数取值的意义 标准差表示估计值的准确度 t-统计量的得出(系数除以标准差)用以假设检验 可决系数R2表示模型的总解释能力变量遗漏识别问题多重共线性变量遗漏S=484.42+15.54K R2=0.44 (5.32)(2.51)K越高,S越大,不合常理修正:S=462.81.28K+17.14H R2=0.92
9、 (3.71)(0.33)(6.44)(见教材例)多重共线性问题:变量太多,自身高度相关G=50.00+0.40H+0.02P R2=0.80 (2.80)(0.80)(1.35)H和P高度相关,可以通过相关系数r反映删掉一个变量HG=60.00+0.03P R2=0.75 (2.70)(3.00)(见教材例)S3D3S2D2识别问题OPQDDS1S2S3OPQD1S1产生根源:供给曲线和需求曲线存在变动的同时性。使用计量经济学工具解决。识别方式:需求、供给中各加入不同的影响变量。原始数据认为需求固定,由于供给曲线变动形成一系列P-Q对应数据。事实上,可能D曲线与S曲线同时都移动了。例如:汽油
10、的市场均衡模型:Qd=B+d1Pg (Pg为汽油价格)Qs=C+s1PgQd=Qs前两个方程的自变量相同(Pg),而第三个等式决定了前两个方程可以合成一个等式,故“无法识别”:无法通过回归统计得到参数B,d1,C,S1(特别是需求方程中的B和d1)的值。解决办法如下:需求方程中加入自变量“收入I”,供给方程中加入另一自变量“相关商品原油的供给价格Pc”:Qd=B+d1Pg+d2IQs=C+s1Pg+s2PcQd=Qs称为“结构型模型”。可得:B+d1Pg+d2I=C+s1Pg+s2Pc,求Pg的表达式:IsddPsdssdBCPcg)()(11211211IsdsdPsdsdsdBCdBQc)()()(11121121111称为“约简型”方程:线性;右边只有I和PC两个自变量,可用最小二乘法估计。将其带入结构型模型的需求方程表达式,Ag1g2Q=A+g1Pc+g2I习题讨论题 7练习题(一)4、8 练习题(二)1