1、概念概念:样本回归线是对样本数据的样本回归线是对样本数据的一种拟合。一种拟合。不同的模型(不同函数形式不同的模型(不同函数形式)可拟合出不同的样本回归线可拟合出不同的样本回归线相同的模型用不同方法去估计相同的模型用不同方法去估计参数,也可以拟合出不同的回归线参数,也可以拟合出不同的回归线拟合的回归线与样本观测值总是有偏离。样本回归线拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度,可称为对样本观测数据拟合的优劣程度,可称为拟合优度拟合优度。如何度量拟合优度呢?如何度量拟合优度呢?拟合优度的度量建立在对拟合优度的度量建立在对 Y 的总变差分解的基础上的总变差分解的基础上
2、1XY 拟拟合优度的度量合优度的度量 分析分析Y的观测值的观测值 、估计值、估计值 与平均值与平均值 有以下关系有以下关系 将上式两边平方加总,可证得将上式两边平方加总,可证得(提示:交叉项(提示:交叉项 )(TSS)(ESS)(RSS)或者表示为或者表示为 总变差总变差 (TSS):被解释变量:被解释变量Y的观测值与其平均值的离差平的观测值与其平均值的离差平 方和方和(总平方和)(总平方和)(说明说明 Y 的总变动程度)的总变动程度)解释了的变差解释了的变差 (ESS):被解释变量:被解释变量Y的估计值与其平均值的的估计值与其平均值的 离差平方和离差平方和(回归平方和)(回归平方和)剩余平方
3、和剩余平方和 (RSS):被解释变量观测值与估计值之差的平方:被解释变量观测值与估计值之差的平方 和和(未解释的平方和)(未解释的平方和)2()()()iiiiiiiYYYYYYYYYY222()()()iiiiYYYYYY2iy222iiiyye2ie()0iiYY e2iyiYiYY 一、总变差的分解一、总变差的分解 Y X 3iYYiXSRF变差分解的图示变差分解的图示(以某一个观测值为例以某一个观测值为例)()iiYYy 来自回归()iiiYYe=来自残差()iiYYy 变差iYiY()iiiYYYYe222iiiyye 以以TSS同除总变差等式同除总变差等式 两边:两边:或或 定义:
4、定义:回归平方和(解释了的变差回归平方和(解释了的变差ESS)在总变在总变 差(差(TSS)中所占的比重称为可决系数,用中所占的比重称为可决系数,用 或或 表示表示:42iy2r2iy222iyRy2221iieRy 22221iiiyyey或或2R222222()()()()()()iiiiiiiYYYYYYYYYYYY222()()()iiiiYYYYYY 二、可决系数二、可决系数 可决系数越大,说明在总变差中由模型作出了解释的可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系部分占的比重越大,模型拟合优度越好。反之可决系数越小,说明模型对样本观测
5、值的拟合程度越差。数越小,说明模型对样本观测值的拟合程度越差。可决系数的特点可决系数的特点:可决系数取值范围:可决系数取值范围:随抽样波动,样本可决系数随抽样波动,样本可决系数 是随抽样而变是随抽样而变 动的随机变量动的随机变量 可决系数是非负的统计量可决系数是非负的统计量5201R2R可决系数的作用可决系数的作用联系:联系:数值上可决系数是相关系数的平方数值上可决系数是相关系数的平方62222222222222222222222()()()()()()()iiiiiiiiiiiiiiiiiiiyxRyyxxyyx yx yxyxyrx yx2iiyx可决系数与相关系数的关系可决系数与相关系数
6、的关系区别:区别:可决系数可决系数 相关系数相关系数 是就模型而言是就模型而言 是就两个变量而言是就两个变量而言 说明解释变量对被解释说明解释变量对被解释 说明两变量线性依存程度说明两变量线性依存程度 变量的解释程度变量的解释程度 度量不对称的因果关系度量不对称的因果关系 度量对称的相关关系度量对称的相关关系 取值取值 0 1 取值取值-1r1 有非负性有非负性 可正可负可正可负72R8第四节第四节 回归系数的区间估计和假设检验回归系数的区间估计和假设检验为什么要作区间估计?为什么要作区间估计?运用运用OLS法可以估计出参法可以估计出参数的一个估计值,但数的一个估计值,但OLS估计只是通过样本
7、得到的点估计只是通过样本得到的点估计,它不一定等于真实参数,还需要寻求真实参数估计,它不一定等于真实参数,还需要寻求真实参数的可能范围,并说明其可靠性。的可能范围,并说明其可靠性。为什么要作假设检验?为什么要作假设检验?OLS 估计只是用样本估计的结果,是否可靠?估计只是用样本估计的结果,是否可靠?是否抽样的偶然结果呢?还有待统计检验。是否抽样的偶然结果呢?还有待统计检验。区间估计和假设检验都是建立在确定参数估计区间估计和假设检验都是建立在确定参数估计值值 概率分布性质的基础上。概率分布性质的基础上。k9 一、一、OLS估计的分布性质估计的分布性质 基本思想基本思想 是随机变量,必须确定其分布
8、性质才可能进行区间估是随机变量,必须确定其分布性质才可能进行区间估计和假设检验计和假设检验 怎样确定怎样确定 的分布性质呢的分布性质呢?是服从正态分布的随机变量,决定是服从正态分布的随机变量,决定 了了 也是服从正态分布的随机变量;也是服从正态分布的随机变量;是是 的线性函数,决定了的线性函数,决定了 也服从正态分布也服从正态分布 正态正态 正态正态 正态正态 只要确定只要确定 的期望和方差,即可确定的期望和方差,即可确定 的分布性质的分布性质 kkiuiYiYiuiYkkkkk12iiiYXu2iik y线性特征线性特征(线性估计的重要性(线性估计的重要性)10 的期望:的期望:(已证明是无
9、偏估计)已证明是无偏估计)的方差和标准误差的方差和标准误差 (证明见证明见P38)(标准误差是方差的平方根标准误差是方差的平方根)注意:注意:以上各式中以上各式中 均未知,但是个常数,其余均是已知均未知,但是个常数,其余均是已知的样本观测值,这时的样本观测值,这时 和和 都不是随机变量。都不是随机变量。()kkE222()()iSEVarx 的期望和方差222()iVarx2212()iiXVarnx2112SE()()iiXVarnx2kkk)(kVar)(kSE2()iVar u11 基本思想:基本思想:是是 的方差,而的方差,而 不能直接观测,只能从由样本不能直接观测,只能从由样本得到的
10、得到的 去获得有关去获得有关 的某些信息,去对的某些信息,去对 作出估计。作出估计。可以证明(见附录可以证明(见附录2.2)其无偏估计为其无偏估计为 (这里的这里的n-2为自由度为自由度,即可自由变化的样本观测值个数即可自由变化的样本观测值个数)注意区别:注意区别:是未知的确定的常数;是未知的确定的常数;是由样本信息估计的,是个随机变是由样本信息估计的,是个随机变量量2222nei对随机扰动项方差对随机扰动项方差 的估计的估计iuiuiuie222222()E22()(2)iEen12iiieYX12对对 作标准化变换作标准化变换为什么要对为什么要对 作标准化变换作标准化变换?在在 正态性假定
11、下,由前面的分析已知正态性假定下,由前面的分析已知但在对一般正态变量但在对一般正态变量 作实际分析时,要具体确定作实际分析时,要具体确定 的取值及对应的概率,要通过正态分布密度函数或的取值及对应的概率,要通过正态分布密度函数或分布函数去计算是很麻烦的,为了便于直接利用分布函数去计算是很麻烦的,为了便于直接利用“标标准化正态分布的临界值准化正态分布的临界值”,需要对,需要对 作标准化变换。作标准化变换。标准化的方式:标准化的方式:kkkkk()()kkkkEzSEiu)(,kkkVarN 221()2xxxedx 标准正态分布函数标准正态分布函数13在在 已知时已知时对对 作标准化变换,所得作标
12、准化变换,所得Z统计量为标准统计量为标准正态变量。正态变量。11111212(0,1)()iizNSEXnx2222222(0,1)()izNSEx 1.已知时,对已知时,对 作标准化变换作标准化变换k注意注意:这时这时 和和 都不是随机变量都不是随机变量(X、都是非随机的)都是非随机的))(2SE)(1SE2k2n14条件:条件:当当 未知时未知时,可用,可用 (随机变量)代替(随机变量)代替 去估计去估计参数的标准误差参数的标准误差。这时参数估计的标准误差是个随机变量。这时参数估计的标准误差是个随机变量。样本为大样本时样本为大样本时,作标准化变换所得的统计量作标准化变换所得的统计量Zk,也
13、可以也可以 视为标准正态变量视为标准正态变量(根据中心极限定理)。(根据中心极限定理)。样本为小样本时样本为小样本时,用估计的参数标准误差对用估计的参数标准误差对 作标准化变换,所得的统作标准化变换,所得的统 计量用计量用t表示,这时表示,这时t将不再服从正态分布,而是服从将不再服从正态分布,而是服从 t 分布分布(注意这时分母是随机变量):22(2)()kkktt nSE2.未知时,对未知时,对 作标准化变换作标准化变换k2k2基本思想基本思想:对参数作出的点估计是随机变量,虽然是无偏估计,但还不对参数作出的点估计是随机变量,虽然是无偏估计,但还不能说明这种估计的可靠性和精确性。如果能找到包
14、含真实参数能说明这种估计的可靠性和精确性。如果能找到包含真实参数的一个范围,并确定这样的范围包含参数真实值的可靠程度,的一个范围,并确定这样的范围包含参数真实值的可靠程度,将是对真实参数更深刻的认识将是对真实参数更深刻的认识。方法:方法:如果在确定参数估计式概率分布性质的基础上,可找到两如果在确定参数估计式概率分布性质的基础上,可找到两个正数个正数和和 ,能使得这样的区间,能使得这样的区间 包含真实包含真实 的概率为的概率为 ,即,即这样的区间称为所估计参数的置信区间。这样的区间称为所估计参数的置信区间。讨论:讨论:“如果已经得出了如果已经得出了 的特定估计值的特定估计值,并确定了某个置信区间
15、,这说明并确定了某个置信区间,这说明真实参数落入这个区间的概率为真实参数落入这个区间的概率为1-”。这种说法对吗。这种说法对吗?15),(kkk)10(1k1)(kkkP 二、回归系数的区间估计16样本容量充分大样本容量充分大样本容量较小样本容量较小总体方差总体方差 已知已知总总体体方方差差 未未知知*222222(0,1)()iZNSExZ将接近将接近标准正态分布标准正态分布服从服从 t 分布分布22k三三种种情情况况1)(kkkP基本思想基本思想:利用利用 标准化后统计量的分布性质去寻求标准化后统计量的分布性质去寻求 :置信区间:置信区间:标准正态分布标准正态分布(1)当总体方差当总体方差
16、 已知时已知时(Z 服从正态分布服从正态分布)取定取定 (例如(例如 =0.05),查标准正态分布表得与),查标准正态分布表得与 对对应的临界值应的临界值z(例如例如z为为1.96),则标准化变量,则标准化变量Z*(统计量)(统计量)因为因为 或或 即即17222222()()1PzSEzSE 2221()PzzSE *222222(0,1)()iZNSExzz22()izSEzx0回归系数的区间估计回归系数的区间估计 (分三种情况寻找合适的分三种情况寻找合适的 )方法:方法:可用无偏估计可用无偏估计 去代替未知的去代替未知的 ,由于样本容量充分大,标准化变量由于样本容量充分大,标准化变量Z*
17、(统计量)将(统计量)将接近标准正态分布接近标准正态分布注意:这里的“”,表示“估计的”,这时区间估计的方式也可利用标准正态分布这时区间估计的方式也可利用标准正态分布只是这时只是这时18222*222222(0,1)()izNSEx22()izSEzx2.当总体方差当总体方差 未知,且样本容量充分大时未知,且样本容量充分大时方法:方法:用无偏估计用无偏估计 去代替未知的去代替未知的 ,由于样本容量较,由于样本容量较小,小,“标准化变量标准化变量”t(统计量)不再服从正态分布,而服从(统计量)不再服从正态分布,而服从 t 分布。分布。这时可用这时可用 t 分布去建立参数估计的置信区间。选定分布去
18、建立参数估计的置信区间。选定,查,查 t 分分布表得显著性水平为布表得显著性水平为 ,自由度为,自由度为n-2的临界值的临界值 (n-2),则有则有即即 192222t222221()PttSE 22222221()()tSEEPtS*222(2)()tt nSE23、当总体方差、当总体方差 未知,且样本容量较小时未知,且样本容量较小时2020统计量统计量 t计算的统计量为计算的统计量为:相对于显著性水平相对于显著性水平 的临界值为的临界值为:(单侧)(单侧)或或 (双侧)(双侧)t2t2t2t*t*t基本概念回顾基本概念回顾:临界值与概率、大概率事件与小概率事件临界值与概率、大概率事件与小概
19、率事件0(大概率事件)(大概率事件)(小概率事件)(小概率事件)1目的:目的:简单线性回归中,检验简单线性回归中,检验X对对Y是否真有显著影响是否真有显著影响三、三、回归系数的假设检验回归系数的假设检验21 回归系数的检验方法回归系数的检验方法 确立假设:确立假设:原假设为原假设为 备择假设为备择假设为 (本质本质:检验检验 是否为是否为0,即检验,即检验 是否对是否对Y有显著影有显著影响响)(1)当已知当已知 或样本容量足够大时或样本容量足够大时 可利用正态分布作可利用正态分布作Z检验检验 给定给定 ,查正态分布表得临界值查正态分布表得临界值 Z 如果如果 则不拒绝原假设则不拒绝原假设如果如
20、果 或或 则则 拒绝原假设拒绝原假设0:20H0:21H2*22222(0.1)()()ZNSESE*zZz*Zz*Zz0H0HiX222(2)当当 未知,且样本容量较小时未知,且样本容量较小时只能用只能用 去代替去代替 ,可利用,可利用 t分布作分布作 t 检验:检验:22*22222(2)()()tt nSESE给定给定 ,查查 t 分布表得分布表得如果如果 或者或者 则拒绝原假设则拒绝原假设 而不拒绝备择假设而不拒绝备择假设如果如果 则不拒绝原假设则不拒绝原假设)2(2*ntt)2(2*ntt)2()2(2*2nttnt0:20H0:20H0:21H)2(2nt2用用 P 值判断参数的显
21、著性值判断参数的显著性假设检验的假设检验的 p 值值:p 值是基于既定的样本数据所计算的统计量,拒绝值是基于既定的样本数据所计算的统计量,拒绝原假设的最低显著性水平。原假设的最低显著性水平。统计分析软件中通常都给出了检验的统计分析软件中通常都给出了检验的 p 值值 P统计量 t计算的统计量:相对于显著性水平 的临界值:或t2t2t2t*t*t*t注意:注意:t检验是比较检验是比较 和和P值检验是比较值检验是比较 和和 p*t2t 与 相对应 与 P 相对应*t2t24用用 P 值判断参数显著性的方法值判断参数显著性的方法方法方法:将给定的显著性水平将给定的显著性水平 与与 p 值比较:值比较:
22、若若 值,必有值,必有 ,则在显著性水平,则在显著性水平 下下拒绝原假设拒绝原假设 ,即认为,即认为 对对 Y 有显著影响有显著影响 若若 值,必有值,必有 ,则在显著性水平,则在显著性水平 下下不拒绝原假设不拒绝原假设 ,即认为,即认为 对对 Y 没有显著没有显著影响影响规则规则:当当 时,时,P值越小,越能拒绝原假设值越小,越能拒绝原假设0:0kH0:0kH0Hppp*2tt*2tt 第五节第五节 回归模型预测回归模型预测 一、回归分析结果的报告一、回归分析结果的报告 经过模型的估计、检验,得到一系列重要的数据,经过模型的估计、检验,得到一系列重要的数据,为了简明、清晰、规范地表述这些数据
23、,计量经济学通为了简明、清晰、规范地表述这些数据,计量经济学通常采用以下规范化的方式:常采用以下规范化的方式:例如:回归结果为例如:回归结果为 =244545 +05091 (64138)(00357)标准误差SE t=(38128)(142605)t 统计量 =09621 df=8 可决系数和自由度 F=20287 DW=2.3 F 统计量 DW统计量iYiX2R1.基本思想基本思想经估计的计量经济模型可用于经估计的计量经济模型可用于:经济结构分析经济结构分析 经济预测经济预测 政策评价政策评价 验证理论验证理论运用计量经济模型作预测:指利用所估计的样本回归函数运用计量经济模型作预测:指利用
24、所估计的样本回归函数作预测工具,用解释变量的已知值或预测值,对预测期或样作预测工具,用解释变量的已知值或预测值,对预测期或样本以外的被解释变量的数值作出定量的估计。本以外的被解释变量的数值作出定量的估计。计量经济预测是一种条件预测:计量经济预测是一种条件预测:条件:模型设定的关系式不变条件:模型设定的关系式不变 所估计的参数不变所估计的参数不变 解释变量在预测期的取值已作出预测解释变量在预测期的取值已作出预测 26 二、被解释变量平均值预测二、被解释变量平均值预测 预测值、平均值、个别值的相互关系 Y 是对真实平均值的点估计是对真实平均值的点估计,也是对个别值的点估计也是对个别值的点估计FYS
25、RFPRFXFXFeFu()FFE YX点预测值真实平均值个别值FYFY2、Y 平均值的点预测平均值的点预测点预测点预测:用样本估计的总体参数值所计算的用样本估计的总体参数值所计算的Y的估计值的估计值直接作为直接作为Y的预测值的预测值方法:方法:将解释变量预测值直接代入估计的方程将解释变量预测值直接代入估计的方程 这样计算的这样计算的 是一个点估计值是一个点估计值 12FFYXFY 3、Y平均值的区间预测平均值的区间预测基本思想:基本思想:预测的目标值是真实平均值,由于存在抽样波动,预预测的目标值是真实平均值,由于存在抽样波动,预 测的平均值测的平均值 不一定等于真实平均值不一定等于真实平均值
26、 ,还,还 需要对需要对 作区间估计作区间估计为对为对Y作区间预测,必须确定平均值点预测值作区间预测,必须确定平均值点预测值 的抽的抽样分布样分布 必须找出点预测值必须找出点预测值 与预测目标值与预测目标值 的关系,即找的关系,即找出与二者都有关的统计量出与二者都有关的统计量)(FFXYE)(FFXYEFY)(FFXYEFYFY 具体作法具体作法(从 的分布分析)已知已知 可以证明可以证明 服从正态分布服从正态分布(为什么为什么?),将其标准化,将其标准化,12()()FFFFE YE YXX222()1()FFiXXVar Ynx22()1()FFiXXSE Ynx当当 未知时,只得用未知时
27、,只得用 代替,这时代替,这时有有2)2(22nei22()(2)()1FFFFiYE YXtt nXXnx注意注意:FYFY(较复杂不具体证明)(较复杂不具体证明)31显然这样的显然这样的 t 统计量与统计量与 和和 都有关。都有关。给定显著性水平给定显著性水平,查,查 t 分布表,得自由度分布表,得自由度n2的临的临界值界值 ,则有,则有即即Y平均值的置信度为平均值的置信度为 的预测区间为的预测区间为)2(2nt22()()()1FFFFFFp YtSE YE YXYtSE Y 222222()1,()1FFiFFiXXYtnXXYtnxx1构建平均值的预测区构建平均值的预测区间间FY)(
28、FFXYE1)()(22tYSEXYEYttPFFFF22()1Pttt 三、被解释变量个别值预测三、被解释变量个别值预测基本思想:基本思想:既是对既是对Y平均值的点预测,也是对平均值的点预测,也是对Y个别个别值的点预测。值的点预测。由于存在随机扰动由于存在随机扰动 的影响,的影响,Y的平均值并的平均值并不等于不等于Y的个别值的个别值 为了对为了对Y的个别值的个别值 作区间预测,需要寻找作区间预测,需要寻找与点预测值与点预测值 和预测目标个别值和预测目标个别值 有关的统计有关的统计量,并要明确其概率分布量,并要明确其概率分布FYFYFYiuFY 已知剩余项已知剩余项 是与预测值是与预测值 及个
29、别值及个别值 都有关的变量,并且已知都有关的变量,并且已知 服从正态分布,且可证明服从正态分布,且可证明 当用当用 代替代替 时,对时,对 标准化的标准化的 变量变量 t 为为 33FFFeYYFYFe0)(FeE2Fe22()(2)()1(1FFFFFFieE eYYtt nXXSE enx)2222()1()()1FFFFiXXVar eE YYnx)2(22neiFY(较复杂不具体证明)(较复杂不具体证明)具体作法:具体作法:构建个别值的预测区间构建个别值的预测区间给定显著性水平给定显著性水平 ,查,查 t 分布表得自由度为分布表得自由度为N2的临界值的临界值 ,则有,则有 因此,一元回
30、归时因此,一元回归时Y的个别值的置信度为的个别值的置信度为 的预测区间的预测区间上下限为上下限为 )2(2nt22()()1FFFFFP YtSE eYYtSE e 222()11FFFiXXYYtnx135 被解释变量被解释变量Y区间预测的特点区间预测的特点(1)Y平均值的预测值平均值的预测值与真实平均值有误差,主要与真实平均值有误差,主要是受是受抽样波动影响抽样波动影响 预测区间预测区间 Y个别值的预测值个别值的预测值与真实个别值的差异与真实个别值的差异,不仅受不仅受抽抽样波动影响样波动影响,而且还受,而且还受随机扰动项的影响随机扰动项的影响 预测区间预测区间222()11FFFiXXYY
31、tnx222()1FFFiXXYYtnx36(2)平均值和个别值预测区间都不是常数,)平均值和个别值预测区间都不是常数,是随是随 的变化而变化的,当的变化而变化的,当 时,预测区间最小。时,预测区间最小。(3)预测区间上下限与样本容量有关,当样本容量)预测区间上下限与样本容量有关,当样本容量n时时,个别值的预测区间只决定于随机扰个别值的预测区间只决定于随机扰 动的方动的方差。差。FX222()11FFFiXXYYtnx预测区间预测区间FXX37SRF各种预测值的关系各种预测值的关系Y的个别值的预测区间FXY平均值的预测区间XFXX当时,预测区间最小XY38第八节第八节 案例分析案例分析案例案例
32、:分析各地区城镇居民计算机拥有量与城分析各地区城镇居民计算机拥有量与城镇居民收入水平的关系镇居民收入水平的关系 提出问题:提出问题:随着信息化程度和居民收入水平的提高,作随着信息化程度和居民收入水平的提高,作为居民耐用消费品重要代表的计算机已为众多城镇居民为居民耐用消费品重要代表的计算机已为众多城镇居民家庭所拥有。研究中国各地区城镇居民计算机拥有量与家庭所拥有。研究中国各地区城镇居民计算机拥有量与居民收入水平的数量关系,对于探寻居民消费增长的规居民收入水平的数量关系,对于探寻居民消费增长的规律性,分析各地区居民消费的差异,预测地区全体居民律性,分析各地区居民消费的差异,预测地区全体居民消费水平
33、和结构的发展趋势,合理规划信息产业的发展,消费水平和结构的发展趋势,合理规划信息产业的发展,都有重要的意义。都有重要的意义。理论分析:理论分析:影响居民计算机拥有量的因素有多种,但从影响居民计算机拥有量的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入水平。理论和经验分析,最主要的影响因素应是居民收入水平。从理论上说居民收入水平越高,居民计算机拥有量越多。从理论上说居民收入水平越高,居民计算机拥有量越多。变量选择:变量选择:被解释变量选择能代表城乡所有居民消费的被解释变量选择能代表城乡所有居民消费的“城镇居民家庭平均每百户计算机拥有量城镇居民家庭平均每百户计算机拥有量”(单位单位:
34、台台);解释变量选择表现城镇居民收入水平的解释变量选择表现城镇居民收入水平的“城镇居民平均每城镇居民平均每人全年家庭总收入人全年家庭总收入”(单位(单位:元)元)研究范围:研究范围:全国各省市全国各省市2011年底的城镇居民家庭平均每百年底的城镇居民家庭平均每百户计算机拥有量和城镇居民平均每人全年家庭总收入数据。户计算机拥有量和城镇居民平均每人全年家庭总收入数据。2011年中国各地区城镇居民每百户计算机拥有量和人均总收入地区地区2011年底城镇居民家庭平均每百户计算机拥有量年底城镇居民家庭平均每百户计算机拥有量(台台)Y城镇居民平均每人全年家庭总收入城镇居民平均每人全年家庭总收入(元)(元)X
35、北 京103.5137124.39天 津95.429916.04河 北74.7419591.91山 西69.4519666.1内蒙古60.8321890.19辽 宁71.6622879.77吉 林68.0419211.71黑龙江55.3617118.49上 海137.740532.29江 苏96.9428971.98浙 江103.1734264.38安 徽74.0420751.11福 建10327378.11江 西73.8718656.52山 东85.8824889.8地区地区2011年底城镇居民家庭平均每百户计算机拥有量年底城镇居民家庭平均每百户计算机拥有量(台台)Y城镇居民平均每人全年家庭
36、总收入城镇居民平均每人全年家庭总收入(元)(元)X河 南71.4119526.92湖 北75.4920193.27湖 南66.3620083.87广 东104.1330218.76广 西91.7220846.11海 南63.8220094.18重 庆76.0721794.27四 川68.8619688.09贵 州63.8917598.87云 南63.5520255.13西 藏58.8318115.76陕 西82.4320069.87甘 肃56.1416267.37青 海52.6517794.98宁 夏59.3919654.59新 疆61.217631.15为了初步分析城镇居民家庭平均每百户计算
37、机拥有量为了初步分析城镇居民家庭平均每百户计算机拥有量(Y)与城镇居民平均每人全年家庭总收入与城镇居民平均每人全年家庭总收入(X)的关系,的关系,作以作以X为横坐标,以为横坐标,以Y为纵坐标的散点图。为纵坐标的散点图。42从散点图可以看出城镇居民家庭从散点图可以看出城镇居民家庭平均每百户计算机拥有量平均每百户计算机拥有量(Y)与与城镇居民平均每人全年家庭总收城镇居民平均每人全年家庭总收入入(X)大体呈现线性关系。大体呈现线性关系。可以建立如下简单线性回归模型:可以建立如下简单线性回归模型:12tttYXu模型设定模型设定:43估计参数估计参数假定模型中随机扰动满足基本假定,可用假定模型中随机扰
38、动满足基本假定,可用OLS法。法。具体操作:使用具体操作:使用EViews 软件,估计结果是:软件,估计结果是:4444用规范的形式将参数估计和检验的结果写为:用规范的形式将参数估计和检验的结果写为:11.95800.002873ttYX (5.6228)(0.00024)t=(2.1267)(11.9826)20.8320R F=143.5836 n=3145 1.可决系数:可决系数:模型整体上拟合较好。模型整体上拟合较好。2.系数显著性检验:取系数显著性检验:取 ,查,查t分布表得自由度分布表得自由度为为 的临界值为的临界值为 。因为因为 应拒绝应拒绝3.用用P值检验值检验 p=0.000
39、0表明,城镇居民人均总收入对城镇居民每百户计算机拥有量确表明,城镇居民人均总收入对城镇居民每百户计算机拥有量确有显著影响。有显著影响。模型检验模型检验0.05=0.05=01:0H 02:0H应拒绝应拒绝20.8320R 231229n 0.025(29)2.045t10.025()2.1267(29)2.045tt20.025()11.9826(29)2.045tt46 4.经济意义检验:经济意义检验:所估计的参数所估计的参数 说明城镇居民家庭人均总收入每增加说明城镇居民家庭人均总收入每增加1元,平均说元,平均说来城镇居民每百户计算机拥有量将增加来城镇居民每百户计算机拥有量将增加0.0028
40、73台,这与预期的经济意义相符。台,这与预期的经济意义相符。002873.0,9580.112147点预测:点预测:如果西部地区某省城镇居民家庭人均总收入能达到25000元/人,利用所估计的模型可预测城镇居民每百户计算机拥有量,点预测值为经济预测经济预测(台)区间预测区间预测:平均值区间预测上下限平均值区间预测上下限:2fff 22i(X-X)1Y=Yt+nx已知已知:11.95800.002873 2500083.7846fY 83.7846fY 0.025(29)=2.045t8.027957n=314825000fX时由X和Y的描述统计结果22666.97X 22()(250002266
41、6.97)5443028.981fXX平均值区间预测区间预测平均值区间预测区间预测即是说即是说:当地区城镇居民人均总收入达到当地区城镇居民人均总收入达到25000元时,城镇居元时,城镇居民每百户计算机拥有量民每百户计算机拥有量 平均值置信度平均值置信度95%的预测区间为的预测区间为(80.6219,86.9473)台。)台。2222()(1)6112.965(31 1)1121050233iiXxXXn15443028.98183.78462.045 8.02795783.78463311121050233.1627mm4949个别值区间预测个别值区间预测:222()11fffiXXYYtnx
42、25000:FX时即是说即是说:当地区城镇居民人均总收入达到当地区城镇居民人均总收入达到25000元时,元时,城镇居民每百户计算机拥有量城镇居民每百户计算机拥有量 个别值置信度个别值置信度95%的预的预测区间为(测区间为(67.0656,100.5036)台。)台。15443028.98183.78462.045 8.027957183.78461631112105.02371930mm1、变量间的关系变量间的关系分为函数关系与相关关系。分为函数关系与相关关系。相关系数是对变量间线性相关程度的度量。相关系数是对变量间线性相关程度的度量。2、现代意义的回归是一个被解释变量对若干个解释变量、现代意
43、义的回归是一个被解释变量对若干个解释变量依存关系的研究,依存关系的研究,回归的实质回归的实质是由解释变量去估计被是由解释变量去估计被解释变量的平均值。解释变量的平均值。3、总体回归函数(总体回归函数(PRF)是将总体被解释变量是将总体被解释变量Y的条件的条件均值表现为解释变量均值表现为解释变量X的某种函数。的某种函数。样本回归函数(样本回归函数(SRF)是将被解释变量是将被解释变量Y的样本条件均的样本条件均值表示为解释变量值表示为解释变量X的某种函数。的某种函数。总体回归函数与样本回归函数的总体回归函数与样本回归函数的区别与联系区别与联系。504、随机扰动项随机扰动项是被解释变量实际值与条件均
44、值的偏差,是被解释变量实际值与条件均值的偏差,代表排除在模型以外的所有因素对代表排除在模型以外的所有因素对Y的影响。的影响。5、简单线性回归的、简单线性回归的基本假定基本假定:对模型和变量的假定、对:对模型和变量的假定、对随机扰动项随机扰动项u的假定(零均值假定、同方差假定、无自的假定(零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性相关假定、随机扰动与解释变量不相关假定、正态性假定)假定)6、普通最小二乘法(普通最小二乘法(OLS)估计参数的估计参数的基本思想基本思想及及估计估计量量;OLS 估计量的估计量的分布性质分布性质及期望、方差和标准误差;及期望、方差和标准
45、误差;OLS估计式是估计式是最佳线性无偏估计最佳线性无偏估计量。量。517、简单线性回归模型极大似然估计的思想和方法。、简单线性回归模型极大似然估计的思想和方法。8、对、对回归系数区间估计回归系数区间估计的思想和方法。的思想和方法。9、拟合优度拟合优度是样本回归线对样本观测数据拟合的优是样本回归线对样本观测数据拟合的优劣程度,可决系数是在总变差分解基础上确定的。劣程度,可决系数是在总变差分解基础上确定的。可决系数的计算方法、特点与作用可决系数的计算方法、特点与作用。10、对、对回归系数假设检验回归系数假设检验的基本的基本思想思想。对回归系数。对回归系数t检检验验的思想与方法;用的思想与方法;用P值值判断参数的显著性。判断参数的显著性。5211、被解释变量平均值预测与个别值预测的关系,被解、被解释变量平均值预测与个别值预测的关系,被解释变量释变量平均值的点预测平均值的点预测和和区间预测区间预测的方法,被解释变的方法,被解释变量量个别值区间预测个别值区间预测的方法。的方法。12、运用、运用EViews软件实现对简单线性回归模型的估计和软件实现对简单线性回归模型的估计和检验。检验。535454