1、拟合优度(或称判定系数、决定系数)n目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣的指标。n拟合优度的定义:n意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。n取值范围:0-1211RSSESSTSSRSSESSTSSTSSESSRSSTSSTSSR 拟合优度(或称判定系数、决定系数)n判定系数只是说明列入模型的所有解释变量对应变量的联合的影响程度,不说明模型中单个解释变量的影响程度。n对时间序列数据,判定系数达到0.9以上是很平常的;但是,对截面数据而言,能够有0.5就不错了。判定系数达到多少为宜?n没有
2、一个统一的明确界限值;n若建模的目的是预测应变量值,一般需考虑有较高的判定系数。n若建模的目的是结构分析,就不能只追求高的判定系数,而是要得到总体回归系数的可信任的估计量。判定系数高并不一定每个回归系数都可信任;4.3 判定系数和相关系数的关系:(1)联系n数值上,判定系数等于应变量与解释变量之间简单相关系数的平方:2222222222222222()()()()()iiiiiiiiiiiiiyxx yxRyyxyx yrxy判定系数和相关系数的关系:(2)区别判定系数相关系数就模型而言就两个变量而言说明解释变量对应变量的解释程度度量两个变量线性依存程度。度量不对称的因果关系度量不含因果关系的
3、对称相关关系取值:0,1取值:1,1样本判定系数(样本判定系数(Determinants of coefficient)R2随机项随机项的方差的方差2的最小二乘估计量的最小二乘估计量222()11iiiYYESSRSSRTSSTSSy2222iSn拟合优度评价(或称判定系数、决定系数)(或称判定系数、决定系数)R2的其他表示方法221121()niiniixRy2212211()()()niiinniiiix yRxy2212211()()()niiinniiiiy yRyy22121niiniiyRy相关系数n计算方法与样本判定系数密切相关,就是其平方根,只是符号要小心。n含义有所不同:样本
4、判定系数是判断回归方程与样本观测值拟合优度的一个数量指标,隐含的前提条件是X和Y具有因果关系。相关系数是判断两个随机变量线性相关的密切程度,不考虑因果关系。12211niiinniiiix yrxy 注意英文缩写的含义nTSS:Total Square Sum/总离差平方和nRSS:Regression Square Sum/回归平方和Residual Square Sum /残差平方和nESSError Square Sum /误差平方和(残差平方和)Explain Square Sum /解释平方和(回归平方和)假设检验的概念n定义:称对任何一个随机变量未知的分布类型或参数的假设为统计假设
5、,简称假设。检验该假设是否正确称为假设检验。n统计假设,如 H0:p=0.5 (称为原假设)H1:p 0.5 (称为备择假设)“小概率原理”在假设检验中的应用n数理统计学中的“小概率原理”认为:概率很小的事件在一次抽样试验中几乎是不可能发生的。n在H0成立的条件下,统计量落在拒绝域为一个小概率事件,因此,在一次抽样试验中,依据小概率原理,是不会发生的。n要是小概率事件(“统计量落在拒绝域”)居然发生了。那么,只能是提出的假设H0发生了错误,所以必须拒绝H0。显著性水平n是小概率事件发生的概率;在假设检验中也称为检验的显著性水平,简称为检验水平。假设检验的步骤:nStep1:分析问题,提出原假设
6、和备择假设;nStep2:选择和计算统计量U:在原假设成立时,U的分布已知;含有要检验的参数;各个参数应该都是已知的、可求的。nStep3:构造小概率事件:nStep4:判断小概率事件是否发生:nStep5:下结论:若小概率事件发生,拒绝原假设H0;选择备择假设H1。否则,不拒绝原假设。)|(|2/uUP则,没发生。则小概率事件发生。否若,|2/uU 假设检验的具体操作步骤(以正态总体、已知方差,检验均值u为例)n1、提出零假设 H0:=0 H1:0n3、确定显著水平,如=0.05,查表得相应的临界值/2n4、判断和下结论:若|U|/2 ,拒绝H0;若|U|F(1,n-2),则通过方程显著性检
7、验n若 F F(1,n-2),则未通过方程显著性检验1(2)ESSFRSSn221iESSx自由度的分解(1)什么是自由度(2)对应于平方和分解的自由度的分解(1)什么是自由度n模型中样本值可以自由变动的个数,称为自由度n自由度=样本个数 样本数据受约束条件(方程)的个数n例如,样本数据个数为n,它们受k个方程的约束(系数矩阵秩为k),那么,自由度df=n-k举例:TSS、RSS、ESS的自由度1)2()1(,220,0,)()(.1,1,)(22122122122nndfRSSTSSESSndfYneeXYYYRSSndfYnYYYTSSERiiiiiiTii知再由:约束所以,个个方程对方程
8、求出,共有由而所以一个方程的约束受(2)对应于平方和分解的自由度的分解n TSS =ESS +RSS n-1 1 n-2 总自由度dfT 回归自由度dfE 残差自由度dfRn自由度分解:dfT=dfE+dfRF检验与t检验n在一元线性回归模型中两者是一样的,等价的,因为t(n-2)的平方就是F(1,n-2)。但这种关系仅在一元线性回归是如此!n也就是说在一元线性回归模型中,确实不需要用F检验,但当我们考虑多元回归的时候,F检验就不是t检验可以替代的了。六.模型预测点预测(个值和均值的点预测是一样的)0100XY区间估计的概念n所谓区间估计就是以一定的可靠性给出被估计参数的一个可能的取值范围。n
9、具体作法是找出两个统计量 1(x1,xn)与2(x1,xn),使 P(1 2)=1-n(1,2)称为置信区间,1-称为置信系数(置信度、置信水平),称为冒险率(测不准的概率)或者显著水平,一般取5%或1%。对区间估计的形象比喻n我们经常说某甲的成绩“大概80分左右”,可以看成一个区间估计。(某甲的成绩为被估计的参数)P(1 2)=大概的准确程度(1-)如:P(75 85)=95%=1-5%“大概80分左右”犯第一类错误的概率(也叫显著水平)下限上限置信水平1 2/2/nxn-x :,置信区间nxnx/2/21-x图示如下区间估计的步骤:1)找一个含有该参数的统计量;2)构造一个概率为 的事件;
10、3)通过该事件解出该参数的区间估计.1区间预测(均值预测)20021()1()niiXXVar Ynx01200()()YXtSe Y000022(),()YtSe YYtSe YE(Y|X0)的的置信区间均值预测带参见课本P120图6-12 和图上边的那段话!区间预测(个值预测)000YY构造22002()10,1iXXNnx则有即00(0,()NVar000(2)()YYTt nSe构造Y0的的置信区间000022(),()YtSeYtSe个值预测带n个值预测带的区间宽度与均值预测带比较而言是更大的,也就是预测精度更差!应变量Y区间预测的特点,图示如下Y的个别值的置信区间FXY均值的置信区
11、间SRFXYX时,置信区间最小当XXF扰动项的区间估计n对扰动项的区间估计使用的统计量为:)2(/)2(2222nn一元线性回归模型举例n研究我国固定资产投资总额与GDP的关系n第一步:建立模型n第二步:收集数据 采用19801998年的数据,数据来源中国统计年鉴(2000)01ttGDPbb I说明:在理论经济学中说明:在理论经济学中I I表示私人部门投资,在我国的统计体系中,固定资表示私人部门投资,在我国的统计体系中,固定资产投资总额既包括私人部门投资,也包括公共部门(政府)的投资。产投资总额既包括私人部门投资,也包括公共部门(政府)的投资。举例n第三步:参数估计(OLS),得5.2873
12、7058.201bb举例n第四步:模型检验经济意义检验经济意义检验:b1的经济含义是固定资产投资乘数,肯定大于1,按我国的实际情况,不是很大,估计在4或5以下,通过检验。统计检验统计检验:拟合优度检验、参数估计值显著性检验、模型显著性检验。计量经济检验计量经济检验(异方差、序列资相关、随机解释变量、多重共线性)模型预测检验模型预测检验统计检验-拟合优度检验n样本判定系数n线性模型解释了因变量的99.29%,拟合程度很好。%29.992R统计检验-参数估计值显著性t检验n提出原假设:备择假设:n构造统计量 计算得n检验:取 =5%,查表得 拒绝原假设,b1显著不为零01b01b110(2)()e
13、bTt nS b6.48T6.48110.2)17(025.0t统计检验-方程显著性F检验n提出原假设:备择假设:n构造统计量 计算得n检验:取 =5%,查表得 拒绝原假设,b1显著不为零,线性关系显著。可以发现t22362约等于2367F,那是因为计算有误差。否则应该相等的。01b01b/1/(2)ESSFRSSn2367F236745.4)17,1(05.0F预测n点预测 1999年固定资产投资总额29854.7亿元n个值区间预测3.836547.298547058.25.28730100XbbY)89319,79989(0Y000022(),()YtSeYtSe另外一个实例 现欲研究某市
14、城镇现欲研究某市城镇居民居民 1995 年年2002 年人均可支配年人均可支配收入和人均消费性支出收入和人均消费性支出之间的关系。表之间的关系。表 1 给出了某市城镇给出了某市城镇居民居民 1995 年至年至 2002 年期间各年度的年期间各年度的人均可支配收入和人人均可支配收入和人均消费性支出的数据。均消费性支出的数据。表表 1 某市有关统计资料某市有关统计资料 单位:元单位:元年份年份人均可支配收入人均可支配收入人均消费性支出人均消费性支出1995428342833637363719964839483939193919199751605160418541851998542554254331
15、433119995854585446164616200062806280499849982001685968595359535920027703770360306030相关关系分类:n 只有两个变量:简单相关;三个及三个以上:多重相关(复相关);n 线性相关、非线性相关;n 正相关、负相关、不相关正相关(我国人均消费函数)Y为我国人均消费X为我国人均国民收入相关系数:0.982004006008001000120005001000150020002500YX负相关Y与X的相关系数:-0.9220304050607080010203040YX不相关(不排除存在曲线相关)n相关系数为:n4.24E
16、-18-60-40-200204060-60-40-200204060YX 在本例中,影响在本例中,影响人均消费性支出人均消费性支出的因素,除了的因素,除了居民人均可支配收入居民人均可支配收入之外,还可能有消费品的价格之外,还可能有消费品的价格水平、水平、银行存款利率、银行存款利率、消费者的偏好,政府的政策,消费者的偏好,政府的政策,需求者对未来的预期等等多种因素。我们这里仅分需求者对未来的预期等等多种因素。我们这里仅分析析居民人均可支配收入居民人均可支配收入对对人均消费性支出人均消费性支出的影响,的影响,其他各因素的影响,就被包含在随机误差项中。其他各因素的影响,就被包含在随机误差项中。离差
17、形式的中间计算也可不用计算表,而采用如下离差形式的中间计算也可不用计算表,而采用如下的简捷式计算:的简捷式计算:222XnXxii222YnYyii YXnYXyxiiii 式中,式中,nYYnXXYYyXXxiiiiii,,n 为样本容量。为样本容量。习习题题的的书书写写格格式式:iiiXY10 (i=1,2,n)8662.5257083.08751239.96198658.91021XYxyxiii iiiXXY7083.08662.52510统统计计意意义义:当当 X 增增加加 1 个个单单位位时时,Y 平平均均增增加加 0.7083 个个单单位位。经经济济意意义义:当当居居民民人人均均可可支支配配收收入入增增加加 1 元元时时,人人均均消消费费性性支支出出将将平平均均增增长长 0.7083 元元。复习与提高复习与提高Yi=a+bXi+uiYn Xn Y2 X2Y1 X1根据已知样本采用OLS得拟合直线 拟合直线性质(数值性质):通过样本均值残差和=0残差与自变量无关拟合值与残差值无关R20TSS RSS ESS R2R21用直线反映总体GoodBadYY