研究生计量经济学课件第二章.ppt_163文库

资源描述

1、计量经济模型化过程分析理论的计量经济模型不合格模型的检验估计模型的参数收集适当的资料(数据)合格政策评价预测第二章第二章简单回归模型简单回归模型Chapter Outline 本章大纲 Definition of the Simple Regression Model 简单回归模型的定义简单回归模型的定义 Deriving the Ordinary Least Squares Estimates 普通最小二乘法的推导普通最小二乘法的推导 Mechanics of OLS OLS的操作技巧的操作技巧 Units of Measurement and Functional Form测量单位

2、和函数形式测量单位和函数形式 Expected Values and Variances of the OLS estimators OLS估计量的期望值和方差估计量的期望值和方差 Regression through the Origin 过原点回归过原点回归回归分析回归分析(regression analysis)是研究一是研究一个变量关于另一个（些）变量的具体依赖关系个变量关于另一个（些）变量的具体依赖关系的计算方法和理论的计算方法和理论。其用意其用意：在于通过后者的已知或设定值，在于通过后者的已知或设定值，去估计和（或）预测前者的（总体）均值去估计和（或）预测前者的（总体）均值。回归

3、分析的基本概念回归分析的基本概念回归分析构成计量经济学的方法论基础，其主要内回归分析构成计量经济学的方法论基础，其主要内容包括：容包括：（1）根据样本观察值对经济计量模型参数进行估计，求得回归方程；回归方程；（2）对回归方程、参数估计值进行显著性检验；（3）利用回归方程进行分析、评价及预测。简单回归模型：简单回归模型：y=b b0+b b1x+u 等式只有一个非常数解释变量。等式只有一个非常数解释变量。我们称之为我们称之为简单回归模型，一元线性回归模简单回归模型，一元线性回归模型型.Some Terminology 术语注解术语注解Some Terminology 术语注解术语注解简单回归模

4、型：简单回归模型：y=b b0+b b1x+u y通常被称为通常被称为-因变量因变量(Dependent Variable)-左边变量左边变量(Left-Hand Side Variable)-被解释变量被解释变量(Explained Variable)-回归子回归子(Regressand)-响应变量（响应变量（response variable）-被预测变量（被预测变量（predicted variable）术语注解术语注解简单回归模型：简单回归模型：y=b b0+b b1x+u x通常被称为通常被称为-自变量自变量(independent Variable)-右边变量右边变量(right-

5、Hand Side Variable)-解释变量解释变量(explanatory Variable)-回归元回归元(regressor)-控制变量（控制变量（control variable）-预测变量（预测变量（predictor variable）术语注解术语注解在简单回归模型：在简单回归模型：y=b b0+b b1x+ub b0,b b1被称为被称为回归系数回归系数(regression coefficients）。）。b b0也被称为也被称为常数项或截矩项常数项或截矩项(intercept term)，或，或截矩参数截矩参数(intercept parameter)。b b1代表了解

6、释变量代表了解释变量x的边际效果，也被成为斜率参的边际效果，也被成为斜率参数（数（slope parameter）。）。术语注解术语注解在简单回归模型：在简单回归模型：y=b b0+b b1x+u u 为误差项为误差项(error term)或扰动或扰动(disturbance)它代表了除了它代表了除了x之外可以影响之外可以影响y的因素。的因素。随机误差项主要包括下列因素的影响：随机误差项主要包括下列因素的影响：1）在解释变量中被忽略的因素的影响；2）变量观测值的观测误差的影响；3）模型关系的设定误差的影响；4）其它随机因素的影响。产生并设计随机误差项的主要原因：产生并设计随机误差项的主要原因

7、：1）理论的含糊性；2）数据的欠缺；3）节省原则。术语注解术语注解线性回归的含义（线性回归的含义（P45）：）：y 和和x 之间并不一定之间并不一定存在线性关系，但是，只要通过转换可以使存在线性关系，但是，只要通过转换可以使y的的转换形式和转换形式和x的转换形式存在的转换形式存在相对于参数的线性相对于参数的线性关系关系，该模型即称为线性模型。，该模型即称为线性模型。For example,y=eb0+b1x+u.转化为：log(y)=b0+b1x+u For example,01yxubbFor example,011yuxbb简单回归模型例子（例简单回归模型例子（例2.2）A simple

8、 wage equationwage=b b0+b b1educ+u 上述简单工资函数描述了受教育年限和工资之间上述简单工资函数描述了受教育年限和工资之间的关系，的关系，educ用受教育的年限来度量用受教育的年限来度量 u:包含了其他非观测因素，如劳动经验、天生素包含了其他非观测因素，如劳动经验、天生素质、任现职时间等。质、任现职时间等。b b1:衡量了在其他条件不变的情况下，多接受一年衡量了在其他条件不变的情况下，多接受一年教育，工资可以增加多少教育，工资可以增加多少.A Simple Assumption关于关于u的假定的假定我们假定总体中误差项我们假定总体中误差项u的平均值为零的平均值

9、为零.：E(u)=0(2.5)思考：该假定是否具有很大的限制性思考：该假定是否具有很大的限制性（restrictive）呢）呢?A Simple Assumption关于关于u的假定的假定 If for example,E(u)=5.Then y=(b b0+5)+b b1x+(u-5),therefore,E(u)=E(u-5)=0.上述推导说明我们总可以通过调整上述推导说明我们总可以通过调整常数项常数项来实现来实现误差项的均值为零误差项的均值为零,因此该假定的限制性不大因此该假定的限制性不大.Zero Conditional Mean Assumption 条件期望零值假定（条件期望零值假

10、定（）y=b b0+b b1x+u 我们需要对我们需要对u和和 x之间的关系做一个关键假之间的关系做一个关键假定。理想状况是对定。理想状况是对x的了解并不增加对的了解并不增加对u的的任何信息。换句话说，我们需要任何信息。换句话说，我们需要u和和 x相互相互独立。独立。E(u|x)=E(u)=0条件期望条件期望令（X，Y）代表一个工人总体，X是受教育程度，Y为小时工资。则：E（Y|x=12）：是总体中所有受了12年教育的工人的平均小时工资。E（Y|x=16）：是总体中所有受了16年教育的工人的平均小时工资。那么E（Y|X）可能=f（X）Zero Conditional Mean Assumpt

11、ion 条件期望零值假定条件期望零值假定由于我们已经假定了由于我们已经假定了E(u)=0，因此有，因此有:E(u|x)=E(u)=0.(2.6)思考：该假定是何含义？思考：该假定是何含义？思考：为什么有这种条件期望的假定，而思考：为什么有这种条件期望的假定，而不直接给出不直接给出cov(x,u)=0的形式？的形式？思考：为什么有这种条件期望的假定，而思考：为什么有这种条件期望的假定，而不直接给出不直接给出cov(x,u)=0的形式？的形式？cov(x,u)=0表示不相关，但在统计学中其表示不相关，但在统计学中其含义是无线性相关，不能保证无非线性相含义是无线性相关，不能保证无非线性相关。关。Z

12、ero Conditional Mean Assumption 条件期望零值假定条件期望零值假定简单回归模型：简单回归模型：y=b b0+b b1x+u E(u|x)=E(u)=0.(2.6)(2.6)说明总体回归函数应满足说明总体回归函数应满足 E(y|x)=b b0+b b1x.E(y|x)是是x的线性函数，的线性函数，y的分布以它为中心。的分布以它为中心。.x1=5x2=10E(y|x)=b0+b1xyf(y)给定x时y的条件分布下标的使用惯例：横截面数据 i 时间序列数据 t 例例2：一个假想的社区有100户家庭组成，要研究该社区每月家庭消费支出家庭消费支出Y与每月家庭可支配收入家

13、庭可支配收入X的关系。Population Regression Function，PRF 总体回归函数总体回归函数为达到此目的，将该100户家庭划分为组内收入差不多的10组，以分析每一收入组的家庭消费支出。表表 2.1.1 某某社社区区家家庭庭每每月月收收入入与与消消费费支支出出统统计计表表每月家庭可支配收入X（元）800 1100 1400 1700 2000 2300 2600 2900 3200 3500 561 638 869 1023 1254 1408 1650 1969 2090 2299 594 748 913 1100 1309 1452 1738 1991 2134

14、2321 627 814 924 1144 1364 1551 1749 2046 2178 2530 638 847 979 1155 1397 1595 1804 2068 2266 2629 935 1012 1210 1408 1650 1848 2101 2354 2860 968 1045 1243 1474 1672 1881 2189 2486 2871 1078 1254 1496 1683 1925 2233 2552 1122 1298 1496 1716 1969 2244 2585 1155 1331 1562 1749 2013 2299 2640 1188 136

15、4 1573 1771 2035 2310 1210 1408 1606 1804 2101 1430 1650 1870 2112 1485 1716 1947 2200 每月家庭消费支出 Y（元）2002 共计 2420 4950 11495 16445 19305 23870 25025 21450 21285 15510 （1）由于不确定因素的影响，对同一收入水平X，不同家庭的消费支出不完全相同；（2）但由于调查的完备性，给定收入水平X的消费支出Y的分布是确定的，即以X的给定值为条件的Y的条件分布条件分布（Conditional distribution）是已知的，如：P

16、(Y=561|X=800）=1/4。因此，给定收入X的值Xi，可得消费支出Y的条件条件期望期望（conditional expectation）：E(Y|X=Xi)该例中：E(Y|X=800)=605分析：分析：(,)(|)()jijiiP YyXxP YyXxP Xx 描出散点图发现：随着收入的增加，消费“平均地说平均地说”也在增加，且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线总体回归线。05001000150020002500300035005001000150020002500300035004000每月可支配收入X（元）每月消费支出Y（元）概念概念：在给定解释变量Xi

17、条件下被解释变量Yi的期望轨迹称为总体回归线总体回归线（population regression line），或更一般地称为总体回归曲线总体回归曲线（population regression curve）。称为（双变量）总体回归函数总体回归函数（population regression function,PRF）。相应的函数：01(|)E y xxbb例2中，个别家庭的消费支出为：（*）式称为总体回归函数总体回归函数（方程）（方程）PRFPRF的随机设定形式。的随机设定形式。表明被解释变量除了受解释变量的系统性影响外，还受其他表明被解释变量除了受解释变量的系统性影响外，还受其他因素的随机

18、性影响因素的随机性影响。又称为。又称为总体回归模型总体回归模型。（1）该收入水平下所有家庭的平均消费支出E(Y|Xi)，称为系统性（系统性（systematic）或确定性确定性（deterministic)部分部分。（2）其他随机随机或非确定性非确定性（nonsystematic)部分部分ui。即，给定收入水平Xi,个别家庭的支出可表示为两部分之和:(*)01(|)iiiiiYE Y XuXubbSample Regression Function，SRF 样本回归函数样本回归函数问题：问题：能从一次抽样中获得总体的近似的信息吗？如果可以，如何从抽样中获得总体的近似信息？问：能否从该样本估计

19、总体回归函数PRF？回答：能例例2.2：在例2.1的总体中有如下一个样本，表表 2.1.3 家家庭庭消消费费支支出出与与可可支支配配收收入入的的一一个个随随机机样样本本 Y 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 X 594 638 1122 1155 1408 1595 1969 2078 2585 2530 总体的信息往往无法掌握，现实的情况只能是在一次观测中得到总体的一个样本。核样本的散点图散点图（scatter diagram)：样本散点图近似于一条直线，画一条直线以尽好地拟合该散点图，由于样本取自总体，可以该线近似地代表总体

20、回归线。该线称为样本回归线样本回归线（sample regression lines）。）。记样本回归线的函数形式为：iiiXXfY10)(bb称为样本回归函数样本回归函数（sample regression function，SRF）。这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代注意：注意：01(|)iiiiiYEY XuXubb 样本回归函数的随机形式样本回归函数的随机形式/样本回归模型样本回归模型：同样地，样本回归函数也有如下的随机形式：由于方程中引入了随机项，称为由于方程中引入了随机项，称为样本回归样本回归模型模型（sample regression model）。0

21、1yiiiiiiyyuxuubbi式中，称为（样本）（residual），代表了其他影响的随机因素的集合，可以看成是u的残差估计量。回归分析的主要目的回归分析的主要目的：根据样本回归函数SRF，估计总体回归函数PRF。注意：注意：这里PRF可能永远无法知道。即，根据估计01(|)YE Y XuXubb01iiiiiyyuxubb四个概念总体回归模型总体回归函数样本回归模型样本回归函数四个概念总体回归模型总体回归函数样本回归模型样本回归函数01iiiiiyyuxubb01YXubb01(|)E y xxbb估计Deriving the Ordinary Least Squar

22、es Estimates 普通最小二乘法的推导普通最小二乘法的推导回归的基本思想是从样本去估计总体参数。回归的基本思想是从样本去估计总体参数。我们用我们用(xi,yi):i=1,n 来表示一个随机样本，并来表示一个随机样本，并假定每一观测值满足假定每一观测值满足 yi=b b0+b b1xi+ui。估计方法估计方法有多种，其种最广泛使用的是普通普通最小二乘法最小二乘法（ordinary least squares,OLS）。.y4y1y2y3x1x2x3x4u1u2u3u4xyPopulation regression line,sample data pointsand the assoc

23、iated error terms总体回归线，样本观察点和相应误差E(y|x)=b b0+b b1xDeriving OLS Estimates普通最小二乘法的推导普通最小二乘法的推导假定：假定：E(u|x)=E(u)=0 可以得到：可以得到：Cov(x,u)=E(xu)=0 since u=y b b0 b b1x，所以有：所以有：E(y b b0 b b1x)=0 Ex(y b b0 b b1x)=0These are called moment（矩）（矩）restrictionsDeriving OLS using M.O.M.使用矩方法使用矩方法推导普通最小二乘法推导普通最小二乘法

24、矩方法是将总体的矩限制应用于样本中。目标是矩方法是将总体的矩限制应用于样本中。目标是通过选择参数值，使得在样本中矩条件也可以成通过选择参数值，使得在样本中矩条件也可以成立。立。The sample versions are as follows:0011011101niiiiniiixyxnxynbbbbDerivation of OLS普通最小二乘法的推导普通最小二乘法的推导根据样本均值的定义以及加总的性质，可将第一根据样本均值的定义以及加总的性质，可将第一个条件写为个条件写为xyxy1010or,bbbbDerivation of OLS普通最小二乘法的推导普通最小二乘法的推导niiini

25、iniiiniiiniiiixxyyxxxxxyyxxxyyx12111111110bbbb第二个条件：第二个条件：So the OLS estimated slope is因此因此OLS估计出的斜率为估计出的斜率为112211provided th0at niiinniiiixxyyxxxxb思考：条件说明什么？思考：条件说明什么？斜率估计量等于样本中x 和 y 的协方差除以x的方差。若x 和 y 正相关则斜率为正，反之为负。Alternate approach to derivation推导方法二推导方法二 niiiniixyu121012bb 给定一组样本观测值（Xi,Yi）（i=1,2

26、,n）要求样本回归函数尽可能好地拟合这组值.普通最小二乘法普通最小二乘法（Ordinary least squares,OLS）给出的判断标准是：二者之差的平方和最小niiiniXYYYQ121021)()(bb方程组（*）称为正规方程组正规方程组（normal equations）为什么不是残差的其他某个函数的最小化？Using Eviews for OLS regressions使用 Eviews 进行OLS回归我们已经推导出公式计算参数的OLS估计值，所幸的是我们不必亲手去计算它们。在Eviews中进行回归非常简单，例2.4 工资和受教育程度 526个样本的OLS估计结果：0.930.

27、54wageeduc 例2.5 投票结果和竞选支出 1988年美国众议院173次两党竞选的选举结果：voteA为候选人A所得票数的百分比；shareA为候选人A在竞选支出中所占百分比26.810.464voteAshareA Example2.3:CEO Salary and Return on Equity 例：首席执行官的薪水和例：首席执行官的薪水和资本权益报酬率资本权益报酬率Example:CEO Salary and Return on Equity 例：CEO的薪水和资本权益报酬率变量salary衡量了以1000美元为单位的年薪，其最小值，均值和最大值分别如下：(min,mean,

28、max)=(223,1281,14822).Roe净收入/所有者权益，为三年平均值。其最小值，均值和最大值分别为：（0.5,17.18,56.3)salary 对roe的回归方程为：963.191 18.501salaryroeExample:CEO Salary and Return on Equity 例：CEO的薪水和资本权益报酬率对估计量的解释：963.19:常数项的估计值衡量了当roe为零时CEO的薪水。18.5:b1 的估计值反应了ROE若增加一个百分点工资将平均增加18500美元。If roe=30,what is the estimated salary?思考思考:两条线分别代

29、表什么意思？两条线分别代表什么意思？拟合值和残差Salaryhat是拟合值，uhat是残差第二章第二章简单回归模型（简单回归模型（2）Chapter Outline 本章大纲本章大纲 Definition of the Simple Regression Model 简单回归模型的定义简单回归模型的定义 Deriving the Ordinary Least Squares Estimates 推导普通最小二乘法的估计量推导普通最小二乘法的估计量 Mechanics of OLS OLS的操作技巧的操作技巧 Unites of Measurement and Functional Form

30、测量单位和回归方程形式测量单位和回归方程形式 Expected Values and Variances of the OLS estimators OLS估计量的期望值和方差估计量的期望值和方差Algebraic Properties of OLS OLS的代数性质（1）OLS 残差和为零残差和为零（一阶条件（一阶条件)因此因此 OLS 的样本残差平均值也为零的样本残差平均值也为零.Algebraic Properties of OLS OLS的代数性质（2）回归元（解释变量）和）回归元（解释变量）和OLS残差之间的样本协残差之间的样本协方差为零方差为零(一阶条件一阶条件)（3）OLS回归线

31、总是通过样本的均值。回归线总是通过样本的均值。Algebraic Properties of OLS OLS的代数性质我们可把每一次观测看作由被解释部分和未解释部分构成.（4）预测值和残差在样本中是不相关的（自己推导）iiiuyy 0),cov(iiuyAlgebraic Properties of OLS OLS的代数性质 0)()()()()()()()(),cov(1010iiiiiiiiiiiiiiiiiuxEuEuxEuEyuyEuyEyEuEuyEyEuybbbb常用的推导条件i01102x0 3045iiiiiiiuuyuyyuyxbb拟合优度拟合优度（Goodness of

32、fit）More Terminology更多术语定义总平方和（定义总平方和（total sum of squares,SST）为为21()niiSSTyy总平方和是对总平方和是对y在样本中所有变动的度量，即它度在样本中所有变动的度量，即它度量了量了y在样本中的分散程度。将总平方和除以在样本中的分散程度。将总平方和除以n-1,我们得到我们得到y的样本方差。的样本方差。More Terminology更多术语解释平方和解释平方和(Explained Sum of Squares，SSE)定义为定义为它度量了它度量了y的预测值的在样本中的变动的预测值的在样本中的变动21()niiSSEyyMo

33、re Terminology更多术语残差平方和（残差平方和（Residual Sum of Squares，SSR）定义为定义为残差平方和度量了残差的样本变异残差平方和度量了残差的样本变异注意：注意：SSR、SSE没有统一的定义。没有统一的定义。SST,SSR and SSE y 的总变动可以表示为已解释的变动SSE和未解释的变动SSR之和，即 SST=SSE+SSR证明 SST=SSE+SSR 2222201012 SSR 2 SSE ()0iiiiiiiiiiiiiiiiiiiiiiiiyyyyyyuyyuuyyyyuyyuyyu yyuu yuxuu xbbbbGoodness-o

34、f-Fit拟合优度我们如何衡量样本回归线是否很好地拟合了样本数据呢?21S S ES S RRS S TS S T称 R2 为（样本）（样本）判定系数判定系数（coefficient of determination)。被看作是y的样本变动中被可以被x解释的部分判定系数判定系数的取值范围取值范围：0，1 R2 2越接近越接近1 1，说明实际观测点离样本线越近，拟，说明实际观测点离样本线越近，拟合优度越高合优度越高。Goodness-of-Fit拟合优度拟合优度注意：注意：在社会科学中，特别是在截面数据分析中在社会科学中，特别是在截面数据分析中,回归方程得到低回归方程得到低的的R2并不罕见。

35、并不罕见。值得强调的是表面上低的值得强调的是表面上低的R2不一定说明不一定说明OLS回归方程是没有价值的回归方程是没有价值的Goodness-of-Fit拟合优度 Example 2.8 CEO薪水和股本回报 Example 2.9 Voting outcomes and Campaign Expenditures竞选结果和选举活动开支20.0132R说明，股本回报率仅解释了薪水变异的约1.3。意味着薪水变异中还有98.7悬而未决。20.856R 963.191 18.501salaryroe2.4 度量单位和函数形式Units of Measurement 度量单位例例2.3：首席执行官的薪

36、水和资本权益报酬率：首席执行官的薪水和资本权益报酬率其中，其中，salary衡量了以衡量了以1000美元为单位的年薪；美元为单位的年薪；假定薪水的单位是美元，而不是千美元，在假定薪水的单位是美元，而不是千美元，在Salarys对对roe进行回归时进行回归时OLS截距和斜率的估计截距和斜率的估计值是多少？值是多少？963.191 18.501salaryroeUnits of Measurement 度量单位新的回归方程：新的回归方程：一般而言，当因变量乘上常数一般而言，当因变量乘上常数c，而自变量不改，而自变量不改变时，变时，OLS的截距和斜率估计量也要乘上的截距和斜率估计量也要乘上c。963

37、191 18501salaryroeUnits of Measurement 测量单位如果定义如果定义 roedec=roe/100，那么新的回归线变，那么新的回归线变为：为：一般而言，如果自变量一般而言，如果自变量除以或乘上除以或乘上某个非零常数某个非零常数c，那么那么 OLS斜率将斜率将乘以或除以乘以或除以c，而截距则不改变。，而截距则不改变。R2呢？呢？963.191 1850.1salaryroedecUnits of Measurement 测量单位结论：结论：改变因变量的度量单位，会以同等倍数改改变因变量的度量单位，会以同等倍数改变斜率和截距；变斜率和截距；改变自变量的度量单位，

38、截距不变，斜率改变自变量的度量单位，截距不变，斜率会以相反的方式改变；会以相反的方式改变；R2不依赖于度量单位。不依赖于度量单位。在简单回归中加入非线性线性关系并不适合所有的经济学运用线性关系并不适合所有的经济学运用然而，通过对因变量和自变量进行恰当的定义,我们可以在简单回归分析中非常容易地处理许多y和x之间的非线性关系.The Natural Logarithm自然对数 log()yx12121212log()log()log()log(/)log()log()log()log()cx xxxxxxxxcxlog(1)xx0forx 101000log()log()()/xxxxxx x

39、 0100*log%100(x)xxxx的百分比变化Log-log 形式，弹性011111loglogloglog100log100log%xy/log/logyxuyxyxyxy xy yyx yx xxbbbbbb 的百分比变化引起的的百分比的改变经济：弹性Log-level形式，半弹性011111loglog100log100%(100)xy%100yxuyxyxyxyxbbbbbb 的改变一个单位引起的的百分比的改变经济：半弹性Level-log 形式011111loglog100100log%100 xyyxuyxyxxyxbbbbbb （）（）的百分比变化引起的的单位改变变量

40、的原始形式和其自然对数的不同组合变量的原始形式和其自然对数的不同组合 Model Dependent variable Independent variable Interpretation of 1b Level-level y x 1yxb Level-log y log()x 1(/100)%yxb Log-level log()y x 1%(100)yxb Log-log log()y log()x 1%yxb 在工资-教育的例子中，wage=b b0+b b1educ+u估计得到：估计得到：即每增加一年的教育，工资的增长都是相同的，即0.54美元。合理性？假定每增加一年的教育，工资增

41、长的百分比都是相同的。能够给出不变的百分比效果的模型是 If ,we have01log()wageeducubb1%(100).wageeducb0u 0.90.54wageedu Example 2.10 A log Wage Equation将对数工资方程 Compared to 和原方程相比和原方程相比log()0.5840.083wageeduc526n 20.186R 0.900.54wageeduc 20.165R 每多接受一年的教育，工资会有每多接受一年的教育，工资会有8.3的提高。的提高。递增的教育回报：当受教育程度提高时，工资的变化递增的教育回报：当受教育程度提高时，工资的

42、变化量也随之增加。量也随之增加。自然对数的另一个重要用途是用于获得弹性为常自然对数的另一个重要用途是用于获得弹性为常数的模型数的模型在在CEO的薪水和企业销售额的例子中，常数弹性的薪水和企业销售额的例子中，常数弹性模型是：模型是：01log()log()salarysalesubb209,n log()4.8220.257log()salarysales20.211R 1是是y对对x的弹性。这里薪水对销售额的弹性估计的弹性。这里薪水对销售额的弹性估计量为量为0.2572.5 OLS估计量的期望值和方差估计量的期望值和方差补充：补充：抽样与抽样分布抽样与抽样分布参数估计参数估计假设检验假设检验

43、统计方法统计方法描述统计描述统计推断统计推断统计什么是推断统计？什么是推断统计？The purpose of Statistics inference(统计推断统计推断)is to obtain information about a population from information contained in sample.例例1 一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。120个个样本样本测试平均里程：36,500公里推断新轮胎新轮胎平均寿命平均寿命:36,500公里400个样本支持人数：160推断支持该候选人的选民支持该候选人的选民占全部选民的比例：占全部选民的比例：16

44、0/400=40%例例2：某党派想支持某一候选人参选美国某州议员，为了决定是否支持该候选人，该党派领导需要估计支持该候选人的民众支持该候选人的民众占全部登记投票人总数的比例占全部登记投票人总数的比例。由于时间及财力的限制：主要用在下列两种情况主要用在下列两种情况：主要内容：主要内容：1、抽样估计(estimation)2、假设检验(hypothesis testing)注意：注意：抽样估计只得到对总体特征的近似测度，因此，抽样估计还必须同时考察所得结果的“可能范围可能范围”与“可靠程度可靠程度”。1、对所考查的总体不可能进行全部测度；2、从理论上理论上说可以对所考查的总体进行全部测度，但实践上

45、实践上由于人力、财力、时间等方面的原因，无法（不划算）进行全部测度。第一节第一节抽样抽样随机样本随机样本第二节第二节点估计与抽样分布点估计与抽样分布例例某大公司人事部经理整理其2500个中层干部的档案。其中一项内容是考察这些中层干部的平均年薪平均年薪及参加过公参加过公司培训计划的比例司培训计划的比例。总体：总体：2500名中层干部（population)，如果：如果：上述上述情况可由每个人的个人档案中得知，可容易地测出这2500名中层干部的平均年薪及标准差。假如有假如有1500人参加了公司培训人参加了公司培训，得到了如下的结果：总体均值总体均值（population mean）：）：=5

46、1800 总体标准差总体标准差（Population standard deviation）：）：=400 参加公司培训计划的参加公司培训计划的比例比例为：为：P=1500/2500=0.60参数是总体的数值特征参数是总体的数值特征 A parameter is a numerical characteristic of a population一、点估计假如随机抽取了一个容量为30的样本：Annual Salary Management Training Program?49094.3 Yes 53263.9 Yes 49643.5 Yes 根据该样本求得的年薪样本年薪样本平均数平均数、标准

47、差标准差及参加过培参加过培训计划人数的训计划人数的比例比例分别为：00.5181430/1554420/nxxi72.334729/325009260)1/()(2nxxsi63.030/19p（一）点估计（一）点估计上述估计总体参数的过程被称为点估计点估计（point estimation）；由于点估计量是由样本测算的，因此也称为样本样本统计量。统计量。估计量和估计值估计量和估计值样本的（不包含未知总体参数的）函数称为统计量；由于一个统计量对于不同的样本取值不同，所以，估计量也是随机变量，并有其分布。如果样本已经得到，把数据带入之后，估计量就有了一个数值，称为该估计量的一个实现实现(re

48、alization)，也称为一个估计值估计值(estimate)。二、抽样分布在上述某公司30个中层干部的简单随机抽样中，如果再一次抽样的样本与前一次的不同，则可得到另外的平均年薪样本均值、标准差以及受训干部的比例。同样地，如果多次抽样，则可得到多个不同的结果。下表是一个假设的经过500次抽样后的情况表。500个的频数分布频数分布与相对频数分布相对频数分布，x图图 500个个的相对频数分布的相对频数分布 0.3 相对 0.2 频数 0.1 x 这里，这里，的相对频数分布，就称为的相对频数分布，就称为的的抽样分布抽样分布。xx1.样本统计量的概率分布，是一种理论分布在重复选取容量为

49、n的样本时，由该统计量的所有可能取值形成的相对频数分布 2.随机变量是样本统计量样本统计量样本均值,样本比例，样本方差等3.结果来自容量相同容量相同的所有所有可能样本抽样分布(sampling distribution)抽样分布的形成过程(sampling distribution)总体样本1、样本均值的抽样分布x 1、样本均值的抽样分布（、样本均值的抽样分布（Sampling Distribution of )样本均值的抽样分布样本均值的抽样分布3,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察

50、值观察值所有可能的所有可能的n=2 的样本（共的样本（共16个）个）3,4样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值（个样本的均值（x）样本均值的分布与总体分布的比较考察样本均值的概率分布形式样本均值的概率分布形式。分两种况：1)总体分布已知且为正态分布总体分布已知且为正态分布；2)总体分布未知；总体分布未知；（1）当总体分布已知且为正态分布或接近正态分布时，则无论样本容量大小如何，样本均值则无论样本容量大小如何，样本均值都为正态分布都为正态

展开阅读全文