1、概率与统计基础计量经济学1.1.基本概念基本概念n(1)总体:随机试验所有可能结果的集)总体:随机试验所有可能结果的集合称样本空间。合称样本空间。n(2)样本:随机试验的一中结果,也即)样本:随机试验的一中结果,也即是总体或样本空简中的一个元素。是总体或样本空简中的一个元素。n例如:抛两枚硬币:总体为例如:抛两枚硬币:总体为(HH,HT,TH,TT),一次试验的结果:一次试验的结果:HT为一个样本,为一个样本,TH为一个样本。为一个样本。总体总体样本(3)随机变量随机变量表示表示随机现象随机现象(在一定条件下,并不总(在一定条件下,并不总是出现相同是出现相同结果结果的现象称为随机现象)的现象称
2、为随机现象)各种结果的各种结果的变量变量(一切可能的(一切可能的样本点样本点)。)。例如某一时间内公共汽车站等车乘客人例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼数,电话交换台在一定时间内收到的呼叫次数等等,都是随机变量的实例。叫次数等等,都是随机变量的实例。2.2.概率密度函数的数字特征概率密度函数的数字特征n(1)期望值(均值)期望值(均值)期望期望E(X)的定义的定义 离散型随机变量离散型随机变量X:取值取值 ,则,则()()XE XXf X12,nXXX1()()niiiE XX P X8989、8888、7676、9999、7474、6060、8282、606
3、0、8989、8686、9292、8585、7070、9393、9999、9494、8282、7777、7979、9797、7878、9595、8484、7979、6363、7272、8787、8484、7979、6565、9898、6767、5959、8383、6666、6565、7373、8181、5656、7777()123niXXXXXE Xnn 318279.55(40分)一则笑话一则笑话n如果你一只脚放在摄氏如果你一只脚放在摄氏 1 1 度的水里,另一只度的水里,另一只脚放在摄氏脚放在摄氏 79 79 度的水里,平均水温度的水里,平均水温 40 40 度,度,你一定感觉很舒服你一定
4、感觉很舒服?n显然,只了解变量的平均趋势是不够的!显然,只了解变量的平均趋势是不够的!(2).方差与标准差n方差与标准差是度量考察数据的集中趋方差与标准差是度量考察数据的集中趋势或分散程度的,方差与标准差越大,势或分散程度的,方差与标准差越大,意味着数据的分散程度越大;相反,方意味着数据的分散程度越大;相反,方差与标准差越小,则意味着数据的分散差与标准差越小,则意味着数据的分散程度越小,也即向平均值(算术平均值)程度越小,也即向平均值(算术平均值)的集中程度越高。的集中程度越高。方差方差标准差标准差其中其中n为样本数为样本数22()()xVar XEX EX2xxn有两个组的数学期末考试成绩,
5、第一个组有两个组的数学期末考试成绩,第一个组的五个人分别为:的五个人分别为:6060分,分,7070分,分,8080分,分,9090分,分,100100分,第二组的五个人分别为:分,第二组的五个人分别为:7878分,分,7979分,分,8080分,分,8181分,分,8282分。哪一组成绩代分。哪一组成绩代表性更好一点?表性更好一点?根据数据计算如下:2(xx)XX第一组第二组分组离差离差平方分组离差离差平方XX60708090100-200-5001001502005001001507879808182-100-5005010010050050100合计-500合计-300 XX2(xx)第
6、一组、第二组平均成绩为第一组、第二组平均成绩为80分,分,其标准差为其标准差为:2122()1000=14.145()10=1.4145XXNXXN分分在第一组、第二组平均成绩(为8080分)相等的情况下,第二组的标准差小于第一组的标准差,第二组平均成绩的代表性好于第一组。(3).协方差协方差考察两个变量概率分布函数数字特征之间的考察两个变量概率分布函数数字特征之间的关系,是对两变量同时变动的度量。关系,是对两变量同时变动的度量。两个随机变量两个随机变量X和和Y的期望分别是的期望分别是 和和 其协方差为:其协方差为:xuyu()()()()()()()xyxyXYCov E X E XY EY
7、E X u Y uX u Y u f XY协方差性质协方差性质n协方差协方差 n 为正,两变量发生同向变动为正,两变量发生同向变动(一个变量增加,一个变量也增加);(一个变量增加,一个变量也增加);n 为负,两变量发生反向变动为负,两变量发生反向变动(一个变量增加,一个变量减小)。(一个变量增加,一个变量减小)。n 为零,为零,X,Y相互独立相互独立。(,)Cov X Y(,)Cov X Y 可正可负(,)Cov X Y(,)Cov X Y(4)、相关关系相关关系计算公式计算公式22()()()()XYXX YYXXYY2222n XYX Yn XXn YY 或或(,)xyCov X Y n1
8、、正相关。两个变量中,一个变量增大,、正相关。两个变量中,一个变量增大,另一个变量对应值也随之增大;或一个变量另一个变量对应值也随之增大;或一个变量值减小,另一个变量对应值也随之减小,两值减小,另一个变量对应值也随之减小,两列变量变化方向相同。如学生的学习成绩与列变量变化方向相同。如学生的学习成绩与智商之间的关系;教师工作积极性与学校民智商之间的关系;教师工作积极性与学校民主管理程度之间的相关,学校办学经费与教主管理程度之间的相关,学校办学经费与教学设施之间的相关等。学设施之间的相关等。正相关(我国人均消费函数)正相关(我国人均消费函数)Y为我国人均消费X为我国人均国民收入相关系数:0.982
9、004006008001000120005001000150020002500YXn2、负相关:两个变量中,一个变量增大,负相关:两个变量中,一个变量增大,另一个变量对应值也随之减少;或一个变量另一个变量对应值也随之减少;或一个变量值减小,另一个变量对应值也随之增大,两值减小,另一个变量对应值也随之增大,两列变量变化方向相反。如学生学习能力水平列变量变化方向相反。如学生学习能力水平与其解题时间的关系;运动员赛跑与所用时与其解题时间的关系;运动员赛跑与所用时间之间的相关;学生学习能力与识记所用时间之间的相关;学生学习能力与识记所用时间之间的相关等。间之间的相关等。负相关Y与X的相关系数:-0.9
10、220304050607080010203040YX例例 设设Y和和X的的5期观测值如下表所示,期观测值如下表所示,计算二者的相关系数计算二者的相关系数 序号序号 1 2 3 4 5 Yt 14 18 23 25 30 Xt 10 20 30 40 50 解:计算过程如下:解:计算过程如下:54321ttyY Y=-ttxXX=-ttxy2 txtYtX50304025302320181014110225YYn=150305XXn=831-4-81603004016011015020100-10-200039010004001000100400相关系数为相关系数为22()()3903900.9
11、938392.42831000 154()()XYXX YYXXYY3.总体数字特征与样本数字特征总体数字特征与样本数字特征n生活中要知道总体中所有个体的相关数据比较困难,实践中我们所能做到的只是从总体中抽取一个有代表性的样本,考察样本的数据特征。(1)样本均值)样本均值n为样本容量,这为样本容量,这n个样本值为个样本值为随机变量随机变量x的样本均值为的样本均值为如此定义的样本均值如此定义的样本均值 就是总体均值就是总体均值(总体期望(总体期望E(X))的估计量。)的估计量。12,nX XX1niiXXnX(2).样本方差与标准差样本方差与标准差22121()1niiSXXnSS样本方差样本方
12、差标准差标准差注意:计算样本方差时,自由度为注意:计算样本方差时,自由度为n-1,是总体方差是总体方差 的估计量。的估计量。2x(3)样本协方差n同样,样本协方差的值是总体协方差的同样,样本协方差的值是总体协方差的估计值。估计值。()()ov(X,Y)=1iiXX YYCn样本(4)样本相关系数样本相关系数1()()1(,)niiixyxyXX YYnCov X YrS SS S样本4、一些重要的概率分布、一些重要的概率分布(1)、)、正态分布正态分布n 在市场上的精制盐很多是一公斤袋装,上面标在市场上的精制盐很多是一公斤袋装,上面标有有“净含量净含量1kg”的字样。但当你用稍微精确一些的的字
13、样。但当你用稍微精确一些的天平称那些袋装盐的重量时,会发现有些可能会重天平称那些袋装盐的重量时,会发现有些可能会重些,有些可能会轻些;但都是在些,有些可能会轻些;但都是在1kg左右。多数离左右。多数离1kg不远,离不远,离1kg越近就越可能出现,离越近就越可能出现,离1kg越远就越远就越不可能。越不可能。n一般认为这种重量分布近似地服从最常用的正态分一般认为这种重量分布近似地服从最常用的正态分布布(normal distribution,又叫高斯分布,又叫高斯分布,Gaussian distribution)。n在一定条件下,许多不是正态分布的样本均值在样在一定条件下,许多不是正态分布的样本均
14、值在样本量很大时,也可用正态分布来近似。本量很大时,也可用正态分布来近似。数学形式数学形式2221()()exp,223.14159 exp2.72818,(,()XfNXfXXXX,是以为底的自然对数指数为 的总体均数,为总体标准差称为概率密度函数图形及特点图形及特点图形特点图形特点:1.钟型钟型2.中间高中间高3.两头低两头低4.左右对称左右对称5.最高处对应最高处对应于于X轴的值轴的值就是均数就是均数6.曲线下面积曲线下面积为为17.标准差决定标准差决定曲线的形状曲线的形状 标准正态分布标准正态分布22(,)(0,1);1()exp,22NXNuuf uX 一般正态分布转化为标准正态分布
15、其中一般正态分布为一般正态分布为:N(,2);标准正态分;标准正态分布只有一个布只有一个 N(0,1);这样简化了应用;这样简化了应用 (2)、)、2 分布分布1.定义定义 设设 X1,Xn 独立且都服从标准正态独立且都服从标准正态分布分布N(0,1),称随机变量称随机变量21niiYX 2 分布是由正态分布派生出来的一种分布 所服从的分布为自由度为所服从的分布为自由度为 n 的的 2 分布分布,记为记为 Y 2(n).n 充分大时充分大时,t 分布近似分布近似 N(0,1).记为记为T t(n).定义定义2 设设 XN(0,1),Y 2(n),且且 X 与与 Y 相互独立相互独立,XTY n所服从的分布为自由度为所服从的分布为自由度为 n 的的 t 分布分布,(3)、)、t 分布分布称随机变量称随机变量所服从的分布为第一自由度为所服从的分布为第一自由度为 m,第第二自由度为二自由度为 n 的的 F 分布,分布,记作记作 F F(m,n).,)(,)(22nYmX 且且定义定义 设随机变量设随机变量 X 与与Y 独立,独立,X mFY n(4)、)、F 分布分布则称统计量则称统计量 (2)微积分:数值原理求一阶偏导数求一阶偏导数(在一定条件小求最小值、最大值。一阶(在一定条件小求最小值、最大值。一阶偏导为零)偏导为零)2YAXBX2YAXBX