统计学复习-PPT课件.ppt

上传人(卖家):三亚风情 文档编号:2731384 上传时间:2022-05-22 格式:PPT 页数:85 大小:618KB
下载 相关 举报
统计学复习-PPT课件.ppt_第1页
第1页 / 共85页
统计学复习-PPT课件.ppt_第2页
第2页 / 共85页
统计学复习-PPT课件.ppt_第3页
第3页 / 共85页
统计学复习-PPT课件.ppt_第4页
第4页 / 共85页
统计学复习-PPT课件.ppt_第5页
第5页 / 共85页
点击查看更多>>
资源描述

1、统计学统计学 Statistics for Business and Economics 什么是统计学?什么是统计学? 不列颠百科全书不列颠百科全书 统计学是一门收集、分析、表述和解统计学是一门收集、分析、表述和解释数据的科学。释数据的科学。统计学的特点统计学的特点 以归纳为主要思维方式的以归纳为主要思维方式的统计不是统计不是以演绎以演绎为主的为主的数学。数学。 从从整体整体观念出发,研究大量普遍存在的整观念出发,研究大量普遍存在的整体特征,说明事物的体特征,说明事物的规律性规律性。 研究客观事物研究客观事物数量数量方面的方法论科学。方面的方法论科学。描述统计描述统计推断统计推断统计 统计学的

2、分科统计学的分科统计学的分科统计学的分科 总体(总体(population),所研究对象的全体。),所研究对象的全体。 分为有限总体和无限总体分为有限总体和无限总体 有限总体的范围能够明确确定,且元素的有限总体的范围能够明确确定,且元素的数目是有限的数目是有限的 无限总体所包括的元素是无限的,不可数无限总体所包括的元素是无限的,不可数的的 个体(个体(individual),或总体单位,组成总体的),或总体单位,组成总体的元素。元素。 样本(样本( sample ) 从总体中抽取的一部分元素的集合从总体中抽取的一部分元素的集合 构成样本的元素的数目称为样本容量构成样本的元素的数目称为样本容量1

3、. 参数参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值只要总体不发生改变,总体参数不会改变总体参数通常用希腊字母表示 2. 统计量统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数大小取决于所抽取的样本样本统计量通常用小写英文字母表示 统计数据统计数据是对客观现象计量计量的结果。数据的计量尺度数据的计量尺度由低级到高级分为四个层次 从调查对象的总体中随机抽取一部分从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查单位作为样本进行调查,并根据样本调查结果推断总体数量特征。结果推

4、断总体数量特征。 抽样方法简单随机抽样简单随机抽样分层抽样分层抽样整群抽样整群抽样系统抽样系统抽样多阶段抽样多阶段抽样概率抽样概率抽样非概率抽样非概率抽样抽样方式抽样方式 抽样误差 由抽样随机性造成,只存在于概率抽样中。(样本的特征不一定和总体完全一样,这种差异不是错误而是必然会出现) 非抽样误差 覆盖误差被调查总体范围被人为减小 无响应误差调查回收率太低 响应误差没有反映真实观点(理解有误,有意欺瞒) 道德误差调查人员缺乏业务培训或职业道德 测量误差测量工具不准确 一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误差抽样误差。 (一)实际抽样误差:(一)实际

5、抽样误差: 抽样误差(Sampling Error))( (二(二)抽样极限误差抽样极限误差 一定概率下抽样误差的可能范围(也称允许误差,误差幅度): 1、访问调查(派员调查):、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料; 2、邮寄调查:、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点; 3、电话调查:、电话调查:调查者利用电话同受访者进行语言交流以获取信息; 4、座谈会(集体访谈):、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料; 5、个别深度访问:、个别深度访问:一次只有一名受访者参加

6、的特殊的定性研究。1、确定调查、确定调查目的目的Why?2、确定、确定调查对象调查对象和和调查单位调查单位 Who ?3、拟订、拟订调查调查项目和调查表What ? - - 调查项目要少而精;调查项目要少而精; - - 调查项目含义要明确;调查项目含义要明确; - - 尽可能做到各个调查项目之间有一定的联系。尽可能做到各个调查项目之间有一定的联系。4、确定调查、确定调查时间时间和和期限期限 When ? - - 调查时间是指调查资料所属的时间(时点或时期);调查时间是指调查资料所属的时间(时点或时期); - - 调查期限是指调查工作的起讫时间。调查期限是指调查工作的起讫时间。5、编制调查的、编

7、制调查的组织组织计划计划How ?第三章第三章 描述性统计描述性统计:数据的图表展示数据的图表展示第四章 描述性统计IIII:数值描述数值描述集中趋势的度量集中趋势的度量位置平均数位置平均数众数众数中位数中位数分位数分位数数值平均数数值平均数简单算术平均数简单算术平均数加权算术平均数加权算术平均数几何平均数几何平均数调和平均数调和平均数 异众比率 极差 四分位差 方差和标准差 离散系数推断统计统计量和估计值统计量和估计值 样本的(不包含未知总体参数的)函数称为统计量统计量; 统计量是随机变量,并有其分布随机变量,并有其分布。 如果样本已经得到,把数据带入之后,统计量就有了一个数值,称为该统计量

8、的一个实现实现(realization)或取值,也称为一个估估计值计值(estimate)。三种不同性质的分布 总体分布总体分布 样本分布样本分布 抽样分布抽样分布1. 一个样本中各观察值的分布 2. 也称经验分布 3. 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布 样本分布(sample distribution)1. 样本统计量的概率分布,是一种理论分布 在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 2. 样本统计量是随机变量样本均值, 样本比例,样本方差等3. 结果来自容量相同容量相同的所有所有可能样本抽样分布 (sampling distribution

9、) 考察样本均值的概率分布形式样本均值的概率分布形式。分两种况: 1)总体分布已知且为正态分布总体分布已知且为正态分布; 2)总体分布未知;总体分布未知;(1)当总体分布已知且为正态分布或接近正态分布时,则无论样本容量大小如何,样本均值则无论样本容量大小如何,样本均值都为正态分布都为正态分布。样本均值的抽样分布x (2)当总体分布未知时,需要用到Central limit Theorem) 经验上验证经验上验证,当样本容量等于或大于30时,无论总体的分布如何,样本均值的分布则非常接近正态分布。 因此统计上常称容量在30(含30)以上的样本为大样本大样本(large-sample-size)。抽

10、样分布与总体分布的关系正态分布正态分布非正态分布非正态分布样本均值样本均值正态分布正态分布样本均值样本均值正态分布正态分布样本均值样本均值非正态分布非正态分布样本方差的分布3、比例的抽样分布 1、期望值、期望值:有限总体:有限总体:无限总体无限总体 2、标准差、标准差: 3、样本比例抽样分布的形状、样本比例抽样分布的形状(Form of the sampling distribution of p) 根据中心极限定理中心极限定理有:当样本容量增大时当样本容量增大时(大样本),样本比例抽样分布趋向于以样本(大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布期望值为中心

11、、以样本方差为方差的正态分布。 区间估计区间估计则是根据样本估计量以一定的可靠程度一定的可靠程度推断总体参数所在的区间范围区间范围。区间估计(Interval Estimation)抽样极限误差抽样极限误差 一定概率下抽样误差的可能范围(也称允许误差,误差幅度):置信区间的一般形式点估计(临界值)(标准误差) 临界值:根据置信水平和抽样分布确定 标准误差:根据抽样分布确定1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平 2. 表示为 (1 - 为是总体参数未在区间内的比例3. 常用的置信水平值有 99%, 95%, 90% 相应的相应的 为0.01,0

12、.05,0.10置信水平(置信度)(confidence level) 置信区间 (95%的置信区间)样本容量的确定估计总体均值时样本容量的确定 估计总体均值时样本容量n为2.样本容量n与总体方差 2、边际误差E、可靠性系数Z或t之间的关系为与总体方差成正比与误差幅度的平方成反比与置信水平成正比 样本容量的圆整法则:当计算出的样本容量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等定义:误差幅度(边际误差)定义:误差幅度(边际误差)E=2zn1. 根据比例区间估计公式可得样本容量n为估计总体比例时样本容量的确定 假设检验假设检验什么是假设检验? (hyp

13、othesis test)1. 先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程2. 有参数检验参数检验和非非参数检验参数检验3. 逻辑上运用反证法反证法,统计上依据小概率原理假设检验的基本思想样本均值m m = 50假设检验中的两类错误 1. 第第类错误类错误(弃真错误弃真错误) 原假设为正确时拒绝原假设 第类错误的概率记为 被称为显著性水平 2. 第第类错误类错误(取伪错误取伪错误) 原假设为错误时未拒绝原假设 第类错误的概率记为(Beta)|(00trueisHHrejectP)|(00falseisHHrejectnotP显著性水平(significan

14、t level) 1. 是一个概率值 2. 原假设为真时,拒绝原假设的概率 抽样分布的拒绝域 3. 表示为 (alpha) 常用的 值有0.01, 0.05, 0.10 4. 由研究者事先确定1. 假设检验需要借助样本统计量进行统计推断,称为检验统计量。2. 标准化结果原假设H0为真点估计量的抽样分布 决策规则1. 给定显著性水平,查表得出相应的临界值z或z/2,t或t/22. 将检验统计量的值与水平的临界值进行比较3. 作出决策双侧检验:I统计量I 临界值,拒绝H0左侧检验:统计量 临界值,拒绝H0一个总体参数的检验z 检验检验(单尾和双尾单尾和双尾) t 检验检验(单尾和双尾单尾和双尾)z

15、 检验检验(单尾和双尾单尾和双尾) 2 2检验检验(单尾和双尾单尾和双尾)均值均值总体参数总体参数比例比例方差方差方差分析方差分析什么是方差分析(ANOVA)?(analysis of variance) 1. 检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等2. 研究分类型自变量对数值型因变量的影响 一个或多个分类型自变量一个数值型因变量3. 有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量方差分析的基本思想和原理(两类误差)1.组内误差(组内误差(within groups)因素的同一水平(总体)下,样本各观察值之间的

16、差异比如,同一行业下不同企业被投诉次数之间的差异这种差异可以看成是随机因素的影响,称为随机误差随机误差 2.组间误差(组间误差(between groups)因素的不同水平(不同总体)之间观察值的差异比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差系统误差问题的一般提法1. 设因素有k个水平,每个水平的均值分别用m m1 , m m2, , m mk 表示2. 要检验k个水平(总体)的均值是否相等,需要提出如下假设: H0 : m m1 m m2 m mk H1 : m m1 , m

17、 m2 , ,m mk 不全相等不全相等3. 设m m1为零售业被投诉次数的均值,m m2为旅游业被投诉次数的均值,m m3为航空公司被投诉次数的均值,m m4为家电制造业被投诉次数的均值,提出的假设为H0 : m m1 m m2 m m3 m m4 H1 : m m1 , m m2 , m m3 , m m4 不全相等不全相等单因素方差分析表(基本结构)误差来源误差来源平方和平方和(SS)自由度自由度(df)均方均方(MS)F值值P值值F临界临界值值组间组间(因素影响因素影响)SSAk-1MSAMSAMSE组内组内(误差误差)SSEn-kMSE总和总和SSTn-1关系强度的测量 1. 变量间

18、关系的强度用自变量平方和(SSA) 占总平方和(SST)的比例大小来反映2. 自变量平方和占总平方和的比例记为R2 ,即3. 其平方根R就可以用来测量两个变量之间的相关性方差分析中的多重比较 (multiple comparison procedures)多重比较的步骤1. 提出假设H0: mi=mj (第i个总体的均值等于第j个总体的均值)H1: mimj (第i个总体的均值不等于第j个总体的均值)2. 检验统计量: 相关分析和回归分析相关分析和回归分析相关分析及其假定1.相关分析要解决的问题变量之间是否存在关系?(散点图)如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?(相关

19、系数)样本所反映的变量之间的关系能否代表总体变量之间的关系?(显著性检验)2.为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量相关系数 (计算公式) 样本相关系数的计算公式总体相关系数的计算公式)()(),(YVarXVarYXCov回归回归 回归是计量经济学的主要工具回归是计量经济学的主要工具 回归是回归是研究一个因变量对一个或多个自变量的研究一个因变量对一个或多个自变量的依赖关系的过程,其用意在于通过后者的设定依赖关系的过程,其用意在于通过后者的设定去估计或预测前者的去估计或预测前者的均值(总体均值)均值(总体均值)。模型假定的简化模型假

20、定的简化 1) E( )=0; (E(yi)=xi) 2) 对于所有的 i,Var( )=2. 3) 是服从正态分布N(0, 2 ) 的. 4) 、 (ij)是相互独立的. 术语:这些假定意味着来自n个相互独相互独立立的同方差同方差、但是期望不同的正态总体。 iiiij01010101i( | )iiiiyxE y xxyxyxe总体回归模型,经典线性回归假定。总体回归方程(函数)样本回归方程样本回归模型最小二乘估计(method of least squares ) 2. 使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即3. 用最小二乘法拟合的直线来代表x与y之间的关系

21、与实际数据的误差比其他任何直线都小01 线性回归模型的检验检验分二大类分二大类:统计检验计量经济检验从统计学的角度检验所估计的样本回归函数的有效性拟合优度检验显著性检验一元线性回归模型的检验一元线性回归模型的检验21S S RS S ERS S TS S T判定系数判定系数(coefficient of determination)的取值范围:0,1,越接近1,说明实际观测点离样本线越近,拟合优度越高。样本拟合优度样本拟合优度可用下面的判定系数判定系数测度:估计标准误差(standard error of estimate)对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的

22、一个估计量反映用估计的回归方程预测y时预测误差的大小 计算公式为E( s2) = 2显著性检验显著性检验显著性检验包括显著性检验包括对各回归系数的检验对整个回归方程的检验 整个回归方程的显著性检验整个回归方程的显著性检验主要是要考察所选择的变量是否从总体上对被解释变量起线性作用,即各解释变量前的参数是否不全为零各解释变量前的参数是否不全为零。 因此,整个线性关系的检验整个线性关系的检验是通过如下F检验进行的/( )( ,1)/(1)SSRkFF k nkSSEnk整个回归方程的显著性检验整个回归方程的显著性检验其中,k表示模型中自变量的个数表示模型中自变量的个数,n为样本容量为样本容量。回归系

23、数的检验 (检验步骤) 1.提出假设H0: 1 = 0H1: 1 02.计算检验的统计量残差分析解决的问题 是线性关系吗? 对误差项作的假定适合吗? 1)等方差; 2)相互独立; 3)正态分布; 哪些数据属于异常值? 哪些观测属于对回归模型有很大影响的?异常值(outlier)1.如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异常点,或称为野点如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归的效果如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型如果完全是由于随机因素而造成的异常值,则应该保留该数据2.在处理异常值

24、时,若一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔除 利用回归方程进行估计和预测利用回归方程进行估计和预测利用回归方程进行估计和预测1. 根据自变量 x 的取值估计或预测因变量 y的取值2. 估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间置信区间估计y 的个别值的预测区间预测区间估计估计多元线性回归多元线性回归1. 回归模型、回归方程、估计的回归方程回归模型、回归方程、估计的回归方程2. 回归方程的拟合优度回归方程的拟合优度3. 回归方程的显著性检验回归方程的显著性检验4. 多重共线性问题及其处理多重共线性问题及其处理5. 利用回归

25、方程进行估计和预测利用回归方程进行估计和预测6. 虚拟自变量的回归问题虚拟自变量的回归问题7. 非线性回归非线性回归8. 用用 Excel 进行回归分析进行回归分析时间序列分析和预测时间序列分析和预测1、时间序列的概念和分解(times series) 1. 同一现象在不同时间上的相继观察值排列而成的数列 2. 形式上由现象所属的时间和现象在不同时间上的观察值两部分组成 3. 排列的时间可以是年份、季度、月份或其他任何时间形式时间序列的分类1. 平稳序列(stationary series)基本上不存在趋势的序列,各观察值基本上在某个固定的水平上波动或虽有波动,但并不存在某种规律,而其波动可以

26、看成是随机的 2. 非平稳序列 (non-stationary series)有趋势的序列线性的,非线性的 有趋势、季节性和周期性的复合型序列 时间序列的成分趋势趋势T季节性季节性S周期性周期性C随机性随机性I线性线性趋势趋势非线性非线性趋势趋势预测方法的选择是 否 存 在 趋是 否 存 在 趋势势是 否 存 在 季是 否 存 在 季节节是否存在季是否存在季节节平滑法预测平滑法预测简单平均法简单平均法移动平均法移动平均法指数平滑法指数平滑法季节性预测法季节性预测法季节多元回归模型季节多元回归模型时间序列分解时间序列分解趋势预测方法趋势预测方法线性趋势推测线性趋势推测非线性趋势推测非线性趋势推测统计指数统计指数统计指数的分类统计指数的分类 指数的分类指数的分类按对象范围按对象范围的不同的不同 按编制的按编制的方法不同方法不同 按反映内按反映内容的差异容的差异 个体指数个体指数 综合指数综合指数 不加权指数不加权指数 加权指数加权指数 拉氏指数拉氏指数 帕氏指数帕氏指数 按对比场按对比场合的差异合的差异 数量指数数量指数 质量指数质量指数 时间指数时间指数 区域指数区域指数

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(统计学复习-PPT课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|