第五章数据分析第二节推论统计课件.ppt

上传人(卖家):晟晟文业 文档编号:5175499 上传时间:2023-02-16 格式:PPT 页数:43 大小:245KB
下载 相关 举报
第五章数据分析第二节推论统计课件.ppt_第1页
第1页 / 共43页
第五章数据分析第二节推论统计课件.ppt_第2页
第2页 / 共43页
第五章数据分析第二节推论统计课件.ppt_第3页
第3页 / 共43页
第五章数据分析第二节推论统计课件.ppt_第4页
第4页 / 共43页
第五章数据分析第二节推论统计课件.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、 2 推论统计推论统计预备知识预备知识一、抽样分析一、抽样分析二、参数估计二、参数估计三、假设检验的基本概念三、假设检验的基本概念四、四、t t检验检验五、五、F F检验检验六、六、检验检验七、示例七、示例2 2 管理研究和社会研究绝大部分都采用管理研究和社会研究绝大部分都采用样本研究样本研究,从较大的研究对象总体中抽样,从较大的研究对象总体中抽样收集数据。最终目的是从样本来判断样本收集数据。最终目的是从样本来判断样本所在的总体的特性。所在的总体的特性。统计推断是一套有清晰逻辑程序的统统计推断是一套有清晰逻辑程序的统计计算,对于从样本观测值得出的发现计计算,对于从样本观测值得出的发现(find

2、ings),findings),作出是否适用于总体的判断。作出是否适用于总体的判断。发现亦即研究的结果,这些结果不外乎以发现亦即研究的结果,这些结果不外乎以下几个方面的内容:下几个方面的内容:假设中的自变量和因变量之间有无关联?假设中的自变量和因变量之间有无关联?这种关联的趋向和形式如何?这种关联的趋向和形式如何?这种关联的强度如何?这种关联的强度如何?这种关联是否是因果这种关联是否是因果 自变量的属性值变化引起因变量的属性值变自变量的属性值变化引起因变量的属性值变化,说明两变量间存在关联。化,说明两变量间存在关联。关联强度的判断则是指观测值中有多大比例关联强度的判断则是指观测值中有多大比例的

3、因变量属性值可以从自变量的属性值来解释。的因变量属性值可以从自变量的属性值来解释。统计技术用统计显著性来检验所观测到的关统计技术用统计显著性来检验所观测到的关联是随机性的还是系统性的原因。联是随机性的还是系统性的原因。自变量和因变量之间存在关联并非表明自变量和因变量之间存在关联并非表明自变量就是因,因变量就是果,因果辨析一自变量就是因,因变量就是果,因果辨析一般属于实证研究之后机理分析的内容。般属于实证研究之后机理分析的内容。数据分析的主要内容主要围绕变量间关数据分析的主要内容主要围绕变量间关联的存在性、趋向和形式、强度和统计显著联的存在性、趋向和形式、强度和统计显著性四个方面。描述统计已涉及

4、到存在性、趋性四个方面。描述统计已涉及到存在性、趋向和形式的内容,推论统计则主要回答统计向和形式的内容,推论统计则主要回答统计显著性问题。显著性问题。2 推论统计推论统计(inferential statistics)预备知识预备知识 正态分布与有关的分布正态分布与有关的分布定义定义1 1 设连续型随机变量设连续型随机变量X X的密度函数为的密度函数为称称X X服从正态分布,记作服从正态分布,记作X XN N(,2 2).其中其中,均为常数,均为常数,0.0.x e21f(x)222)(x 当当=0,0,2 2=1=1时,我们称时,我们称X X服从标准正态分布,服从标准正态分布,即即X X N

5、 N(0,1(0,1).标准正态分布的密度和分布函数分别为:标准正态分布的密度和分布函数分别为:x x d du ue e2 21 1与与(x x)x x e e2 21 1(x x)x x2 2u u2 2x x2 22 2定理定理 1 1 设设 定义定义 设设X X1 1,X X2 2,X Xn n为相互独立的随机为相互独立的随机变量,它们都服从标准正态变量,它们都服从标准正态N(0,1)N(0,1)分布,则称分布,则称随机变量随机变量服从自由度为服从自由度为n n的的 分布,记作分布,记作Y Y (n).(n).定理定理 2 2 设设X X1 1,X X2 2,X Xn n独立,同独立,

6、同N N(,2 2)分布,记分布,记 )X X(X X1 1n n1 1S S ,X Xn n1 1X X2 2n n1 1i ii i2 2n n1 1i ii i 则(则(1 1)(3 3)与与S S2 2 相互独立相互独立.)n nN N(,X X2 2)1n(S)1n(222(2 2)2 2定义定义2 2 设设X XN(0,1)N(0,1),Y Y (n),n),且且X X与与Y Y相互独立,记相互独立,记 则则T T服从自由度为服从自由度为n n的的t t分布,又称为学生分布,又称为学生(student(student)分布,记作)分布,记作T Tt t(n n)n nY YX XT

7、 T 2定理定理3 3 设设X X1 1,X X2 2,X Xn n独立,同独立,同N N(,2 2)分)分布,记布,记 )X X(X X1 1n n1 1S S ,X Xn n1 1X X2 2n n1 1i ii i2 2n n1 1i ii i)1(ntnSXT则则定理定理4 4 设设X X1 1,X X2 2,X Xn n独立,同独立,同N N(1 1,2 2)分布,分布,Y Y1 1,Y Y2 2,Y Ym m独立,同独立,同N N(2 2,2 2)分布,)分布,且它们相互独立,记且它们相互独立,记 )X X(X X1 1n n1 1S S ,X Xn n1 1X X2 2n n1

8、1i ii i2 2X Xn n1 1i ii i)m m1 1n n1 1(2 2m mn n1 1)S S(m m1 1)S S(n nY YX X令令T T)Y Y(Y Y1 1m m1 1S S ,Y Ym m1 1Y Y2 2Y Y2 2X X2 2m m1 1j jj j2 2Y Ym m1 1j jj j则当则当1 12 2时时 T Tt t(n+mn+m-2).-2).定义定义 3 3 设设 X X ,Y Y ,X X与与Y Y独立,则称随机变量独立,则称随机变量服从自由度为服从自由度为(n(n1 1,n,n2 2)的的F F分布,记作分布,记作F FF F(n n1 1,n,

9、n2 2)(n n1 1)(n n2 22 21 1n nY Yn nX XF F一、抽样分析一、抽样分析 样本统计值(样本统计值(sample statistics):描述样本分布情况的特描述样本分布情况的特性值。性值。总体参数值(总体参数值(population parameter):描述总体分布情况描述总体分布情况的特性值。的特性值。样本统计值是否能代表总体参数值样本统计值是否能代表总体参数值,怎样才能代表参数值,怎样才能代表参数值,这正是推论统计解决问题的出发点。这正是推论统计解决问题的出发点。统计值和参数值两者的关系可以通过统计值和参数值两者的关系可以通过“抽样分布抽样分布”(sam

10、pling distribution)这个概念连通起来。统计值的分布这个概念连通起来。统计值的分布情况就是抽样分布。情况就是抽样分布。统计推论可分为参数估计(统计推论可分为参数估计(parameter estimation)和假和假设检验。设检验。二、参数估计二、参数估计 参数估计分为点估计(参数估计分为点估计(point estimation)和区间估计和区间估计(interval estimation)1、点估计、点估计 常用的点估计方法有矩法和极大似然估计(常用的点估计方法有矩法和极大似然估计(MaximumLikelihood Estimation)。样本均值样本均值 样本方差样本方差

11、 参数是概率分布的特征值,各种概率分布有不同的特征参数是概率分布的特征值,各种概率分布有不同的特征值,最常用到的参数有平均数值,最常用到的参数有平均数和方差和方差2。n n1 1i ii iX Xn n1 1X X212)(11XXnSnii2 2、区间估计、区间估计 估计偏差(估计偏差(bias)无偏估计:设无偏估计:设 是未知参是未知参数的一个估计量,若有数的一个估计量,若有 则称则称 是是的无偏估计量。的无偏估计量。抽样误差:每次估计值和长期估计的平均值抽样误差:每次估计值和长期估计的平均值(long-run average value)之间的随机误差称作抽样之间的随机误差称作抽样误差。

12、误差。抽样误差的一个很有用的特点是它符合正态抽样误差的一个很有用的特点是它符合正态分布。分布。)x x,x x,(x xn n2 21 1)x x,x x,(x xn n2 21 1)x x,x x,(x xE E(n n2 21 1 点估计值给出了参数的一个近似值且是点估计值给出了参数的一个近似值且是随机的,它跟随着样本的抽取而随机变化,随机的,它跟随着样本的抽取而随机变化,估计值本身既没有反映这种近似的精确度,估计值本身既没有反映这种近似的精确度,又没有给出误差范围。为了弥补这些不足,又没有给出误差范围。为了弥补这些不足,人们希望估计出一个范围,并知道这个范围人们希望估计出一个范围,并知道

13、这个范围包含参数真值的可靠程度。这样的范围通常包含参数真值的可靠程度。这样的范围通常以区间的形式给出,同时还要给出该区间包以区间的形式给出,同时还要给出该区间包含参数真值的可靠程度。这种形式的估计称含参数真值的可靠程度。这种形式的估计称为区间估计。为区间估计。定义对于参数定义对于参数,如果有两个统计量,如果有两个统计量和,对给定的和,对给定的(,),有(,),有则称是则称是的一个区间估计或置信区间,的一个区间估计或置信区间,为为置信水平(置信度)。置信水平(置信度)。),(21nxxx),(21nxxx1)(P,一个正态总体的参数的区间估计一个正态总体的参数的区间估计已知方差已知方差,对均值,

14、对均值的区间估计的区间估计未知方差未知方差,对均值,对均值的区间估计的区间估计 对方差的区间估计对方差的区间估计三、假设检验的基本概念三、假设检验的基本概念 1 1、对立假设、对立假设 2 2、显著性试验、显著性试验 3 3、甲种误差和乙种误差、甲种误差和乙种误差 4 4、单边检验和双边检验、单边检验和双边检验 5 5、自由度、自由度 6 6、参数检验和非参数检验、参数检验和非参数检验 根据样本提供的信息判断总体是否具有预根据样本提供的信息判断总体是否具有预先指定的特性。先指定的特性。进行假设检验的基本思想:某种带有概率进行假设检验的基本思想:某种带有概率性质的反证法。基于的原则是:小概率事件

15、在性质的反证法。基于的原则是:小概率事件在一次观察中可以认为基本上不会发生。一次观察中可以认为基本上不会发生。小概率事件:小概率事件:通常把概率不超过通常把概率不超过0.050.05的事的事件当作件当作“小概率事件小概率事件”,有时把概率不超过,有时把概率不超过0.010.01的事件当作的事件当作“小概率事件小概率事件”.假设检验的步骤:假设检验的步骤:提出假设提出假设H H;备选假设;备选假设H H构造统计量,并由样本算出其具体值构造统计量,并由样本算出其具体值求出在求出在H H下,统计量的分布,构造对下,统计量的分布,构造对H H不利的小概率事件不利的小概率事件给定显著性水平给定显著性水平

16、,确定临界值,从而,确定临界值,从而得出得出H H的否定域。的否定域。得出结论。得出结论。若统计量若统计量否定域,则拒绝否定域,则拒绝H H,承认备选假设承认备选假设H H;若统计量否定域,则接若统计量否定域,则接受受H H、对立假设、对立假设待研究的假设可分为两类:待研究的假设可分为两类:研究假设研究假设研究者希望验证的命题研究者希望验证的命题对立假设(对立假设(null hypothesis)研究假设的逻辑对研究假设的逻辑对立面立面2 2、显著性试验显著性试验 否定域否定域(critical region):一般说来,对于给定:一般说来,对于给定的显著水平的显著水平,以及某一统计量,以及某

17、一统计量,若有,若有 P P区域区域G G 则称区域则称区域G G为为H H0 0的否定域。的否定域。显著性水平(检验标准)显著性水平(检验标准)1 1置信水平置信水平 直观意义:把概率不超过直观意义:把概率不超过的事件当作一的事件当作一次观察不会发生的次观察不会发生的“小概率事件小概率事件”。3 3、甲种误差和乙种误差(检验中的两类错误)甲种误差和乙种误差(检验中的两类错误)甲种误差(甲种误差(typetype error)error):把正确的对立把正确的对立假设推翻的可能性,其出现的可能性大小取决于假设推翻的可能性,其出现的可能性大小取决于显著度显著度。实际情况是实际情况是H H0 0成

18、立,而检验的结果表明成立,而检验的结果表明H H0 0不成不成立,即拒绝立,即拒绝H H0 0,这时称该检验犯了第一类错误或这时称该检验犯了第一类错误或“弃真错误弃真错误”(以真为假以真为假)。显著水平)。显著水平是犯第是犯第一类错误的概率。一类错误的概率。乙种误差(乙种误差(typetypeerror):error):把错误的对立假把错误的对立假设视为真实的可能性。设视为真实的可能性。“纳伪错误纳伪错误”(以假为真以假为真)4 4、单边检验和双边检验、单边检验和双边检验 双边检验双边检验(twotwotailed test):tailed test):否定域预否定域预设在正态分布的两端。设在

19、正态分布的两端。单边检验单边检验(oneonetailed testtailed test):否定域):否定域预设在正态分布的一端。预设在正态分布的一端。5 5、自由度、自由度 自由度自由度(degree of freedom):degree of freedom):自由度是指自由度是指可以自由变动数值的样本数目可以自由变动数值的样本数目.6、参数检验和非参数检验、参数检验和非参数检验 假设检验分为假设检验分为参数检验参数检验(parametric statistical test)非参数非参数检验检验(nonparametric statistical test)。总体总体X的分布类型为已知

20、,其中仅含有有限个未的分布类型为已知,其中仅含有有限个未知参数,我们要做的只是对这些参数进行检验,称知参数,我们要做的只是对这些参数进行检验,称为为参数假设检验参数假设检验。在许多实际问题中,总体分布的类型往往不知在许多实际问题中,总体分布的类型往往不知道,或者知之甚少。因此需要引进另一些统计方法,道,或者知之甚少。因此需要引进另一些统计方法,要求这些方法不依赖于总体分布的具体形式,这些要求这些方法不依赖于总体分布的具体形式,这些方法称为方法称为非参数方法非参数方法。数据为定距和定比类型时对应的检验方法为数据为定距和定比类型时对应的检验方法为参数检验。参数检验。数据为定类和定序类型以及总体偏态

21、分布或分数据为定类和定序类型以及总体偏态分布或分布情况不明的情况下,对应的检验方法为非参数检布情况不明的情况下,对应的检验方法为非参数检验。验。四、四、t t检验检验 1 1、t t分布定义分布定义 t t分布常用于数理统计中正态总体均值的区间分布常用于数理统计中正态总体均值的区间估计和检验。估计和检验。2 2、常用的两个定理(预备知识中定理、常用的两个定理(预备知识中定理3 3和定理和定理4 4)3、t t检验检验 独立样本的独立样本的t t检验检验 独立样本的独立样本的t t检验计算公式为:检验计算公式为:2121211112nnnnSSSSxxt式中分子式中分子 ,为两平均值,为两平均值

22、,n1,n2表示样本组中样表示样本组中样本的个数本的个数,SS1和和SS2为两组样本各自离差平方和为两组样本各自离差平方和。1x2x112112121112111111)()()1(nxxxxSnSSnjjnjjjnj212212222212222222)()()1(nxxxxSnSSnjjnjjjnj举例举例P228 例例5.2 H0:1=2 H1:12 非独立样本的非独立样本的t t检验检验 如果样本经过某种形式的配对处理,则应用如果样本经过某种形式的配对处理,则应用非独立样本的非独立样本的t t检验检验.非独立样本的非独立样本的t t检验算式为:检验算式为:)1()(22NNNDDDt当

23、当12时,时,tt(N-1)例例P例例.五、五、F F检验检验 方差分析法方差分析法(analysis of variance)是用来处理是用来处理两组或两组以上样本的统计方法,目的在于判断所两组或两组以上样本的统计方法,目的在于判断所发现的总误差主要是样本组内的误差还是各组之间发现的总误差主要是样本组内的误差还是各组之间的误差。的误差。简单方差分析简单方差分析方差分析法方差分析法 方差因子分析方差因子分析 协方差分析协方差分析单因素方差分析数学模型单因素方差分析数学模型),0(),2,1,2,1(),(2,2NrinjNXijiiij1 1、F F分布定义分布定义2 2、简单方差分析(单因素

24、方差分析)简单方差分析(单因素方差分析)简单方差分析将总误差划分为两种来源:一种是组间,简单方差分析将总误差划分为两种来源:一种是组间,由施加的试验处理形成;另一种是组内,由随机误差形成由施加的试验处理形成;另一种是组内,由随机误差形成。单因素方差分析表单因素方差分析表变异源变异源(方差来源方差来源)方差和方差和(平方和)平方和)自由度自由度平均数方平均数方差(差(MS)F F值值 组间(组间(B)SSB k-1组内(组内(W W)SSW N-k总体(总体(T T)SST N-1BBMSkSS1WWMSkNSSWBMSMS 计算计算SST,SSW,SSB时,常按下列顺序进行时,常按下列顺序进行

25、BTWikiiBkiiTSSSSSSxNxnSSnNNxxSS221122)(1)(1 ,)(其其中中 .H,H k)-N1,-(kFF k)-N1,-F(kk-NSS1-kSSF :H00WBk210否否则则接接受受拒拒绝绝 当当成成立立下下在在时,例例 P231 例例5.4三个班组在半年内的缺勤次数三个班组在半年内的缺勤次数班组班组缺勤次数缺勤次数x1x2x31 2 2 2 323 4 5 64 4 4 5 724ix2ix1020229012254234in555156.3915)54(234)(1222xNxSST8.201554524520510 )()()()(2222232322

26、2121NxnxnxnxSSB8.188.206.39BTWSSSSSS变异源变异源方差和方差和自由度自由度均值均值F值值组间组间(B)20.83-1=210.46.62组内组内(W)18.815-3=121.57总体总体(T)39.615-1=14F检验表检验表查表查表 F0.05(2,12)=3.88,6.623.88 拒绝拒绝H0,三三个班的平均值有显著差异。个班的平均值有显著差异。3 3 Scheffe Scheffe 检验检验 ScheffeScheffe检验是常用的多重比较法(检验是常用的多重比较法(multi-multi-comparisoncomparison),),它用来细化

27、它用来细化F F检验的结果检验的结果,在组间差在组间差异显著情况下异显著情况下,辨别成对组件是显著差异还是随辨别成对组件是显著差异还是随机差异。在总体无显著差异情况下,也可能发现机差异。在总体无显著差异情况下,也可能发现其中差异显著的两组。其中差异显著的两组。仍以三个班缺勤率为例说明仍以三个班缺勤率为例说明ScheffeScheffe检验的检验的应用。比较应用。比较x x1 1与与x x2 2两组,其两组,其F F值算式为值算式为3 3.8 88 8.0 0.5 51 1算算出出F Fx x与与x x在在3 3.8 88 8;6 6.4 42 2之之间间算算出出F Fx x与与x x在在同同样

28、样,无无显显著著差差异异.x x与与x x所所以以3 32 23 31 12 21 1 88.318.3,88.3)12,2(05.0F3 3.1 18 82 2)5 51 15 51 11 1.5 57 7(4 4.0 00 0)(2 2.0 00 0 k kN N1 1,k kd df f,1 1)(k kn n1 1n n1 1(M MS S)x xx x(F F2 22 21 1W W2 22 21 1简单方差分析得出的三者之间显著差异之结论为简单方差分析得出的三者之间显著差异之结论为:夜班比夜班比早班的缺勤率显著高早班的缺勤率显著高,而早班和中班及中班和夜班之间的而早班和中班及中班和

29、夜班之间的缺勤率虽有差异但不显著缺勤率虽有差异但不显著.六、六、检验检验 (chi-square test)(chi-square test)检验是一种非参数检检验是一种非参数检验,适用于定类变量,数据表达为频次形式,按验,适用于定类变量,数据表达为频次形式,按两个或更多的相斥属性归类。两个或更多的相斥属性归类。检验用于比较各类型事件的发生频次是否检验用于比较各类型事件的发生频次是否差异显著,现举例说明。差异显著,现举例说明。例例 在超级市场随机选择在超级市场随机选择9090位顾客征求其对位顾客征求其对三种新品牌果酱的偏好,设由三种新品牌果酱的偏好,设由4040位顾客选择品牌位顾客选择品牌x,

30、30 x,30位选择位选择y,20y,20位选择位选择z z,如对立假设为真,则,如对立假设为真,则x=y=z,x=y=z,期望频次应为期望频次应为3030,3030,3030,检验就要判检验就要判别观察频次(别观察频次(4040,3030,2020)和期望频次()和期望频次(3030,3030,3030)之间的差异是否显著。)之间的差异是否显著。2 22 22 2品牌品牌 x y z观测频次观测频次期望频次期望频次 40 30 20 30 30 306 6.6 66 63 3.3 33 30 03 3.3 33 3 3 30 03 30 0)-(2 20 03 30 03 30 0)-(3

31、30 03 30 03 30 0)-(4 40 0 f f)f f(f f 2 22 22 22 2e e2 2e eo o2 22 2:有有按按本本例例数数据据,算算式式为为:。有有显显著著不不同同不不同同品品牌牌的的果果酱酱味味道道频频率率之之间间有有显显著著差差异异,观观测测频频率率和和期期望望,所所以以可可以以否否定定对对立立假假设设 5 5.9 99 91 16 6.6 66 6 5 5.9 99 91 1(2 2)0 0.0 05 52 22 20 0.0 05 5显显著著。不不能能承承认认它它们们之之间间差差异异,69 9.2 21 16 6.6 66 6 9 9.2 21 10

32、 0(2 2)0 0.0 01 12 22 20 0.0 01 1 各种检验方式比较各种检验方式比较 检验方法检验方法 组数组数 自变量数自变量数 数据类型数据类型 t t检验检验(独立样本)独立样本)2 1 2 1 定距、定比定距、定比t t检验检验(非独立样本)非独立样本)2 1 2 1 定距、定比定距、定比简单方差分析简单方差分析 2 1 2 1 定距、定比定距、定比ScheffeScheffe检验检验 2 1 2 1 定距、定比定距、定比2 2检验检验 2 1 2 1 定类定类一、简介一、简介二、应用步骤二、应用步骤 1 1、模型设定、模型设定 2 2、模型辨识、模型辨识 3 3、模型估计、模型估计 4 4、模型评价、模型评价 5 5、模型修正、模型修正三、示例三、示例 1 1、研究假设、研究假设 2 2、问卷设计及数据收集、问卷设计及数据收集 3 3、数据处理和初步分析、数据处理和初步分析 4 4、假设验证、假设验证 5 5、结果分析、结果分析

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第五章数据分析第二节推论统计课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|