数理统计的基本概念汇总课件.ppt

上传人(卖家):三亚风情 文档编号:3291503 上传时间:2022-08-17 格式:PPT 页数:43 大小:937.50KB
下载 相关 举报
数理统计的基本概念汇总课件.ppt_第1页
第1页 / 共43页
数理统计的基本概念汇总课件.ppt_第2页
第2页 / 共43页
数理统计的基本概念汇总课件.ppt_第3页
第3页 / 共43页
数理统计的基本概念汇总课件.ppt_第4页
第4页 / 共43页
数理统计的基本概念汇总课件.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、第第五五章章 数理统计的基本概念数理统计的基本概念5.1 5.1 总体总体 样本样本 统计量统计量5.2 5.2 抽样分布抽样分布5.3 5.3 数据简单处理技术数据简单处理技术(自学自学)数理统计数理统计 数理统计数理统计一、数理统计及其任务 数理统计数理统计是一门以概率论为基础的应用学科。它是研究如何有效地收集、整理、分析带有随机性的数据,以便对所考察的问题作出推断和预测,从而为决策提供依据。数据的随机性来源有二:一是由于种种原因(如所涉及的研究对象数量很大),人们不可能对其全部进行研究,而只能以一定方式挑选其中一部分考察,这一部分的挑选就必然带有随机性;二是试验的随机误差,这是指试验中无

2、法控制或未加控制,甚至不了解的因素引起的误差。数理统计的任务就是研究有效地收集数据,科学地整理与分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论。有效地收集数据有两方面的含义:一是可以建立一个数学上可处理并尽可能简单方便的模型来描述所得到的数据;二是要收集包含尽可能多的与所研究的问题有关的信息。数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。数理统计方法具有数理统计方法具有“部分推断整体部分推断整体”的特征。的特征。二、数理统计研究问题的一般流程分析问题分析问题确定总体

3、确定总体收集收集数据数据试验设计试验设计抽样抽样数据整数据整理理统计推断统计推断参数估计参数估计假设检验假设检验我们这门课所学的数理我们这门课所学的数理统计实际上是统计推断统计实际上是统计推断及其应用(方差分析与及其应用(方差分析与回归分析)的一部分内回归分析)的一部分内容。容。为什么要用数理统计方法研究问题?随机现象有它的规律性,随机现象的特点注定了进行足够多次观察,其规律性才能清楚地呈现出来。但是,客观上只允许对随机现象进行有限次观察试验,只能获得局部观察资料.三、概率论与数理统计的区别与联系1、概率论与数理统计的联系2、概率论与数理统计的区别 主要体现在研究方法的差别上:概率论是在已知随

4、机变量服从某种分布(概率函数、概率密度、分布函数)的情况下,研究随机变量分布的性质,数字特征和它的应用。例如:已知随机变量的概率密度求它的分布函数、数学期望、方差;已知随机变量的分布求其函数的分布等,而数理统计则是通过对样本数据的统计分析,从中得到能够描述研究对象的某个随机变量的具体分布和数字特征,以此推断对象整体所具有的规律。前者用的是演绎法,后者用的是归纳法。都以随机现象为对象,研究其统计规律性。一、总体与总体特征数(Population)Def 在数理统计中,把研究对象的全体称为总体,而把组成总体的每个单元称为个体。描述总体单元在某方面特性的名称或记号称为总体指标;总体指标分为数量指标与

5、属性指标。个体数量指标的观察值称为指标值。总体中所包含的个体的个数称为总体的容量。研究某批灯泡的质量 总总体体个体个体有限总体总体无限总体5.1 5.1 总体总体 样本样本 统计量统计量 数理统计以探究随机现象的数量化规律为目标,所以对总体的研究转化为对其某项或某几项数量指标的研究。这时,把所研究的全部对象的某项(数量)指标构成的集合称为总体。把构成总体的每个元素的数量指标称为个体。总体总体指标值全集指标值全集指标指标随机变量随机变量一般的,把总体与某个随机变量的可能取值的集合等同,把总体分布与某个随机变量的分布等同,把对总体的研究转化为对某个随机变量规律的研究。数理统计中提到的总体,是指分布

6、未知或者分布类型已知但至少某些参数未知的随机变量,常用X,Y,Z等表示。例如:研究某批灯泡的质量时,关心的指标是寿命,由于任何一个灯泡,其寿命在使用前无法预知,是一个随机变量那么,因此,该总体就可以用随机变量X和其概率分布表示。特征数22()().()()XE XD XE XD X 设总体用随机变量 表示,那么称为总体均值称为总体方差,并分别记为即有 121221,1()1()()NNiiNiix xxE XxND XxN如果总体为有限总体,指标值的全体为,则2(1)=().(2)=(),=().(3)().(4)(-).kkkkE XD XD XkE XkE X总体平均数总体方差及标准差总体

7、 阶原点矩总体 阶中心矩maxmin(5)=(6)()=.(7)(:;:)mNr xxpNm总体极差总体变动 异 系数总体频率总体容量具有某特征的个体数二、样本 总体作为随机变量,其分布一般是未知的,或者它的某些参数是未知的,如何判断总体服从某种分布或估计未知参数,一般做法是从总体中抽取一些个体进行观察,从中得到研究总体所需要的数量指标,然后通过对这些数据的统计分析,从而对总体的分布作出判断或对未知参数作出估计。(Sample)(1)Def 按一定规则从总体中抽取一部分总体单元进行观测或试验,这一抽取过程称为“抽样”,所抽取的部分总体单元的整体称为总体的一个样本(子样)。样本中所包含的总体单元

8、称为样本单元,样本中样本单元的数目称为样本容量。12121212,nnnnXXXXXXxxxXXX如果用表示抽自总体的一个样本的样本单元指标,显然,是一组随机变量,我们就称其为样本。而将一个具体抽定的样本的观测结果称为样本实现,它是随机变量组许多取值种的一组。样本样本12,nXXX样本实现样本实现12,nx xx抽定抽定Def121212,nnnX XXXX XXXX XXiid设为总体 的一个样本,如果相互独立,且均与总体 具有相同的分布,则称为简单随机样本,简称样本。例如例如:要通过随机抽样了解一批产品的次品率,如果每次抽取一件产品观测后放回原来的总量中再抽第二件产品,则这样获得一个简单随

9、机抽样。实际抽样中,往往是不再放回产品,则这不是一个简单随机抽样。但当总量N很大时,可近似看成可近似看成是简单随机抽样。分布1212,nnX XXXX XX设为 总 体 的 一 个 样 本,则()的 分 布 称 为 样 本 分 布。Def注意:注意:样本分布反映样本取不同实现的概率规律,其与总体分布相联系,一般求算比较麻烦,但对于iid样本有下列结果。本书所指的样本都是简单随机样本。12121122112212 (),.,(,.,)(.,)()().()()().nnnnnnXF xXXXF x xxP XxXxXxP Xx P XxP XxF x F x设总体 的分布函数为简单随机样本,的联

10、合分布为:,1.()()nniiF xF x1212121,(,)(,)ixnnnnxiXP XxpXXXXiidPXXXx xxp如果总体 的概率函数为,为抽自总体 的样本,则样本分布的概率函数为12121(),(,)()iXnnnXiiXfxXXXXiidf x xxfx如果总体 的概率密度函数为,为抽自总体 的样本,则样本分布的概率密度为样本样本总体总体样本实现样本实现推断推断例例5.1120-1,nXXXXXiid设总体 服从分布,是抽自总体的样本,求样本分布。1111211212111(1)0,1,(1)0,11,2,(,)(,)(1)(1)iiiinniiiixxnxxiiinnn

11、iiinxxixnxXP Xxppxx xxiidP XxppxinPXXXx xxP Xxpppp总体 的概率函数为设样本任意一组实现为,由于样本为所以于是,样本分布的概率函数为解:例例5.212(),nXeXXXXiid设总体,是抽自总体 的样本,求样本分布。1-12-121121110()()00,0()1,2,00min,0(,)()0miniiiiniixXnxiXiinxnni nnXiiixni nexXefxxx xxiidexfxinxex xxf x xxfxe 总体,即有=设样本任意一组实现为,由于样本为所以=于是,样本分布的概率密度为其他解:12,00nx xx其他三、

12、统计量(Statistic)12121212,(,),(,)nnnnX XXXT X XXX XDeXX XXfT设是来自总体 的一个样本,是的函数,且不含未知参数,则称为一个统计量。12121212,(,)(X,).nnnnX XXXx xxT x xxTXX设是来自总体 的一个样本,而是样本的一个实注现,则也是统计量:的一个实现意例例5.3 设是123,XXX2(,)N 从正态总体中抽取的一个样本,其中为已知参数,为未知参数,确定下列那些量是统计量1233XXX21233XX X2123XXX2123123212333XXXXX XXXX由统计量的定义知,是统计量;则解:不是统计量。它反映

13、了总体它反映了总体k 阶矩的信息阶矩的信息样本平均值样本平均值11niiXXn它反映了总体它反映了总体均值的信息均值的信息样本方差样本方差2211()1niiSXXn22111niiXnXn它反映了总体它反映了总体方差的信息方差的信息样本标准差样本标准差 211()1niiSXXn样本样本k k阶原点矩阶原点矩111,2,nkkiiAXkn样本样本k k阶中心矩阶中心矩11()1,2,nkkiiBXXkn212 BnnS样本二阶中心矩与样本方差的关系:样本统计量也称为样本特征值。统计量是样本的不含任何未知参数的函数,因此统计量都是随机变量,当把样本的一个实现带入统计量时,得到的是统计量这一随机

14、变量的一个数值,四、样本的频率分布与直方图四、样本的频率分布与直方图 由样本可以推断总体,其直观想法是:样本来自总体,自然带有总体的信息,从这些信息出发研究总体,总有可能得到总体的某些真实性质。其次,由样本研究总体,可以节省人力物力等。由样本研究总体的可行性还可以从理论上得到证实。1212(1)(2)()(),nnniDefx xxXx xxxxxxi设是抽自总体 的样本的实现,如将由小到大排序,并记为称为样本的第 个次序统计量的实现。而称1.经验分布函数(1)()(1)()0()1sup()()01nkknnnxRxxkFxxxxnxxPFxF x 为经验分布函数,它反映了样本中有关总体分布

15、函数的信息。一般有例例5.45.4(1)(2)(3)(4)(5)55351 347 355 344 351344,347,351,351,35503440.2344347()0.43473510.83513551355xxxxxxxFxxxx设 某 食 品 厂 生 产 罐 装 饮 料,先 从 生 产 线 上 随 机 抽 取 听,测 得 容 量为,试 由 该 样 本 求 经 验 分 布 函 数。解:次 序 统 计 量 的 实 现 分 别 为经 验 分 布 函 数 为数据整理数据整理:将数据分组:将数据分组 计算各组频数计算各组频数 作频率分布表作频率分布表 作频率直方图作频率直方图 为了研究随机

16、现象,首要的工作是收集原始数据.一般通过抽样调查或试验得到的数据往往是杂乱无章的,需要通过整理后才能显示出它们的分布状况。数据的简单处理是以一种直观明了方式加工数据,它包括两个方面:数据整理;计算样本特征值。计算样本特征值:计算样本特征值:样本均值、样本方差等。样本均值、样本方差等。例例5.5 5.5 为对某小麦杂交组合F2代的株高X进行研究,抽取容量为100的样本,测试的原始数据记录如下(单位:厘米),试根据以上数据,画出它的频率直方图,并以此说明随机变量X的分布状况。2.样本频率分布表与直方图 87 88111 91 73 70 92 98105 94 99 91 98110 98 97

17、90 83 92 88 86 94102 99 89104 94 94 92 96 87 94 92 86102 88 75 90 90 80 84 91 82 94 99102 91 96 94 94 85 88 80 83 81 69 95 80 97 92 96109 91 80 80 94102 80 86 91 90 83 84 91 87 95 76 90 91 77103 89 88 85 95 92104 92 95 83 86 81 86 91 89 83 96 86 75 92 整理原始数据,加工为分组资料,作出频率分布表,画直方图,提取样本分布特征的信息。步骤如下:(1)

18、.找数据最小值m=69,最大值M=111,极差为Mm=42;(2).数据分组,根据样本容量n的大小,决定分组数k;(3).确定组限和组中点值;(4).将数据分组,计算出各组频数,作频数、频率分布表;(5).作出频率直方图。注意:分组的一般原则为 30n40 5k6 40n60 6k8 60n100 8k10 100n500 10k20 本例取k=9,一般采取等距分组(也可以不等距分组),组距等于比极差除以组数略大的测量单位的整数倍。本例测量单位为1厘米,组距为57.4969111kmM一般根据算式:各组中点值加减1/2组距=组的上限或下限,组的上限与下限应比数据多一位小数。本例取a=67.5,

19、b=112.49(a略小于m,b略大于M,且a和b都比数据多一位小数),分组如下:67.5,72.5)72.5,77.5)77.5,82.5)82.5,87.5)87.5,92.5)92.5,97.5)97.5,102.5)102.5,107.5)107.5,112.5)组中值分别为:70,75,80,85,90,95,100,105,110组序组序区间范围区间范围频数频数f fj j频率频率W Wj j=f=fj j/n/n累计频率累计频率F Fj j167.5,72.5)20.020.02272.5,77.5)50.050.07377.5,82.5)100.100.17482.5,87.5

20、)180.180.35587.5,92.5)300.30.65692.5,97.5)180.180.83797.5,12.5)100.10.938102.5,107.5)40.040.979107.5,112.5)30.031.00以样本值为横坐标,频率/组距为纵坐标;以分组区间为底,以15jjjjjWWYXX为高作频率直方图,如图所示。从频率直方图可看到:靠近两个极端的数据出现比较少,而中间附近的数据比较多,即中间大两头小的分布趋势(随机变量分布状况的最粗略的信息)。频率直方图中的小矩形的面积近似地反映了样本数据落在某个区间内的可能性大小,故它可近似描述X的分布状况。1.1.枝叶图枝叶图(茎

21、叶图)茎叶图)将样本的实现数据的每个数据分为两部分,一部分作为枝枝,另一部分为叶,构成的图称为枝叶图。以例说明枝叶图的做法:15050设某公司对应聘人员进行能力测试,测试满分为,下面是名应聘人员的得分例例5.65.6 64 67 70 72 74 76 76 79 80 81 82 82 83 85 86 88 91 91 92 93 93 93 95 95 95 97 97 99 100 100 102 104 106 106 107 108 108 112 112 114 116 118 119 119 122 123 125 126 128 133试作枝叶图 解:将数据的百位和十位作枝,

22、个位作叶,用竖线将枝叶分开,形成图。47024668012235681123335667790024667882246899235683 6 7 8 910111213枝叶五.其他描述样本特征的图 2.2.五数概括与箱线图五数概括与箱线图12minmax0.50.7512minmax0.50.75,4,1.2.4nnx xxxxmmx xxxxmm设为样本实现,以依次表示中最小、最大值,第一个、第二个分位点,则称样本五数。它们可以表达数据的分布大致结构。五数所表达的数据分布结构可以用箱线图来直观的表示。箱线图的作法()由样本实现计算五数;()画一个箱子,其左右两端恰好是第一、第二 分位数,在箱

23、子内画一条竖线,其位置恰3.好在中位数处;()在箱子外左右两侧各画一条线至最小与最大数处。车辆重量(磅)车辆重量(磅)11223.,(,),(,),(,)nnX YYXx yxyxy散点图设有变量,欲了解 随 的变化趋势。一般先抽取样本,将他们标在二为坐标平面上形成的点状图成为散点图。例如想了解全世界汽车重量与油耗之间的关系,就可以利用散点图。作业:习题五 2,6.1.分布2122212,(0,1)()(1).nniiDefXXXNXXnXn 设随机变量相互独立,且都服从,则随机变量所服从的分布称为自由度为 的分布,记为这个分布是由Helmet于1875年提出,K.Pearson于1900年重

24、新提出。理论推导可得概率密度函数为 122210(;)2(2)00nxnxexf x nnx10()0t xxe tdt x其中,称为伽玛函数。5.2 5.2 抽样分布抽样分布2 tF一、分布分布分布2211221221212221122121211222112()()().1:(),1,2,.,().2:()()().(2).),kkiiiiiiXnXnXXXXnnXnikXnX XXXXXnXnnnXnnXn(a)设,且与相互独立,则有+推论若且相互独立 则推论设=+且已知与相互独立,其中,则分布的性质(b)若则122121121221()()2(c)(),(0,1),()1,2,.nnk

25、iiiinkkiiiiXE XnD XnCochranXXXNQQQXQnXXXQQQQniknn的数学期望与方差为定理 设相互独立且都服从,若其中为秩为 的的非负二次型,则,相互独立且的充要条件为其概率密度函数的图像如图所示x(;)f x n2()n2(d)()(0,1).2nXnXnNn若,则(用中心极限定理证明)2222221-2222222()(01)()()()(3).()()120.0()5(XnnP XnnnnDefnnn分设,对于给定的布上侧分位数分布上侧分位数的概率意义如图所示,可以通过查分布上侧分位数表求得。例如:自由度,可找到实数使得,则称为自由度为 的分布关于 的上侧分

26、位数。类似为的分布关于的上侧分位的可定侧数义下分位数)21.026。2.t分布(学生氏t分布)2(0,1)()/().(1)DefXNYnXYTXYnntTt n设随机变量,与相互独立,则随机变量所服从的分布称为自由度为 的 分布,记为 这个分布是由W.S.Gosset于1908年提出,该分布的提出为小样本方法的建立奠定了概率基础。理论推导可得概率密度函数为.1221()2(;)(1)()2nnxfx nxRnnn10()0txxetdtx其 中,称 为 伽 玛 函 数。221(;);2()()0()(2).2.2)xnf x nenc EtTD Tnn(a)t分布是关于纵轴对称的分布的性质分

27、布;(b)222()(01)()()()(3)(.Tt ntnP TtntnnttDtef设,对于给定的,可找到实数使得,则称为自由度为 的 分布关于 的双侧分布分位数。类似的可定义 分布的单 上、下)侧双侧分位数分位数。x(;)f x n22()tn22()tn220.052()()120.05()2.179ttntntttn分布双侧分位数的概率意义如图所示,可以通过查 分布双侧分位数表求得。例如:自由度为的分布关于的双侧分位数。3.F分布2212121212()(1()/(,).DefXnYnXYXnFY nnnFFF n n设随机变量,与 相互独立,则随机变量所服从的分布称为第一自由度为

28、,第二自由度为 的 分布,记为这个分布是由R.A.Fisher于1918年提出,该分布的提出为方差分析的建立奠定了概率基础。Snedcor于1934年给出概率密度函数。112112121122122221222()()10(;,)()()0 0nnnnnnnnnnnnxxxf x n nx12212221222221222(,)(,)2(2)()(2)()(4);2(2)(4)(3)()(1,).(2).FF n nFF n nnnnnE FnD Fnnn nnTt nTFnF分布(1),则有1/;(2),如,则的性质果1212121212(,)(01)(,)(,)(3,).)XF n nF

29、n nP XF n nF n nFfnnFDe设,对于给定的,可找到实数使得,则称为第一自由度为,第二自由度为 的 分布分布上侧分关于 的上位数侧分位数。121212112(,)(,)580.05(,)2.73 (,)FF n nF n nFFF n nFFn n分布上侧分位数的概率意义如图所示,可以通过查 分布上侧分位数表求得。例如:第一自由度为,第二自由度为 的 分布关于=的上侧分位数。类似的可给出 分布下侧分位数x12(;,)f x n n12(,)F n n1121121122111111221(,)(,)1(,)(,)(,)(,)FFn nFn nFn nF n nP FFn nPP

30、 F n nF事实上:分布的上 分位点的性质:1(3,9)0.05(3,9)(3,9)XFFF设,求,。例例5.70.050.0510.950.05(3,9)(3,9)(3,9)3.861(3,9)(3,9)(9,3)10.11358.81FFFFFF查表得解:二、(Sampling Distribution)1.Def统计量的分布称为抽样分布。确定抽样分布是数理统计的有一个基本问题,确定相应统计量的分布是建立统计方法的基础。以统计量的精确为基础的统计方法称为小样本方法;而以统计量的极限分布为基础的统计方法称为大样本方法。212212222212.()(),()()1,2,(,)(1,/)(,

31、/).nnniinnniiXXXXXiidXE XD XXXXiidE XD XinXNNnnnXNnX 几个常用的抽样分布定理证明:因为即有设总体 的数学期望与方差分别为由中心极限,,为抽自定理即该定理对总体总体 的样本的分布没有定理,则有要求,是大样本下的近似分布。2122211222221222 (,),11,()1(1)(1)(,);(2)(1);(3)(,)()(,)()(,)(,)nnniiiiTTnijn nXNXXXXiidXX SXXnnnSXNnXSnXXXXE XVar XCov X XCov XX 定理设总体,为抽自总体 的样本,令,则有与相互独立。证明:记,则有212

32、22121/1/1/nnnnnnIAnnnaaaAaaa构造一个正交矩阵 如下2122112212222111()(,0,0),()()(,)(),()02,3,.1(1)()()TnTniniinniiiiiYAXYnE YnVar YAVar X AIYY YYE YnE YinXYnnSXXXnXYYY令,则由正态分布的性质 服从 维正态分布,且由此知的各个分量相互独立,服从正态分布,它们的方差均为,期望不相同,注意到22ni)1,1()(11)(11),(,),(,)1()1(),(1221222122122222212112122222221mnFSSFYYmSXXnSiidNYYY

33、iidNXXXSXnYSnnNYnXYXmiiYniiXmnnii则有样本,令的为来自总体样本,的为来自总体推论:设相互独立。与所以2122211(,),11()1/.525nnniiiiXNXXXXiidXXSXXnnXTSn 设 总 体,为 抽 自 总 体的样 本,令,解:由,求概 率 分 布。抽 样 分 布 定 理例知22/-1)1-1(1)./XXnTSnnSnXTtnSn又由于(所以有2222222-1)(,)(1)(1)-1)1-1nSXNnXSnXntnnSn(与相 互 独 立从 而(.3(,)pXnmmB n p设总体频率为,以重复抽样方式自总体 抽样本容量为 的样本,其中具有

34、某特点的样本单元数为,则有定理(,)pXnnBernoullimBernoullimB n p证明:从总体抽取一个单元就相当做了一次试验,抽到具有关心特点单元的概率为,以重复抽样方式自总体 抽取样本容量为 的样本就相当 重概型,就是概型中事件A发生的次数,所以有(1.)(,)3(,).-5.6(,(1)(1)(,)nnnpXnmppmWWN pnnmB n pDeMoivre LaplacemN np nppppWN pn设总体频率为,以重复抽样方式自总体 抽取样本容量为 的样本,其中具有某特点的样本单元数为,令,证明证明:有抽样分布定理 有,于是,由定理有所以有例作业:习题五 8;10;12;13.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数理统计的基本概念汇总课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|