1、 统计学统计学-从典型案例到问题和思想从典型案例到问题和思想 经济管理类经济管理类“十三五十三五”规划教材规划教材 典型案例典型案例【6】第一节第一节 抽样分布基本概念抽样分布基本概念 第二节第二节 几个常见的抽样分布几个常见的抽样分布第五章第五章 抽样分布抽样分布 【典型案例典型案例6】如何决定是否购买一批苹果?如何决定是否购买一批苹果?俗话说“一日一苹果,医生远离我。”假如现在面对一批苹果,人们如何了解它们口感的均值和差异值,以便作出是否购买这批苹果的决策呢?人们常用作法:从这批苹果中随机挑出几个品尝后,得出这几个苹果口感的均值和差异值,以此作为这批苹果口感的均值和差异值,从而作出是否购买
2、这批苹果的决策。从统计学角度来讲,挑出的几个苹果口感的均值和差异值就是样本平均数和样本方差,这批苹果口感的均值和差异值是总体平均数和总体方差。这种用商品质量数据的样本平均数、样本方差作为总体平均数、总体方差的作法,是人们购买商品时常用的有效估计方法,其理论依据是本章将要学习的内容。【典型案例典型案例6】如何决定是否购买一批苹果?如何决定是否购买一批苹果?第一节第一节 抽样分布基本概念抽样分布基本概念n一、样本容量和样本个数一、样本容量和样本个数 n二、参数和统计量二、参数和统计量n三、抽样分布三、抽样分布n四、抽样分布的数字特征四、抽样分布的数字特征 总体总体是研究的所有个体构成的集合,其中的
3、个体的数目常用 表示。从中随机抽取部分个体构成一个样本样本,构成样本的个体的数目,常用 表示,称为样本容量样本容量,也称样本量样本量。例如,典型案例6中,一批苹果有400个,从中抽取8个进行品尝,那么 ,而 。显然,从中可以得到很多个样本。一、样本容量和样本个数Nn400N 8n 从一个含有N个个体的总体中,随机抽取样本容量为n的样本,可得到很多个样本,此即样本个数样本个数。典型案例6中,将400个苹果编号,则随机抽取的样本可能是由编号为18的这8个苹果构成,也可能是由编号为101108的8个苹果构成等等。一、样本容量和样本个数 参数参数是用来描述总体数量特征的,如总体均值 、总体比例 、总体
4、方差 等;统计量统计量是用来描述样本数量特征的,是由样本构造的函数由样本构造的函数,如样本均值 、样本比例 、样本方差 等。由于总体是唯一的、固定不变的,故参数参数往往是一个未知的常数未知的常数;而样本不唯一,且一旦抽取出来,就成为已知,故统统计量计量是随机变量随机变量,其取值随着样本的变化而改变。2Xp2S二、参数和统计量 抽样的目的就是要根据样本统计量去根据样本统计量去估计或推断总体参数。估计或推断总体参数。比如,常用样本均值 去推断总体均值 、用样本比例 去推断总体比例 、用样本方差 去推断总体方差 。以上做法的理论依据就是样本统计量的抽样分布。Xp2S2二、参数和统计量 统计量是随机变
5、量。抽样分布抽样分布就是统统计量的概率分布计量的概率分布。如样本均值的概率分布、样本比例的概率分布、样本方差的概率分布等都称为抽样分布。三、抽样分布 以下将以样本均值样本均值为例说明统计量的抽样分布。【例例5-15-1】设有一个总体,含有5个个体:10、20、30、40、50,即 。采取重复抽样的方式从中抽取样本容量为2的样本,即 。试写出样本均值 的抽样分布。5N 2n X三、抽样分布 解:由于 =5,=2,从总体中采取重复抽样的方式抽取样本,则样本共有 =52=25个。计算出这25个样本的均值 ,其结果如表5-1所示。NnnNX 样本序号样本个体样本均值样本均值的概率110,1010125
6、210,2015225310,3020325410,4025425510,5030525620,1015720,2020820,3025920,40301020,50354251130,10201230,20251330,30301430,40351530,50403251640,10251740,20301840,30351940,40402040,50452252150,10302250,20352350,30402450,40452550,5050125表5-1 n=2时样时样本均本均值的值的抽样抽样及其及其取值取值情况情况 表5-2 =2时样本均值 的抽样分布nX从而,样本均值 的概率
7、分布如表5-2所示。X三、抽样分布X251252253254255254253252251 10 P101520253035404550 在例5-1中,若样本容量n=4,则样本共有 个,并且例5-1中的总体是一个非常小的总体,现实世界中,我们面对的总体往往很大,进而样本数目将很可观,不可能将所有的样本都抽取出来。因此抽样分布实质上是一种理论分布。它可能是精确的某已知分布,也可能是以某已知分布为极限的极限分布。45625nN三、抽样分布 抽样分布理论在推断统计中具有重要的作用,它是后续参数估计参数估计和假设检验假设检验的理论依据和基础理论依据和基础。三、抽样分布 设总体的平均数为 ,方差为 ,采
8、取重复抽样的方式,从中抽取独立同分布的样本:,。根据数学期望和方差的性质,可推出:21XnX()XE X 22Xn四、抽样分布的数字特征(一)样本均值的数字特征(5.1)在例5-1中,样本均值的平均数1217502525252510155030X 总体均值 1(1020304050)305 样本均值的方差 总体方差 由于n=2,从而验证了(5.1)的正确性。222()()1000900100XE XE X 222()()1100 900200E XE X 四、抽样分布的数字特征 由式(5.1)可知:的平均数为 ,方差为 。随着 的增大,其方差越来越小,从而 的取值越来越向着 靠拢,故用 去估计
9、 理论依据成立。X2nnXX 由此可见,典型案例6中,人们用挑选出的几个苹果口感的均值去估计这批苹果口感的均值的做法是站得住脚的。四、抽样分布的数字特征 以上结论均建立在重复抽样情形下,若是在不重复抽样情形下,方差需要用系数 进行修正,从而样本均值的数字特征为:(5.2)可见:用 去估计 理论依据同样成立。()XE X 221XNnn N X四、抽样分布的数字特征 比例:比例:总体(或样本)中具有某种属性的个体数与全部个体数之比,总体比例记为 。现有 ,采取重复抽样的方式从中抽取独立同分布的样本:,。样本中变量值1出现次数记为 ,那么变量值1出现次数所占的比例为 /,即 为样本比例。(二)样本
10、比例的数字特征四、抽样分布的数字特征X,1B1XnX1n1nn 根据数学期望和方差的性质,可推出样本比例 的数学期望、方差与总体的平均数、方差之间的关系:(5.3)p()pE p 2(1)pn四、抽样分布的数字特征 由式(5.3)可知:的平均数为总体比例 ,方差为 。随着 的增大,方差越来越小,从而 的取值越来越向 靠拢,故用 去估计 理论依据成立。p(1)nnpp 以上结论均建立在重复抽样情形下,若是在不重复抽样情形下,当样本容量很样本容量很大时大时,方差需要用系数进行修正,从而样本比例的数字特征为:(5.4)可见:用 去估计 理论依据同样成立。()pE p 2(1)1pNnnN p四、抽样
11、分布的数字特征 设总体 的方差为 ,采取重复抽样的方式,从中抽取独立同分布的样本:,。根据数学期望和方差的性质,可推出样本方差的数学期望、方差与总体的方差之间的关系为:(5.5)X21XnX22()E S24221Sn (三)样本方差的数字特征四、抽样分布的数字特征 由式(5.5)可知:样本方差的平均数为 ,方差为 ,随着 的增大,其方差越来越小,从而 的取值越来越向着 靠拢,故用 去估计 理论依据成立。2124nn2S2S22四、抽样分布的数字特征 由此可见,典型案例6中,人们用挑选出的几个苹果口感的差异值去估计这批苹果口感的差异值的做法是站得住脚的。以上结论均建立在重复抽样情形下,若是在不
12、重复抽样情形下,方差需要用系数进行修正,从而样本方差的数字特征为:(5.6)22()E S242211SNnnN 可见:用 去估计 理论依据同样成立。2S2四、抽样分布的数字特征 统计量抽样分布的标准差,称为统计量的标准误标准误,也称标准误差标准误差。标准误可用于说明抽样误差的大小。抽样误差是指由抽样的随机性引起的样本结果与总体的真实值之间的差异,它描述它描述的是所有样本可能的结果与总体真值之间的是所有样本可能的结果与总体真值之间的平均性差异。的平均性差异。若总体标准差未知,可用样本标准差代替,此时的标准误称为估计估计标准误。标准误。(四)标准误标准误(重点重点)四、抽样分布的数字特征 样本比
13、例样本比例的标准误为的标准误为 。当总体比例 未知时,可用样本比例代替,此时得到的标准误称为估计标准误。p四、抽样分布的数字特征 样本方差样本方差的标准误为的标准误为 。当总体标准差未知时,可用样本标准差代替,此时得到的标准误称为估计标准误。2S 样本均值样本均值的标准误为的标准误为 。当总体标准差未知时,可用样本标准差代替,此时得到的标准误称为估计标准误。X n一、样本均值的抽样分布一、样本均值的抽样分布n二、样本比例的抽样分布二、样本比例的抽样分布n三、样本方差的抽样分布三、样本方差的抽样分布n四、四、t分布和分布和F分布分布第二节 几个常见的抽样分布 抽样分布即统计量的概率分布统计量的概
14、率分布。本节将分别对样本均值、样本比例以及样本方差的抽样分布作详细的讨论。如无特别说明,本章中的抽样方式均指重复抽样。第二节 几个常见的抽样分布 样本均值的抽样分布样本均值的抽样分布,就是采取重复抽样的方式,选取容量为 的所有样本,由样本均值所有可能的取值形成的概率分布。它是推断总体均值 的理论基础。以下分两种情况来讨论样本均值 的抽样分布类型。nX一、样本均值的抽样分布 正态分布的再生定理再生定理:若总体变量 ,从这个总体中抽取容量为 的样本,则样本均值 。n(一)总体服从正态分布一、样本均值的抽样分布X2,NXnN2,正态分布正态分布:若 的概率密度函数为 (5.7)其中,和 都是参数,且
15、 ,则称 服从参数为 和 的正态分布,记作 。其概率密度函数图见图5-1。e22()21()2xf xx 图5-1 正态分布概率密度函数图0XX 2(,)N X一、样本均值的抽样分布 正态分布概率密度函数正态分布概率密度函数 的性质:的性质:(1),即整个曲线都在x轴的上方;(2)曲线 相对于 对称,并在 处达到最大值 ;(3)曲线的陡缓程度由 决定,越大,曲线越平缓;越小,曲线越陡峭。(4)当 趋于无穷时,曲线以 轴为渐近线。正态分布的概率密度曲线是一条对称的钟型曲线。正态分布的概率密度曲线是一条对称的钟型曲线。决定了图形的中位置,决定了图形的中位置,决定了图形中曲线的陡峭决定了图形中曲线的
16、陡峭程度。程度。xf 0 xf xfxx 21xfxx 特别地,当参数 =0,=1时,这样的正态分布为标准正态分布,记为 ,其概率密度函数为:(0,1)Ne221()()2。xxx 一、样本均值的抽样分布 独立同分布中心极限定理独立同分布中心极限定理表明:无论无论总体服从何种分布总体服从何种分布,只要其平均数平均数和方差方差存在,那么从中抽取的独立同分布样本 ,其均值在当当 很大时很大时,就会近似服从正态分布 。1XnXn2(,)Nn(二)总体服从非正态分布 实际应用中,一般取 ,此时的样本称为大样本。若为小样本,且总体分布不是正态分布,此时不能按照正态分布来处理,要运用小样本的相关理论来讨论
17、。30n 图5-2 样本均值的抽样分布图大样本 小样本正态分布非正态分布总体()非正态分布正态分布2,2(,)Nn 一、样本均值的抽样分布 根据本章第一节,在不重复抽样情形下,样本均值的抽样分布为:(5.8)一、样本均值的抽样分布X1,2NnNnN 【例5-2】假设在一个饭店门口等待出租车的时间是服从左偏分布的,均值为12分钟,标准差为3分钟。现从饭店门口随机抽取100名顾客并记录他们等待出租车的时间,考察100名顾客的平均等待时间的抽样分布。一、样本均值的抽样分布 解:依题意,总体均值 =12,=3,根据中心极限定理可知:样本均值(100名顾客的平均等待时间)的抽样分布为:,即:一、样本均值
18、的抽样分布XnN2,X1003,122N 【例5-3】人口普查发现,某地区成年男子的身高服从正态分布N(175,62),采取重复抽样的方式从该地区抽取64名成年男子构成样本,求样本均值的平均数和方差。一、样本均值的抽样分布 解:依题意,总体服从正态分布,且=175,=62。根据正态分布的再生定理,样本均值 ,即样本均值的平均数 ,样本均值的方差 。2175X =22696416X X646,1752N 样本比例 的抽样分布,就是采取重复抽样的方式,选取容量为 的所有样本,由样本比例 的所有可能的取值形成的概率分布。它是推断总体比例 的理论基础。pnp二、样本比例p的抽样分布 可以看到,样本比例
19、是一种特殊的样本均值。从而,根据样本均值的抽样分布理论可得样本比例的抽样分布。一般地,若能同时满足 和 ,就可以认为样本容量很大。5np (1)5np 样本比例 的抽样分布为:在满足条件的情况下,即当样本容量很大时 (5.9)p二、样本比例p的抽样分布ppnN1,在不重复抽样情形下,当样本容量很大时,样本比例的抽样分布为:(5.10)二、样本比例p的抽样分布 说明:在不重复抽样情形下,对于无限总体也可以按重复抽样来处理,即方差不用修正;对于有限总体,要用修正系数修正,另外,若此时若此时 很大而抽样比很大而抽样比 时,修正系数趋于时,修正系数趋于1,方差可以按重复抽样,方差可以按重复抽样情形时(
20、即不用修正)的公式计算情形时(即不用修正)的公式计算。N5%nNp11,NnNnN 样本方差样本方差 的抽样分布的抽样分布,就是采取重复抽样的方式,选取容量为 的所有样本,由样本方差 的所有可能的取值形成的概率分布。它是推断总体方差 的理论基础。2Sn2S2三、样本方差S2的抽样分布 设总体服从均值为 ,方差 的正态分布,为来自该总体的样本,则样本方差 的抽样分布为:(5.11)称 服从自由度为 的 分布(卡方分布)。21XnX2S22(1)nS1n2三、样本方差S2的抽样分布221Sn12n 卡方分布:设 ,为来自于标准正态总体N(0,1)的样本,则 服从自由度为 的 分布,记为 ,读作卡方
21、分布。1XnXnXX212n2)(2n三、样本方差S2的抽样分布 图5-3 卡方分布的概率密度函数图三、样本方差S2的抽样分布 卡方分布的数字特征为:若 ,则总体平均数 ,方差 。由卡方分布的数字特征,可得:(5.12)在不重复抽样情形下,方差为 。2()XnnXE)(nXD2)(22()E S422()1D Sn 1124NnNn三、样本方差S2的抽样分布 (一)t分布 t分布也称为学生氏分布,是戈塞特于分布也称为学生氏分布,是戈塞特于19081908年年在一篇以在一篇以“Student”(Student”(学生学生)为笔名的论文中首次为笔名的论文中首次提出的。提出的。设 且 与 相互独立,
22、则称随机变量 服从自由度为 的t分布,记作 t 。2(0,1),(),XNYnXY/XtYn n四、t分布和F分布 nt 图5-4 分布的概率密度函数图t四、t分布和F分布 分布概率密度函数曲线是以纵轴为以纵轴为对称轴的单峰对称图形对称轴的单峰对称图形,其与标准正态分布曲线类似,分布曲线顶部略低,两尾部稍高而平。自由度 越大,分布越趋近于标准正态分布,当当 时,时,分布分布与标准正态分布完全一致。与标准正态分布完全一致。四、t分布和F分布ttntn t分布的数字特征为:t=()0E t(2)n ()2nD tn (3)n 若 ,且 与 相互独立,则随机变量 服从自由度为 的F分布,记作 。其中
23、,称为第一自由度,称为第二自由度。四、t分布和F分布(一)F分布 F分布是由统计学家费希尔首次提出的。X 12nY22nXY21/nYnXF 21,nnF21,nnF1n2n 图5-5 F分布的概率密度函数图四、t分布和F分布 F分布的数字特征为:若随机变量 ,则 =22()2nE Xn 2(2)n 221221222(2)()(2)(4)n nnD Xn nn 2(4)n 四、t分布和F分布;。X21,nnF 对于给定的 ,称满足条件:的点 为 分布的上上 分位点分位点。有结论:。(01)12(,)P FF n n12(,)F n nF11221(,)1/(,)Fn nFn n四、t分布和F
24、分布以下是关于F分布的两个常见结论。随机变量 ,则 。这个结论在后面回归分析的回归系数显著性检验中有用到。T nt2TnF,1激励学生学习的名言格言激励学生学习的名言格言220、每一个成功者都有一个开始。勇于开始,才能找到成功的路。221、世界会向那些有目标和远见的人让路(冯两努香港著名推销商)222、绊脚石乃是进身之阶。223、销售世界上第一号的产品不是汽车,而是自己。在你成功地把自己推销给别人之前,你必须百分之百的把自己推销给自己。224、即使爬到最高的山上,一次也只能脚踏实地地迈一步。225、积极思考造成积极人生,消极思考造成消极人生。226、人之所以有一张嘴,而有两只耳朵,原因是听的要
25、比说的多一倍。227、别想一下造出大海,必须先由小河川开始。228、有事者,事竟成;破釜沉舟,百二秦关终归楚;苦心人,天不负;卧薪尝胆,三千越甲可吞吴。229、以诚感人者,人亦诚而应。230、积极的人在每一次忧患中都看到一个机会,而消极的人则在每个机会都看到某种忧患。231、出门走好路,出口说好话,出手做好事。232、旁观者的姓名永远爬不到比赛的计分板上。233、怠惰是贫穷的制造厂。234、莫找借口失败,只找理由成功。(不为失败找理由,要为成功找方法)235、如果我们想要更多的玫瑰花,就必须种植更多的玫瑰树。236、伟人之所以伟大,是因为他与别人共处逆境时,别人失去了信心,他却下决心实现自己的
26、目标。237、世上没有绝望的处境,只有对处境绝望的人。238、回避现实的人,未来将更不理想。239、当你感到悲哀痛苦时,最好是去学些什么东西。学习会使你永远立于不败之地。240、伟人所达到并保持着的高处,并不是一飞就到的,而是他们在同伴们都睡着的时候,一步步艰辛地向上爬241、世界上那些最容易的事情中,拖延时间最不费力。242、坚韧是成功的一大要素,只要在门上敲得够久、够大声,终会把人唤醒的。243、人之所以能,是相信能。244、没有口水与汗水,就没有成功的泪水。245、一个有信念者所开发出的力量,大于99个只有兴趣者。246、环境不会改变,解决之道在于改变自己。247、两粒种子,一片森林。248、每一发奋努力的背后,必有加倍的赏赐。249、如果你希望成功,以恒心为良友,以经验为参谋,以小心为兄弟,以希望为哨兵。250、大多数人想要改造这个世界,但却罕有人想改造自己。