1、第六章 参数估计基础 陈 炳 为设计v三要素v三原则v常见设计复习v统计图表v常用概率分布 正态分布两个参数、正态分布的标准化、正态分布的面积、如何利用SPSS进行正态性检验要求掌握:要求掌握:v1、抽样误差的概念;标准误的意义、计算及其应用;、抽样误差的概念;标准误的意义、计算及其应用;v2、总体均数、总体均数95置信区间的计算及适用条件置信区间的计算及适用条件;v3、正态近似法计算总体频率的、正态近似法计算总体频率的95%置信区间及适用条件;置信区间及适用条件;v4、标准差与标准误的区别与联系;、标准差与标准误的区别与联系;v5、参考值范围与置信区间的区别。、参考值范围与置信区间的区别。问
2、题提出:问题提出:样本均数样本均数(频率频率)与总体均数与总体均数(频率频率)是否相等?是否相等?样本均数样本均数(频率频率)的抽样分布是什么样?的抽样分布是什么样?样本均数样本均数(频率频率)与总体均数与总体均数(频率频率)的差异用什的差异用什么指标来衡量?么指标来衡量?如何由样本均数如何由样本均数(频率频率)的大小来估计总体均数的大小来估计总体均数(频率频率)的大小?的大小?第一节第一节 抽样分布与抽样误差抽样分布与抽样误差 11,snx22,snx 100100,snx一、样本均数一、样本均数抽样试验抽样试验 从正态分布总体从正态分布总体N N(155.4,5.3155.4,5.32 2
3、)中,每)中,每次随机抽取样本含量次随机抽取样本含量n n5 5,并计算其均数与,并计算其均数与标准差;重复抽取标准差;重复抽取100100次,获得次,获得100100份样本;份样本;计算计算100100份样本的均数与标准差份样本的均数与标准差 按上述方法再做样本含量按上述方法再做样本含量n n1010、样本、样本含量含量n n3030的抽样实验;比较计算结果。的抽样实验;比较计算结果。v将来自同一总体的若干个样本均数看作一组将来自同一总体的若干个样本均数看作一组新的观察值,研究这些样本均数的频数分布,新的观察值,研究这些样本均数的频数分布,包括集中趋势与包括集中趋势与离散趋势离散趋势,可计算
4、样本均数,可计算样本均数的均数与的均数与标准差标准差抽样试验(抽样试验(n=5,100个样本)个样本)N(155.4,5.32)抽样试验(抽样试验(n=10,100个样本)个样本)N(155.4,5.32)抽样试验(抽样试验(n=30,100个样本个样本)N(155.4,5.32)100100份样本抽样计算结果份样本抽样计算结果n n=5=5n n=10=10n n=30=30总体的总体的均数均数155.4155.4155.4155.4155.4155.4总体标总体标准差准差s s5.35.35.35.35.35.3均数的均数的均数均数155.33155.33155.41155.41155.2
5、6155.26均数标准差均数标准差2.492.491.731.730.850.852.372.371.681.680.970.97ns如果如果1000次呢,这样的结果会更接近次呢,这样的结果会更接近9676.0303.5nXssv样本均数的标准差(样本均数的标准误)样本均数的标准差(样本均数的标准误)样本均数标准误的估计值样本均数标准误的估计值nSSXv由个体差异所造成,在抽样过程中产生由个体差异所造成,在抽样过程中产生的的样本均数样本均数与与样本均数样本均数之间以及之间以及样本均样本均数数与与总体均数总体均数之间的差异,称之间的差异,称均数的抽均数的抽样误差。样误差。v由个体差异所造成,在由
6、个体差异所造成,在抽样过程中产生抽样过程中产生的样本统计量的样本统计量与与样本统计量样本统计量之间以及之间以及样样本统计量本统计量与与总体参数总体参数间的差异,称间的差异,称抽样抽样误差。误差。指数分布指数分布,正偏态正偏态N=5N=10N=30N=50v数理统计结论:数理统计结论:v若若X服从正态分布,则样本均数的分布也是服从正态分布,则样本均数的分布也是正态分布正态分布v若若X不服从正态分布,只要抽取的样本例数不服从正态分布,只要抽取的样本例数足够大,样本均数的分布仍然呈正态分布足够大,样本均数的分布仍然呈正态分布v样本均数的平均数等于原总体均数样本均数的平均数等于原总体均数二、样本频率的
7、抽样分布与抽样误差二、样本频率的抽样分布与抽样误差np)1(snppsp)1(RANBIN(426357,1,0.2)ranbin(seed,n,p)第二节 t 分 布v英国统计学家英国统计学家William Sealy GossetvStudent-t分布分布2023-1-10第六章 统计推断基础t t 分布的由来分布的由来变量变换总体 ),(2sN 样本均数 XX),(2XNs中心极限定理标准正态分布 uXs)1,0(NuXXsu变量变换tsXX未知s100nN(,2)N(0,1)N(0,1),(2XNs s sXZnxZ/sxsxt nsx/一、一、t分布的概念分布的概念2023-1-1
8、0第六章 统计推断基础t分布曲线的特征 一簇对称于0的曲线。自由度较小时,曲线峰的高度低于标准正态曲线,尾部面积大于标准正态曲线尾部面积。随自由度增大,t分布曲线逼近标准正态曲线,直到与标准正态曲线完全吻合。nXs ss s 第三节 总体均数及总体概率的估计v一、参数估计的概念参数估计的概念点估计(点估计(point estimation)区间估计(区间估计(interval estimation)计算一个具有较大置信度计算一个具有较大置信度(以以1-1-表示表示)的包含总的包含总体参数的范围。体参数的范围。CI(confidence interval)CI(confidence interv
9、al)置信区间置信区间/可信区间可信区间CL(confidence limit)CL(confidence limit)置信限置信限二、置信区间的计算(CI)nstxnstx/,/,2/05.0,2/05.0nsZxnsZx/,/2/2/总体均数的总体均数的I(Confidence Interval)-t0.05/2,vt0.05/2,vt=(Xbar-mu)/SEP()=1-2023-1-10第六章 统计推断基础区间估计(interval estimation)原理置信水平是不断重复抽样时,区间会抓到真正参数值的概率v例例6-2某地区某地区27名健康成年男子的血红蛋白量均名健康成年男子的血红
10、蛋白量均数为数为125g/L,标准差为标准差为15g/L.试问该地健康成年男试问该地健康成年男子血红蛋白平均含量的子血红蛋白平均含量的95%CI是多少是多少?v解解:n=2750)v查表法查表法(准确准确)v例6-4 某医院对39名前列腺患者实施开放式手术,术后合并症2人,试估计该手术合并症发生率的95%可信区间。v查表可得:1-17总体概率的置信区间总体概率的置信区间正态正态近似近似法法v用某种仪器检验已确诊的乳腺癌患者120名,检出94例,检出率不78.3%。试估计95%可信区间。ppsZpsZp2/2/,nppsp/)1(857.0709.0120217.0*783.096.1783.0
11、2/psZp2023-1-10第六章 统计推断基础均数可信区间与参考值范围XstX,2usX 问题提出:问题提出:样本均数与总体均数是否相等?样本均数与总体均数是否相等?不等不等样本均数的抽样分布是什么样?样本均数的抽样分布是什么样?正态分布正态分布样本均数与总体均数的差异用什么指标来衡量?样本均数与总体均数的差异用什么指标来衡量?标准误标准误如何由样本均数的大小来估计总体均数的大小?如何由样本均数的大小来估计总体均数的大小?置信区间置信区间由两个不一样大的样本均数如何判断其是否来自由两个不一样大的样本均数如何判断其是否来自同一总体或总体均数相等的两个总体?同一总体或总体均数相等的两个总体?假设检验假设检验