1、某组织欲调查四川省已婚男子私房钱情况。15000元?将抽样得到的4000名已婚男性作为总体,进行研究。现已知其私房钱(OM)服从正态分布,并算出均数为15000元,标准差为4000元。每次从其中抽取5人,计算OM的样本均数。4000已婚男性N(15000,40002)120001400018000200008000 n=54000已婚男性N(15000,40002)120001400018000200008000 n=5x将每次抽样计算出的2000个样本均数12000,14000,18000,20000绘制频数分布图。4.804.604.404.200.20.10.04.84.64.44.20
2、.20.10.04.804.604.404.200.20.10.04.804.604.404.200.20.10.0n=5n=10n=20n=501.1 样本均数的抽样分布 各样本均数未必等于总体均数样本均数之间存在差异样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右对称,基本服从正态分布随着样本含量的增加,样本均数的变异范围逐渐缩小 样本均数的抽样分布特点样本均数的抽样分布特点 样本均数 抽样误差 样本1 样本2 样本k 总体nnnnkXXX21kXXX21样本均数的标准差称为均数的标准误用符号 表示说明各样本均数 围绕总体均数 的离散程度,可用来描述样本均数的抽样误差大小XX标
3、准误 的计算标准误 的估计值 的大小与成正比,与样本含量n的平方根成 反比 XnnSSXX标准差均数的标准误计算公式2()1XXSnXSSn统计学意义标准差越小,个体值相对越集中,均数对数据的代表性越好。标准误越小,样本均数的分布越集中,样本均数与总体均数的差别越小,抽样误差越小,由样本均数估计总体均数的可靠性越大。用途描述个体值的变异程度描述均数的抽样误差大小联系nSSX t 分布的概念 t 分布的特征 t 界值 2(,)N XX2(,)XN Xu(0,1)NXXuu变量变换tsXX未知100n变量变换4000已婚男性N(15000,40002)13000240001900010000180
4、00 n=100第2000个样本x nSXSXtX1 n 随机变量能够自由取值的个数 =n-限制条件的个数以t=为中心左右对称的单峰分布分布曲线的形态取决于自由度的大小 自由度越小,曲线的峰部越低 自由度逐渐增大时,t 分布逐渐逼近标准正态分布 当=时,t 分布就是标准正态分布-5-4-3-2-101234500.050.10.150.20.250.30.350.415图.自由度分别为1、5、的t分布 t界值表,附表3 由界值表还可看出 n同一概率下,自由度越大,越小 n同一自由度下,越大,概率值越小 n同一自由度下,双侧概率为单侧概率的2倍时,所对应的t界值相等 n当时的t界值即为相应概率下
5、的值 ttP 2(,)N XX2(,)XN Xu(0,1)NXXuu变量变换tsXX未知100n变量变换就是用样本统计量来估计总体参数总体均数估计的两种方法点估计:直接用统计量估计总体参数区间估计:按一定的概率(),估计总体参数的所在范围,这个范围称为参数的置信区间(confidence interval,CI)115000元?总体均数有95%的可能在(12000,18000)置信区间(confidence interval,CI)置信度(confidence level)n置信下限(lower confidence limit)n置信上限(upper confidence limit)LCU
6、CXXStXStX,2,21)(,2,2tttP1)(,2,2tsXtPX,2,2tSXtXXXStXStX,2,2 在 到 之间的概率为1-XSX,2t,2tXXStXSt,2,2未知,且n小 未知,但n足够大 已知),(,2/,2/XXStXStX),(2/2/XXSZXSZX),(2/2/XXZXZX总体均数的95%置信区间的含义是什么 n总体均数以95%的概率落入置信区间内?n有95%的总体均数在该区间内,而5%的均数不在该区间内?准确度:反映置信度(1-)的大小,即置信区间包含总体均数的概率,从准确度的角度看,愈接近1愈好,如置信度99%比95%好精密度:反映为置信区间的宽度,从精确度的角度来看,置信区间的宽度愈窄愈好当样本含量确定后,准确度和精确度是此消彼长的 统计分析统计分析 统计描述统计描述(statistical description)统计推断统计推断(statistical inference)参数估计参数估计 假设检验假设检验