1、计量资料统计分计量资料统计分析析正态分布正态分布 t t分布分布 计量资料的统计推断是以正态分布、标准正态分布、t分布为理论基础。正态分布、标准正态分布、t分布的相互关系是参数估计和假设检验的理论基础。本课件主要学习正态分布、标准正态分布、t分布的概念、分布特征、相互关系。正态分布 t分布一、正态分布一、正态分布(一)正态分布的概念(二)正态分布曲线下的面积分布规律(三)正态分布曲线的两个参数(四)标准正态分布(五)标准正态分布曲线下的面积分布规律二、二、t t分布分布(一)均数的抽样误差(二)样本均数的正态分布(中心极限定理)(三)样本均数的标准正态分布(四)t值、t分布(五)t分布特征一、
2、正态分布(一)正态分布的概念(一)正态分布的概念 正态分布又称高斯分布,是一种很重要的连续型分布,应用甚广。在医学卫生领域中有许多变量的频数分布资料可绘制成直方图而且频数分布是中间(靠近均数处)频数多,两边频数少,且左右对称。可以设想,如果将观察人数逐渐增多,组段不断分细,图中直条将逐渐变窄,其顶端的中点的连线将逐渐接近于一条光滑的曲线,这条曲线略呈钟型,两头低,中间高,左右对称,近似于数学上的正态分布曲线(图1)正态分布的特征正态分布的特征n正态分布曲线以均数为中心,左右对称。n正态分布曲线下的面积分布有一定的规律n正态分布曲线在横轴上方均数处最高。n正态分布曲线有两个参数:均数 为位置参数
3、,标准差 为形状参数。(二)正态分布曲线下的面积分布规律n 数理统计证明:正态分布曲线下与横轴之间的整体面积为1或100%。以为总体均数,为总体标准差,则正态分布曲线下面积的分布规律经积分法计算有如下规律(图2)n +1范围内的面积占正态曲线下总面积的68.27%,即有68.27%的变量值分布在此范围内;n +1.96范围内的面积占正态曲线下总面积的95.00%,即有95.00%的变量值分布在此范围内;n +2.58范围内的面积占正态曲线下总面积99.00%,即有99.00%的变量值分布在此范围内(三)正态分布曲线的两个参数n均数决定曲线在横轴上的位置是正态分布曲线的位置参数(图3.1)。n标
4、准差决定曲线的形状是正态分布曲线的形状参数(变异度参数)(图3.2)。(四)标准正态分布 对于任何一个均数为,标准差为的正态分布,都可以通过变换,使之成为=0,=1的标准正态分布。变换的方法是将变量值x变换为u,u=x-/,u值的分布就是标准正态分布。u=x-/(五)标准正态分布曲线下的面积分布规律n标准正态分布曲线以u值为横轴变量,位置参数=0,形状参数=1,标准正态分布曲线与横轴之间的整体面积为1或100%。标准正态分布曲线下面积的分布规律有如下规律(图5)nu=-1,u=1范围内的面积占正态曲线下总面积的68.27%,即有68.27%的变量值分布在此范围内;n u=-1.96,u=1.9
5、6 范围内的面积占正态曲线下总面积的95.00%,即有95.00%的变量值分布在此范围内;n u=-2.58,u=2.58范围内的面积占正态曲线下总面积99.00%,即有99.00%的变量值分布在此范围内。二、t 分布(一)均数的抽样误差 标准误n在总体中随机抽取一部分个体作为样本,进行调查研究以推论总体的方法,称为抽样研究方法。n由抽样而引起的样本均数与总体均数之间的差别及样本均数与样本均数之间的差别称为抽样误差。n从正态分布的同一总体中随机抽取例数相等的若干个样本,分别计算它们的均数,这些样本均数的标准差称为标准误。标准误与标准差的区别n标准差描述个体变量值间的变异程度。凡同性质的资料,标
6、准差大表示个体变量值变异大,样本均数对个体的代表性差。标准差小表示个体变量值变异小,样本均数对个体的代表性好。n标准误是样本均数的标准差,即描述样本均数的抽样误差。凡同性质的资料,标准误大说明抽样误差大,用样本均数估计总体均数的可靠性小;而标准误小,说明抽样误差小,用样本均数估计总体均数的可靠性大。x标准误与标准差的区别x1x2x3s1x2x3xxssx xsx(二)样本均数的正态分布(中心极限定理)从一个呈正态分布的总体中随机抽取样本含量相等的许多样本,分别计算出它们的样本均数。这些样本均数的频数分布仍是以总体均数为中心的正态分布。1x2x3xx(三)样本均数的标准正态分布 对于任何一个横轴
7、变量为 均数为,标准误为 的正态分布,都可以通过变换,使之成为=0、=1的标准正态分布。变换的方法是将变量值 变换为u,u=-/,u值的分布就是标准正态分布。xxxxxxu=-/xx(四四)t)t值值 t t分布分布 对于任何一个横轴变量为 均数为,标准误为 的正态分布,都可以通过变换,使之成为=0,=1的标准正态分布。变换的方法是将变量值 变换为u,u=-/,u值的分布就是标准正态分布。实际工作中 常用 估计,t值就是样本均数 与总体均数的差数 除以 所得之商 xxxxxxxsxxsxxsxt/实际工作中 用 估计,这时对正态变量 采用的不是u变换,而是t变换。如果从一个正态总体中,抽取样本
8、含量为n的许多样本,分别计算其样本均数和标准误,然后再求出每一个t值,这样可有许多t值,其频数分布是一种连续型分布,这就是统计学上的t分布。xxsxxuxxtxs(五)t 分布特征nt 值自由度()nt 分布特征nt界值nt值与自由度的关系nt界值与概率的关系n单侧、双侧t界值t 值自由度()从一个总体中抽取200个样本,每一个样本含量n=6则200个样本可计算出200个样本均数 每一个样本均数可计算出一个t值共计算出的200个t值,t值自由度 =6-1=5xt 分布特征分布特征n呈单峰曲线,以0为中心,左右两侧对称。nt分布曲线是一簇,不同自由度有不同t分布曲线。越小,t分布曲线愈来愈平坦,
9、曲线中间愈低,曲线两侧尾部翘得愈高;越大,t分布曲线愈接近标准正态分布曲线,当 t分布曲线就是标准正态分布曲线。t界值nt分布曲线和横轴所夹全部面积为100%,当 时t分布越接近标准正态分布,这时t分布曲线中 1.96范围内占总面积95%,1.96以外两侧面积为5%。n同理t分布曲线中 2.58范围内占总面积99%,2.58以外两侧面积为1%。n把自由度为 的t分布曲线下两侧外总面积为5%界限的t值叫 界值为P=0.05的t界值;两侧外总面积为1%界限的t值叫 界值为P=0.01的t界值。,05.0t,01.0tt值与自由度的关系 一般情况下,t分布曲线较标准正态分布曲线低平,因此 ,自由度越
10、小,t分布曲线越低平则 、界值越大。96.1,05.0t58.2,01.0t,05.0t,01.0tt界值与概率的关系 设以t 分布曲线与 横轴所夹总面积为100%,则横轴上某一区间和曲线所夹面积与总面积之比,相当于t值在该区间内出现的概率(P),从一个正态总体中随机抽样,获得t 值落于整个横轴的概率P=1,获得l t l 的P ,对应曲线面积 ,|t|的P ,对应的曲线面积 。,05.0t05.005.0,01.0t01.001.0 xxsxtxs单侧、双侧t界值 相同自由度的t分布曲线下t界值对应的概率 P 值有双侧概率和单侧概率之分,双侧概率对应于双侧尾部面积占总面积之比;单侧概率对应于
11、单侧尾部面积占总面积之比。自我评估测试n正态分布n标准正态分布n抽样误差nu分布nt分布nt值自由度1 1、正态分布曲线下+1.96范围内的面积占正态曲线下总面积的 ,即有 的变量值分布在此范围内;2 2、正态分布曲线下 范围内的面积占正态曲线下总面积99.00%,即有99.00%的变量值分布在此范围内3、均数是正态分布曲线的 参数,标准差是正态分布曲线的 参数。4、对于任何一个均数为,标准差为的正态分布要变换成为=0,=1的标准正态分布可用 变换,公式为 。5、对于任何一个横轴变量为 均数为,标准误为 的正态分布要变换成为=0,=1的标准正态分布可用 变换。公式 。xxx1、反映了个体变量间差异及 对个体变量值代表性的好坏。A、个体变量值 B、样本均数 C、总体均数 D、标准差 sx2、反映了样本均数抽样误差大小,及样本均数对 估计可靠性。A、个体变量值 B、样本均数 C、总体均数 D、标准差xsx3、当 界值时,概率 A、P0.05 B、P0.05 D、P0.0105.0tt 4、A、大于 B、小于 C、等于 D、无关9,05.0t69,05.0t5、A、大于 B、小于 C、等于 D、无关)(9,05.0单侧t)(9,05.0双侧t