数值变量统计推断课件.ppt_163文库

资源描述

1、1用样本信息来推用样本信息来推断总体的特征，断总体的特征，称为统计推断。称为统计推断。参数估计参数估计parameter estimate假设检验假设检验hypothesis test统计推断统计推断statistical inference21均数的抽样误差与标准误均数的抽样误差与标准误2t 分布分布参数估计参数估计3总体均数的估计总体均数的估计3样本样本参数参数统计量统计量总体总体抽样抽样统计推断统计推断统计描述统计描述抽样误差抽样误差(sampling error)是指在没有是指在没有系统误差和过失误差的前提下，单纯由系统误差和过失误差的前提下，单纯由于随机抽取样本而产生的样本指标于

2、随机抽取样本而产生的样本指标(统计统计量量)间或样本指标与总体指标间或样本指标与总体指标(参数参数)之间之间的随机性误差。的随机性误差。1 均数的抽样误差与标准误均数的抽样误差与标准误4均数的抽样误差均数的抽样误差欲研究十堰地区欲研究十堰地区 2013 年健康成年女性年健康成年女性红细胞的总体均数。红细胞的总体均数。红细胞数红细胞数总体均数总体均数 124.79 10/n 120XL124.83 10/n 120XL5已知十堰地已知十堰地2013年年18岁岁女女生身高服从均数为生身高服从均数为155.4cm，标准差为，标准差为5.3cm的正态分布。的正态分布。153.2154.1154.81

3、57.4nj=30100个个 =155.4cm =5.3cmX1,X2,X3,Xi6抽样实验：抽样实验：(a)7 样本均数的分布特点：样本均数的分布特点：1.各样本均数未必等于总体均数；各样本均数未必等于总体均数；2.样本均数之间存在差异；样本均数之间存在差异；3.样本均数的分布很有规律，围绕着总体均数，样本均数的分布很有规律，围绕着总体均数，中间多，两边少，左右基本对称，也服从中间多，两边少，左右基本对称，也服从正态分布正态分布。8n 抽样研究的抽样研究的目的目的是用是用样本样本信息推断信息推断总体总体特征。特征。n 因随机抽样造成的因随机抽样造成的样本均数与总体均数样本均数与总体均数之间差

4、之间差异或异或各样本均数各样本均数之间差异称为之间差异称为均数的抽样误差均数的抽样误差。9有没有表示样本均数抽样误差大小的有没有表示样本均数抽样误差大小的指标呢？指标呢？求求样本均数的标准差样本均数的标准差即可反映样本即可反映样本均数间的离散程度，也反映样本均数均数间的离散程度，也反映样本均数与总体均数间的差异。与总体均数间的差异。我们把样本均数的标准差称为我们把样本均数的标准差称为标准误标准误（standard error）。10 xnnSSX标准误的计算标准误的计算11例例11 某地某地 150 名名 3 岁女孩平均身高为岁女孩平均身高为 92.8 cm，标准差为标准差为4.6 cm，求

5、其标准误。，求其标准误。_ _4.60.3 8()1 5 0XSScmn_X12n 反映反映样本均数样本均数的的可靠性可靠性：同质的资料标准误越小，样本均数越接近总体同质的资料标准误越小，样本均数越接近总体均数，抽样误差越小，说明由样本均数推断总均数，抽样误差越小，说明由样本均数推断总体均数的可靠性越大。体均数的可靠性越大。n 估计估计总体均数：总体均数：结合样本均数结合样本均数可对总体均数可对总体均数做区间估计做区间估计n 假设检验假设检验：进行均数的进行均数的 t 检验检验标准误的标准误的应用应用_X13标准差与标准误的区别标准差与标准误的区别标准差标准差（S）标准误（标准误（S

6、X）意义意义个体变量值变异度大小，个体变量值变异度大小，样本均数抽样误差大小，样本均数抽样误差大小，即原始变量值的离散程度。即原始变量值的离散程度。即即样本均数的离散程度。样本均数的离散程度。应用应用医学参考值范围，对某一医学参考值范围，对某一区间估计，对总体均数的区间估计，对总体均数的变量值是否在正常范围内变量值是否在正常范围内大小作出初步判断；大小作出初步判断；作出初步判断作出初步判断；计算变异；计算变异用于假设检验用于假设检验系数、标准误系数、标准误-14 t 分布于分布于 1908 年由英国统计学家年由英国统计学家W.S.Gosset以以“Student”笔名发表，故又

7、称笔名发表，故又称Student t 分布（分布（Studentt-distribution）或）或称为称为“学生氏学生氏 t 分布分布”。t 分布主要用于解决分布主要用于解决小样本小样本的问题。的问题。2.t 分布（分布（t-distribution)15随机变量随机变量的的标准正态分布标准正态分布样本均数样本均数的的标准正态分布标准正态分布XuXXu1617 实际工作中，实际工作中，往往是未知的，常用往往是未知的，常用 s 作为作为的估计值，为与的估计值，为与 u 转换区别，称为转换区别，称为 t 变换，变换，t 值的分布为值的分布为 t 分布分布。XSXt XXU XXuXXtS18t

8、分布的特征分布的特征l以以0为中心，左右对称为中心，左右对称l其形态变化与自由度其形态变化与自由度的大小有关的大小有关越小，越小，t值分布越离散，曲线峰高越矮尾部越高值分布越离散，曲线峰高越矮尾部越高越大，越大，t值分布越集中，曲线峰高上移尾部降低值分布越集中，曲线峰高上移尾部降低趋近趋近+，t分布分布趋近标准正态分布趋近标准正态分布19tf(t)=(标准正态分布标准正态分布)=5=1图图15-5 自由度分别为自由度分别为1、5、的的t分布分布0.200.1020 在在 t 界值表中列出了界值表中列出了t 分布曲线下尾端分布曲线下尾端的面积的面积，其中：，其中：一侧尾部的面积称为单侧概

9、率，对应的一侧尾部的面积称为单侧概率，对应的t值表示为值表示为 t.；两侧尾部的面积称为双侧概率，对应的两侧尾部的面积称为双侧概率，对应的t值表示为值表示为 t/2.。t 界值表界值表21P31222 由由 t 界值表可知：界值表可知：相同自由度时，相同自由度时，t越大，概率越大，概率P越越小。小。相同相同 t 值时，双侧概率是单侧概率的两倍。值时，双侧概率是单侧概率的两倍。=时，时，t 分布即为分布即为u分布，故分布，故t界值表中最界值表中最后一行是后一行是u界值。界值。23tB0AP24 t 分布主要用于：分布主要用于：n 总体均数置信区间的估计总体均数置信区间的估计n t 检验检验2

10、5点点估计估计（point estimation）区间区间估计估计（interval estimation）用样本指标（统计量）来用样本指标（统计量）来估计总体指标（参数），估计总体指标（参数），称为参数估计。称为参数估计。统计推断统计推断参数估计参数估计假设检验假设检验3.总体均数的估计总体均数的估计26 X ，即认为，即认为2000年该地所有健康成年男性血红年该地所有健康成年男性血红蛋白量的总体均数为蛋白量的总体均数为125g/L。用样本统计量直接作为总体参数的估计值。用样本统计量直接作为总体参数的估计值。例如例如于于2000年测得某地年测得某地27例健康成年男性血红蛋白例健康成年男性

11、血红蛋白量的样本均数为量的样本均数为125g/L，试估计其总体均数。，试估计其总体均数。1)点估计：点估计：27n 均数的区间估计：均数的区间估计：指按预先给定的概率，确定指按预先给定的概率，确定的未知参数的可能范围。的未知参数的可能范围。n 估计估计错误错误的概率为的概率为，估计估计正确正确的概率为的概率为1-。2)区间估计：区间估计：28n 1-称称可信度可信度或或置信度置信度（confidence level），常取常取 95%或或 99%。n 可信限可信限（confidence limit，CL）：下限）：下限（lower limit，L），上限（），上限（upper limit，U）

12、29n 根据一定的可信度估计得到的区间，称根据一定的可信度估计得到的区间，称为为可信区间可信区间（confidence interval，CI）。）。n 从理论上讲，进行从理论上讲，进行 100 次抽样，可算得次抽样，可算得100 个可信区间，平均有个可信区间，平均有 95%或或 99%的可的可信区间包含了总体参数。信区间包含了总体参数。30n 可信区间可信区间有两个有两个要素要素：准确度准确度精密度精密度例：例：若若=0.05，反复抽样反复抽样 1000次，根据样本次，根据样本均数可估计得到均数可估计得到1000个可信区间，这个可信区间，这1000个个区间中约有区间中约有950个包含个包含

13、，有有50个不包含个不包含。311、已知已知时时,)96.1,96.1(%95xxxx可信区间：根据已知条件，可信区间的估计有根据已知条件，可信区间的估计有3种方法种方法：)58.2,58.2(%99xxxx可信区间：322、未知但未知但 n 足够大（足够大（n30）时：时：)96.1,96.1(%95xxSxSx可信区间：)58.2,58.2(%99xxSxSx可信区间：333、未知且未知且 n 较小（较小（n30）时：时：),(%95)(2/05.0)(2/05.0 xxStxStx可信区间：),(%99)(2/01.0)(2/10.0 xxStxStx可信区间：34例例12 随机抽查某地

14、随机抽查某地 10 名男孩出生体重名男孩出生体重,得其得其平均体重为平均体重为 3.21kg,标准差为标准差为 0.47kg,试估计试估计该地男孩出生体重均数的该地男孩出生体重均数的 95%可信区间。可信区间。35查查 t 值表值表：t0.05(9)=该地男孩出生体重均数的该地男孩出生体重均数的95%可信区间为可信区间为:2.873.55 kg_)(05.0_St(3.21 2.262 0.47/10,3.21 2.262 0.47/10)2.26236例例某地抽查某地抽查 150 名名 3 岁女孩岁女孩,得身高均数为得身高均数为 92.8cm,标准误为标准误为 0.38cm,试估计该地试估

15、计该地 3 岁女岁女孩身高总体均数的孩身高总体均数的 95%可信区间。可信区间。37_96.1_S(92.8 1.96 0.38,92.8 1.96 0.38)38可信区间的可信区间的两个要素两个要素可信度可信度 1-精度精度即可信区间即可信区间的宽度的宽度可信区间的可信区间的注意事项注意事项是可信区间包含是可信区间包含总体均数总体均数的概率的概率39 置信度和精度置信度和精度互相制约互相制约。为了提高可信度，得放大置信区间，降低精度；为了提高可信度，得放大置信区间，降低精度；反之提高了精度，必然会使可信度降低。反之提高了精度，必然会使可信度降低。40均数的均数的可信区间可信区间与与参考值范围

16、参考值范围的的区别区别区别点区别点均数的可信区间均数的可信区间参考值范围参考值范围XXvXuSXtS或/2/2,100XXXuSPP或/2意义意义计算计算公式公式用途用途按预先给定的概率按预先给定的概率(1 )确定的包含总确定的包含总体均数的可能范围体均数的可能范围指正常人的解剖、指正常人的解剖、生理、生化某项指生理、生化某项指标的波动范围标的波动范围估计总体均数估计总体均数判断某项指标判断某项指标是否正常是否正常41掌握：掌握：n 抽样误差与标准误的概念及计算；抽样误差与标准误的概念及计算；n 参数估计的概念、计算及含义。参数估计的概念、计算及含义。熟悉熟悉n t 分布图形及特点、

17、分布图形及特点、t 界值表的应用。界值表的应用。参数估计参数估计42用样本信息来推用样本信息来推断总体的特征，断总体的特征，称为统计推断。称为统计推断。参数估计参数估计parameter estimate假设检验假设检验hypothesis test统计推断统计推断statistical inference43假设检验假设检验1假设检验的基本原理与步骤假设检验的基本原理与步骤2t 检验与检验与 u 检验检验3方差分析方差分析4两类错误假设及假设检验注意事项两类错误假设及假设检验注意事项44假设检验的基本原理假设检验的基本原理n 假设检验（假设检验（hypothesis test）也称显著性也称

18、显著性检验检验(significance test)。n主要用于判断主要用于判断两个或多个参数间的差别两个或多个参数间的差别有无统计学意义有无统计学意义。45 例例13 根据大量调查，已知一般健康成年男子的根据大量调查，已知一般健康成年男子的脉搏均数为脉搏均数为 72次次/min，某医生在某山区随机调查，某医生在某山区随机调查100名健康男子，得到脉搏均数为名健康男子，得到脉搏均数为76.2次次/min,标标准差为准差为4.0次次/min，能否认为该山区的健康成年男，能否认为该山区的健康成年男子脉搏均数高于一般健康成年男子的脉搏均数？子脉搏均数高于一般健康成年男子的脉搏均数？46 0=72次

19、次/min山区健康山区健康成年男子成年男子 76.2/minS 4.0/minn0X 次次10一般健康一般健康成年男子成年男子47 山区山区100名健康男子脉搏与一般健康成年男子不同名健康男子脉搏与一般健康成年男子不同的原因有二：的原因有二：n 仅仅是仅仅是抽样误差抽样误差所引起；所引起；n 确实不同确实不同(非抽样误差）非抽样误差）。我们希望从此两原因中找出一个主要的原因，统计我们希望从此两原因中找出一个主要的原因，统计学上通过学上通过假设检验假设检验来回答这一问题。来回答这一问题。山区男子脉搏总体均数山区男子脉搏总体均数与一般成年男子脉搏均与一般成年男子脉搏均数数 0相等，差异是由抽样误

20、差引起的，提示山区相等，差异是由抽样误差引起的，提示山区男子是一般男子总体的一部分。男子是一般男子总体的一部分。山区男子脉搏总体均数山区男子脉搏总体均数与一般成年男子脉搏均数与一般成年男子脉搏均数 0不相等，差异可能是由地域等因素引起的，提示山区不相等，差异可能是由地域等因素引起的，提示山区男子与一般男子是两个不同的总体。男子与一般男子是两个不同的总体。48 首先对未知或不完全知道的总体首先对未知或不完全知道的总体提出一个提出一个假设假设，然后借助一定的分布，观察实测样本情，然后借助一定的分布，观察实测样本情况况是否属于小概率事件是否属于小概率事件。如实测样本情况属于小概率事件，则认为如实测

21、样本情况属于小概率事件，则认为原先的假设错误，拒绝这个假设；如实测样本原先的假设错误，拒绝这个假设；如实测样本情况不属于小概率事件，则不拒绝原先假设。情况不属于小概率事件，则不拒绝原先假设。假设检验的假设检验的基本原理基本原理49假设检验的假设检验的一般步骤一般步骤1.1.建立检验假设建立检验假设，确立检验水准确立检验水准 n无效假设无效假设 H H0 0：0 0 假定总体均数相同假定总体均数相同n备择假设备择假设 H H1 1：0 0或或 0 0（0 0 ）假定总体参数不相同，即差别不是由于抽样假定总体参数不相同，即差别不是由于抽样误差所致。误差所致。50 样本均数所代表的未知总体均数样本均

22、数所代表的未知总体均数与已知总体均数与已知总体均数 0 0 的比较的比较目的目的双侧检验是否双侧检验是否单侧检验是否单侧检验是否是否是否 0 0 d d 0 0 d d 0 0 是否是否 d d 0 0 d d 0 0 d d 0 2 2 1 1 2 2 1 1 2 2 是否是否 1 1 2 2 1 1 2 2 1 1 组内变异组内变异三组之间数据的变异三组之间数据的变异组间变异组间变异全部数据间的变异全部数据间的变异总变异总变异 118基本思想：基本思想：按分析目的和设计把全部数据之间按分析目的和设计把全部数据之间的总变异分成两部分或更多部分，然后借助的总变异分成两部分或更多

23、部分，然后借助F分布作出统计推断。分布作出统计推断。总变异总变异=组间变异组间变异+组内变异组内变异119组内变异组内变异(SS e)组内各个观测值组内各个观测值 X i j 与本组内均值与本组内均值之差之差的平方和。反映了组内（同一水平下）样本的随的平方和。反映了组内（同一水平下）样本的随机波动。机波动。iXkinjiijeiXXSS112120组间变异组间变异(SS TR)组内均值组内均值与总均值与总均值之差的平方和。反之差的平方和。反映了处理因素各个水平组间的差异，同时也包含映了处理因素各个水平组间的差异，同时也包含了随机误差。了随机误差。iX21XXnSSikiiTRX121总变

24、异总变异(SS T)全部测量值大小不同，这种变异称为总变异，全部测量值大小不同，这种变异称为总变异，以各测量值以各测量值 X ij与总均数与总均数间的差异度量。间的差异度量。211kinjijTiXXSSX122总变异、组间变异、组内变异的关系总变异、组间变异、组内变异的关系:eTRTSSSSSSeTRT对应自由度的关系对应自由度的关系:123均方均方(mean square)n 离均差平方和大小离均差平方和大小:与变异程度大小有关与变异程度大小有关与其自由度大小有关与其自由度大小有关n 将各部分离均差平方和除以相应自由度，其比将各部分离均差平方和除以相应自由度，其比值称为均方差，简称均方

25、值称为均方差，简称均方(MS)。kn/1k/eeeeSSSSMSSSSSMSTRTRTRTR组内均方：组间均方：124F 值与值与 F 分布分布n 组间均方与组内均方的比值称为组间均方与组内均方的比值称为 F 统计量，服统计量，服从从 F 分布，即分布，即:n 如果如果 H0 成立，即各处理组的样本来自相同总成立，即各处理组的样本来自相同总体，处理因素没有作用，则组间变异同组内变体，处理因素没有作用，则组间变异同组内变异一样，只反映随机误差作用的大小。异一样，只反映随机误差作用的大小。eTRMSMSF 1254.3.3 4.3.3 F F分布分布图图4-3 4-3 不同自由度时的不同自由度时的

26、F F分布曲线分布曲线 F分布有两个自由度，第一自由度分布有两个自由度，第一自由度()是分子的自由是分子的自由度，第二自由度度，第二自由度()是分母的自由度。是分母的自由度。1210221，10521，2110，11021，F F分布是方差比的分布，常用于分布是方差比的分布，常用于方差齐性检验、方差分析等。方差齐性检验、方差分析等。2221SSF 126 单因素方差分析（单因素方差分析（one-way ANOVA）也）也称完全随机设计的方差分析，单向或单方式称完全随机设计的方差分析，单向或单方式方差分析，该设计只能分析一个因素下多个方差分析，该设计只能分析一个因素下多个水平对试验结果的影响。水

27、平对试验结果的影响。一、完全随机设计完全随机设计多个样本均数比较多个样本均数比较127方差分析表方差分析表128例例17 某研究者将某研究者将 27 只雄性大鼠随机分成只雄性大鼠随机分成三组（每组三组（每组 9 只），给予不同处理后只），给予不同处理后 3 周，周，测定血清中的测定血清中的SOD（超氧化物歧化酶）活性。（超氧化物歧化酶）活性。结果见下表。问三组的结果见下表。问三组的SOD活性是否相同活性是否相同？129 三组大鼠血清中三组大鼠血清中SOD活性活性/（mol/L）对照组对照组环孢素组环孢素组环孢素环孢素+精氨酸组精氨酸组 365.1 348.3 360.5 394.2 355

28、.2 368.0 373.3 319.9 386.4 375.2 354.4 369.4 358.6 352.7 352.1 370.8 356.8 371.5 350.2 324.4 374.1 410.2 356.2 368.4 360.5 350.2 372.1从这个表，可以看到从这个表，可以看到三种变异：三种变异：组内数据的变异组内数据的变异组内变异组内变异三组之间数据的变异三组之间数据的变异组间变异组间变异全部数据间的变异全部数据间的变异总变异总变异 130 对照组对照组环孢素组环孢素组环孢素环孢素+精氨酸组精氨酸组合计合计 365.1 348.3 360.5 394

29、.2 355.2 368.0 373.3 319.9 386.4 375.2 354.4 369.4 358.6 352.7 352.1 370.8 356.8 371.5 350.2 324.4 374.1 410.2 356.2 368.4 360.5 350.2 372.1 ni 9 9 9 27 3358.1 3118.1 3323.1 9799.3 373.1 346.5 369.2 1255770.5 1081872.7 1227682.9 3565326.1iXiX2iX1311.建立假设，确定检验水准建立假设，确定检验水准 H0:1=2=3 H1:1、2、3 不等或不全相等不等

30、或不全相等 =0.051322.选定检验方法，计算统计量选定检验方法，计算统计量5062.013735.18-8797.19-3735.183556528.91-93323.13118.13358.1-n8797.193556528.91-3565326.10C-91.3556528273.9799222i2i222组间总组内组间总SSSSSSCXSSXSSNXC1338.855210.921867.60210.92245062.011867.6023735.18243-27-2131261-271-组内组间组内组内组内组间组间组间组内组间总MSMSFvSSMSvSSMSkNvkvNv1343

31、.确定确定 P 值，作出推断结论值，作出推断结论以以 v组间组间为为 v1，以，以 v组内组内为为 v2，查附表，查附表 F 界值表，界值表，得得F0.01(2,24)=5.61，本例，本例 F F0.01(2,24)，故，故 P0.01。结论：结论：按按 a=0.05 检验水准，拒绝检验水准，拒绝 H0，接受，接受 H1，可认，可认为三组的为三组的 SOD 活性有差别，但不能认为任何两组活性有差别，但不能认为任何两组SOD活性均有差别。活性均有差别。135136P197200137表表 15 12 例例 17 资料的方差分析表资料的方差分析表变异来源变异来源 SS v MS F P 总总

32、 8797.19 26 组间组间 3735.18 2 1867.59 8.854 0.01 组内组内 5062.01 24 210.92138二、二、随机区组设计随机区组设计资料的方差分析资料的方差分析随机区组设计随机区组设计(randomized block design)又又称为配伍组设计，涉及称为配伍组设计，涉及处理因素处理因素（主要因素）（主要因素）和和区组因素区组因素（配伍组因素，个体特征），故随（配伍组因素，个体特征），故随机区组设计的多个样本均数比较分析又称两因机区组设计的多个样本均数比较分析又称两因素方差分析。素方差分析。139随机区组设计资料常见情况：随机区组设计资料常见情

33、况：n 区组设计资料区组设计资料：先将全部观察对象按某种或某些：先将全部观察对象按某种或某些特征分为若干个区组，每个区组的观察对象数等于特征分为若干个区组，每个区组的观察对象数等于处理组数处理组数 k，然后将同一区组的，然后将同一区组的 k 个对象随机分配个对象随机分配到到 k 个不同的处理组所得到的数据资料；个不同的处理组所得到的数据资料；n 同一个对象的同一个对象的k个部位测定同一指标所得的数据个部位测定同一指标所得的数据资料；资料；n 同一样品用多种不同方法测定同一指标所得的数同一样品用多种不同方法测定同一指标所得的数据资料。据资料。140随机区组设计资料数据结构随机区组设计资料数据结构

34、141变异分解变异分解总变异总变异SST可分解为：可分解为：n 处理因素处理因素的的变异变异SSA SSA 反映了各个水平组间的差异反映了各个水平组间的差异(包含随机误差包含随机误差)n 区组因素区组因素的的变异变异SSB SSB 反映了各个区组间的差异反映了各个区组间的差异(包含随机误差包含随机误差)n 随机误差随机误差SSe SSe 反映了样本的随机波动反映了样本的随机波动三者的关系如下：三者的关系如下：eBATSSSSSSSS142方差分析表方差分析表143例例18 按性别相同、年龄相近、病情相近按性别相同、年龄相近、病情相近把把 33 例某病患者配成例某病患者配成 11 个区组，每区组

35、个区组，每区组 3 个个患者，分别给予患者，分别给予A 药、药、B 药和药和 C药治疗。治疗药治疗。治疗后患者血浆中的后患者血浆中的 IGA 含量见表含量见表15-14。问经三。问经三种不同药物治疗后该病患者血浆中种不同药物治疗后该病患者血浆中IGA含量有含量有无差别？无差别？144区组号区组号 A药药 B药药 C药药 1 1.67 1.77 2.10 5.54 2 2.04 2.03 2.07 6.14 3 1.38 1.45 1.48 4.31 4 1.02 1.09 1.07 3.18 5 1.29 1.15 1.92 4.36 6 1.32 1.05 1.28 3.65 7 1.17

36、1.26 1.08 3.51 8 2.12 1.87 2.07 6.06 9 1.64 1.72 1.65 5.01 10 1.75 1.85 2.45 6.05 11 1.65 1.56 1.38 4.59 n i 11 1 1 11 33（N）17.05 16.80 18.55 52.40（）1.55 1.53 1.69 27.64 26.87 33.44 87.95（）iXiijXX表表 15-10 三种不同药物治疗后某病患者血浆三种不同药物治疗后某病患者血浆IGA含量含量jijXjijX22X145处理间：处理间：H0:1=2=3，即三种不同药物治疗后，即三种不同药物治疗后IGA 含量

37、的总体均数相等；含量的总体均数相等；H1:1、2、3 不等或不全相等不等或不全相等 =0.05区组间：区组间：H0:1=2=11，即，即11个区组的个区组的IGA含量的含量的总体均数相等；总体均数相等；H1:1、2、11 不等或不全相等不等或不全相等 =0.05 1.建立假设，确定检验水准建立假设，确定检验水准 1462.选定检验方法，计算统计量选定检验方法，计算统计量7117.08706.31629.07452.48706.32048.83359.4.14.654.5k1629.02048.831155.1880.1605.17bSS4.745283.2048-87.9500C-2048.

38、833340.52222j2iij222i2j222 区组处理总误差区组处理总SSSSSSSSCXSSCXXSSNXCij1478736.100356.0/3871.0/2890.20356.0/0815.0/0356.020/7117.0/3871.010/8706.3/0815.02/1629.0/20111131b1k101111b2131k321331误差区组区组误差处理处理误差误差误差区组区组区组处理处理处理误差区组处理总MSMSFMSMSFSSMSSSMSSSMSN148 对于三种药物，对于三种药物，以以v处理处理为为 v1，以，以v误差误差为为v2，查查F界值表得：界值表得：F0

39、.05（2，20）=3.49，本例，本例F处理处理=2.2893 F0.05（2，20），故故P 0.05。按按a=0.05 检验水准，不拒绝检验水准，不拒绝 H0，即尚不能认为三种不同即尚不能认为三种不同药物治疗后该病患者血浆中药物治疗后该病患者血浆中IGA含量不同。含量不同。3.确定确定 P 值，作出推断结论值，作出推断结论149 对于区组，对于区组，以以v区组区组为为 v1，以，以v误差误差为为v2，查，查F界值界值表得：表得：F0.05（10，20）=2.35，F0.01（10，20）=3.37，本例，本例F区组区组=10.8736 F0.01（10，20），故故P 0.01。按按=0

40、.05 检验水准，拒绝检验水准，拒绝 H0，接受接受 H1，可认为不同可认为不同区组血浆中区组血浆中IGA含量不同。含量不同。150P197200151表表 15 15 例例 18 资料的方差分析表资料的方差分析表变异来源变异来源 SS v MS F P 总总 4.7452 32 处理处理 0.1629 2 0.0815 2.2893 0.05 区组区组 3.8706 10 0.3871 10.8736 0.01 误差误差 0.7117 20 0.0356152三、两两比较的三、两两比较的 q 检验检验拒绝拒绝H 0，接受，接受H 1,表示总体均数不全相等。表示总体均数不全相等。哪两两均数相等

41、？哪两两均数相等？哪两两均数不等？哪两两均数不等？需要进一步作多重比较。需要进一步作多重比较。153SNK(Student-Newman-Keuls)法法最常用方法之一，其检验统计量为最常用方法之一，其检验统计量为q，故，故又称为又称为q 检验检验。BABAMSXXqn1n12误差MS误差误差：单因素方差分析中的组内均方（：单因素方差分析中的组内均方（MS组内组内），），或两因素方差分析中的误差均方（或两因素方差分析中的误差均方（MS误差误差）154例例19 对例对例15.17资料不同组的资料不同组的SOD活性的均数活性的均数作两两比较。作两两比较。BA1.建立假设，确定检验水准建立假设，确

42、定检验水准 H0：任两组的：任两组的SOD活性的总体均数相等，即活性的总体均数相等，即 H1：任两组的：任两组的SOD活性的总体均数不等，即活性的总体均数不等，即 =0.05BA1552.将三个样本均数从大到小排列，编上组次将三个样本均数从大到小排列，编上组次组次组次 1 2 3 均数均数 373.1 369.2 346.5 组别组别对照组对照组环孢素环孢素+精氨酸组精氨酸组环孢素组环孢素组3.计算计算 q 值，列出两两比较的值，列出两两比较的 q 检验计算表检验计算表 156表表 15 16 三个样本均数两两比较的三个样本均数两两比较的 q 检验计算表检验计算表对比组对比组均数之差

43、均数之差组数组数 q 值值 q 界值界值 P 值值 A与与B a P=0.05 P=0.01 (1)(2)(3)(4)(5)(6)(7)1与与2 3.90 2 0.80 2.95 4.02 0.051与与3 26.60 3 5.51 3.58 4.64 0.012与与3 22.70 2 4.71 2.95 4.02 0.01BAXX 按按a=0.05水准，水准，1与与3对比组以及对比组以及2与与3对比组拒绝对比组拒绝H0，接受，接受H1，说明对照组与环孢素组的说明对照组与环孢素组的SOD活性有差别，环孢素活性有差别，环孢素+精氨酸组精氨酸组与环孢素组的与环孢素组的SOD活性也有差别，但活性也

44、有差别，但1与与2对比即对照组与环孢对比即对照组与环孢素素+精氨酸对比不拒绝精氨酸对比不拒绝H0，尚不能认为有差别。，尚不能认为有差别。157158=n-1 第六节第六节两类错误两类错误统计学上，拒绝了成立的无效假设统计学上，拒绝了成立的无效假设 H0 所犯的错误所犯的错误称为称为类错误（弃真）类错误（弃真），犯，犯类错误的概率为类错误的概率为；接受了不成立的无效假设接受了不成立的无效假设 H0 所犯的错误称为所犯的错误称为类错类错误（存伪）误（存伪），犯，犯类错误的概率为类错误的概率为。159160n 应注意资料的应注意资料的可比性可比性；n 注意选用的假设检验方法的注意选用的假设检验

45、方法的应用条件应用条件；资料的性质资料的性质设计类型设计类型样本含量大小样本含量大小假设检验的注意事项假设检验的注意事项161n 结论不能绝对化结论不能绝对化拒绝拒绝 H0 可能犯可能犯类错误，接受类错误，接受 H0 可能犯可能犯类类错误。错误。结论是否拒绝结论是否拒绝H0不仅取决于被研究事物有无本质不仅取决于被研究事物有无本质差异，还决定于抽样误差的大小、检验水准差异，还决定于抽样误差的大小、检验水准的高的高低以及单侧或双侧检验。低以及单侧或双侧检验。162n 正确区分差别有无统计学意义与有无专业正确区分差别有无统计学意义与有无专业上的实际意义上的实际意义差别有统计学意义只能说明相应总体均数差别有统计学意义只能说明相应总体均数有差别，不能说明差别的大小。有差别，不能说明差别的大小。163掌握：掌握：n 假设检验的基本原理与注意事项；假设检验的基本原理与注意事项；n t 检验和检验和u 检验检验(应用条件、方法选择、分析步骤应用条件、方法选择、分析步骤)；n 方差分析基本思想与应用条件；方差分析基本思想与应用条件；164熟悉：熟悉：n t 分布图形与特征分布图形与特征;n 常见方差分析的计算方法常见方差分析的计算方法;n 假设检验的两类错误。假设检验的两类错误。

展开阅读全文