1、生物统计学生物统计学 Biostatistics 第一章第一章 统计数据的收集统计数据的收集与整理与整理2012.2总体(总体(pupulation):根据研究目的确定的:根据研究目的确定的同质同质研究对象的研究对象的全体全体(集合)。分(集合)。分有限总体有限总体与与无限总体无限总体。个体(个体(individual)样本(样本(sample):):从总体中随机抽取的若干从总体中随机抽取的若干个个体所构成的集合。个个体所构成的集合。样本单位(样本单位(sample unit)样本含量(样本含量(sample size),记为),记为n。v从总体中获得样本的过程称为从总体中获得样本的过程称为抽
2、样抽样(sampling)v抽样的目的,是希望通过对样本的研究,抽样的目的,是希望通过对样本的研究,推断其总体,样本必须能够代表总体。我推断其总体,样本必须能够代表总体。我们需要的样本应该是一个总体的缩影。为们需要的样本应该是一个总体的缩影。为了达到这个目的,就需要用了达到这个目的,就需要用随机抽样随机抽样(random sampling)的方法获得样本。的方法获得样本。随机数字表的使用随机数字表的使用见附表一(见附表一(p251)v 从一有限总体中抽样,可分为从一有限总体中抽样,可分为放回式抽样放回式抽样(sampling with replacement)和和非放回式抽非放回式抽样(样(s
3、ampling without replacement)。所谓。所谓放回式抽样是指:从总体中抽出一个个体,放回式抽样是指:从总体中抽出一个个体,记下它的特征后,放回总体中,再做第二次记下它的特征后,放回总体中,再做第二次抽样。这种抽样方式可能会重复抽中某一个抽样。这种抽样方式可能会重复抽中某一个体。非放回式抽样是指:从总体中抽出个体体。非放回式抽样是指:从总体中抽出个体后,不再放回。后,不再放回。不同的抽样方不同的抽样方式得到不同的式得到不同的数据分布数据分布1.2 数据类型及频数(率)分布数据类型及频数(率)分布v 与某种标准作比较所得到的数据称为连续型连续型数据数据(continuous
4、data),又称为度量数据(measurement data)。v由记录不同类别个体的数目所得到的数据,称为离散型数据离散型数据(discrete data),),又称为计数数据(count data)。定量变量(定量变量(quantitative variable):):亦称为数值变亦称为数值变量,变量值是定量的,表现为数值大小,一般有度量,变量值是定量的,表现为数值大小,一般有度量衡单位。量衡单位。e.g.身高、体重。身高、体重。定性变量(定性变量(qualitative variable):):亦称为分类变量,亦称为分类变量,其变量值是定性的,表现某个体属于几种互不相容其变量值是定性的,
5、表现某个体属于几种互不相容的类型中的一种。的类型中的一种。e.g.血型,豌豆花的颜色。血型,豌豆花的颜色。常数(常数(constant):):是不能给予不同数值的变量,代是不能给予不同数值的变量,代表事物特征和性质的数值。表事物特征和性质的数值。e.g.样本平均数,标准差。样本平均数,标准差。根据观察数据之间有无缝隙(根据观察数据之间有无缝隙(gap),常将数据),常将数据分类为分类为离散型(离散型(discrete)变量(有缝隙)变量(有缝隙)与与连续型连续型(continuous)变量(无缝隙)变量(无缝隙)两大类。两大类。v在判断数据的类型之后,就要进一在判断数据的类型之后,就要进一步研
6、究数据的变化规律。描述数据步研究数据的变化规律。描述数据变化规律的最简单方法是将这些数变化规律的最简单方法是将这些数据列成据列成频数表(频数表(frequency table)或或绘成绘成频数图(频数图(frequency graph),根据频数分布进行研究。根据频数分布进行研究。频数(率)表和频数(率)图的编绘频数(率)表和频数(率)图的编绘离散型数据离散型数据频数(率)表频数(率)表和频数(率)图和频数(率)图 编制连续型数据的频数(率)表编制连续型数据的频数(率)表的方法步骤的方法步骤v从原始数据表中从原始数据表中找出最大值和最小值,并求出找出最大值和最小值,并求出极差极差。v决定划分的
7、组数决定划分的组数,分组数是由数据的多少决定,分组数是由数据的多少决定的,在数据较少时,如的,在数据较少时,如50100个数,可以分个数,可以分为为710组。数据较多时,可分为组。数据较多时,可分为1520组。组。v根据极差与决定划分的组数,根据极差与决定划分的组数,确定组限确定组限。v在频数表中在频数表中列出全部列出全部组限组限、组界组界及及中值中值。v将原始数据表中数据,用唱票的方式填入频数将原始数据表中数据,用唱票的方式填入频数表中,表中,计算出各组的频数和频率计算出各组的频数和频率。连续型数据连续型数据频数(率)表频数(率)表和频数(率)图和频数(率)图最低与最高一组非零最低与最高一组
8、非零频数的点分别与相邻频数的点分别与相邻零频数中值点相连零频数中值点相连累计频数图的意义?累计频数图的意义?横坐标与多边形横坐标与多边形图有何差异?图有何差异?累计的意义?累计频数图的意义?累计的意义?累计频数图的意义?研究频数(率)分布的意义研究频数(率)分布的意义1.根据频数(率)分布,可以根据频数(率)分布,可以看出数据的集中看出数据的集中情况(重心)情况(重心)。v平均值(平均值(average value,mean)v算术平均数(算术平均数(arithmetic mean)、中位数)、中位数(median)和众数()和众数(mode)。)。2.从频数(率)表或频数(率)图中,可以直从
9、频数(率)表或频数(率)图中,可以直观地看出观地看出数据的变异情况数据的变异情况。3.可以直观可以直观看出频数(率)图的变化形状看出频数(率)图的变化形状。还。还可显示一些不规则的情况。可显示一些不规则的情况。频数(率)分布的不恒定性频数(率)分布的不恒定性v当用随机抽样方法获得样本时,由于偶然性,当用随机抽样方法获得样本时,由于偶然性,有时在一个样本中抽到的数值偏高,而另一个有时在一个样本中抽到的数值偏高,而另一个样本中数值偏低,使两个样本的频数分布出现样本中数值偏低,使两个样本的频数分布出现不同。由于样本分布的不恒定性,当用样本去不同。由于样本分布的不恒定性,当用样本去推断总体时,推断的结
10、果也会有所不同。这就推断总体时,推断的结果也会有所不同。这就需要考察当用某一样本去推断总体时所得结果需要考察当用某一样本去推断总体时所得结果与真正总体之间有多大与真正总体之间有多大,结果的可信度有,结果的可信度有多高。多高。1.3 样本样本的几个特征数的几个特征数样本统计量样本统计量平均数(平均数(mean)生物统计学中,使用最多的是算术平均数(生物统计学中,使用最多的是算术平均数()。)。x求和符号求和符号3个简单运算法则个简单运算法则b-(a-1)c算数平均数的基本特征算数平均数的基本特征v算术平均数的计算与样本内的每个值都有关算术平均数的计算与样本内的每个值都有关,它的大小受每个值的影响
11、。它的大小受每个值的影响。v若每个若每个xi都都乘乘以相同的数以相同的数k,则平均数亦应,则平均数亦应乘乘以以k。v若每个若每个xi都都加加上相同的数上相同的数A,则平均数亦应,则平均数亦应加加上上A。v如果如果 是是n1个数的平均数,个数的平均数,是是n2个数的平均个数的平均数,那么全部数,那么全部n1 n2个数的算术平均数是个数的算术平均数是加加权平均数(权平均数(weighted mean):平均数的计算方法平均数的计算方法v离散型数据频数资料:离散型数据频数资料:注意记住所注意记住所有字母符号有字母符号的含义的含义例例1.1 新生儿体重新生儿体重作表计算是个好习惯作表计算是个好习惯连续
12、型数据频数资料:连续型数据频数资料:和离散型数据计算和离散型数据计算公式比较,符号有公式比较,符号有何异同何异同怎么才能精确计算?怎么才能精确计算?accurate calculation学习小组任务1、学会使用随机数字表(、学会使用随机数字表(p2和附表和附表1)。)。2、为什么说通过中值计算连续型数据频数资料、为什么说通过中值计算连续型数据频数资料平均数是不精确的,要怎样算才是精确的?平均数是不精确的,要怎样算才是精确的?3、如何理解标准差的作用?标准差公式是怎么、如何理解标准差的作用?标准差公式是怎么推导出来的(可参考推导出来的(可参考1.3.3或课外参考资料)。或课外参考资料)。例1.
13、2“三尺三”株高标准差标准差v 对于数据的对于数据的变异程度变异程度,经常使用的度量方法有三种,经常使用的度量方法有三种,它们是:它们是:范围(范围(range)或称为或称为极差极差,平均离差平均离差(mean deviation,MD)和和标准差(标准差(Standard deviation,s or SD)或称为或称为标准离差标准离差。其中最重要的。其中最重要的是标准差。是标准差。学习小组任务1、学会使用随机数字表(、学会使用随机数字表(p2和附表和附表1)。)。2、为什么说通过中值计算连续型数据频数资料、为什么说通过中值计算连续型数据频数资料是不精确的,要怎样算才是精确的?是不精确的,要
14、怎样算才是精确的?3、如何理解标准差的作用?标准差公式是怎么如何理解标准差的作用?标准差公式是怎么推导出来的(可参考推导出来的(可参考1.3.3或课外参考资料)或课外参考资料)。平均离差(平均离差(mean deviation,MD)表表16中数据的中数据的MD:除得的商称为除得的商称为样本方差(样本方差(sample variance),用符号用符号s2表示。表示。v离差平方和离差平方和(sum of square of deviations)标准差(标准差(s,SD)方差的缺点:方差的缺点:v 方差方差s2是离均差平方的平均数。虽然方是离均差平方的平均数。虽然方差在实际应用中用得最广泛,但
15、它还不差在实际应用中用得最广泛,但它还不能直接地指出某个数能直接地指出某个数x与平均数之间的与平均数之间的偏离究竟达到什么程度。偏离究竟达到什么程度。vs要比要比MD要大要大一些。一些。v如果数据分布曲线是平滑且对称的,如果数据分布曲线是平滑且对称的,那么大约那么大约57的数据落在的数据落在平均数平均数MD内;内;v如果数据分布曲线是平滑且对称的,如果数据分布曲线是平滑且对称的,那么大约那么大约68的数据落在的数据落在平均数平均数s内。内。v 总之,衡量数据离散程度时,三种方法总之,衡量数据离散程度时,三种方法都可以使用。用抽样理论可以证明:用都可以使用。用抽样理论可以证明:用标准差估计总体离
16、散程度最可靠标准差估计总体离散程度最可靠,平均,平均离差次之。离差次之。标准差的计算方法标准差的计算方法1.非频数资料的计算方法非频数资料的计算方法不要求公式推导。不要求公式推导。例例13 从两个小区分别随机抽取从两个小区分别随机抽取20株小麦,测株小麦,测其单穗粒数,结果如下表,计算其标准差。其单穗粒数,结果如下表,计算其标准差。列出下表计算列出下表计算但是若将上述数据进行但是若将上述数据进行编码编码,则可明显看出用(,则可明显看出用(1.12)式计算极为便利。具体做法是任选一个数式计算极为便利。具体做法是任选一个数C,求每一个,求每一个数与数与C的差,利用差值计算离差平方和。结果与未编码的
17、差,利用差值计算离差平方和。结果与未编码所得的值是一样的。所得的值是一样的。C最好选接近平均数的一个数最好选接近平均数的一个数,这,这样编出的数码最容易计算。样编出的数码最容易计算。现仅对例现仅对例1.3中的中的第一个小区进行第一个小区进行计算,取计算,取C25,于是于是xx25。根据(根据(1.12)式)式编码和列表都是好习惯。编码和列表都是好习惯。编码列表了如何编码列表了如何计算平均值?计算平均值?1.频数资料频数资料的计算方法的计算方法v 对于连续型数据,可以用中值代替离散型数对于连续型数据,可以用中值代替离散型数据中的组值做据中的组值做近似近似的计算,但是连续型数据的计算,但是连续型数
18、据中的中值一般都较大,必须编码后再计算。中的中值一般都较大,必须编码后再计算。可用下式:可用下式:偏斜度和峭度偏斜度和峭度v度量数据围绕众数呈不对称的程度,即通常所称的偏斜度(偏斜度(skewness)。虽然有几种不同的度量偏斜的方法。但是鉴于三阶中心矩三阶中心矩(third central moment)的方法有最好的特性,因而使用得最广泛。三阶中心矩的定义为:v 下面用4、11、12和13这四个数示意性地说明三阶中心矩并计算出 m3。从下表中可以看出,当我们将离差立方后,其中有一个负数,它远远超过另外三个正数,其代数和为负数,因此m3v负数说明在平均数左侧的离差大于右侧的离差。因负数说明在
19、平均数左侧的离差大于右侧的离差。因此分布是不对称的。此分布是不对称的。v若频数分布是对称于平均数的,则三阶中心若频数分布是对称于平均数的,则三阶中心矩等于矩等于0。v当曲线在大于平均数的一侧有一个当曲线在大于平均数的一侧有一个“长尾长尾”时(图时(图15A),m3 0;正偏。正偏。v当曲线在小于平均数的一侧有一当曲线在小于平均数的一侧有一“长尾长尾”时时(图(图15B),m3 0。负偏。负偏。m3 0m3 0m3的两个严重缺点的两个严重缺点v(l)它的单位为物理学单位的立方,因此在不同类型数据之间不易比较不易比较。v(2)因为它没有计算数据变异的性质,因此没有一个绝对的含义没有一个绝对的含义。
20、为了解决这一问题,制定了一个没有任何单位的量。g1 0g1 0v第二个度量曲线形状的量是g2,称为峭度峭度(kurtosis)不要求推导不要求推导。了解了解对于频数资料,可用类似计算标准差的方法,对于频数资料,可用类似计算标准差的方法,将中值将中值编码编码后再计算。可以使用以下公式:后再计算。可以使用以下公式:了解了解例例1.2“三尺三三尺三”株高分布的株高分布的g1和和g2。将表。将表1-3中的数据用中的数据用C157编码后,列成下表编码后,列成下表g1和和 g2值与值与“正态正态”曲线的值差异都不大。曲线的值差异都不大。g1-0.105与与正态的正态的0很接近,但稍微有些负偏。很接近,但稍
21、微有些负偏。g20.295略高于正态略高于正态的的0,即曲线的峰略突起。所以两者均可被认为,即曲线的峰略突起。所以两者均可被认为接近接近“正正态态”曲线。曲线。在做曲线形状判断时,必须是一个大的样本,在做曲线形状判断时,必须是一个大的样本,g1 和和 g2 才可靠。才可靠。判断判断g1 时,样本含量至少要时,样本含量至少要200以上,以上,g2需需l000以上。以上。以上各阶矩都是由样本计算得到的,因此称为样本以上各阶矩都是由样本计算得到的,因此称为样本矩(矩(sample moment)。)。变异系数(变异系数(coefficient of variability,CV)v假若两组数据的标准
22、差相等,但是平均数不假若两组数据的标准差相等,但是平均数不等,那么平均数大的样本,比平均数小的样等,那么平均数大的样本,比平均数小的样本相对来说更整齐。本相对来说更整齐。v为了客观地比较两者的变异程度,引入为了客观地比较两者的变异程度,引入变异变异系数(系数(coefficient of variability,CV)这一概这一概念。变异系数的公式为:念。变异系数的公式为:本章作业本章作业v第第3版教材版教材 P201.5(要求通过频数资料计算平均数和标准差要求通过频数资料计算平均数和标准差)1.16(要求列表、编码要求列表、编码)v第第2版教材版教材 P201.12(要求列表、编码要求列表、编码)6.5 6.6学习小组任务1、学会使用随机数字表(、学会使用随机数字表(p2和附表和附表1)。)。2、为什么说通过中值计算连续型数据频数资料、为什么说通过中值计算连续型数据频数资料是不精确的,要怎样算才是精确的?是不精确的,要怎样算才是精确的?3、如何理解标准差的作用?标准差公式是怎么、如何理解标准差的作用?标准差公式是怎么推导出来的(可参考推导出来的(可参考1.3.3或课外参考资料)。或课外参考资料)。