1、BIOSTATISTICS授课教师:王孝安授课教师:王孝安Email: 教教 材:材: 生物统计学生物统计学作作 者:者: 陆建身,赖麟陆建身,赖麟出版社:出版社: 高等教育出版社高等教育出版社ISBN: 7040121972 出版日期出版日期: 2003-07-01 版版 次:次: 第一版第一版PREFACEPREFACE 随着生命科学的发展,作为一门研究生物领随着生命科学的发展,作为一门研究生物领域数量现象的科学域数量现象的科学生物统计学生物统计学,已越来越受,已越来越受到广大生物学工作者的重视。近年来,各地高等到广大生物学工作者的重视。近年来,各地高等院校生命科学学院(生物系)多已将生物
2、统计学院校生命科学学院(生物系)多已将生物统计学列入本科教育计划,而以在职教师为对象的高师列入本科教育计划,而以在职教师为对象的高师“专升本专升本”生物学专业,也已把生物统计学作为生物学专业,也已把生物统计学作为专业基础必修课,以适应教师专业知识更新和提专业基础必修课,以适应教师专业知识更新和提高科研能力的迫切需要。因此,开设一门既能满高科研能力的迫切需要。因此,开设一门既能满足现有生物学专业本科生,又能适合生物教育专足现有生物学专业本科生,又能适合生物教育专业和生物技术专业本科生教学需要的生物统计学业和生物技术专业本科生教学需要的生物统计学课程是十分必要的。课程是十分必要的。 根据本科生培养
3、目标和课程大纲的要求,本根据本科生培养目标和课程大纲的要求,本课程在保证科学性、系统性的基础上,力求简明课程在保证科学性、系统性的基础上,力求简明实用,由浅入深,强调针对性,注重实践性,加实用,由浅入深,强调针对性,注重实践性,加强自学性,突出应用性。遵循生物统计学的学科强自学性,突出应用性。遵循生物统计学的学科特点和教学规律,理论联系实际,同时最大程度特点和教学规律,理论联系实际,同时最大程度地体现时代特征和先进性。地体现时代特征和先进性。 计算机普及和统计软件的问世给生物统计的计算机普及和统计软件的问世给生物统计的应用提供了更大的发展空间和无比的优越性。为应用提供了更大的发展空间和无比的优
4、越性。为此,本课程增加了有关计算机统计的章节,可供此,本课程增加了有关计算机统计的章节,可供大家在掌握相关统计的原理和方法后对照使用。大家在掌握相关统计的原理和方法后对照使用。为了便于自学和复习,每章后有总结和习题。为了便于自学和复习,每章后有总结和习题。 本课程共分为本课程共分为11章,第一章为绪论,第二章,第一章为绪论,第二章主要论述资料整理和描述性统计,第三章讲章主要论述资料整理和描述性统计,第三章讲述概率、随机变量及其分布,第四章着重讨论述概率、随机变量及其分布,第四章着重讨论抽样分布及统计推断原理,第五章是抽样分布及统计推断原理,第五章是 t 检验,检验,第六章为第六章为c c2 检
5、验,第七章讲方差分析,第八章检验,第七章讲方差分析,第八章叙述直线回归与相关,第九章重点讲述非参数叙述直线回归与相关,第九章重点讲述非参数检验,第十章是实验设计,第十一章主要讨论检验,第十章是实验设计,第十一章主要讨论 SPSS 软件在生物统计学中的应用。软件在生物统计学中的应用。INTRODUCTIONINTRODUCTION 生物统计学是应用数理统计的原理和方法来生物统计学是应用数理统计的原理和方法来分析和解释生物界数量现象的科学,也可以说是分析和解释生物界数量现象的科学,也可以说是一个分支,属于生物数学的范畴,生物统计是数一个分支,属于生物数学的范畴,生物统计是数理统计在生物学研究中的应
6、用,它是应用数学由理统计在生物学研究中的应用,它是应用数学由于紧密结合生物学科研和生物学教育,加上近年于紧密结合生物学科研和生物学教育,加上近年来计算机统计软件的支持,目前已被广泛地应用来计算机统计软件的支持,目前已被广泛地应用于生命科学的各个领域,并获得了迅速的发展。于生命科学的各个领域,并获得了迅速的发展。第一节第一节 生物统计学概述生物统计学概述 生物统计学的研究内容包括统计原理、统计方法生物统计学的研究内容包括统计原理、统计方法和试验设计。统计原理阐述统计理论和有关公式,以和试验设计。统计原理阐述统计理论和有关公式,以满足统计方法的需要。统计方法的应用,旨在对客观满足统计方法的需要。统
7、计方法的应用,旨在对客观事物得出本质的和规律性的认识。试验设计是试验工事物得出本质的和规律性的认识。试验设计是试验工作前应用统计原理,制定科学的试验方案和方法。作前应用统计原理,制定科学的试验方案和方法。 人们在从事科学研究时,总是通过事物的一部分人们在从事科学研究时,总是通过事物的一部分(样本),来估计事物全体(总体)的性质特征,即(样本),来估计事物全体(总体)的性质特征,即由样本推断总体,从特殊推导一般,从而对所研究的由样本推断总体,从特殊推导一般,从而对所研究的总体得出正确的结论。在生物学研究中,我们期望知总体得出正确的结论。在生物学研究中,我们期望知道的是总体,而不是样本。可是在实际
8、问题的调查和道的是总体,而不是样本。可是在实际问题的调查和试验中,我们所得到的却只是样本的资料。试验中,我们所得到的却只是样本的资料。生物统计生物统计学从本质来看,实际上是研究如何从样本推断总体的学从本质来看,实际上是研究如何从样本推断总体的一门科学一门科学。 生物统计学所研究的对象是有变异的总体,即使生物统计学所研究的对象是有变异的总体,即使在同质的对象中往往也会存在差异。例如,同一组小在同质的对象中往往也会存在差异。例如,同一组小鼠,即使品种、性别、年龄相同的个体,它们的体重、鼠,即使品种、性别、年龄相同的个体,它们的体重、尾长和各种生理指标的数值都会有所不同;同一栏的尾长和各种生理指标的
9、数值都会有所不同;同一栏的猪,由于吃了腐烂的饲料而发生肠胃炎,病情的轻重猪,由于吃了腐烂的饲料而发生肠胃炎,病情的轻重也有所不同;对病情相同的病畜,用同一药物治疗,也有所不同;对病情相同的病畜,用同一药物治疗,有的治愈,有的没有治愈,治愈的病例其病程也有短有的治愈,有的没有治愈,治愈的病例其病程也有短有长,不一而论。这些都是普遍存在的变异是实例。有长,不一而论。这些都是普遍存在的变异是实例。如何认识和了解这种有变异的总体,是生物统计学的如何认识和了解这种有变异的总体,是生物统计学的基本任务之一基本任务之一。 由于事物都是相互联系的,统计不能孤立地研究由于事物都是相互联系的,统计不能孤立地研究各
10、种现象,而必须通过一定数量的观察,各种现象,而必须通过一定数量的观察,从这些观察从这些观察结果中研究事物间的相互关系,揭示事物客观存在的结果中研究事物间的相互关系,揭示事物客观存在的规律性,这也是生物统计学的重要任务之一规律性,这也是生物统计学的重要任务之一。 试验研究工作开展前进行试验设计,制订试试验研究工作开展前进行试验设计,制订试验方案,选择试验动物,合理分组,可利用较少验方案,选择试验动物,合理分组,可利用较少的人力、物力和时间,获得更多更可靠的信息资的人力、物力和时间,获得更多更可靠的信息资料,从而得出科学的结论。生物统计与试验设计料,从而得出科学的结论。生物统计与试验设计是不可分割
11、的两部分。是不可分割的两部分。试验设计试验设计需要以统计的原需要以统计的原理和方法为基础,而正确设计的试验又为统计方理和方法为基础,而正确设计的试验又为统计方法提供丰富可靠的信息法提供丰富可靠的信息,两者紧密结合才能推断,两者紧密结合才能推断出较为客观的结论,从而不断推进生物科学研究出较为客观的结论,从而不断推进生物科学研究的发展。的发展。第二节第二节 生物统计的功用生物统计的功用 现代生物统计学已在生命科学研究、生产实践和生物现代生物统计学已在生命科学研究、生产实践和生物教育领域中得到了极为广泛的应用。其基本功用有:教育领域中得到了极为广泛的应用。其基本功用有:一、科学地整理分析数据一、科学
12、地整理分析数据 做任何工作,都必须掌握基本情况,做到胸中有数,做任何工作,都必须掌握基本情况,做到胸中有数,才能有的放矢,从而提高工作质量。进行生物科学研究工才能有的放矢,从而提高工作质量。进行生物科学研究工作更不例外,必须有计划地收集资料并进行合理的统计分作更不例外,必须有计划地收集资料并进行合理的统计分析,通过调查所得的数据,经过加工整理,从中归纳出事析,通过调查所得的数据,经过加工整理,从中归纳出事物的内在规律性,用以指导实践。例如,调查某母鸡品种物的内在规律性,用以指导实践。例如,调查某母鸡品种的产蛋数,可以得到不同季节、不同年龄、不同个体、不的产蛋数,可以得到不同季节、不同年龄、不同
13、个体、不同产蛋数的大量原始数据。这些杂乱的数据开始时难以看同产蛋数的大量原始数据。这些杂乱的数据开始时难以看出什么规律性,若运用生物统计方法对这些数据进行加工出什么规律性,若运用生物统计方法对这些数据进行加工整理,使之条理化,即可大体了解不同季节、不同年龄、整理,使之条理化,即可大体了解不同季节、不同年龄、不同母鸡产蛋数的一般情况及其变异特征,得到母鸡在什不同母鸡产蛋数的一般情况及其变异特征,得到母鸡在什么季节产蛋数最高,什么年龄产蛋数开始下降,以及母鸡么季节产蛋数最高,什么年龄产蛋数开始下降,以及母鸡适宜的利用年限等很多有用的信息。适宜的利用年限等很多有用的信息。 二、判断试验结果的可靠性和
14、有效性二、判断试验结果的可靠性和有效性 由于存在试验误差,从试验所得的数据资料由于存在试验误差,从试验所得的数据资料必须借助于统计分析方法才能获得可靠的结论。必须借助于统计分析方法才能获得可靠的结论。例如,某试验农场要研究两种饲料对肉用仔鸡增例如,某试验农场要研究两种饲料对肉用仔鸡增重及饲料报酬的影响,选择同品种及体重接近的重及饲料报酬的影响,选择同品种及体重接近的500 只肉用雏鸡,半数饲以甲种饲料,半数饲以只肉用雏鸡,半数饲以甲种饲料,半数饲以乙种饲料,乙种饲料,8 周龄后称重并计算饲料消耗,分析周龄后称重并计算饲料消耗,分析比较这些资料,从中得出结论。这就要运用统计比较这些资料,从中得出
15、结论。这就要运用统计分析方法,以决定这两群鸡体重与饲料消耗的差分析方法,以决定这两群鸡体重与饲料消耗的差异,究竟是属本质的,还是属机遇的,即判断是异,究竟是属本质的,还是属机遇的,即判断是由于不同饲料造成的,还是由于其他未经控制的由于不同饲料造成的,还是由于其他未经控制的偶然因素所引起的,统计分析之后才能得出比较偶然因素所引起的,统计分析之后才能得出比较正确的结论。正确的结论。 三、确定事物之间的相互关系三、确定事物之间的相互关系 科学实验的目的,不仅是研究事物的特征、科学实验的目的,不仅是研究事物的特征、特性,同时还要研究事物间的相互关系的联系形特性,同时还要研究事物间的相互关系的联系形式。
16、例如,测定某群奶牛第一胎的产乳量和它以式。例如,测定某群奶牛第一胎的产乳量和它以后几胎的产乳量之间的相关关系,就可以根据第后几胎的产乳量之间的相关关系,就可以根据第一胎产乳量的高低来推断它终生的产乳量,这样一胎产乳量的高低来推断它终生的产乳量,这样,就为早期选择和淘汰低产乳牛提供科学预见。又就为早期选择和淘汰低产乳牛提供科学预见。又如青少年近视的形成受很多因素的影响,查明这如青少年近视的形成受很多因素的影响,查明这些因素对降低青少年近视的发病率有很积极的意些因素对降低青少年近视的发病率有很积极的意义。这种研究事物之间的联系形式以及相关程度义。这种研究事物之间的联系形式以及相关程度的方法是生物统
17、计的一个重要部分。的方法是生物统计的一个重要部分。 四、提供试验设计的原则四、提供试验设计的原则 做任何调查或试验工作,事先必须有周密的做任何调查或试验工作,事先必须有周密的计划和合理的试验设计,它是决定科研工作成效计划和合理的试验设计,它是决定科研工作成效的一个重要的环节。一个好的试验设计,可以用的一个重要的环节。一个好的试验设计,可以用较少的人力、物力和时间,最大限度地获得丰富较少的人力、物力和时间,最大限度地获得丰富而可靠的资料,尽量降低试验误差,从试验所得而可靠的资料,尽量降低试验误差,从试验所得的数据中能够无偏地估计处理效应和试验误差的的数据中能够无偏地估计处理效应和试验误差的估值,
18、以便从中得出正确的结论。相反,设计不估值,以便从中得出正确的结论。相反,设计不周,不仅不能得到正确的试验结果,而且还会带周,不仅不能得到正确的试验结果,而且还会带来经济上和其他方面的损失。来经济上和其他方面的损失。 五、为学习相关学科提供基础五、为学习相关学科提供基础 要学好遗传学、生态学、生理学和细胞生物学等要学好遗传学、生态学、生理学和细胞生物学等学科,也必须学好生物统计。比如,数量遗传学就是学科,也必须学好生物统计。比如,数量遗传学就是应用生物统计方法研究数量性状遗传与变异规律的一应用生物统计方法研究数量性状遗传与变异规律的一门学科。如果不懂得生物统计,也就无法掌握遗传学。门学科。如果不
19、懂得生物统计,也就无法掌握遗传学。此外,阅读生物科技文献也会碰到统计分析问题,也此外,阅读生物科技文献也会碰到统计分析问题,也必须有生物统计的基础知识。因此,生物科学工作者必须有生物统计的基础知识。因此,生物科学工作者都必须学习和掌握统计方法,才能正确认识客观事物都必须学习和掌握统计方法,才能正确认识客观事物存在的规律,提高工作质量。存在的规律,提高工作质量。 总之,生物统计是一种很有用的工具,正确使用总之,生物统计是一种很有用的工具,正确使用这一工具可以使生物科学研究更加有效,使生产效益这一工具可以使生物科学研究更加有效,使生产效益提高,使生物教育效果更好。所以,提高,使生物教育效果更好。所
20、以,它是每位从事生它是每位从事生物科学研究和生物学教育的工作者必须掌握的基本工物科学研究和生物学教育的工作者必须掌握的基本工具具。第三节第三节 学习生物统计的方法和要求学习生物统计的方法和要求 生物统计学使数学与生物学相结合的一门边缘学生物统计学使数学与生物学相结合的一门边缘学科,与生物学的其他学科具有很大的不同,它所包含科,与生物学的其他学科具有很大的不同,它所包含的公式很多,在性质上属于生物学领域内的应用数学。的公式很多,在性质上属于生物学领域内的应用数学。因此,在学习中首先要弄懂统计的基本原理和基本公因此,在学习中首先要弄懂统计的基本原理和基本公式,要理解每一公式的含义和应用条件,但一般
21、可不式,要理解每一公式的含义和应用条件,但一般可不必究其数学推导、证明和数学原理。必究其数学推导、证明和数学原理。 其次,作为一门工具课,必须认真做好习题和作其次,作为一门工具课,必须认真做好习题和作业,加深对公式及统计步骤的理解。只有通过一定数业,加深对公式及统计步骤的理解。只有通过一定数量的实践和练习(没有其他途径可走),并能熟练使量的实践和练习(没有其他途径可走),并能熟练使用计算机的处理操作,才能达到熟练应用生物统计方用计算机的处理操作,才能达到熟练应用生物统计方法的目的。法的目的。 其三,应注意培养科学的统计思维方法。生其三,应注意培养科学的统计思维方法。生物统计意味着一种全新的思考
22、方法,从不肯定性物统计意味着一种全新的思考方法,从不肯定性或概率的角度来思考问题和分析科学试验的结果或概率的角度来思考问题和分析科学试验的结果,避免绝对肯定或绝对否定的武断结论,或单凭感避免绝对肯定或绝对否定的武断结论,或单凭感觉不作检验的简单判断。觉不作检验的简单判断。 其四,必须联系实际,结合专业,了解生物其四,必须联系实际,结合专业,了解生物统计方法的实际应用。平时要留意国内外书籍和统计方法的实际应用。平时要留意国内外书籍和杂志文献中的表格、数据及其分析和解释,熟悉杂志文献中的表格、数据及其分析和解释,熟悉规范的表达方法及其应用。规范的表达方法及其应用。第四节第四节 生物统计学的主要内容
23、生物统计学的主要内容 生物统计学从统计方法的主要内容来讲,大致可分为生物统计学从统计方法的主要内容来讲,大致可分为以下三个方面。以下三个方面。 一、描述性统计一、描述性统计 描述性统计实际上就是对原始资料进行整理并作基本描述性统计实际上就是对原始资料进行整理并作基本分析。分析。 生物统计的基本特点,是以样本推断总体。如果在大生物统计的基本特点,是以样本推断总体。如果在大样本情况下,就需要通过统计资料初步整理之后,再从资样本情况下,就需要通过统计资料初步整理之后,再从资料中计算出三个主要的统计量,即平均数、标准差及标准料中计算出三个主要的统计量,即平均数、标准差及标准误。以用来根据样本推断总体的
24、特征,误。以用来根据样本推断总体的特征,一一是资料的集中性是资料的集中性,以平均数来表示;以平均数来表示;二二是资料的离中性,以标准差来表示;是资料的离中性,以标准差来表示;三三是衡量平均数的可靠性,用标准误来表示是衡量平均数的可靠性,用标准误来表示。 二、显著性检验(又称假设检验)二、显著性检验(又称假设检验) 1. 平均数间差异的比较平均数间差异的比较 在进行生物科学研究工作中,经常会遇到两组或两在进行生物科学研究工作中,经常会遇到两组或两组以上数据的平均数。它们之间进行比较,就是一个有组以上数据的平均数。它们之间进行比较,就是一个有无显著差异的问题或者说孰优孰劣的问题。平均数之间无显著差
25、异的问题或者说孰优孰劣的问题。平均数之间的比较,需要通过一定的统计方法,并且要注意抽样是的比较,需要通过一定的统计方法,并且要注意抽样是否合理,否则它们将没有比较的基础。例如,有两批孵否合理,否则它们将没有比较的基础。例如,有两批孵化期不同的两个月龄雏鸡的体重,甲组(化期不同的两个月龄雏鸡的体重,甲组(3月月8日出壳)日出壳)共共 61 只,平均体重只,平均体重 269.3 g,乙组(,乙组(4月月5日出壳)共日出壳)共 73只,平均体重只,平均体重275.6 g,试问这两批不同孵化时间,雏鸡,试问这两批不同孵化时间,雏鸡平均体重之间的差异是由于不同孵化时期所造成,还是平均体重之间的差异是由于
26、不同孵化时期所造成,还是由于其他偶然因素所引起?这就需要应用平均数差异显由于其他偶然因素所引起?这就需要应用平均数差异显著性检验的统计分析方法,才能作出较可靠的判断,不著性检验的统计分析方法,才能作出较可靠的判断,不致被某些偶然性因素所蒙蔽。致被某些偶然性因素所蒙蔽。 2. 属性资料的检验属性资料的检验 生物学领域中有许多性状不能直接用测量的生物学领域中有许多性状不能直接用测量的方法加以衡量,一般称之为属性性状。例如,花方法加以衡量,一般称之为属性性状。例如,花的颜色、性别中的雌雄,以及药物试验的治愈或的颜色、性别中的雌雄,以及药物试验的治愈或无效等等,均可以应用属性统计的方法,通过对无效等等
27、,均可以应用属性统计的方法,通过对具有相同属性的计数来分析,具有相同属性的计数来分析, 检验是最常用的检验是最常用的属性资料的检验方法。属性资料的检验方法。 3. 方差分析方差分析 方差分析又名变异量分析,其方差分析又名变异量分析,其目的主要是为目的主要是为了进行多个平均数间的比较了进行多个平均数间的比较。它的原理是应用数。它的原理是应用数学方法,把试验中总变异剖分为由不同变异原因学方法,把试验中总变异剖分为由不同变异原因所形成的各种变异并进行显著性检验与多重比较。所形成的各种变异并进行显著性检验与多重比较。2c 三、相关与回归三、相关与回归 研究变量之间相互关系的密切程度研究变量之间相互关系
28、的密切程度,称为,称为相相关关,以相似系数来表达。例如,人的身高与体重,以相似系数来表达。例如,人的身高与体重存在着一定程度的相关。一般身高越高,其体重存在着一定程度的相关。一般身高越高,其体重可能越大。相关系数可用来表示两者间的相关程可能越大。相关系数可用来表示两者间的相关程度。度。 回归回归是指两个或两个以上的变量存在着从属是指两个或两个以上的变量存在着从属关系,即一个变量(关系,即一个变量(x)变化时,引起另一个变量)变化时,引起另一个变量(y)的相应变化的估计)的相应变化的估计。它们的从属关系可以用。它们的从属关系可以用回归分析的方法进行研究,根据实际数据建立的回归分析的方法进行研究,
29、根据实际数据建立的关系式称为回归方程式,用以对某些指标进行预关系式称为回归方程式,用以对某些指标进行预测和预报。例如,用胸围、体长来估计体重,或测和预报。例如,用胸围、体长来估计体重,或根据亲代生产力预测、预报后代的育种值等。根据亲代生产力预测、预报后代的育种值等。 四、试验设计四、试验设计 本课程的另一个任务是讨论试验设计的原理本课程的另一个任务是讨论试验设计的原理和方法。所谓和方法。所谓试验设计试验设计,主要是指如何选择试验主要是指如何选择试验动物,进行合理的分组和安排实验等,其目的是动物,进行合理的分组和安排实验等,其目的是为了尽量减少和控制实验误差,并对实验误差作为了尽量减少和控制实验
30、误差,并对实验误差作出无偏的估计出无偏的估计。主要的设计方法有:。主要的设计方法有:完全随机完全随机设计;设计;配对设计;配对设计;随机单位组设计;随机单位组设计;拉丁拉丁方设计;方设计;正交设计等。正交设计等。为了使试验结果成为有为了使试验结果成为有用而可靠的科学资料,在开始试验前,认真地进用而可靠的科学资料,在开始试验前,认真地进行试验设计是非常必要的行试验设计是非常必要的。第五章第五章 生物统计学的发展概况生物统计学的发展概况 生物统计是一门比较年轻的学科。生物统计是一门比较年轻的学科。1870年,英国年,英国遗传学家高尔顿(遗传学家高尔顿(F. Galton,18221911)通过研究
31、)通过研究人类身高的遗传,认为子女的身高与父母的身高有着人类身高的遗传,认为子女的身高与父母的身高有着直接的关系,发现子女的身高与他们父母的平均身高直接的关系,发现子女的身高与他们父母的平均身高有着回归的趋势。有着回归的趋势。1889年,他发表了回归分析方法在年,他发表了回归分析方法在遗传学上应用的论文。这就是在数理统计中,回归这遗传学上应用的论文。这就是在数理统计中,回归这个术语的由来,因而后人推崇他为生物统计学的创始个术语的由来,因而后人推崇他为生物统计学的创始人。人。 正态分布对研究生物统计的理论具有十分重要的正态分布对研究生物统计的理论具有十分重要的意义,它早在意义,它早在 1733
32、年就被棣莫弗(年就被棣莫弗(De-Moivre)发现,)发现,而被后来的高斯(而被后来的高斯(Gauss)所完成,因此,有人称它)所完成,因此,有人称它为高斯分布。为高斯分布。 皮尔逊(皮尔逊(K. Pearson,18571936)是一位物理学家,)是一位物理学家,他为将数学应应用于生物学作了半个多世纪的努力他为将数学应应用于生物学作了半个多世纪的努力,并创并创立了立了生物统计学报生物统计学报(Biometrics),对促进生物统计),对促进生物统计学的发展作出了重要的贡献。学的发展作出了重要的贡献。1899年他提出了一个测量年他提出了一个测量实际数与预计数(或理论数)之间的偏离度的指数卡方
33、实际数与预计数(或理论数)之间的偏离度的指数卡方( ),在属性统计分析上有着广泛的应用。这种统计),在属性统计分析上有着广泛的应用。这种统计方法被同时代的孟德尔所掌握,成功地应用于豌豆杂交方法被同时代的孟德尔所掌握,成功地应用于豌豆杂交遗传学试验中,高豌豆品种与矮豌豆品种杂交之后遗传学试验中,高豌豆品种与矮豌豆品种杂交之后,子一子一代均为高豌豆,高株性状属于显性,而矮株属于隐性,代均为高豌豆,高株性状属于显性,而矮株属于隐性,当子一代自交时,它的后代预计有高当子一代自交时,它的后代预计有高3:矮矮1,但实际后代,但实际后代数是否符合数是否符合 3:1 规律,就需要用规律,就需要用 进行检验。这
34、种方法在进行检验。这种方法在遗传学科研方面至今还在广泛应用着。遗传学科研方面至今还在广泛应用着。 2c2c 戈塞特(戈塞特(W. S. Gosset, 18761937)是)是 K. 皮尔逊的学皮尔逊的学生,他对样本标准差等分布作了不少研究工作,并且于生,他对样本标准差等分布作了不少研究工作,并且于1908 年用年用“学生氏学生氏”的笔名将的笔名将t 检验检验发表于发表于生物统生物统计学报计学报。t 检验已成为当代生物统计工作的基本工具之检验已成为当代生物统计工作的基本工具之一。一。 1923年英国的费希尔(年英国的费希尔(R. A. Fisher)第一个把变异来)第一个把变异来源不同的方差(
35、源不同的方差(S2)比值称为)比值称为F值,当值,当F值大于理论上值大于理论上5%概率水准的概率水准的F值时,该项变异来源的必然性效应就从偶然值时,该项变异来源的必然性效应就从偶然性变量中分析了出来。这个分析方法被称为方差分析。在性变量中分析了出来。这个分析方法被称为方差分析。在生物统计中,方差分析应用相当广泛,特别是在他发表了生物统计中,方差分析应用相当广泛,特别是在他发表了试验研究工作中的统计方法试验研究工作中的统计方法的专著后,对推动和促进的专著后,对推动和促进农业科学、生物学和遗传学的研究和发展,起了一定的奠农业科学、生物学和遗传学的研究和发展,起了一定的奠基作用。基作用。 奈曼(奈曼
36、(J. Neyman)和)和 E. S. 皮尔逊分别在皮尔逊分别在 1936 年和年和1938年提出统计假设检验学说,对促进理论研究以及对试年提出统计假设检验学说,对促进理论研究以及对试验研究作出结论具有很大的使用价值。验研究作出结论具有很大的使用价值。 试验设计是在试验设计是在20世纪初提出来的一种科研思路,世纪初提出来的一种科研思路,30年年代应用于农业科学实验,并使代应用于农业科学实验,并使“试验技术试验技术”称为一门专门称为一门专门学科,以后扩大应用于生物学、医学和工业领域。学科,以后扩大应用于生物学、医学和工业领域。70年代年代提出的多因素试验的正交试验法,在工农业的实验研究中提出的
37、多因素试验的正交试验法,在工农业的实验研究中也相继获得了可喜的成果。近年来,回归分析方法在工农也相继获得了可喜的成果。近年来,回归分析方法在工农业生产和科学实验中大量应用,如在进行数据处理时,寻业生产和科学实验中大量应用,如在进行数据处理时,寻求经验公式,探究新工艺、新配方,以及某些性状的预测求经验公式,探究新工艺、新配方,以及某些性状的预测预报,都积累了不少新经验,获得了许多新成果,特别是预报,都积累了不少新经验,获得了许多新成果,特别是正交试验、回归试验设计是一个新的研究方向。计算机的正交试验、回归试验设计是一个新的研究方向。计算机的广泛使用,使运算技术出现了一次革命,尤其是国际上出广泛使
38、用,使运算技术出现了一次革命,尤其是国际上出现了现了SAS、SPSS等大型统计软件以后,生物统计变得日益等大型统计软件以后,生物统计变得日益精确和迅速,从而进一步推动了生命科学研究向纵深发展。精确和迅速,从而进一步推动了生命科学研究向纵深发展。第六章第六章 常用统计术语常用统计术语 一、总体与样本一、总体与样本 根据研究目的确定的、符合制定条件的全部根据研究目的确定的、符合制定条件的全部观察对象称为观察对象称为总体总体。构成总体的每一个单元,称。构成总体的每一个单元,称为该总体的个体。为该总体的个体。 例如,研究上海市例如,研究上海市16岁男中学生的身高,那岁男中学生的身高,那么,凡是上海市么
39、,凡是上海市16岁的男中学生,他们的身高构岁的男中学生,他们的身高构成一个总体,而每一个身高测量值则是一个个体。成一个总体,而每一个身高测量值则是一个个体。总体可以分为有限总体与无限总体两种。个体有总体可以分为有限总体与无限总体两种。个体有限的总体称为限的总体称为有限总体有限总体,个体数无限的总体称为,个体数无限的总体称为无限总体无限总体。 从总体中抽取的一部分个体则构成从总体中抽取的一部分个体则构成样本样本。样本中所含。样本中所含个体的数目叫做个体的数目叫做样本容量样本容量,常以,常以n表示。由于样本容量不表示。由于样本容量不同,一般又分大样本(例如样本容量同,一般又分大样本(例如样本容量n
40、30)和小样本(样)和小样本(样本容量本容量n30)。样本是总体的缩影,因此它应该能反映总)。样本是总体的缩影,因此它应该能反映总体的特征和特性,但它毕竟只是总体的一部分个体,因此体的特征和特性,但它毕竟只是总体的一部分个体,因此和总体的真实情况又有所出入。和总体的真实情况又有所出入。统计分析的核心统计分析的核心在于由样在于由样本的信息推断总体的信息本的信息推断总体的信息。因此,获得样本仅是一种手段。因此,获得样本仅是一种手段,而推断总体才是真正的目的。而推断总体才是真正的目的。 例如,用某种新药治疗感冒例如,用某种新药治疗感冒 100 例,有效例,有效 80例,即有例,即有效率效率 80%。
41、但我们所观察到的只是含量为。但我们所观察到的只是含量为100的一个样本的一个样本,如果用这种新药治疗其他感冒患者,是否也会获得同样的如果用这种新药治疗其他感冒患者,是否也会获得同样的效果呢?这就需要以样本的疗效来估测总体的疗效。效果呢?这就需要以样本的疗效来估测总体的疗效。如何如何让正确地从样本来推断总体,这是统计所要解决的问题让正确地从样本来推断总体,这是统计所要解决的问题。 二、随机抽样与随机样本二、随机抽样与随机样本 所谓所谓随机抽样随机抽样是指抽样时,不掺杂人们的主观愿望,是指抽样时,不掺杂人们的主观愿望,总体中每个个体被抽取的机会均等总体中每个个体被抽取的机会均等。用随机抽样而得的样
42、。用随机抽样而得的样本称为本称为随机样本随机样本。一个总体所含的个体数目往往很多,甚。一个总体所含的个体数目往往很多,甚至无穷,以致不可能一一加以考察。例如,我们研究羊毛至无穷,以致不可能一一加以考察。例如,我们研究羊毛细度这个总体,它的个体数目多得数不清,无法一一加以细度这个总体,它的个体数目多得数不清,无法一一加以测定。有的时候,数据的测定是破坏性的,如研究猪的屠测定。有的时候,数据的测定是破坏性的,如研究猪的屠宰率、瘦肉率,测定一次就要杀掉一头。因此,即使个体宰率、瘦肉率,测定一次就要杀掉一头。因此,即使个体的数目不多的有限总体,也不允许全部加以考察,我们只的数目不多的有限总体,也不允许
43、全部加以考察,我们只能通过样本来了解总体。同样的,在动物实验中,把动物能通过样本来了解总体。同样的,在动物实验中,把动物分为几组,也必须用随机方法使每个动物有同等的机会被分为几组,也必须用随机方法使每个动物有同等的机会被分配到各组去,这样就不至于人为地造成各组间动物的不分配到各组去,这样就不至于人为地造成各组间动物的不同。随机抽样的方法很多,其中最常见的是抽签和采用随同。随机抽样的方法很多,其中最常见的是抽签和采用随机数字表。机数字表。 三、变数与变异数列三、变数与变异数列 统计学上把一个观察值称为统计学上把一个观察值称为变数变数。把所有变数整理成为一。把所有变数整理成为一个由小到大的序列,称
44、为个由小到大的序列,称为变异数列变异数列。常数表示能代表事物特征。常数表示能代表事物特征和性质的数值,通常由变数计算而来,在一定过程中是不变的和性质的数值,通常由变数计算而来,在一定过程中是不变的,如某样本平均数、标准差、变异系数等。如某样本平均数、标准差、变异系数等。 四、参数与统计量四、参数与统计量 从总体中计算所得到的特征数值,如总体平均数、总体标从总体中计算所得到的特征数值,如总体平均数、总体标准差称为准差称为参数参数;而从样本中计算所得的特征数值称为;而从样本中计算所得的特征数值称为统计量统计量,它是总体参数的估计值。它是总体参数的估计值。 在从事生物学研究时,往往是通过某事物的一部
45、分(样在从事生物学研究时,往往是通过某事物的一部分(样本),来估计事物全体(总体)的特征的,目的是为了由样本本),来估计事物全体(总体)的特征的,目的是为了由样本推断总体,从特殊推导一般,对所研究的总体作出合乎逻辑的推断总体,从特殊推导一般,对所研究的总体作出合乎逻辑的推论,得到对客观事物本质和规律性的认识。实际研究过程中推论,得到对客观事物本质和规律性的认识。实际研究过程中,由于资料庞大,常常不可能全部观察记载,而只能采用抽样的由于资料庞大,常常不可能全部观察记载,而只能采用抽样的方法,计算样本的统计量。用样本的统计量,来估计总体的参方法,计算样本的统计量。用样本的统计量,来估计总体的参数。
46、数。 五、机误与错误五、机误与错误 由样本推断总体,往往不可避免地会产生一由样本推断总体,往往不可避免地会产生一部分误差,这一部分误差是由各种无法控制的随部分误差,这一部分误差是由各种无法控制的随机因素所引起的,我们把它叫做机因素所引起的,我们把它叫做机误机误或或试验误差试验误差。机误是试验中由于无法控制的随机因素所一起的机误是试验中由于无法控制的随机因素所一起的差异,它是不可避免的,试验中只能设法减少,差异,它是不可避免的,试验中只能设法减少,而不能完全消灭。增加抽样或试验次数,可以降而不能完全消灭。增加抽样或试验次数,可以降低机误的数值。低机误的数值。 错误错误是指在试验过程中,人们的作用
47、所引起是指在试验过程中,人们的作用所引起的差错。如试验人员粗心大意,使仪器校正不准、的差错。如试验人员粗心大意,使仪器校正不准、药品配制比例不当、称量不准确、将数据抄错、药品配制比例不当、称量不准确、将数据抄错、计算出现错误等都是由于人为因素造成的,在试计算出现错误等都是由于人为因素造成的,在试验中是完全可以避免的。验中是完全可以避免的。 六、效应与互作六、效应与互作 引起试验差异的作用称为引起试验差异的作用称为效应效应,如不同饲料,如不同饲料使动物的体重增加表现出差异,不同品种的玉米使动物的体重增加表现出差异,不同品种的玉米产量不同等。产量不同等。互作互作也称也称连应连应,是指两个或两个以,
48、是指两个或两个以上处理因素间的相互作用产生的效应,如氮、磷上处理因素间的相互作用产生的效应,如氮、磷肥并施会对作物产量产生互作效应。互作有正效肥并施会对作物产量产生互作效应。互作有正效应,也有负效应,如果氮、磷共施的产量效应大应,也有负效应,如果氮、磷共施的产量效应大于氮、磷单施效应之和,说明氮磷互作为于氮、磷单施效应之和,说明氮磷互作为正效应正效应,如果氮、磷共施的产量效应小于氮、磷单施效应如果氮、磷共施的产量效应小于氮、磷单施效应之和,说明氮磷互作为之和,说明氮磷互作为负效应负效应。 七、准确性与精确性七、准确性与精确性 统计工作是用样本的统计数来推断总体的参数。我们统计工作是用样本的统计
49、数来推断总体的参数。我们用统计数接近参数值的程度,来衡量统计数用统计数接近参数值的程度,来衡量统计数“准确性准确性”的的高低;用样本中各个变数间变异程度的大小,来衡量该样高低;用样本中各个变数间变异程度的大小,来衡量该样本本“精确性精确性”的高低。因此,准确性就不等于精确性。的高低。因此,准确性就不等于精确性。准准确性确性是说明测定值对真值的符合程度大小是说明测定值对真值的符合程度大小,而,而精确性精确性却却是是多次测定值的变异程度多次测定值的变异程度。 生物统计学是建立在生物学和统计学(或数学)两个生物统计学是建立在生物学和统计学(或数学)两个基础上的学科,如果生物学本身的理论建立在不充分的
50、基基础上的学科,如果生物学本身的理论建立在不充分的基础上,即使再准确地计算也毫无意义;反之,正确的理论础上,即使再准确地计算也毫无意义;反之,正确的理论也会由于不精确的计算而导致错误的结论。可靠的判断方也会由于不精确的计算而导致错误的结论。可靠的判断方法是通过实践来检验的。因此,在科学研究中,在做出结法是通过实践来检验的。因此,在科学研究中,在做出结论之后,也还必须再回到实践中加以验证。论之后,也还必须再回到实践中加以验证。本章小结本章小结 生物统计学是应用数理统计的原理和方法来分析和解生物统计学是应用数理统计的原理和方法来分析和解释生物界数量现象的科学。生物统计学的研究内容包括统释生物界数量