1、第一章统计数据收集与整理1第一节 总体与样本1.什么是生物统计学?2.生物统计学的一些重要术语3.本课程的主线21.什么是生物统计学 生物统计学生物统计学(Biostatistics)是数理统计学的原理和方法在生物科学研究中的应用,是用统计学方法分析和解释生物界各种现象与数量资料的一门学科 生物统计学本质上是一门应用数学。1,不要怕,本课程比较基础,不涉及太多的微积分和线性代数的内容2,练习的重要性3 生物统计学的主要研究内容研究内容:(1)如何根据生物学研究的目的合理地调查或进行试验设计(2)如何科学地整理、分析所收集来的资料42.生物统计学的一些重要术语2.1 总体与样本总体与样本(Pop
2、ulation and Sample)这是统计学最基本的两个概念,十分重要 总体:总体:根据研究目的所确定的研究的全体对象。构成总体的每个成员称为个体。总体总体有限总体有限总体:无限总体无限总体:例如研究南京大学本科生的平均身高时,总体是所例如研究南京大学本科生的平均身高时,总体是所有南京大学本科生身高的观测值构成的全体有南京大学本科生身高的观测值构成的全体例如在研究某种条件下生长的小麦的株高时,总体例如在研究某种条件下生长的小麦的株高时,总体是所有这种条件下生长的小麦株高观测值构成的全是所有这种条件下生长的小麦株高观测值构成的全体。因为无法统计这种条件下生长的小麦的数量,体。因为无法统计这种
3、条件下生长的小麦的数量,可以设想这一总体是无限的。可以设想这一总体是无限的。5总体的两个特征:(1)个体间有变异性(不齐性)(2)总体的容量一般较大,对总体的每个成员进行调查(普查)耗时耗力,不切实际。6总体的这两个特征给科学研究带来了难度。如何克服?解决办法:采用随机抽样随机抽样的办法。通过从总体中随机抽样获得一定数量的样本,然后通过对样本的分析来推断原始总体的情况。样本:样本:总体的一部分。样本内包含的个体的数目称为样本容量(Sample Size)。样本容量常记为n;总体容量常记为N。72.2 随机抽样随机抽样(Random Sampling)抽得的样本必须对总体有代表性,随机抽样是实现
4、这一代表性的常用方法。随机抽样:随机抽样:总体中的每个个体都有同等的机会被抽取组成样本 如何实现随机抽样:如何实现随机抽样:一般用随机数字表(课本附表1,第251页)8例一.如何从2000名学生中获得n=20的随机样本?首先将2000名学生编号:1,2,3,2000。解:采用随机数字表获得20个处于12000之间的随机数:随机从表中选取一点,然后以每四位数字为一节连续读下去:0411182886342331724732300032076810244934 选出位于12000的数:411,1828,32,768,1024,满20个数为止。这20个数对应的学生就是一个随机样本注意注意:在本课程中,
5、样本除特殊说明外,均指随机样本在本课程中,样本除特殊说明外,均指随机样本93.本书的主线本书的主线是围绕样本、总体以及如何从样本推断总体来展开的第一章 统计数据收集与整理如何来如何来归纳样本归纳样本所含信息所含信息第二章 概率和概率分布第三章 几种常见的概率分布率第四章 抽样分布第五章第五章 统计推断统计推断第六章第六章 参数估计参数估计第七章第七章 第十章第十章 方差及回归分析方差及回归分析第十二章 实验设计统计分析方法的统计分析方法的理论基础理论基础:概率论:概率论从样本推断总体的基本方法:从样本推断总体的基本方法:最最基本的统计分析基本的统计分析理论及方法理论及方法样本数据结构较为复杂时
6、(实际样本数据结构较为复杂时(实际研究往往如此),如何统计分析:研究往往如此),如何统计分析:实际研究中实际研究中常用统计分析常用统计分析方法方法根据不同的研究目的如何根据不同的研究目的如何设计设计实验实验得到样本得到样本10第二节 数据类型及频数(率)分布1.数据类型2.用图和表对样本数据进行定性归纳:频数表和频数图频数表和频数图111.数据类型:连续型数据和离散型数据数据数据连续型数据连续型数据:(度量数据)离散型数据离散型数据:(计数数据)指用量测手段得到的数量性状资料,即用度、指用量测手段得到的数量性状资料,即用度、量、衡等计量工具直接测定的数量性状资料量、衡等计量工具直接测定的数量性
7、状资料。其数据是长度、容积、重量等来表示。例如:其数据是长度、容积、重量等来表示。例如:身高、产奶量、体重、绵羊剪毛量等。身高、产奶量、体重、绵羊剪毛量等。这类这类数据通常是非整数,数据的变异是连续的数据通常是非整数,数据的变异是连续的。由记录不同类别个体的数目所得到的数据。各由记录不同类别个体的数目所得到的数据。各个观测值只能以整数表示,个观测值只能以整数表示,在相邻的整数间不在相邻的整数间不得有带小数的数值出现。例如:猪的产仔数、得有带小数的数值出现。例如:猪的产仔数、鸡的产蛋数、鱼的尾数等。鸡的产蛋数、鱼的尾数等。122.用图和表对样本数据进行定性归纳:频数表和频数图2.1 离散型数据频
8、数表和频数图的绘制例一.以50枚受精种蛋孵化出雏鸡的天数(数据见表1)为例,绘制频数表和频数图表1 50枚受精种蛋孵化出雏鸡的天数2120202123222222212220232223221922232422192221212122222422212122222322222122222322232222222323222122132120202123222222212220232223221922232422192221212122222422212122222322222122222322232222222323222122解:小鸡出壳的天数在1924天范围内变动,有6个不同的观测值。以各
9、个不同观测值分组,共分为6组,开始建立频数(率)表频数(率)表:组值(孵化天数)组值(孵化天数)频数计算频数计算频数频数频率频率1920.042030.0621100.2022240.482390.182420.04总计501.00打正字或划线从表中我们可以迅速而直观迅速而直观地看出:孵化天数大多集中在孵化天数大多集中在2123天,以天,以22天的最多,孵化天数天的最多,孵化天数较短(较短(1920天)和较长(天)和较长(24天)的都较少天)的都较少14频数(率)图是频数(率)的图形表示:注意:离散型数据频数图上方条间有间隙152.2 连续型数据频数表和频数图的绘制例二.以120头母羊的体重资
10、料(数据见表2)为例,绘制频数表和频数直方图表2 120母羊的体重资料(单位:kg)53 50 51 57 56 51 48 46 62 51 61 56 62 58 46 48 46 50 54 56 40 53 51 57 54 59 52 47 57 59 54 50 52 54 62 50 50 53 51 54 56 50 52 50 52 43 53 48 50 60 58 52 64 50 47 37 37 52 46 45 42 53 58 47 50 50 45 55 62 51 50 43 53 42 56 54 45 56 54 65 65 61 47 52 49 49
11、51 45 52 54 48 57 45 53 54 57 54 54 45 44 52 50 52 52 55 50 54 43 57 56 54 49 55 50 48 46 56 45 45 51 46 49 16解:通过以下步骤进行:(1)从原始数据中找出最大值和最小值,并求出极差max65,min37,极差Rmaxmin653728(2)决定划分组数。一般来说,50100个数分为710组。因为本题中n=120,所以初步确定组数为10组。(3)根据极差与组数确定组距和组限。组距极差/组数28/102.83(组距一般取整数)组限就是依据原始数据用来分组的每组的上下限,它的确定根据最小值和
12、组距进行。组限组限组界组中值频数频率374043。64组下限17组限组限组界组中值频数频率373940424345。6466(4)在频数表中列出组界和中值。由于测量精度的原因,第一组第一组(组限为3739)实际代表从实际代表从36.5kg到到39.5kg的的所有数据,所有数据,因为连续型数据一般是小数,这里只是因为测量精度以及记录的方便以整数表示出来。例如,真实值为39.3公斤的数据会四舍五入成39公斤被记录,它会被包括在第一组内。36.539.5称为组界,表示组的实际界限。称为组界,表示组的实际界限。组限组限组界组中值频数频率373936.539.538404239.542.54143454
13、2.545.544。646663.566.56518(5)统计每组频数,完成频数表。组限组限组界组中值频数频率373936.539.53810.008404239.542.54130.025434542.545.544120.100464845.548.547150.125495148.551.550270.225525451.554.553310.258555754.557.556170.142586057.560.55960.050616360.563.56260.050646663.566.56520.01719连续型数据频数直方图的绘制:首先得到频数表,然后以组界为横坐标,以频数为纵坐
14、标作直方图。注意:(1)连续型直方图方条间没有间隙,因为它以组界为方条的底部坐标 (2)但方条的标识可以用组限标出,如上图,为了直观的需要。20其它的统计图:请参考课本2122第三节 样本的几个特征数这节里,我们定量地定量地研究样本数据地特征。有四个特征四个特征我们感兴趣:(1)数据的集中性集中性(以哪点为中心集中分布):(2)数据的变异性变异性(数据间相互差异程度):(3)数据分布的对称性对称性:(4)数据分布的陡峭性陡峭性:以平均数平均数衡量以标准差标准差或变异系数衡量以峭度峭度衡量以偏斜度偏斜度衡量注意:(1)(2)是重点;(3)(4)作一般了解231.平均数平均数主要包括有算术平均数算
15、术平均数(以后简称为平均数)、中中位数位数、众数众数等。1.1 算术平均数(arithmetic mean)算术平均数是指资料中各观测值的总和除以观测值个数所得的商。”。杠”,或者“,读作“数或均数,记为算术平均数简称为平均barxxx 算术平均数的计算根据样本的大小以及分组情况分为:直接法和加权法直接法和加权法。24(一)直接法直接法:主要用于未经分组资料平均数的计算。此时样本含量往往较小,如n30。为:,那么样本平均数个观测值:设样本包含xxxxnn,21nxnxnxxxxniin意义明确时简写为12125求和号“”以后经常用到,这里提醒以下它的常用的三个运算法则(高中内容):niniin
16、iiiininiiiniyxyxcxccxbcncca111111)()(;)((为常数;,26例一,某种公牛站测得10头成年公牛的体重分别为500,520,535,560,585,600,480,510,505,490(kg),求其平均体重。)(5.528105285 10490535520500kgnxx解:27(一)加权法加权法:主要用于样本含量大且已经分组的资料(或称频数资料)平均数的计算。kiikiiikkkfxffffxfxfxfx11212211在获得频数分布表的基础上采用加权法计算平均数,计算公式为:分组数组的频数第为组值)(离散型数据时,组的组中值第这里,kifxixiii加
17、权法由此而得名。的权,称为重的大小,所以在计算平均数时所占比组中值可以衡量第因为iiiixfxif28例二,根据本章第二节例二得到的120头母羊体重资料的频数表,计算这个样本的平均数。组限组限组界组中值组中值频数频数频率373936.539.53810.008404239.542.54130.025434542.545.544120.100464845.548.547150.125495148.551.550270.225525451.554.553310.258555754.557.556170.142586057.560.55960.050616360.563.56260.05064666
18、3.566.56520.017)(解:kg 6.511206195231652413381101101iiiiifxfx291.2 中位数(median)将样本内所有观测值从小到大排列,位于中间的那个值,称为中位数。中位数的计算方法:首先将样本从小到大排列(1)样本容量n为奇数时,中位数即为位于中间位置的数(2)样本容量n为偶数时,中位数是位于中间位置上的两个数的平均值例三,求下面两个样本的中位数(1)7只家兔从发病到死亡的日期分别为4,15,12,8,8,6,10(2)某犬场发生瘟热,观察得10只仔犬从发现症状到死亡的天数分别为7,8,8,8,11,12,12,13,14,14301.3 众
19、数(mode)样本中出现次数最多的那个值或对于分组资料而言频数最多哪组的组中值,称为众数。例如,例三(1)中众数为8,(2)中众数为8。1.4 算术平均数、中位数和众数的比较算术平均数优于中位数和众数算术平均数优于中位数和众数(课本85页上有理论说明),因而被广泛使用中位数和众数在描述分布极不对称的数据的平均数时有一定的优势。312.标准差标准差(standard deviation)用于衡量一个样本数据的变异程度。假设有一样本A:1,4,5,5,10,如何衡量数据间的变异程度?相对于另一平均数同样为5的样本B:4,5,5,5,6,样本A的变异程度明显大,如何定量地说明?思考一个问题32讨论:
20、145510总和xxx2)(xx410050161002542必然很小。差小的样本,每个数的离因为一个数据间差异很异的一些信息,间接地反映了数据间变离差xx但如何基于离差构造一个衡量样本总变异性的量化的指标呢?各个离均差的指标是一个合理的能够综合似乎离均差平方和不能作指标。,所以因为首先会想到加和。但是2)()(0)(xxxxxx33但由于离均差平方和常随样本的大小而改变,为了消除样本大小的影响,应将离均差平方和除以样本容量n。严格的统计学证明显示(课本57页):离均差平方和除以n-1时性质最好。样本方差表示,称为以用本数据间的变异程度可所以经过上述讨论,样1)(122nxxSnii34(*)
21、1)(,122nxxsssnii即,记为样本标准差的平方根称为平方根。计上更常用它的测单位的平方单位,统由于样本方差带有原观(*)1 2112nnxxsniinii下公式在实际计算时,常用如可以证明,公式(*)和(*)是等同的。352.1 标准差的计算例四,计算10只辽宁绒山羊产绒量:450,450,500,500,500,550,550,550,600,650(g)的标准差。11010)(22xxs第一种方法:直接法xx245020250045020250050025000050025000050025000055030250055030250055030250060036000065042
22、2500530028450024.63936000928090002845000910)5300(284500023611010)(22xxs第二种方法:编码法 具体做法:选取一个常数c,数值上接近平均数;然后将原始数据减去c,再计算标准差。这里我们选择c500 xx250250050250000000050250050250050250010010000150225003004500024.639900045000910)300(450002372.2 已分组资料(频数资料)标准差的计算11)(112112112kiikiikiiikiiikiikiiiffxfxffxxfs为样本容量。为组
23、数,即为组值),为组中值(离散型数据为各组频数,这里,nfkxfiii )。就变成公式(分组资料,此公式也,则已分组资料变成非:如果每个注意*1if38例五,根据本章第二节例二得到的120头母羊体重资料的频数表,计算这个样本的标准差。组限组限组界组中值组中值频数频数频率373936.539.53810.008404239.542.54130.025434542.545.544120.100464845.548.547150.125495148.551.550270.225525451.554.553310.258555754.557.556170.142586057.560.55960.050
24、616360.563.56260.050646663.566.56520.01739解:组中值组中值xi频数频数fifixifixi238138144441312350434412528232324715705331355027135067500533116438707956179525331259635420886626372230646521308450fi=120fixi=6195fixi2=3231451112112kiikiikiiikiiiffxfxfs)(29.5967.271120120)6195(3231452kg402.3 标准差的性质(1)标准差的大小受资料中每个观测值的
25、影响。如果观测值相互之间的差异大,则求得的标准差也大;反之则小。(2)在计算标准差时,各个观测值同时加上或减去一个常数,其数值不变。(3)当每个观测值乘以或除以某一个常数a,则标准差是原来标准差的a倍或1/a倍。(4)在资料服从正态分布情况下,约有68.26%的观测值在平均数左右一倍标准差范围内;约有95.43%的观测值在平均数左右两倍标准差范围内;约有99.73%的观测值在平均数左右三倍标准差范围内。412.4 利用标准差查找资料的不寻常值7558476767267nxx解:2.61)(2nxxs如果资料的某个观测值在离平均值两倍标准差外,这个观测值通常称为资料的不寻常值。例子,调查得到一个
26、NBA球队的5位球员的身高为67,72,76,76,和84英寸。请问84英寸的那个球员在这个球队里是不是不寻常的高?)4.87,4.63()2.6275,2.6275()2,2(sxsx因为84英寸的球员在离平均值两倍标准差范围内,他不是不寻常的高。422/3231)()(nxxnxxg:偏斜度计算公式正偏正偏:数据频率分布的正方向尾巴特别长负偏负偏:数据频率分布的负方向尾巴特别长3.1偏斜度偏斜度较为厉害。时说明样本数据偏斜得。说明样本数据分布对称说明样本数据负偏,说明样本数据正偏,2|0001111gggg3.偏斜度和峭度偏斜度和峭度433)()(2242nxxnxxg:峭度计算公式3.2
27、峭度峭度分布较为平坦。态说明样本数据相对于正分布较为陡峭,态说明样本数据相对于正(第三章介绍),接近于正态分布程度说明样本数据分布陡峭00 0222ggg峭度0峭度=0峭度0444.变异系数(CV)变异系数是衡量资料变异程度的另一指标。它与标准差的不同之处是,变异系数用于两个或多个资料的变异程度的比较时。变异系数的计算公式为:xsCV 45例六,假设有两个小麦品种A和B,它们株高的平均数和标准差分别为A1205.0B704.0问哪个小麦品种较为整齐?文献中经常可见的表示形式在sx 解:单比较标准差是不合理的,因为两个品种的平均数不接近。正确的比较方法是比较这两个样本的变异系数:品种A的变异系数为5.0/120=0.042品种B的变异系数为4.0/70=0.057所以说,品种A比品种B更为整齐。46谢谢!47
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。