1、第2章 数据的组织与表达Arrangement and Presentation of DataSection 2.1Data and Data Type数据与数据类型 一、原始数据的组织资料以电子表格(spreadsheet)方式记录。包括个体(Individual):一笔数据所描述的对象(object)。电子表格中输入在一行。及变量(Variable):描述任何一个个体的特征,一个变量对不同的个体取不同的数值(value)。电子表格中输入在一列。(一一)数量性状资料数量性状资料 数量性状数量性状(quantitative trait)的度量有计数和量测两种的度量有计数和量测两种方式,其所得
2、变数不同。方式,其所得变数不同。1.不连续性或间断性变数不连续性或间断性变数(discontinuous or discrete(discontinuous or discrete variable)variable)指用计数方法获得的数据指用计数方法获得的数据。2.连续性变数连续性变数(continuous variable)(continuous variable)指称量、度量或测指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。数值之间可以有微量数值差异的第三个数值存在。二、
3、试验资料的性质与分类二、试验资料的性质与分类(二二)质量性状资料质量性状资料 质量性状质量性状(qualitative trait)(qualitative trait)指能观察而不能量测的状指能观察而不能量测的状即属性性状,如土壤剖面中土层的颜色、即属性性状,如土壤剖面中土层的颜色、CaCO3的有的有无等。要从这类性状获得数量资料,可采用下列两种方无等。要从这类性状获得数量资料,可采用下列两种方法:法:1.统计次数法统计次数法 于一定总体或样本内,统计其具有某个性于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其状的个体数目及具有不同性状的个体数目,按类别计
4、其次数或相对次数。次数或相对次数。2.给分法给分法 给予每类性状以相对数量的方法给予每类性状以相对数量的方法二、试验资料的性质与分类二、试验资料的性质与分类Section 2.2次数分布表 表1 100个调查点的土壤水分含量18151719161520181917171817161820191716181716171918181717171818151618181817201918171915171717161718181719191719171816181717191616171717151716181918181919201716191817182019161819171615161817
5、181717161917一、一、间断性变数资料的整理间断性变数资料的整理含水量含水量(y)次数次数(f)1561615173218251917205总次数总次数(n)100表表2 100个点的土壤含个点的土壤含水量的次数分布表水量的次数分布表 从表从表2中看到,一堆杂乱的原中看到,一堆杂乱的原始资料表,经初步整理后,就可了始资料表,经初步整理后,就可了解资料的大致情况,另外,经过整解资料的大致情况,另外,经过整理的资料也便于进一步的分析。理的资料也便于进一步的分析。含水量在含水量在1520的范围内变动,把的范围内变动,把所有观察值按含水量多少加以归类,所有观察值按含水量多少加以归类,共分为共分
6、为6组,组与组间相差为组,组与组间相差为1,称,称为为组距组距。这样可得表。这样可得表2形式的次数分形式的次数分布表。布表。一、一、间断性变数资料的整理间断性变数资料的整理二、二、连续性变数资料的整理连续性变数资料的整理177215197 97123159245119119131149152167104161214125175219118192176175 95136199116165214 9515883137 80138151187126196134206137 98 97129143179174159165136108101141148168163176102194145173 7513
7、0149150161155111158131189 91142140154152163123205149155131209183 97119181149187131215111186118150155197116254239160172179151198124179135184168169173181188211197175122151171166175143190213192231163159158159177147194227141169124159表表3 140个地区春季降水量个地区春季降水量(单位:毫米单位:毫米)具体步骤:具体步骤:1.数据排序数据排序(sort)(sort)首先对数
8、据按从小到大排列首先对数据按从小到大排列(升序升序)或从大到小排列或从大到小排列(降序降序)。2.求极差求极差(range)(range)所有数据中的最大观察值和最小所有数据中的最大观察值和最小观察值的差数,称为观察值的差数,称为极差极差,亦即整个样本的变异幅度。,亦即整个样本的变异幅度。从表从表3中查到最大观察值为中查到最大观察值为254毫米,最小观察值为,最小观察值为75毫米,极差为,极差为25475=179毫米。二、二、连续性变数资料的整理连续性变数资料的整理 3.确定组数和组距确定组数和组距(class interval)(class interval)根据极差分为若根据极差分为若干组
9、,每组的距离相等,称为干组,每组的距离相等,称为组距组距。在确定组数和组距在确定组数和组距时应考虑:时应考虑:(1)观察值个数的多少;观察值个数的多少;(2)极差的大小;极差的大小;(3)便于计算;便于计算;(4)能反映出资料的真实面貌等方面。能反映出资料的真实面貌等方面。样本大小样本大小(即样本内包含观察值的个数的多少即样本内包含观察值的个数的多少)与组与组数多少的关系可参照表数多少的关系可参照表4来确定。来确定。二、二、连续性变数资料的整理连续性变数资料的整理表4样本容量与组数多少的关系样本内观察值的个数分组时的组数50 510100 816200102030012245001530100
10、02040 组数确定后,还须组数确定后,还须确定组距。组距确定组距。组距=极差极差/组数。以表组数。以表3中中140个地区春季降水量为例,为例,样本内观察值的个数为样本内观察值的个数为140,查表,查表4可分为可分为816组,假定分为组,假定分为12组,组,则组距为则组距为179/12=14.9毫米,为分组方便起见,可以,为分组方便起见,可以15毫米作为作为组距。组距。二、二、连续性变数资料的整理连续性变数资料的整理 4.选定组限选定组限(class limit)(class limit)和组中点值和组中点值(组值,组值,class value)class value)以表以表3中中140个地
11、区春季降水量为例,选定第一组的中点值为为例,选定第一组的中点值为75毫米,与最小观察值,与最小观察值75毫米相等;则第二组的中点值为相等;则第二组的中点值为75+15=90毫米,余类推。,余类推。各组的中点值选定后,就可以求得各组组限。每组有两个组限,各组的中点值选定后,就可以求得各组组限。每组有两个组限,数值小的称为数值小的称为下限下限(lower limit)(lower limit),数值大的称为,数值大的称为上限上限(upper limit)(upper limit)。上。上述资料中,第一组的下限为该组中点值减去述资料中,第一组的下限为该组中点值减去1/2组距,即组距,即75(15/2
12、)=67.5毫米,上限为中点值加,上限为中点值加1/2组距,即组距,即75+(15/2)=82.5毫米。故第一组的组限为故第一组的组限为67.582.5毫米。按照此法计算其余各组的组限。按照此法计算其余各组的组限。二、二、连续性变数资料的整理连续性变数资料的整理 5.把原始资料的各个观察值按分组数列的各组组限归组把原始资料的各个观察值按分组数列的各组组限归组 可按原始资料中各观察值的次序,逐个把数值归于各可按原始资料中各观察值的次序,逐个把数值归于各组。组。待全部观察值归组后,即可求得各组的次数,制成一待全部观察值归组后,即可求得各组的次数,制成一个次数分布表。个次数分布表。例如表例如表3中第
13、一个观察值中第一个观察值177应归于表应归于表5中第中第8组,组限组,组限为为172.5187.5;第二个观察值;第二个观察值149应归于第应归于第6组,组限为组,组限为142.5157.5;。依次把。依次把140个观察值都进行归组,个观察值都进行归组,即可制成即可制成140个地区春季降水量的次数分布表的次数分布表(表表5)。二、二、连续性变数资料的整理连续性变数资料的整理表5 140个地区春季降水量的次数分布组组 限限中点值中点值(y)次数次数(f)67.5 82.5752 82.5 97.5907 97.5112.51057112.5127.512013127.5142.513517142
14、.5157.515020157.5172.516525172.5187.518021187.5202.519513202.5217.52109217.5232.52253232.5247.52402247.5262.52551合计合计(n)140 注注:前面提到分为前面提到分为12组,组,但由于第一组的中点值接近但由于第一组的中点值接近于最小观察值,故第一组的于最小观察值,故第一组的下限小于最小观察值,实际下限小于最小观察值,实际上差不多增加了上差不多增加了1/2组;这样组;这样也使最后一组的中点值接近也使最后一组的中点值接近于最大值,又增加了于最大值,又增加了1/2组,组,故实际的组数比原来
15、确定的故实际的组数比原来确定的要多一个组,为要多一个组,为13组。组。二、二、连续性变数资料的整理连续性变数资料的整理三、三、属性变数资料的整理属性变数资料的整理 属性变数的资料,也可以用类属性变数的资料,也可以用类似次数分布的方法来整理。似次数分布的方法来整理。在整理前,把资料按各种质量性在整理前,把资料按各种质量性状进行分类,分类数等于组数,状进行分类,分类数等于组数,然后根据各个体在质量属性上的然后根据各个体在质量属性上的具体表现,分别归入相应的组中,具体表现,分别归入相应的组中,即可得到属性分布的规律性认识。即可得到属性分布的规律性认识。例如,某地区土壤剖面描述,归于例如,某地区土壤剖
16、面描述,归于表表6。表6 土壤剖面描述情况属性分组属性分组(y)次数次数(f)红棕无钙积红棕无钙积96红棕有钙积红棕有钙积37黑棕非钙积黑棕非钙积31黑棕有钙积黑棕有钙积15合计合计(n)179Section 2.3次数分布图 一、一、方柱形图方柱形图方柱形图方柱形图(histogram)(histogram)适用于表示连续性变数的次数分布。适用于表示连续性变数的次数分布。现以表现以表3的的140个地区春季降水量的的次数分布表为例加次数分布表为例加以说明。即成方柱以说明。即成方柱形次数分布图形次数分布图1。图图1 140个地区春季降水量个地区春季降水量二、多边形图二、多边形图 多边形图多边形图
17、(polygon)(polygon)也是表示连续性变数资料的一种普也是表示连续性变数资料的一种普通的方法,且在同一图上可比较两组以上的资料。通的方法,且在同一图上可比较两组以上的资料。仍以仍以140个地区春季降水量次数分布为例,所成次数分布为例,所成图形即为次数多边形图图形即为次数多边形图(图图2)。图图2 140个地区春季降水量次数分布多边形图个地区春季降水量次数分布多边形图三、三、条形图条形图 条形图条形图(bar)(bar)适用于间断性变数和属性变数资料,用以适用于间断性变数和属性变数资料,用以表示这些变数的次数分布状况。一般其横轴标出间断的中表示这些变数的次数分布状况。一般其横轴标出间
18、断的中点值或分类性状,纵轴标出点值或分类性状,纵轴标出次数。次数。现以表现以表6土壤剖面描述情土壤剖面描述情况为例,可画成条形图况为例,可画成条形图(图图3)。四、四、饼图饼图 饼图饼图(pie)(pie)适用于间断性变数和属性变数资料,用以表适用于间断性变数和属性变数资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察个示这些变数中各种属性或各种间断性数据观察值在总观察个数中的百分比。数中的百分比。Section 2.4平均数 一、平均数的意义和种类一、平均数的意义和种类 平均数的意义平均数的意义:平均数平均数(average)(average)是数据的代表值,表示资料中是数据的代
19、表值,表示资料中观察值的中心位置,并且可作为资料的代表而与另观察值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确二者之间相差的情况。一组资料相比较,借以明确二者之间相差的情况。平均数的种类平均数的种类:(1)算术平均数算术平均数 一个数量资料中各个观察值的总和一个数量资料中各个观察值的总和除以观察值个数所得的商数,称为除以观察值个数所得的商数,称为算术平均数算术平均数(arithmetic(arithmetic mean)mean),记作,记作 。因其应用广泛,常简称平均数或均数。因其应用广泛,常简称平均数或均数(mean)。均数的大小决定于样本的各观察值。均数的大小决定于样本
20、的各观察值。(2)中数中数 将资料内所有观察值从大到小排序,居中间将资料内所有观察值从大到小排序,居中间位置的观察值称为位置的观察值称为中数中数(median)(median),计作,计作Md。如观察值个。如观察值个数为偶数,则以中间二个观察值的算术平均数为中数。数为偶数,则以中间二个观察值的算术平均数为中数。y一、平均数的意义和种类一、平均数的意义和种类 (3)众数众数 资料中最常见的一数,或次数最多一组的中资料中最常见的一数,或次数最多一组的中点值,称为点值,称为众数众数(mode)(mode),计作,计作MO。如棉花纤维检验时所。如棉花纤维检验时所用的主体长度即为众数。用的主体长度即为众
21、数。(4)几何平均数几何平均数 如有如有n个观察值,其相乘积开个观察值,其相乘积开n次方,次方,即为即为几何平均数几何平均数(geometric mean)(geometric mean),用,用G代表。代表。1123123()nnnnGx x xxx x xx/一、平均数的意义和种类一、平均数的意义和种类二、算术平均数的计算方法二、算术平均数的计算方法 若样本较小,即资料包含的观察值个数不多,可直接计算平均若样本较小,即资料包含的观察值个数不多,可直接计算平均数。设一个含有数。设一个含有n个观察值的样本,其各个观察值为个观察值的样本,其各个观察值为x1、x2、x3、xn,则算术平均数由下式算
22、得:,则算术平均数由下式算得:123ninixxxxxxnn1 若样本较大,且已进行了分组,可采用加权法计算算术平均数,若样本较大,且已进行了分组,可采用加权法计算算术平均数,即用组中点值代表该组出现的观测值以计算平均数,其公式为即用组中点值代表该组出现的观测值以计算平均数,其公式为iiifxf xxfn其中其中yi 为第为第i 组中点值,组中点值,fi 为第为第 i 组变数出现次数。组变数出现次数。例例1 在土壤有机碳比较试验中,草地土壤的在土壤有机碳比较试验中,草地土壤的5个小区个小区SOC分别为分别为20.0、19.0、21.0、17.5、18.5g/kg,求该品种,求该品种的小区平均产
23、量。的小区平均产量。例例2 利用表利用表5资料计算平均降水量。资料计算平均降水量。若采用直接法,若采用直接法,=157.47。因此,两者的结果十分相近。因此,两者的结果十分相近。20 019 021 017 518 519 2()5x.x.kgn2757901 25522110157 93()140140fxx.gn x二、算术平均数的计算方法二、算术平均数的计算方法三、总体平均数三、总体平均数 总体平均数用总体平均数用 来代表,它同样具有算术平均数所具有来代表,它同样具有算术平均数所具有的特性。的特性。1NiiXN 上式上式Xi 代表各个观察值,代表各个观察值,N代表有限总体所包含的个体代表
24、有限总体所包含的个体数,数,表示总体内各个观察值的总和。表示总体内各个观察值的总和。1NiiXSection 2.5变异数 一、极一、极 差差 极差极差(range)(range),又称,又称全距全距,记作,记作R,是资料中最大观察,是资料中最大观察值与最小观察值的差数。值与最小观察值的差数。表表7 7 两片农田品种的两片农田品种的SOCSOC品种名称品种名称多个样点多个样点SOC总和总和平均平均甲甲13 14 15 17 18 18 19 21 22 2318018乙乙16 16 17 18 18 18 18 19 20 2018018甲甲R=2313=10;乙;乙R=2016=4。两农田的
25、平均同为两农田的平均同为18,但甲的极差大,平均数的代表性差;,但甲的极差大,平均数的代表性差;乙的极差小,平均数代表性好。乙的极差小,平均数代表性好。二、方二、方 差差离均差平方和离均差平方和(简称平方和简称平方和)SS 样本样本SS=2()ixx 总体总体SS=2()iX均方或方差均方或方差(variance)(variance)样本均方样本均方(mean square)(mean square):总体方差总体方差:221NiXN()样本均方是总体方差的无偏估计值样本均方是总体方差的无偏估计值 2211nixxsn()三、标准差三、标准差(一一)标准差的定义标准差的定义样本标准差:样本标准
26、差:2()1xxsn总体标准差:总体标准差:2()XN样本标准差是总体标准差的估计值。样本标准差是总体标准差的估计值。(二二)自由度自由度样本样本n-1称为自由度称为自由度,记作记作DF,其具体数值则常用,其具体数值则常用 表示。表示。统计意义统计意义:是指样本内独立而能自由变动的离均差个数。:是指样本内独立而能自由变动的离均差个数。kn 三、标准差三、标准差(三三)标准差的计算方法标准差的计算方法 1.直接法直接法 例例3 设某一农田设某一农田SOC的样本有的样本有5个个观察值,其数为观察值,其数为2、8、7、5、4。)(3921580221)(2g.nyys计算项目yy223.210.24
27、482.87.846471.83.244950.20.042541.21.4416总和26022.80158平均5.2yy 2)(yy 三、标准差三、标准差2 矫正数法矫正数法 其中其中 项称为矫正数,记作项称为矫正数,记作C。2xn()在上例中,将有关数字代入即在上例中,将有关数字代入即有:有:222()11xxnxxsnn()222()158(26)52 39()15 1xxns.gn三、标准差三、标准差3 加权法加权法 若样本较大,已生成次数分布表,可采用加权法计算标若样本较大,已生成次数分布表,可采用加权法计算标准差,其公式为:准差,其公式为:222iiiiiiifxf xf xnsf
28、n(x)()11三、标准差三、标准差 例例4 利用表利用表5的次数分布资料计算降水量的标准差。的次数分布资料计算降水量的标准差。若采用直接法,其标准差若采用直接法,其标准差s=36.23。由此可见,直接。由此可见,直接法和加权法的结果是很相近的。法和加权法的结果是很相近的。222222()12757901 255(22110)140140136.45()iiiif xf xnsng 三、标准差三、标准差四、变异系数四、变异系数 变异系数变异系数(coefficient of variation)(coefficient of variation):变异系数是一个不带单位的纯数,可用以比较二个变
29、异系数是一个不带单位的纯数,可用以比较二个事物的变异度大小。事物的变异度大小。100%sCVx 例如表例如表8为两个地区某月降水的平均数、标准差和变异为两个地区某月降水的平均数、标准差和变异系数。如只从标准差看,品种甲比乙的变异大些;但因两者系数。如只从标准差看,品种甲比乙的变异大些;但因两者的均数不同,标准差间不宜直接比较。如果算出变异系数,的均数不同,标准差间不宜直接比较。如果算出变异系数,就可以相互比较,这里乙的变异系数为就可以相互比较,这里乙的变异系数为11.3%,甲为,甲为9.5%,可见乙的相对变异程度较大。可见乙的相对变异程度较大。品种品种 (cm)s(cm)变异系数变异系数CV(%)甲甲95.09.02 9.5乙乙75.08.5011.3表表8 两个地区某月降水量的测量结果两个地区某月降水量的测量结果x四、变异系数四、变异系数
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。