1、 l试验资料试验资料在生物学试验及调查中,能在生物学试验及调查中,能够获得大量的原始数据,这是在一定条件够获得大量的原始数据,这是在一定条件下,对某种具体事物或现象观察的结果,下,对某种具体事物或现象观察的结果,称之为试验资料。称之为试验资料。l特点特点:未整理前是分散的、零星的、孤立:未整理前是分散的、零星的、孤立的,是一堆无序的数字。整理分析后,可的,是一堆无序的数字。整理分析后,可对其进行归类,使其系统化,可列成统计对其进行归类,使其系统化,可列成统计表,绘出统计图,计算出平均数、变异数表,绘出统计图,计算出平均数、变异数等特征数。等特征数。l对试验资料进行分类整理时,必须对试验资料进行
2、分类整理时,必须坚持坚持“同质同质”的原则。只有同质的的原则。只有同质的试验数据,才能根据科学原理来分试验数据,才能根据科学原理来分类,使试验资料正确反映事物的本类,使试验资料正确反映事物的本质和规律。质和规律。计数资料计量资料数量性状资料统计次数法计分法质量性状资料质量性状资料试验资料试验资料l计数资料计数资料由计数法得到的数据,是一种由计数法得到的数据,是一种非连续变量资料。非连续变量资料。如鱼的尾数、玉米果穗上籽粒行数、种群内的如鱼的尾数、玉米果穗上籽粒行数、种群内的个体数、人的红细胞数等。计数资料的变量以正整个体数、人的红细胞数等。计数资料的变量以正整数出现,不可能带有小数数出现,不可
3、能带有小数l计量资料计量资料由测量或度量所得的数据,也由测量或度量所得的数据,也是一种连续变量资料,通常用长度、重量、是一种连续变量资料,通常用长度、重量、体积等单位表示。体积等单位表示。如人的身高、玉米果穗的重量、仔猪的体重、如人的身高、玉米果穗的重量、仔猪的体重、奶牛的产奶量等。因此,计量资料不一定是整数,奶牛的产奶量等。因此,计量资料不一定是整数,在相邻值之间有微小差异的数值存在。在相邻值之间有微小差异的数值存在。l也称为也称为属性性状资料属性性状资料,是指对某种现象,是指对某种现象只能观察只能观察而而不能测量不能测量的资料。的资料。如如花的花的颜颜色、小麦芒的有无、茸毛的有无;果蝇的红
4、色、小麦芒的有无、茸毛的有无;果蝇的红眼与白眼;人的血型(眼与白眼;人的血型(A,B,AB,OA,B,AB,O型);动型);动物的雌雄等物的雌雄等。l在一定总体内,根据在一定总体内,根据某一质量性状某一质量性状的类别统计其出现的的类别统计其出现的次数次数,以次数,以次数来作为质量性状的数据。来作为质量性状的数据。l在分组统计时可在分组统计时可按质量性状的类别按质量性状的类别进行分组进行分组,然后统计各组出现的次,然后统计各组出现的次数,因此,这类资料也称为数,因此,这类资料也称为次数资次数资料料。l例:例:豌豆豌豆红花红花 X X 在在10001000株株F2F2代植株中,不同颜色出代植株中,
5、不同颜色出现的次数百分率分别为现的次数百分率分别为红花红花26.626.6(266266株),株),紫花紫花49.449.4(494494),),24.024.0(240240)l用数字级别表示某现象在表现程度用数字级别表示某现象在表现程度上的差别上的差别。如小麦感染锈病后的严重程度可划如小麦感染锈病后的严重程度可划分为分为0 0(免疫)、(免疫)、1 1(高抗)、(高抗)、2 2(中(中抗)、抗)、3 3(感)级。这实际上是把质(感)级。这实际上是把质量性状资料数量化,便于统计分析。量性状资料数量化,便于统计分析。l普查普查是指对研究对象的每个个体都是指对研究对象的每个个体都进行测量或度量的
6、一种进行测量或度量的一种全面全面调查。如人调查。如人口普查、土壤普查等。口普查、土壤普查等。l抽样调查抽样调查是一种是一种非全面非全面调查,它是调查,它是根据一定的原则对研究对象抽取一部分根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到的数据资个体进行测量或度量,把得到的数据资料作为样本进行统计处理,然后利用样料作为样本进行统计处理,然后利用样本特征数对总体进行推断。本特征数对总体进行推断。l注意:注意:以概率论和数理统计的原理为依以概率论和数理统计的原理为依据,据,用来推断总体的样本必须是用来推断总体的样本必须是随机样本(随机样本(random sample)random sam
7、ple),就,就是用随机抽样方法所得到的样本,是用随机抽样方法所得到的样本,只有这种样本才能正确估计出抽样只有这种样本才能正确估计出抽样误差,才能用来准确地推断总体。误差,才能用来准确地推断总体。l在生物学研究中,对于一些理论性的在生物学研究中,对于一些理论性的无限总体,一般需要通过设置各种类无限总体,一般需要通过设置各种类型的试验来获取样本资料,型的试验来获取样本资料,设置这些设置这些试验时,要遵循随机、重复和局部试验时,要遵循随机、重复和局部控制三项基本原则。控制三项基本原则。l无论是调查还是试验,统计学对无论是调查还是试验,统计学对原始原始资料的要求资料的要求都是要都是要完整、准确完整、
8、准确。1 1)总体中每个个体被抽中的机会是均等总体中每个个体被抽中的机会是均等的;的;2 2)总体中任意一个体是否被抽中是相互总体中任意一个体是否被抽中是相互独立的,即个体是否被抽中不受其他独立的,即个体是否被抽中不受其他个体的影响。个体的影响。l对原始资料进行检查与核对应从对原始资料进行检查与核对应从数据数据本身是否有错误、取样是否有差错本身是否有错误、取样是否有差错和不合理数据的订正和不合理数据的订正三方面进行,以三方面进行,以保证数据资料的保证数据资料的完整、真实和可靠完整、真实和可靠,对这样的数据进行统计分析才能真实地对这样的数据进行统计分析才能真实地反 映 出 调 查 或 试 验 的
9、 客 观 情 况。反 映 出 调 查 或 试 验 的 客 观 情 况。l一般样本容量在一般样本容量在3030以下的小样本以下的小样本不必分组不必分组,在,在进行统计分析。进行统计分析。经过分组归类后,制成有规则的经过分组归类后,制成有规则的次数分布表和次数分布图。次数分布表和次数分布图。l单项式分组法单项式分组法:用样本自然值进行分组,每:用样本自然值进行分组,每组均用一个或几个变量值来表示。组均用一个或几个变量值来表示。分组时,可将数据资料中每个变量分组时,可将数据资料中每个变量分别归入相应的组内,然后制成次分别归入相应的组内,然后制成次数分布表。数分布表。例:表例:表2-1 1002-1
10、100只来亨鸡每月的产蛋数只来亨鸡每月的产蛋数:100100个观测值按每月产蛋个观测值按每月产蛋数进行归类,共分数进行归类,共分7 7组,统计各组,统计各组次数,计算出各组的频率和累组次数,计算出各组的频率和累积频率,得积频率,得次数分布表次数分布表:表表2-2 1002-2 100只来亨鸡每月产蛋数的次只来亨鸡每月产蛋数的次数分布表数分布表每月每月产蛋数产蛋数频率频率111213141415161727193535211150.020.070.190.350.350.210.110.050.020.090.280.630.840.951.001.00l一堆一堆“杂乱无章杂乱无章”的原始数据资
11、料,经的原始数据资料,经初步整理后,就可了解这些资料的大概初步整理后,就可了解这些资料的大概情况,其中以每月产蛋数为情况,其中以每月产蛋数为1414的最多。的最多。l对于对于变量较多而变异范围较大变量较多而变异范围较大的计数资的计数资料,则料,则不宜不宜按每一个变量值划分为一组,按每一个变量值划分为一组,而而应将几个变量分为一组应将几个变量分为一组。否则,会因。否则,会因组数太多而每组变量数目太少,看不出组数太多而每组变量数目太少,看不出数据分布的规律性。数据分布的规律性。例:表例:表2-3 2-3 小麦农家品种小麦农家品种300300个麦穗每穗个麦穗每穗粒数的次数分布表粒数的次数分布表每穗粒
12、数每穗粒数次数(次数(f f)l共分为共分为9 9个组,可以明显地个组,可以明显地表示出其分布情况,大部分表示出其分布情况,大部分麦穗的粒数在麦穗的粒数在28522852之间。之间。组距式组距式:、然后:然后:的的来归组来归组以表以表3.43.4的的140140行水稻试验的产量为例,行水稻试验的产量为例,说明整理方法说明整理方法l(1 1)求全距(极差求全距(极差)最大观察值与最小观察最大观察值与最小观察值的差值的差l最大观察值最大观察值-最小观察值最小观察值=全距全距lR R(2)(2)确定组数和组距确定组数和组距组数确定组数确定样本观测数的多少(样本容量);样本观测数的多少(样本容量);组
13、距的大小来确定;组距的大小来确定;能反映出资料的真实面貌;能反映出资料的真实面貌;要考虑到对资料要求的精确度和计算方便。要考虑到对资料要求的精确度和计算方便。统计数精统计数精确,不便于计算;确,不便于计算;,统计数精,统计数精确度较差,计算方便。确度较差,计算方便。组数的确定:组数的确定:样本容量样本容量30 30 606060 60 100100100 100 200200200 200 500500500500以上以上5 5 8 87 7 10109 9 121210 10 181815 15 3030表表2-5 2-5 样本容量与分组数的关系样本容量与分组数的关系l组距的确定组距的确定:
14、组距是指:组距是指每组内的每组内的上下限范围上下限范围,分组时要求各组的,分组时要求各组的距离相同。距离相同。组距组距=极差极差/组数组数组组距距=179/12179/12=14.914.9,取,取整数整数15 15 g g作为组距。作为组距。l组限组限(class limit)(class limit)是指每个组变是指每个组变量的起止界限,即每个组的上限与下限。量的起止界限,即每个组的上限与下限。l上限必须大于最大值,下限必须小于最上限必须大于最大值,下限必须小于最小值。小值。为了计算方便,组限可取到为了计算方便,组限可取到1010分分位位或或5 5分位分位数上。为了各组数上。为了各组界限界
15、限明确,明确,避免重叠避免重叠,目前在写法上,每组只写下,目前在写法上,每组只写下限,不写上限。如表限,不写上限。如表3.63.6资料分组分别资料分组分别写成写成67.567.5,82.5 82.5 ,247.5 247.5 l组中值组中值(组值,组值,class value)class value)一组的上限和下限的中间值。一组的上限和下限的中间值。l在分组时,为了避免第一组中观测数在分组时,为了避免第一组中观测数过多,一般过多,一般第一组第一组的的组中值组中值最好接最好接近或等于资料中的近或等于资料中的最小值最小值。l组中值组中值=(上限上限+下限)下限)/2 2或或 l组中值组中值=下限
16、下限+1/2+1/2 组距组距 (4)(4)分组,编制次数分布表分组,编制次数分布表l以表以表3.63.6中中140140行水稻产量为例,选定行水稻产量为例,选定第一组的中点值为第一组的中点值为75g75g,与最小观察,与最小观察值值75g75g相等;相等;l则第二组的中点值为则第二组的中点值为75+1575+1590g90g,余类推。各组的中点值选定后,就可余类推。各组的中点值选定后,就可以求得各组组限。以求得各组组限。l每组有两个组限每组有两个组限,数值小数值小的称为的称为下限下限(lower limitlower limit),数值大数值大的称为的称为上限上限(upper limitup
17、per limit)。l上述资料中,第一组的上述资料中,第一组的下限下限为为该组中该组中值减去值减去1 12 2组距组距,即,即75-(1575-(152)2)67.5g67.5g,上限上限为中点值为中点值加加1 12 2组距组距,即,即82.5g82.5gl属性变数的资料,也可以用类似次数分属性变数的资料,也可以用类似次数分布的方法来整理布的方法来整理先把资料按各种质量性状进行分先把资料按各种质量性状进行分类,分类数等于组数;类,分类数等于组数;根据各个体在质量属性上的具体根据各个体在质量属性上的具体表现,分别归入相应的组中,即可得到表现,分别归入相应的组中,即可得到属性分布的规律性认识。属
18、性分布的规律性认识。l例如,某水稻杂种第二代植株米粒性状例如,某水稻杂种第二代植株米粒性状的分离情况,归于表的分离情况,归于表37。班班级级20052005一一二二三三四四五五总分总分1 1(4 4)2 2(6 6)合合1 12 2合合1 12 23 3合合满分满分30.00 30.00 10.00 10.00 4.00 4.00 6.00 6.00 10.00 10.00 5.00 5.00 5.00 5.00 10.00 10.00 10.00 10.00 10.00 10.00 20.00 20.00 50.00 50.00 100.0 100.0 1 1 AveragAverage e
19、24.05 24.05 7.33 7.33 1.27 1.27 5.09 5.09 6.36 6.36 3.48 3.48 2.45 2.45 5.94 5.94 7.67 7.67 6.39 6.39 9.09 9.09 23.15 23.15 66.83 66.83 得分率得分率%0.80 0.80 0.73 0.73 0.32 0.32 0.85 0.85 0.64 0.64 0.70 0.70 0.49 0.49 0.59 0.59 0.77 0.77 0.64 0.64 0.45 0.45 0.46 0.46 0.67 0.67 2 2 AveragAverage e23.07 23
20、.07 6.50 6.50 1.09 1.09 4.41 4.41 5.50 5.50 2.74 2.74 2.97 2.97 5.71 5.71 7.71 7.71 5.35 5.35 9.67 9.67 22.44 22.44 63.22 63.22 得分率得分率%0.77 0.77 0.65 0.65 0.27 0.27 0.74 0.74 0.55 0.55 0.55 0.55 0.59 0.59 0.57 0.57 0.77 0.77 0.54 0.54 0.48 0.48 0.45 0.45 0.63 0.63 3 3 AveragAverage e22.66 22.66 6.80
21、 6.80 1.16 1.16 4.41 4.41 5.56 5.56 3.91 3.91 4.13 4.13 8.03 8.03 8.03 8.03 6.44 6.44 10.34 10.34 24.81 24.81 67.86 67.86 得分率得分率%0.76 0.76 0.68 0.68 0.29 0.29 0.73 0.73 0.56 0.56 0.78 0.78 0.83 0.83 0.80 0.80 0.80 0.80 0.64 0.64 0.52 0.52 0.50 0.50 0.68 0.68 4 4 AveragAverage e22.24 22.24 6.28 6.28
22、1.03 1.03 4.76 4.76 5.79 5.79 3.38 3.38 3.90 3.90 7.28 7.28 8.21 8.21 8.24 8.24 10.48 10.48 26.93 26.93 68.52 68.52 得分率得分率%0.74 0.74 0.63 0.63 0.26 0.26 0.79 0.79 0.58 0.58 0.68 0.68 0.78 0.78 0.73 0.73 0.82 0.82 0.82 0.82 0.52 0.52 0.54 0.54 0.69 0.69 5 5 AveragAverage e23.71 23.71 6.71 6.71 1.65 1
23、.65 5.23 5.23 6.87 6.87 3.87 3.87 3.55 3.55 7.42 7.42 7.87 7.87 6.74 6.74 9.94 9.94 24.55 24.55 69.26 69.26 得分率得分率%0.79 0.79 0.67 0.67 0.41 0.41 0.87 0.87 0.69 0.69 0.77 0.77 0.71 0.71 0.74 0.74 0.79 0.79 0.67 0.67 0.50 0.50 0.49 0.49 0.69 0.69 6 6 AveragAverage e21.65 21.65 6.73 6.73 0.87 0.87 5.07
24、 5.07 5.93 5.93 3.80 3.80 3.70 3.70 7.50 7.50 6.97 6.97 6.43 6.43 9.73 9.73 23.10 23.10 64.92 64.92 得分率得分率%0.72 0.72 0.67 0.67 0.22 0.22 0.84 0.84 0.59 0.59 0.76 0.76 0.74 0.74 0.75 0.75 0.70 0.70 0.64 0.64 0.49 0.49 0.46 0.46 0.65 0.65 20032003级植级植科科班级班级一一二二三(10=4+6)四(10=5+5)五(40=10+10+20)30.00 30.
25、00 10.00 10.00 1(4)2(6)合合12合合123合合1 1 24.05 24.05 7.33 7.33 1.27 5.09 6.36 6.36 3.48 2.45 5.94 5.94 7.67 6.39 9.09 23.15 23.15 66.83 66.83 2 2 23.07 23.07 6.50 6.50 1.09 4.41 5.50 5.50 2.74 2.97 5.71 5.71 7.71 5.35 9.67 22.44 22.44 63.22 63.22 3 3 22.66 22.66 6.80 6.80 1.16 4.41 5.56 5.56 3.91 4.13
26、8.03 8.03 8.03 6.44 10.34 24.81 24.81 67.86 67.86 4 4 22.24 22.24 6.28 6.28 1.03 4.76 5.79 5.79 3.38 3.90 7.28 7.28 8.21 8.24 10.48 26.93 26.93 68.52 68.52 5 5 23.71 23.71 6.71 6.71 1.65 5.23 6.87 6.87 3.87 3.55 7.42 7.42 7.87 6.74 9.94 24.55 24.55 69.26 69.26 6 6 21.65 21.65 6.73 6.73 0.87 5.07 5.9
27、3 5.93 3.80 3.70 7.50 7.50 6.97 6.43 9.73 23.10 23.10 64.92 64.92 66.77 66.77 2002级植科平均平均一一二二三三四四小计小计五五1 1 2 23 34 4考试成考试成绩绩总评总评1 1班班10.88 10.88 6.00 6.00 8.43 8.43 10.34 10.34 35.64 35.64 22.75 22.75 4.68 4.68 2.57 2.57 5.07 5.07 10.88 10.88 58.39 58.39 70.90 70.90 2 2班班11.50 11.50 6.37 6.37 8.41 8
28、.41 10.33 10.33 36.61 36.61 25.78 25.78 4.33 4.33 4.26 4.26 7.52 7.52 9.67 9.67 62.39 62.39 73.80 73.80 3 3班班11.63 11.63 7.14 7.14 7.25 7.25 9.21 9.21 35.23 35.23 22.04 22.04 4.14 4.14 2.39 2.39 4.82 4.82 10.68 10.68 57.27 57.27 69.70 69.70 4 4班班10.98 10.98 6.31 6.31 7.81 7.81 9.60 9.60 34.69 34.69
29、23.02 23.02 3.94 3.94 3.83 3.83 5.15 5.15 9.83 9.83 57.71 57.71 67.90 67.90 5 5班班10.86 10.86 6.69 6.69 8.47 8.47 11.57 11.57 37.59 37.59 21.91 21.91 3.76 3.76 4.10 4.10 5.86 5.86 8.29 8.29 59.50 59.50 6 6班班11.20 11.20 6.07 6.07 8.95 8.95 11.50 11.50 37.71 37.71 21.04 21.04 3.68 3.68 3.80 3.80 5.98 5
30、.98 7.61 7.61 58.75 58.75 59.00 59.00 常用的次数分布图有常用的次数分布图有条形图条形图直方直方图图和和多边形图多边形图(折线图折线图),),饼分图饼分图等,也等,也可以按照资料分组的频率值绘制成可以按照资料分组的频率值绘制成频率分频率分布图布图。l将次数分布资料画成将次数分布资料画成统计图形统计图形,可以,可以更更直观直观地观察各组变量次数分布的情况,地观察各组变量次数分布的情况,形象形象地把资料的特征表现出来。地把资料的特征表现出来。l条形图条形图(bar diagrambar diagram)适用)适用于于间断性变数间断性变数和和属性变数属性变数资料,
31、资料,用以表示这些变数的次数分布用以表示这些变数的次数分布状况。状况。l横轴标出间断的中点值或分类横轴标出间断的中点值或分类性状,纵轴标出次数。性状,纵轴标出次数。l方柱形图(方柱形图(histogramhistogram)适用于表示适用于表示连续连续性变数性变数的次数分布。的次数分布。l以表以表3.63.6的的140140行水稻产量行水稻产量的次数分布表为的次数分布表为例加以说明。该表有例加以说明。该表有1313组组,所以在,所以在横轴上横轴上分为分为1313等分等分(因第一组下限不是从因第一组下限不是从0 0开始,开始,故故第一等分应离开原点一些,并在其前加第一等分应离开原点一些,并在其前
32、加折断号折断号),每一等分代表一组。第一组的,每一等分代表一组。第一组的上限即为第二组的下限,如此依次类推。上限即为第二组的下限,如此依次类推。l在在纵轴上标定次数纵轴上标定次数,查,查140140行水稻产量的行水稻产量的次数分布表,最多一组的次数为次数分布表,最多一组的次数为2525,故,故在纵轴上分为在纵轴上分为2525等分,但只要标明等分,但只要标明0 0、5 5、1010、1515、2020、2525即可,借以代表次数。即可,借以代表次数。l横坐标与纵坐标的长度应有合适的比例横坐标与纵坐标的长度应有合适的比例(一般为一般为5 5:4 4或或6 6:5 5为好为好),绘成的图形,绘成的图
33、形才能明显表明次数分布情况。图示第一才能明显表明次数分布情况。图示第一组时,横坐标上第一等分的两界限,即组时,横坐标上第一等分的两界限,即为第一组的下限和上限。为第一组的下限和上限。多边形图(多边形图(polygonpolygon)也是表也是表示示连续性变数资料连续性变数资料的一种常的一种常用的方法,且在同一图上可比用的方法,且在同一图上可比较两组以上的资料。较两组以上的资料。l饼图饼图(pie diagrampie diagram)适用于)适用于间断性变数间断性变数和和属性变数资属性变数资料料,用以表示这些变数中各种,用以表示这些变数中各种属性或各种间断性数据观察值属性或各种间断性数据观察值
34、在总观察个数中的百分比。在总观察个数中的百分比。l变量分布的特征变量分布的特征:和和这两个性质可以通过计算它们的特征这两个性质可以通过计算它们的特征数来反映。数来反映。l集中性集中性 是指变量在趋势上有着向某一中是指变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分心聚集,或者说以某一数值为中心而分布的性质。布的性质。l离散性离散性 是指变量有离中心分散变异的性是指变量有离中心分散变异的性质质特征数特征数平均数平均数(集中性集中性)变异数变异数(离散性离散性)1.1.算术平均数算术平均数(arithmetic meanarithmetic mean)ln n个观察数的样本个观察数的样本
35、总体或样本资料中各个观测数的总和总体或样本资料中各个观测数的总和除以观测数的个数所得商。除以观测数的个数所得商。nxxxxn21niixn11(3.2)一、平均数一、平均数为求和符号为求和符号,表示从表示从x xi i的的i=1i=1一直加到一直加到i=ni=n,也可简写为,也可简写为 或或(=),),表示表示 的估计值。因的估计值。因 应用广泛,常应用广泛,常简称简称或或。niix1iixxniix1iixxxxN N个观测数的个观测数的有限总体有限总体 (公式公式3.43.4)NxxxN21NiixN11上式上式xixi代表各个观察值,代表各个观察值,N N代表有限总代表有限总体所包含的个
36、体数,体所包含的个体数,表示总体内各表示总体内各个观察值的总和。个观察值的总和。Niix12.2.中位数中位数 (median)(median)将资料中所有观测数依大小将资料中所有观测数依大小顺序排列,居于中间位置的观测数,顺序排列,居于中间位置的观测数,以以MdMd表示。表示。如观察值个数为偶数,则以二个如观察值个数为偶数,则以二个观察值的算术平均数为中数。观察值的算术平均数为中数。3.3.众数众数(mode)(mode)资料中次数最多一组的资料中次数最多一组的中点值,中点值,以以MoMo表示表示资料中有资料中有n n个观测数,其乘积开个观测数,其乘积开n n次方次方所得的数值,计算公式为:
37、所得的数值,计算公式为:4.4.几何平均数几何平均数nxxxGn 21nniix1l四种平均数中,四种平均数中,算术平均数算术平均数是最常用的是最常用的,其他使用较少。,其他使用较少。l例例2.12.1随机抽取随机抽取2020株小麦,其株高(株小麦,其株高(cmcm)分别为分别为8282,7979,8585,8484,8686,8484,8383,8282,8383,8383,8484,8181,8282,8181,8282,8282,8282,8080,求小麦的平均株高。,求小麦的平均株高。l解解:根据平均数的定义:根据平均数的定义3.82807982(2011)xnxl2.2.减去常数法减
38、去常数法 若变量若变量x xi i的值都较大,的值都较大,且接近某一常数且接近某一常数a a时,可将它们的值时,可将它们的值都减去常数都减去常数a a,得到一组新的数据,得到一组新的数据,然后再计算平均数然后再计算平均数x x。即设。即设 y yi i=x=xi i-,则则x xi i=y=yi i+a a)(11)(11111nanynaynxnxniiniiniiayn1800)1(2201x=82.3(cm)=82.3(cm)利用减去常数法,计算例利用减去常数法,计算例2.12.1的平均数。的平均数。解:解:设设a=80a=80,则有,则有y y1 1=82-80=2,=82-80=2,
39、y y2 2=79-80=-1,=79-80=-1,,y y2020=80-80=0=80-80=0,代入式代入式2.42.4得:得:3.3.加权平均数加权平均数l在具有在具有n n个观测数的样本中,如果观测数个观测数的样本中,如果观测数x x1 1出现出现f f1 1次,观测次,观测x x2 2出现出现f f2 2次,次,观测数,观测数x xm m出现出现f fm m次,且次,且f f1 1+f+f2 2+f+fm m=n=n,则:,则:mmmfffxfxfxfx212211miiixfn11(3.3)在平均数中的在平均数中的“权数权数”,即,即数值相同的观测值出现的次数,因而这里数值相同的
40、观测值出现的次数,因而这里求得的求得的 称为加权平均数。称为加权平均数。ifixx利用加权平均数法,计算例利用加权平均数法,计算例2.12.1的的加权平均数加权平均数解解:先整理:先整理2020个小麦株高数据的个小麦株高数据的次数分布次数分布表表:)186280179(201x=82.3(=82.3(cmcm)株高株高x x7980818283848586123633117916024349224925285866241128001968340344206672116872257396=20=16462=135524ffx2fxffxfx例例2.32.3(1 1))()()(21xxxxxxx
41、xn()xnxxxn)(21xnx因为 ,所以,故:nxxxnx0)xnxxx((2)(2)离均差平方和为最小。离均差平方和为最小。l设设a a为为 以外的任何数值,则以外的任何数值,则 x22)()(axxxl算术平均数是描述观测资料的重要特征算术平均数是描述观测资料的重要特征数,它的作用主要有以下两点:数,它的作用主要有以下两点:(1 1)指出一数据资料内变量的中心位置,指出一数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质标志着资料所代表性状的数量水平和质量水平;量水平;(2 2)作为样本或资料的代表数与其他资作为样本或资料的代表数与其他资料进行比较。料进行比较。二、变异数二
42、、变异数由于变量的分布具有集中性和离散由于变量的分布具有集中性和离散性两方面的特征,因此,只有能表示集中性两方面的特征,因此,只有能表示集中性的平均数是不够的,还必须要有能表示性的平均数是不够的,还必须要有能表示其离散性(变异性)的度量值。用来表示其离散性(变异性)的度量值。用来表示变异性的指标很多。变异性的指标很多。常用的有常用的有极差、标准差、方差和极差、标准差、方差和变异系数变异系数等,其中以等,其中以标准差标准差和和变异系变异系数数应用最为广泛。应用最为广泛。l极差又称全距极差又称全距,它是样本中最大值与,它是样本中最大值与最小值之差,用最小值之差,用R R表示。表示。lR=maxx1
43、,x2,R=maxx1,x2,xn,xn-min x1,x2,min x1,x2,xn,xn 例如表例如表3.43.4资料中,资料中,140140行水稻产量行水稻产量的极的极差差R=254-75=179gR=254-75=179g。l极差的局限性极差的局限性:极差虽然对资料的变:极差虽然对资料的变异度有所说明,但它只能由样本中的异度有所说明,但它只能由样本中的两个极端观察值决定,它两个极端观察值决定,它不能反映资不能反映资料中各个观测数的变异程度料中各个观测数的变异程度,易于受,易于受样本中不正常极端值的影响,因此,样本中不正常极端值的影响,因此,它它只能在研究小样本时使用(只能在研究小样本时
44、使用(n10n10)。)。Variance,Mean squareVariance,Mean square0)(xx2)xx(1 1)可以用各可以用各观测数离均差的大小观测数离均差的大小来表来表示。示。由于由于 ,不能反映,不能反映其变异程度。其变异程度。(2 2)将离均差先平方再求和)将离均差先平方再求和,即,即就可消除上述弊病。就可消除上述弊病。离均差平方和常离均差平方和常随样本容量大小而改变。随样本容量大小而改变。(3 3)方差或均方)方差或均方:用样本容量:用样本容量n n来除离来除离均差平方和,得到平均的平方和,简称方均差平方和,得到平均的平方和,简称方差或均方。差或均方。优点优点:
45、便于比较。:便于比较。l对于对于样本样本来说,其方差为:来说,其方差为:1)(22nxxs Nx22)(22上式中,上式中,n-1n-1在统计学上称为在统计学上称为自由度自由度。N N为为有限总体容量。有限总体容量。S S2 2 是是 的最好估计值。的最好估计值。均方与方差这两个名称常常通用,但习惯均方与方差这两个名称常常通用,但习惯上上的的称称,总体总体的的称方差称方差。方差是度量资料变异的常用指标,在统计分方差是度量资料变异的常用指标,在统计分析中有广泛的应用。析中有广泛的应用。1.1.标准差标准差方差的平方根值。方差的平方根值。l方差虽然能反映变量的变异程度,方差虽然能反映变量的变异程度
46、,但由于离均差取了平方值,使得它但由于离均差取了平方值,使得它与原始数据的数值和单位都不相适与原始数据的数值和单位都不相适应,需要将方差开方还原。应,需要将方差开方还原。1(2nxxs)Nx2)(l样本标准差样本标准差S S是是对对总体标准差总体标准差的的最好估最好估计值计值。l自由度的意义自由度的意义:比较:比较3.93.9和和3.103.10两式,样本两式,样本标准差不以样本容量标准差不以样本容量n n,而以自由度,而以自由度n-1n-1作为作为除数,是因为所掌握的样本资料,不知除数,是因为所掌握的样本资料,不知的的数值,不得不用样本均数数值,不得不用样本均数 来代替来代替。由。由于于 是
47、一最小平方和,如果以是一最小平方和,如果以N N为为除数,则所得除数,则所得 是是的的偏小估计偏小估计,如果,如果用用n-1n-1代替代替n n,则可避免偏小估计的弊端,提高用,则可避免偏小估计的弊端,提高用样本估计总体变异的精度样本估计总体变异的精度。2)x(x自由度的另一种解释自由度的另一种解释:对于一个具有:对于一个具有n n个观察值的样本,在每一个个观察值的样本,在每一个 与与 比比较时较时,虽然具有虽然具有n n个离均差,但因受到个离均差,但因受到 这一条件的限制,所以只有这一条件的限制,所以只有n-1n-1个是自由的。个是自由的。自由度记作自由度记作DFDF,其具体数值则常用,其具
48、体数值则常用 表表示示xx0)xx(l所以,在估计其他统计数时,如该统计所以,在估计其他统计数时,如该统计数数受受k k个条件限制个条件限制,则其自由度,则其自由度为为n-kn-k。0)xx(例如有例如有5 5个观察值,如个观察值,如4 4个离均差是个离均差是3 3、2 2、-3-3、6 6,则第,则第5 5个离均差必为个离均差必为-8-8,才能使,才能使2)xx(x求出平均数;求出平均数;求出求出按公式按公式3.93.9计算。计算。为了避免为了避免 为约数时引起的计算误差,通为约数时引起的计算误差,通常进行下面的变换:常进行下面的变换:)2()(222xxxxxxnxx22)(1)(22nn
49、xxs=(离均差平方和(离均差平方和)代入式代入式3.93.9,得:,得:(3.113.11)-和平方和平方平方和平方和-测得测得9 9名男子前臂长(名男子前臂长(cmcm)的样)的样本数据,列于本数据,列于2-82-8,试计算其标准差。,试计算其标准差。(设设x=x-45x=x-45)(用两种方法计算法)(用两种方法计算法)解解将表将表2-82-8资料按两种算法数据代入资料按两种算法数据代入2.142.14,得:,得:)(0.31996762cms)(0.3199411188412cmsl两种算法相比,其结果是一样的。两种算法相比,其结果是一样的。l分组的资料分组的资料应采用应采用加权的公式
50、加权的公式进行计算,其公式为:进行计算,其公式为:(3.123.12)1)(1)(222nnfxfxnxxfs根据表根据表2-72-7数据,计算数据,计算2020株株小麦株高的标准差。小麦株高的标准差。株高株高x x7980818283848586123633117916024349224925285866241128001968340344206672116872257396=20=16462=135524ffx2fxffxfx135524,16462fxfx7502.11202016461355242s由表由表2-7可知,可知,代入式代入式3.123.12,得:,得:(cm)标准差是衡量变