1、 12l试验资料试验资料在生物学试验及调查中,能在生物学试验及调查中,能够获得大量的原始数据,这是在一定条件够获得大量的原始数据,这是在一定条件下,对某种具体事物或现象观察的结果,下,对某种具体事物或现象观察的结果,称之为试验资料。称之为试验资料。l特点特点:未整理前是分散的、零星的、孤立:未整理前是分散的、零星的、孤立的,是一堆无序的数字。整理分析后,可的,是一堆无序的数字。整理分析后,可对其进行归类,使其系统化,可列成统计对其进行归类,使其系统化,可列成统计表,绘出统计图,计算出平均数、变异数表,绘出统计图,计算出平均数、变异数等特征数。等特征数。3l对试验资料进行分类整理时,必须对试验资
2、料进行分类整理时,必须坚持坚持“同质同质”的原则。只有同质的的原则。只有同质的试验数据,才能根据科学原理来分试验数据,才能根据科学原理来分类,使试验资料正确反映事物的本类,使试验资料正确反映事物的本质和规律。质和规律。4计数资料计量资料数量性状资料统计次数法计分法质量性状资料质量性状资料试验资料试验资料5l计数资料计数资料由计数法得到的数据,是一种由计数法得到的数据,是一种非连续变量资料。非连续变量资料。如鱼的尾数、玉米果穗上籽粒行数、种群内的如鱼的尾数、玉米果穗上籽粒行数、种群内的个体数、人的红细胞数等。计数资料的变量以正整个体数、人的红细胞数等。计数资料的变量以正整数出现,不可能带有小数数
3、出现,不可能带有小数l计量资料计量资料由测量或度量所得的数据,也由测量或度量所得的数据,也是一种连续变量资料,通常用长度、重量、是一种连续变量资料,通常用长度、重量、体积等单位表示。体积等单位表示。如人的身高、玉米果穗的重量、仔猪的体重、如人的身高、玉米果穗的重量、仔猪的体重、奶牛的产奶量等。因此,计量资料不一定是整数,奶牛的产奶量等。因此,计量资料不一定是整数,在相邻值之间有微小差异的数值存在。在相邻值之间有微小差异的数值存在。6l也称为也称为属性性状资料属性性状资料,是指对某种现象,是指对某种现象只能观察只能观察而而不能测量不能测量的资料。的资料。如如花的花的颜颜色、小麦芒的有无、茸毛的有
4、无;果蝇的红色、小麦芒的有无、茸毛的有无;果蝇的红眼与白眼;人的血型(眼与白眼;人的血型(A,B,AB,OA,B,AB,O型);动型);动物的雌雄等物的雌雄等。7l在一定总体内,根据在一定总体内,根据某一质量性状某一质量性状的类别统计其出现的的类别统计其出现的次数次数,以次数,以次数来作为质量性状的数据。来作为质量性状的数据。l在分组统计时可在分组统计时可按质量性状的类别按质量性状的类别进行分组进行分组,然后统计各组出现的次,然后统计各组出现的次数,因此,这类资料也称为数,因此,这类资料也称为次数资次数资料料。8l例:例:豌豆豌豆红花红花 X X 在在10001000株株F2F2代植株中,不同
5、颜色出代植株中,不同颜色出现的次数百分率分别为现的次数百分率分别为红花红花26.626.6(266266株),株),紫花紫花49.449.4(494494),),24.024.0(240240)9l用数字级别表示某现象在表现程度用数字级别表示某现象在表现程度上的差别上的差别。如小麦感染锈病后的严重程度可划如小麦感染锈病后的严重程度可划分为分为0 0(免疫)、(免疫)、1 1(高抗)、(高抗)、2 2(中(中抗)、抗)、3 3(感)级。这实际上是把质(感)级。这实际上是把质量性状资料数量化,便于统计分析。量性状资料数量化,便于统计分析。1011l普查普查是指对研究对象的每个个体都是指对研究对象的
6、每个个体都进行测量或度量的一种进行测量或度量的一种全面全面调查。如人调查。如人口普查、土壤普查等。口普查、土壤普查等。l抽样调查抽样调查是一种是一种非全面非全面调查,它是调查,它是根据一定的原则对研究对象抽取一部分根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到的数据资个体进行测量或度量,把得到的数据资料作为样本进行统计处理,然后利用样料作为样本进行统计处理,然后利用样本特征数对总体进行推断。本特征数对总体进行推断。12l注意:注意:以概率论和数理统计的原理为依以概率论和数理统计的原理为依据,据,用来推断总体的样本必须是用来推断总体的样本必须是随机样本(随机样本(random sa
7、mple)random sample),就就是用随机抽样方法所得到的样本,是用随机抽样方法所得到的样本,只有这种样本才能正确估计出抽样只有这种样本才能正确估计出抽样误差,才能用来准确地推断总体。误差,才能用来准确地推断总体。13l在生物学研究中,对于一些理论性的在生物学研究中,对于一些理论性的无限总体,一般需要通过设置各种类无限总体,一般需要通过设置各种类型的试验来获取样本资料,型的试验来获取样本资料,设置这些设置这些试验时,要遵循随机、重复和局部试验时,要遵循随机、重复和局部控制三项基本原则。控制三项基本原则。l无论是调查还是试验,统计学对无论是调查还是试验,统计学对原始原始资料的要求资料的
8、要求都是要都是要完整、准确完整、准确。141 1)总体中每个个体被抽中的机会是均等总体中每个个体被抽中的机会是均等的;的;2 2)总体中任意一个体是否被抽中是相互总体中任意一个体是否被抽中是相互独立的,即个体是否被抽中不受其他独立的,即个体是否被抽中不受其他个体的影响。个体的影响。1516l对原始资料进行检查与核对应从对原始资料进行检查与核对应从数据数据本身是否有错误、取样是否有差错本身是否有错误、取样是否有差错和不合理数据的订正和不合理数据的订正三方面进行,以三方面进行,以保证数据资料的保证数据资料的完整、真实和可靠完整、真实和可靠,对这样的数据进行统计分析才能真实地对这样的数据进行统计分析
9、才能真实地反 映 出 调 查 或 试 验 的 客 观 情 况。反 映 出 调 查 或 试 验 的 客 观 情 况。17l一般样本容量在一般样本容量在3030以下的小样本以下的小样本不必分组不必分组,在,在进行统计分析。进行统计分析。经过分组归类后,制成有规则的经过分组归类后,制成有规则的次数分布表和次数分布图。次数分布表和次数分布图。18l单项式分组法单项式分组法:用样本自然值进行分组,每:用样本自然值进行分组,每组均用一个或几个变量值来表示。组均用一个或几个变量值来表示。分组时,可将数据资料中每个变量分组时,可将数据资料中每个变量分别归入相应的组内,然后制成次分别归入相应的组内,然后制成次数
10、分布表。数分布表。1920:100100个观测值按每月产蛋个观测值按每月产蛋数进行归类,共分数进行归类,共分7 7组,统计各组,统计各组次数,计算出各组的频率和累组次数,计算出各组的频率和累积频率,得积频率,得次数分布表次数分布表:21每月每月产蛋数产蛋数频率频率111213141415161727193535211150.020.070.190.350.350.210.110.050.020.090.280.630.840.951.001.0022l一堆一堆“杂乱无章杂乱无章”的原始数据资料,经的原始数据资料,经初步整理后,就可了解这些资料的大概初步整理后,就可了解这些资料的大概情况,其中以
11、每月产蛋数为情况,其中以每月产蛋数为1414的最多。的最多。l对于对于变量较多而变异范围较大变量较多而变异范围较大的计数资的计数资料,则料,则不宜不宜按每一个变量值划分为一组,按每一个变量值划分为一组,而而应将几个变量分为一组应将几个变量分为一组。否则,会因。否则,会因组数太多而每组变量数目太少,看不出组数太多而每组变量数目太少,看不出数据分布的规律性。数据分布的规律性。23每穗粒数每穗粒数次数(次数(f f)24l共分为共分为9 9个组,可以明显地个组,可以明显地表示出其分布情况,大部分表示出其分布情况,大部分麦穗的粒数在麦穗的粒数在28522852之间。之间。25组距式组距式:、然后:然后
12、:的的来归组来归组2627l(1 1)求全距(极差求全距(极差)最大观察值与最小观察最大观察值与最小观察值的差值的差l最大观察值最大观察值-最小观察值最小观察值=全距全距lR R28(2)(2)确定组数和组距确定组数和组距组数确定组数确定样本观测数的多少(样本容量);样本观测数的多少(样本容量);组距的大小来确定;组距的大小来确定;能反映出资料的真实面貌;能反映出资料的真实面貌;要考虑到对资料要求的精确度和计算方便。要考虑到对资料要求的精确度和计算方便。29统计数精统计数精确,不便于计算;确,不便于计算;,统计数精,统计数精确度较差,计算方便。确度较差,计算方便。3031样本容量样本容量30
13、30 606060 60 100100100 100 200200200 200 500500500500以上以上5 5 8 87 7 10109 9 121210 10 181815 15 303032l组距的确定组距的确定:组距是指:组距是指每组内的每组内的上下限范围上下限范围,分组时要求各组的,分组时要求各组的距离相同。距离相同。组距组距=极差极差/组数组数组组距距=179/12179/12=14.914.9,取取整数整数15 15 g g作为组距。作为组距。33l组限组限(class limit)(class limit)是指每个组变是指每个组变量的起止界限,即每个组的上限与下限。量的
14、起止界限,即每个组的上限与下限。l上限必须大于最大值,下限必须小于最上限必须大于最大值,下限必须小于最小值。小值。为了计算方便,组限可取到为了计算方便,组限可取到1010分分位位或或5 5分位分位数上。为了各组数上。为了各组界限界限明确,明确,避免重叠避免重叠,目前在写法上,每组只写下,目前在写法上,每组只写下限,不写上限。如表限,不写上限。如表3.63.6资料分组分别资料分组分别写成写成67.567.5,82.5 82.5 ,247.5 247.5 34l组中值组中值(组值,组值,class value)class value)一组的上限和下限的中间值。一组的上限和下限的中间值。l在分组时,
15、为了避免第一组中观测数在分组时,为了避免第一组中观测数过多,一般过多,一般第一组第一组的的组中值组中值最好接最好接近或等于资料中的近或等于资料中的最小值最小值。l组中值组中值=(上限上限+下限)下限)/2 2或或 l组中值组中值=下限下限+1/2+1/2 组距组距 35l以表以表3.63.6中中140140行水稻产量为例,选定行水稻产量为例,选定第一组的中点值为第一组的中点值为75g75g,与最小观察与最小观察值值75g75g相等;相等;l则第二组的中点值为则第二组的中点值为75+1575+1590g90g,余类推。各组的中点值选定后,就可余类推。各组的中点值选定后,就可以求得各组组限。以求得
16、各组组限。36l每组有两个组限每组有两个组限,数值小数值小的称为的称为下限下限(lower limitlower limit),数值大数值大的称为的称为上限上限(upper limitupper limit)。l上述资料中,第一组的上述资料中,第一组的下限下限为为该组中该组中值减去值减去1 12 2组距组距,即,即75-(1575-(152)2)67.5g67.5g,上限上限为中点值为中点值加加1 12 2组距组距,即,即82.5g82.5g3738l属性变数的资料,也可以用类似次数分属性变数的资料,也可以用类似次数分布的方法来整理布的方法来整理先把资料按各种质量性状进行分先把资料按各种质量性
17、状进行分类,分类数等于组数;类,分类数等于组数;根据各个体在质量属性上的具体根据各个体在质量属性上的具体表现,分别归入相应的组中,即可得到表现,分别归入相应的组中,即可得到属性分布的规律性认识。属性分布的规律性认识。l例如,某水稻杂种第二代植株米粒性状例如,某水稻杂种第二代植株米粒性状的分离情况,归于表的分离情况,归于表37。3940班班级级20052005一一二二三三四四五五总分总分1 1(4 4)2 2(6 6)合合1 12 2合合1 12 23 3合合满分满分30.00 30.00 10.00 10.00 4.00 4.00 6.00 6.00 10.00 10.00 5.00 5.00
18、 5.00 5.00 10.00 10.00 10.00 10.00 10.00 10.00 20.00 20.00 50.00 50.00 100.0 100.0 1 1 AveragAverage e24.05 24.05 7.33 7.33 1.27 1.27 5.09 5.09 6.36 6.36 3.48 3.48 2.45 2.45 5.94 5.94 7.67 7.67 6.39 6.39 9.09 9.09 23.15 23.15 66.83 66.83 得分率得分率%0.80 0.80 0.73 0.73 0.32 0.32 0.85 0.85 0.64 0.64 0.70
19、0.70 0.49 0.49 0.59 0.59 0.77 0.77 0.64 0.64 0.45 0.45 0.46 0.46 0.67 0.67 2 2 AveragAverage e23.07 23.07 6.50 6.50 1.09 1.09 4.41 4.41 5.50 5.50 2.74 2.74 2.97 2.97 5.71 5.71 7.71 7.71 5.35 5.35 9.67 9.67 22.44 22.44 63.22 63.22 得分率得分率%0.77 0.77 0.65 0.65 0.27 0.27 0.74 0.74 0.55 0.55 0.55 0.55 0.5
20、9 0.59 0.57 0.57 0.77 0.77 0.54 0.54 0.48 0.48 0.45 0.45 0.63 0.63 3 3 AveragAverage e22.66 22.66 6.80 6.80 1.16 1.16 4.41 4.41 5.56 5.56 3.91 3.91 4.13 4.13 8.03 8.03 8.03 8.03 6.44 6.44 10.34 10.34 24.81 24.81 67.86 67.86 得分率得分率%0.76 0.76 0.68 0.68 0.29 0.29 0.73 0.73 0.56 0.56 0.78 0.78 0.83 0.83
21、 0.80 0.80 0.80 0.80 0.64 0.64 0.52 0.52 0.50 0.50 0.68 0.68 4 4 AveragAverage e22.24 22.24 6.28 6.28 1.03 1.03 4.76 4.76 5.79 5.79 3.38 3.38 3.90 3.90 7.28 7.28 8.21 8.21 8.24 8.24 10.48 10.48 26.93 26.93 68.52 68.52 得分率得分率%0.74 0.74 0.63 0.63 0.26 0.26 0.79 0.79 0.58 0.58 0.68 0.68 0.78 0.78 0.73
22、0.73 0.82 0.82 0.82 0.82 0.52 0.52 0.54 0.54 0.69 0.69 5 5 AveragAverage e23.71 23.71 6.71 6.71 1.65 1.65 5.23 5.23 6.87 6.87 3.87 3.87 3.55 3.55 7.42 7.42 7.87 7.87 6.74 6.74 9.94 9.94 24.55 24.55 69.26 69.26 得分率得分率%0.79 0.79 0.67 0.67 0.41 0.41 0.87 0.87 0.69 0.69 0.77 0.77 0.71 0.71 0.74 0.74 0.7
23、9 0.79 0.67 0.67 0.50 0.50 0.49 0.49 0.69 0.69 6 6 AveragAverage e21.65 21.65 6.73 6.73 0.87 0.87 5.07 5.07 5.93 5.93 3.80 3.80 3.70 3.70 7.50 7.50 6.97 6.97 6.43 6.43 9.73 9.73 23.10 23.10 64.92 64.92 得分率得分率%0.72 0.72 0.67 0.67 0.22 0.22 0.84 0.84 0.59 0.59 0.76 0.76 0.74 0.74 0.75 0.75 0.70 0.70 0
24、.64 0.64 0.49 0.49 0.46 0.46 0.65 0.65 4120032003级植级植科科班级班级一一二二三(10=4+6)四(10=5+5)五(40=10+10+20)30.00 30.00 10.00 10.00 1(4)2(6)合合12合合123合合1 1 24.05 24.05 7.33 7.33 1.27 5.09 6.36 6.36 3.48 2.45 5.94 5.94 7.67 6.39 9.09 23.15 23.15 66.83 66.83 2 2 23.07 23.07 6.50 6.50 1.09 4.41 5.50 5.50 2.74 2.97 5
25、.71 5.71 7.71 5.35 9.67 22.44 22.44 63.22 63.22 3 3 22.66 22.66 6.80 6.80 1.16 4.41 5.56 5.56 3.91 4.13 8.03 8.03 8.03 6.44 10.34 24.81 24.81 67.86 67.86 4 4 22.24 22.24 6.28 6.28 1.03 4.76 5.79 5.79 3.38 3.90 7.28 7.28 8.21 8.24 10.48 26.93 26.93 68.52 68.52 5 5 23.71 23.71 6.71 6.71 1.65 5.23 6.87
26、 6.87 3.87 3.55 7.42 7.42 7.87 6.74 9.94 24.55 24.55 69.26 69.26 6 6 21.65 21.65 6.73 6.73 0.87 5.07 5.93 5.93 3.80 3.70 7.50 7.50 6.97 6.43 9.73 23.10 23.10 64.92 64.92 66.77 66.77 2002级植科平均平均一一二二三三四四小计小计五五1 1 2 23 34 4考试成考试成绩绩总评总评1 1班班10.88 10.88 6.00 6.00 8.43 8.43 10.34 10.34 35.64 35.64 22.75 2
27、2.75 4.68 4.68 2.57 2.57 5.07 5.07 10.88 10.88 58.39 58.39 70.90 70.90 2 2班班11.50 11.50 6.37 6.37 8.41 8.41 10.33 10.33 36.61 36.61 25.78 25.78 4.33 4.33 4.26 4.26 7.52 7.52 9.67 9.67 62.39 62.39 73.80 73.80 3 3班班11.63 11.63 7.14 7.14 7.25 7.25 9.21 9.21 35.23 35.23 22.04 22.04 4.14 4.14 2.39 2.39 4
28、.82 4.82 10.68 10.68 57.27 57.27 69.70 69.70 4 4班班10.98 10.98 6.31 6.31 7.81 7.81 9.60 9.60 34.69 34.69 23.02 23.02 3.94 3.94 3.83 3.83 5.15 5.15 9.83 9.83 57.71 57.71 67.90 67.90 5 5班班10.86 10.86 6.69 6.69 8.47 8.47 11.57 11.57 37.59 37.59 21.91 21.91 3.76 3.76 4.10 4.10 5.86 5.86 8.29 8.29 59.50 5
29、9.50 6 6班班11.20 11.20 6.07 6.07 8.95 8.95 11.50 11.50 37.71 37.71 21.04 21.04 3.68 3.68 3.80 3.80 5.98 5.98 7.61 7.61 58.75 58.75 59.00 59.00 42常用的次数分布图有常用的次数分布图有条形图条形图直方直方图图和和多边形图多边形图(折线图折线图),),饼分图饼分图等等,也也可以按照资料分组的频率值绘制成可以按照资料分组的频率值绘制成频率分频率分布图布图。l将次数分布资料画成将次数分布资料画成统计图形统计图形,可以,可以更更直观直观地观察各组变量次数分布的情况
30、,地观察各组变量次数分布的情况,形象形象地把资料的特征表现出来。地把资料的特征表现出来。43l条形图条形图(bar diagrambar diagram)适用适用于于间断性变数间断性变数和和属性变数属性变数资料,资料,用以表示这些变数的次数分布用以表示这些变数的次数分布状况。状况。l横轴标出间断的中点值或分类横轴标出间断的中点值或分类性状,纵轴标出次数。性状,纵轴标出次数。44454647l方柱形图(方柱形图(histogramhistogram)适用于表示适用于表示连续连续性变数性变数的次数分布。的次数分布。l以表以表3.63.6的的140140行水稻产量行水稻产量的次数分布表为的次数分布表
31、为例加以说明。该表有例加以说明。该表有1313组组,所以在,所以在横轴上横轴上分为分为1313等分等分(因第一组下限不是从因第一组下限不是从0 0开始,开始,故故第一等分应离开原点一些,并在其前加第一等分应离开原点一些,并在其前加折断号折断号),每一等分代表一组。第一组的,每一等分代表一组。第一组的上限即为第二组的下限,如此依次类推。上限即为第二组的下限,如此依次类推。4849l在在纵轴上标定次数纵轴上标定次数,查,查140140行水稻产量的行水稻产量的次数分布表,最多一组的次数为次数分布表,最多一组的次数为2525,故故在纵轴上分为在纵轴上分为2525等分,但只要标明等分,但只要标明0 0、
32、5 5、1010、1515、2020、2525即可,借以代表次数。即可,借以代表次数。l横坐标与纵坐标的长度应有合适的比例横坐标与纵坐标的长度应有合适的比例(一般为一般为5 5:4 4或或6 6:5 5为好为好),绘成的图形,绘成的图形才能明显表明次数分布情况。图示第一才能明显表明次数分布情况。图示第一组时,横坐标上第一等分的两界限,即组时,横坐标上第一等分的两界限,即为第一组的下限和上限。为第一组的下限和上限。50 多边形图(多边形图(polygonpolygon)也是表也是表示示连续性变数资料连续性变数资料的一种常的一种常用的方法,且在同一图上可比用的方法,且在同一图上可比较两组以上的资料
33、。较两组以上的资料。515253l饼图饼图(pie diagrampie diagram)适用于适用于间断性变数间断性变数和和属性变数资属性变数资料料,用以表示这些变数中各种,用以表示这些变数中各种属性或各种间断性数据观察值属性或各种间断性数据观察值在总观察个数中的百分比。在总观察个数中的百分比。54 5556l变量分布的特征变量分布的特征:和和这两个性质可以通过计算它们的特征这两个性质可以通过计算它们的特征数来反映。数来反映。l集中性集中性 是指变量在趋势上有着向某一中是指变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分心聚集,或者说以某一数值为中心而分布的性质。布的性质。l离散性
34、离散性 是指变量有离中心分散变异的性是指变量有离中心分散变异的性质质57特征数特征数平均数平均数(集中性集中性)变异数变异数(离散性离散性)58ln n个观察数的样本个观察数的样本总体或样本资料中各个观测数的总和总体或样本资料中各个观测数的总和除以观测数的个数所得商。除以观测数的个数所得商。nxxxxn21niixn11(3.2)59为求和符号为求和符号,表示从表示从x xi i的的i=1i=1一直加到一直加到i=ni=n,也可简写为也可简写为 或或(=),),表示表示 的估计值。因的估计值。因 应用广泛,常应用广泛,常简称简称或或。niix1iixxniix1iixxxx60NxxxN21N
35、iixN11上式上式xixi代表各个观察值,代表各个观察值,N N代表有限总代表有限总体所包含的个体数,体所包含的个体数,表示总体内各表示总体内各个观察值的总和。个观察值的总和。Niix1612.2.中位数中位数 (median)(median)将资料中所有观测数依大小将资料中所有观测数依大小顺序排列,居于中间位置的观测数,顺序排列,居于中间位置的观测数,以以MdMd表示。表示。如观察值个数为偶数,则以二个如观察值个数为偶数,则以二个观察值的算术平均数为中数。观察值的算术平均数为中数。623.3.众数众数(mode)(mode)资料中次数最多一组的资料中次数最多一组的中点值,中点值,以以MoM
36、o表示表示63资料中有资料中有n n个观测数,其乘积开个观测数,其乘积开n n次方次方所得的数值,计算公式为:所得的数值,计算公式为:4.4.几何平均数几何平均数nxxxGn 21nniix164l四种平均数中,四种平均数中,算术平均数算术平均数是最常用的是最常用的,其他使用较少。,其他使用较少。65l例例2.12.1随机抽取随机抽取2020株小麦,其株高(株小麦,其株高(cmcm)分别为分别为8282,7979,8585,8484,8686,8484,8383,8282,8383,8383,8484,8181,8282,8181,8282,8282,8282,8080,求小麦的平均株高。,求
37、小麦的平均株高。66l解解:根据平均数的定义:根据平均数的定义3.82807982(2011)xnx67l2.2.减去常数法减去常数法 若变量若变量x xi i的值都较大,的值都较大,且接近某一常数且接近某一常数a a时,可将它们的值时,可将它们的值都减去常数都减去常数a a,得到一组新的数据,得到一组新的数据,然后再计算平均数然后再计算平均数x x。即设即设 y yi i=x=xi i-,则则x xi i=y yi i+a a)(11)(11111nanynaynxnxniiniiniiayn168800)1(2201x=82.3(cm)=82.3(cm)利用减去常数法,计算例利用减去常数法
38、,计算例2.12.1的平均数。的平均数。解:解:设设a=80a=80,则有则有y y1 1=82-80=2,=82-80=2,y y2 2=79-80=-1,=79-80=-1,,y y2020=80-80=0=80-80=0,代入式代入式2.42.4得:得:69l在具有在具有n n个观测数的样本中,如果观测数个观测数的样本中,如果观测数x x1 1出现出现f f1 1次,观测次,观测x x2 2出现出现f f2 2次,次,观测数,观测数x xm m出现出现f fm m次,且次,且f f1 1+f+f2 2+f+fm m=n=n,则:则:mmmfffxfxfxfx212211miiixfn11
39、(3.3)70在平均数中的在平均数中的“权数权数”,即,即数值相同的观测值出现的次数,因而这里数值相同的观测值出现的次数,因而这里求得的求得的 称为加权平均数。称为加权平均数。ifixx71解解:先整理:先整理2020个小麦株高数据的个小麦株高数据的次数分布次数分布表表:)186280179(201x=82.3(=82.3(cmcm)72株高株高x x7980818283848586123633117916024349224925285866241128001968340344206672116872257396=20=16462=135524ffx2fxffxfx例例2.32.37374)(
40、)()(21xxxxxxxxn()xnxxxn)(21xnx因为 ,所以,故:nxxxnx0)xnxxx(75l设设a a为为 以外的任何数值,则以外的任何数值,则 x22)()(axxx76l算术平均数是描述观测资料的重要特征算术平均数是描述观测资料的重要特征数,它的作用主要有以下两点:数,它的作用主要有以下两点:(1 1)指出一数据资料内变量的中心位置,指出一数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质标志着资料所代表性状的数量水平和质量水平;量水平;(2 2)作为样本或资料的代表数与其他资作为样本或资料的代表数与其他资料进行比较。料进行比较。77由于变量的分布具有集中性和
41、离散性两方面的特由于变量的分布具有集中性和离散性两方面的特征,因此,只有能表示集中性的平均数是不够的,还必征,因此,只有能表示集中性的平均数是不够的,还必须要有能表示其离散性(变异性)的度量值。用来表示须要有能表示其离散性(变异性)的度量值。用来表示变异性的指标很多。变异性的指标很多。常用的有常用的有极差、标准差、方差和变极差、标准差、方差和变异系数异系数等,其中以等,其中以标准差标准差和和变异系数变异系数应用最应用最为广泛。为广泛。78l极差又称全距极差又称全距,它是样本中最大值与,它是样本中最大值与最小值之差,用最小值之差,用R R表示。表示。lR=maxx1,x2,R=maxx1,x2,
42、xnxn-min x1,x2,min x1,x2,xnxn 例如表例如表3.43.4资料中,资料中,140140行水稻产量行水稻产量的极的极差差R=254-75=179gR=254-75=179g。7980l极差的局限性极差的局限性:极差虽然对资料的变:极差虽然对资料的变异度有所说明,但它只能由样本中的异度有所说明,但它只能由样本中的两个极端观察值决定,它两个极端观察值决定,它不能反映资不能反映资料中各个观测数的变异程度料中各个观测数的变异程度,易于受,易于受样本中不正常极端值的影响,因此,样本中不正常极端值的影响,因此,它它只能在研究小样本时使用(只能在研究小样本时使用(n10n10)。)。
43、8182Variance,Mean squareVariance,Mean square830)(xx2)xx(1 1)可以用各可以用各观测数离均差的大小观测数离均差的大小来表来表示。示。由于由于 ,不能反映,不能反映其变异程度。其变异程度。(2 2)将离均差先平方再求和)将离均差先平方再求和,即,即就可消除上述弊病。就可消除上述弊病。离均差平方和常离均差平方和常随样本容量大小而改变。随样本容量大小而改变。84l对于对于样本样本来说,其方差为:来说,其方差为:1)(22nxxs85 Nx22)(8622上式中,上式中,n-1n-1在统计学上称为在统计学上称为自由度自由度。N N为为有限总体容量
44、。有限总体容量。S S2 2 是是 的最好估计值。的最好估计值。均方与方差这两个名称常常通用,但习惯均方与方差这两个名称常常通用,但习惯上上的的称称,总体总体的的称方差称方差。方差是度量资料变异的常用指标,在统计分方差是度量资料变异的常用指标,在统计分析中有广泛的应用。析中有广泛的应用。8788l方差虽然能反映变量的变异程度,方差虽然能反映变量的变异程度,但由于离均差取了平方值,使得它但由于离均差取了平方值,使得它与原始数据的数值和单位都不相适与原始数据的数值和单位都不相适应,需要将方差开方还原。应,需要将方差开方还原。891(2nxxs)Nx2)(l样本标准差样本标准差S S是是对对总体标准
45、差总体标准差的的最好估最好估计值计值。90l自由度的意义自由度的意义:比较:比较3.93.9和和3.103.10两式,样本两式,样本标准差不以样本容量标准差不以样本容量n n,而以自由度而以自由度n-1n-1作为作为除数,是因为所掌握的样本资料,不知除数,是因为所掌握的样本资料,不知的的数值,不得不用样本均数数值,不得不用样本均数 来代替来代替。由由于于 是一最小平方和,如果以是一最小平方和,如果以N N为为除数,则所得除数,则所得 是是的的偏小估计偏小估计,如果,如果用用n-1n-1代替代替n n,则可避免偏小估计的弊端,提高用则可避免偏小估计的弊端,提高用样本估计总体变异的精度样本估计总体
46、变异的精度。2)x(x91自由度的另一种解释自由度的另一种解释:对于一个具有:对于一个具有n n个观察值的样本,在每一个个观察值的样本,在每一个 与与 比比较时较时,虽然具有虽然具有n n个离均差,但因受到个离均差,但因受到 这一条件的限制,所以只有这一条件的限制,所以只有n-1n-1个是自由的。个是自由的。自由度记作自由度记作DFDF,其具体数值则常用其具体数值则常用 表表示示xx0)xx(92l所以,在估计其他统计数时,如该统计所以,在估计其他统计数时,如该统计数数受受k k个条件限制个条件限制,则其自由度,则其自由度为为n-kn-k。0)xx(例如有例如有5 5个观察值,如个观察值,如4
47、 4个离均差是个离均差是3 3、2 2、-3-3、6 6,则第,则第5 5个离均差必为个离均差必为-8-8,才能使,才能使932)xx(x求出平均数;求出平均数;求出求出按公式按公式3.93.9计算。计算。为了避免为了避免 为约数时引起的计算误差,通为约数时引起的计算误差,通常进行下面的变换:常进行下面的变换:94)2()(222xxxxxxnxx22)(1)(22nnxxs=(离(离均差均差平方和平方和)代入式代入式3.93.9,得:,得:(3.113.11)-和平方和平方平方和平方和-95测得测得9 9名男子前臂长(名男子前臂长(cmcm)的样的样本数据,列于本数据,列于2-82-8,试计
48、算其标准差。,试计算其标准差。(设设x=x-45x=x-45)(用两种方法计算法)用两种方法计算法)9697解解将表将表2-82-8资料按两种算法数据代入资料按两种算法数据代入2.142.14,得:,得:)(0.31996762cms)(0.3199411188412cms98l两种算法相比,其结果是一样的。两种算法相比,其结果是一样的。l分组的资料分组的资料应采用应采用加权的公式加权的公式进行计算,其公式为:进行计算,其公式为:(3.123.12)1)(1)(222nnfxfxnxxfs99根据表根据表2-72-7数据,计算数据,计算2020株株小麦株高的标准差。小麦株高的标准差。100株高
49、株高x x7980818283848586123633117916024349224925285866241128001968340344206672116872257396=20=16462=135524ffx2fxffxfx101135524,16462fxfx7502.11202016461355242s由表由表2-7可知,可知,代入式代入式3.123.12,得:,得:(cm)102标准差是衡量变量资料变异程度的标准差是衡量变量资料变异程度的最好标志。最好标志。特性:特性:(1 1)标准差的大小受多个观测数的影标准差的大小受多个观测数的影响,如果响,如果观测数间差异较大观测数间差异较大,
50、其离均,其离均差就大,因而差就大,因而标准差也大标准差也大,反之则小。,反之则小。103(2 2)在计算标准差时,对各观测数在计算标准差时,对各观测数加上加上或或减去减去一个常数,其标准差一个常数,其标准差不变不变。如果。如果给各观测数给各观测数乘以乘以或或除以除以一个一个常数常数a a,则所则所得的标准差得的标准差扩大扩大或或缩小缩小a a倍倍。104sx(3 3)在正态分布情况下,一个样本变量在正态分布情况下,一个样本变量的分布情况可作如下估计:的分布情况可作如下估计:在平均数的在平均数的1 1倍范围内,即倍范围内,即 的观的观测数个数约为观测总个数的测数个数约为观测总个数的68.2768
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。