1、.1在生物学试验及调查中,通过对某种具体事在生物学试验及调查中,通过对某种具体事物或现象观察获得的结果称为物或现象观察获得的结果称为资料资料。原始数据原始数据无序无序有序有序统计分析统计分析揭示事物本质揭示事物本质.2一、试验资料的类型一、试验资料的类型二、试验资料的搜集二、试验资料的搜集三、试验资料的整理三、试验资料的整理第一节 试验资料的搜集与整理.3对对试验资料试验资料进行分类是统计归纳的基础。进行分类是统计归纳的基础。数量性状资料数量性状资料质量性状资料质量性状资料(属性性状资料)(属性性状资料)计数资料计数资料(非连续变量资料)(非连续变量资料)计量资料计量资料(连续变量资料)(连续
2、变量资料)变量变量定量变量定量变量定性变量定性变量连续变量连续变量非连续变量非连续变量资料资料.4数量性状数量性状(quantitative character)是指能够以计数和是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数测量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是量性状而获得的数据就是数量性状资料数量性状资料(data of quantitative characteristics)。数量性状资料的获得。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为有计数和测量两种方式,因而数量性状资料又分为计数资料计数资料和和计量资料计量资料两种。两种
3、。一、数量性状资料一、数量性状资料1、计数资料(、计数资料(非连续变量资料、间断变量资料、离散变量资料非连续变量资料、间断变量资料、离散变量资料)指用计数方式获得的数量性状资料。在这类资料中,指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连不得有任何带小数的数值出现,因此各观察值是不连续的,所以该类资料也称为续的,所以该类资料也称为非连续变量资料非连续变量资料或或间断变间断变量资料量资料或或离散变量资料离散变量资料。.6 2、计量资料、计量资料(连续变量资料)
4、(连续变量资料)指用测量或度量法获得的数量性状资料,即用度、量、衡等指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。这种资料的各个观容积、温度、浓度等来表示,要带单位。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,数值出现,其小数位数的多少由度量工具的精确度而定,它它们之间的变异是连续性的,因此计量资料也称为们之间的变异是连续
5、性的,因此计量资料也称为连续变量资连续变量资料料。.7二、质量性状资料(属性性状资料)二、质量性状资料(属性性状资料)质量性状质量性状(qualitative character)是指能观察到而不能直是指能观察到而不能直接测量的性状。接测量的性状。观察质量性状而获得的数据就是观察质量性状而获得的数据就是质量质量性状资料性状资料(data of qualitative characteristics)。这类性。这类性状本身不能直接用数值表示,要获得这类性状的数据状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下资料,须对其观察结果作数量化处理,其方法有以
6、下两种:两种:1、统计次数法、统计次数法 在一定的总体或样本中,根据某一质量性状的类别统在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。花的株数分类统计如下表。株数频率红花26626.6%紫花49449.4%白花24024.0%总计1000100.0%这种由质量性状数量化得来的资料又叫这种由质量性状数量化得来的资料又叫次数资料次数资料.9 2、评分法、评分法 对某一质
7、量性状分成不同级别,对不同级别进行对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。例如,试剂数量化,以便统计分析。例如,试剂pH值由酸到碱值由酸到碱分成分成14个等级,取待测试剂滴在个等级,取待测试剂滴在pH试纸上,与试纸上,与pH标标准色版对比,由红到紫分别定义为准色版对比,由红到紫分别定义为 114 的数值。的数值。两种不同类型的资料相互间是有区别的,但有时可根两种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化据研究的目的和统计方法的要求将一
8、种类型资料转化成另一种类型的资料。成另一种类型的资料。例如,检测个体的白细胞总数得到的资料属于计数资例如,检测个体的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数过高、正常或料,根据化验的目的,可按白细胞总数过高、正常或过低分为三组,清点各组的次数,计数资料就转化为过低分为三组,清点各组的次数,计数资料就转化为质量性状次数资料。质量性状次数资料。.11一、试验资料的类型一、试验资料的类型二、试验资料的搜集二、试验资料的搜集三、试验资料的整理三、试验资料的整理第一节 试验资料的搜集与整理.12调调 查查试试 验验资料搜集的方法资料搜集的方法一、调查一、调查 调查调查是对已经存在
9、的事情的资料按某种方案进行收集的方法。如地质调查、水样调查、河南省内的昆虫调查等等。资料的调查又可以分为两种:普查和抽样调查。1、普查普查 是对研究对象的全部个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和全面。如人口普查、土壤普查等等。普查可以为制定行业政策提供理论依据。2、抽样调查、抽样调查 是根据一定的原则从研究对象中抽取一部分具有代表性的是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征数对总体进行推断。生物学研究中,理,然后利用样本的
10、特征数对总体进行推断。生物学研究中,进行普查的情况较少,多数情况下还是进行抽样调查。进行普查的情况较少,多数情况下还是进行抽样调查。抽样的方法有多种,主要有:机械抽样法、随机抽样法、抽样的方法有多种,主要有:机械抽样法、随机抽样法、分层抽样法,一般情况下在统计学中常常采用分层抽样法,一般情况下在统计学中常常采用随机抽样随机抽样的方法。的方法。随机抽样必须满足随机抽样必须满足2个条件个条件:一是总体中每个个体被抽中的:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。被抽中不受其他个体的
11、影响。二、试验二、试验 试验试验是对已有的或没有的事物加以处理的方法。采用合理的试验设计能够以较少的投入获得较大的收获,起到“事半功倍”的效果。常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。试验设计须遵循的三大原则是:随机、重复和局随机、重复和局部控制部控制。.16一、试验资料的类型一、试验资料的类型二、试验资料的搜集二、试验资料的搜集三、试验资料的整理三、试验资料的整理第一节 试验资料的搜集与整理.17(一)原始资料的检查与核对(一)原始资料的检查与核对调查调查试验试验原始原始数据数据核对:数据本身是否有错误核对:数据本身
12、是否有错误检查:取样是否有差错检查:取样是否有差错订正:不合理数据的订正订正:不合理数据的订正.18检查和核对原始资料的目的:确保原始资料的完整性和正确性。完整性:是指原始资料无遗缺或重复。正确性:是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料 ,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。.19不必分组,不必分组,直接进行统计分析直接进行统计分析小样本小样本n500 15 30表表2-5样本容量与分组数的关系样本容量与分组数的关系组距的确定组距的确定即每组内的
13、上下限范围。即每组内的上下限范围。组距全距组距全距/组数组数48104.8(3)确定组限(class limit)和组中值(class midvalue)组限组限 是指每个组变量值的起止界限。上限下限组中值组中值 是两个组限的中间值。组中值组中值下限上限下限上限 2组距组距2下限下限组距组距2上限上限第一组的组中第一组的组中值最好接近于值最好接近于资料的最小值资料的最小值表2-4150尾鲢鱼体长(cm)56 49 62 78 41 47 65 45 58 55 59 65 69 62 7352 52 60 51 62 78 66 45 58 58 60 57 52 51 4856 46 58
14、70 72 76 77 56 66 58 58 55 53 50 6563 57 65 85 59 58 54 62 48 63 46 61 62 57 3858 52 54 55 66 52 48 56 75 72 57 37 46 76 5663 75 65 48 52 55 54 62 71 48 62 58 46 57 3854 53 65 42 83 66 48 53 58 46 46 26 36 76 5560 54 58 49 52 56 82 63 65 54 75 65 86 46 7770 69 40 56 58 61 54 53 52 43 52 64 58 58 547
15、8 52 56 61 59 54 59 64 68 51 59 68 63 52 63最小一组的下限最小一组的下限必须小于资料中必须小于资料中的最小值,最大的最小值,最大一组的上限必须一组的上限必须大于资料中的最大于资料中的最大值;大值;组限可取到组限可取到10分分位或位或5分位上;分位上;临界值就高不就临界值就高不就低。低。35,40,45,85。(4)分组分组确定好组数和各组上下限后,可按原始资料中各观测确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数值的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。次数、频
16、率、累积频率,制成一个次数分布表。计数的方法计数的方法卡片法卡片法唱票法唱票法画画“正正”字字画画“”组限 组中值 次数 频率 累积频率 Frequency Percent Cumulative Percent 35 37.5 3 0.0200 0.0200 40 42.5 4 0.0267 0.0467 45 47.5 17 0.1133 0.1600 50 52.5 28 0.1867 0.3467 55 57.5 40 0.2666 0.6133 60 62.5 25 0.1667 0.7800 65 67.5 17 0.1133 0.8973 70 72.5 6 0.0400 0.93
17、33 75 77.5 7 0.0467 0.9800 80 82.5 2 0.0133 0.9933 85 87.5 1 0.0067 1.0000表表2-6 150尾鲢鱼体长的次数分布表尾鲢鱼体长的次数分布表.33(三)次数分布图和频率分布图(三)次数分布图和频率分布图定义:定义:把次数(频率)分布资料画成统计图形。把次数(频率)分布资料画成统计图形。特点:特点:直观、形象直观、形象包括:包括:条形图、饼图、直方图、多边形图和散点图条形图、饼图、直方图、多边形图和散点图.34(1)标题简明扼要)标题简明扼要,列于图的下方列于图的下方;(2)纵、横两轴应有刻度,注明单位;)纵、横两轴应有刻度,
18、注明单位;(3)横轴由左至右,纵轴由下而上,数值由小到大;图)横轴由左至右,纵轴由下而上,数值由小到大;图 形长宽比例约形长宽比例约5:4或或6:5;(4)图中需用不同颜色或线条代表不同事物时,应有图)图中需用不同颜色或线条代表不同事物时,应有图 例说明。例说明。图图2.1 月产蛋数次数分布柱形图月产蛋数次数分布柱形图图图2.2 月产蛋数频率分布柱形图月产蛋数频率分布柱形图条形图(条形图(bar chart),又称柱形图又称柱形图计数资料计数资料特点:特点:柱形之间要间隔一定的距离柱形之间要间隔一定的距离 属性资料属性资料2 饼图饼图(pie chart)图图1 来亨鸡月产蛋次数分布图来亨鸡月
19、产蛋次数分布图计数资料计数资料属性资料属性资料图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分布图3 直方图直方图(histogram),又称矩形图,又称矩形图计量资料计量资料35 40 45 50 55 60 65 70 75 80 85 90特点:特点:各组之间没有距离各组之间没有距离 .38图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分布图35 40 45 50 55 60 65 70 75 80 85 90组中值组中值4 多边形图多边形图(polygon),又称折线图,又称折线图(broken-line chart)计量资料计量资料图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分布图.405 散
20、点图散点图(scatter)1 2 3 4 5 64321 1 2 3 4 5 64321 1 2 3 4 5 64321a.正向直线关系b.负向直线关系c.曲线关系.41搜集、归纳原始数据搜集、归纳原始数据用表格、图形来表达数据用表格、图形来表达数据用量化的统计学指标来描述一组定量用量化的统计学指标来描述一组定量数据的分布特征数据的分布特征.42图图2.1 月产蛋数次数分布柱形图月产蛋数次数分布柱形图图图2.3 鲢鱼体长次数分布直方图鲢鱼体长次数分布直方图35 40 45 50 55 60 65 70 75 80 85 90.43第二节 试验资料特征数的计算集中性集中性 是变量在趋势上有着向
21、某一中心聚集,或者说是变量在趋势上有着向某一中心聚集,或者说 以某一数值为中心而分布的性质。以某一数值为中心而分布的性质。离散性离散性 是变量有着离中分散变异的性质。是变量有着离中分散变异的性质。变量的分布具有两种明显的基本特征:变量的分布具有两种明显的基本特征:集中性和离散性集中性和离散性。.44集中性集中性离散性离散性平均数平均数变异数变异数算术平均数算术平均数中位数中位数众数众数几何平均数几何平均数极差极差方差方差标准差标准差变异系数变异系数调和平均数调和平均数.45一、平均数一、平均数平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置中心位置,并且可作为资料
22、的代表与另一组相比较,以确定二者的差异情况。.46(一)平均数的种类(一)平均数的种类算术平均数算术平均数中位数中位数众数众数几何平均数几何平均数调和平均数调和平均数一、平均数一、平均数.471.算术平均数算术平均数 (arithmetic mean)定义:总体或样本资料中所有观测数的总和除以观测数定义:总体或样本资料中所有观测数的总和除以观测数 的个数所得的商,简称平均数、均数或均值。的个数所得的商,简称平均数、均数或均值。总体:总体:样本:样本:NiiNxNNxxx1211.niinxnnxxxx1211.一、平均数一、平均数.482.中位数中位数(median)资料中所有观测数依大小顺序
23、排列,居于中间位置的资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。观测数称为中位数或中数。Md 中位数将该组数值分为两半,理论上有中位数将该组数值分为两半,理论上有50的变量小的变量小于于md,有有50的变量值大于的变量值大于 md,故又称百分之五十位数,故又称百分之五十位数,记为记为P50。一、平均数一、平均数 1、当观测值个数、当观测值个数n为奇数时,为奇数时,(n+1)/2位置的观测位置的观测值,即值,即x(n+1)/2为中位数:为中位数:Md=2、当观测值个数为偶当观测值个数为偶 数数 时,时,n/2和(和(n/2+1)位置)位置的两个观测值之和的的两个观测值之
24、和的1/2为中位数,即:为中位数,即:2/)1(nx2)12/(2/nndxxM.50高招生考试或水平考试招生考试或水平考试:0.30.4平常测验平常测验:0.20.25m1 md m2区分度区分度m1Tm2Tm2-m1T考试中考试中.51中位数是一个位置平均数,可以免受资料中由于非中位数是一个位置平均数,可以免受资料中由于非常因素造成的极端值的影响。常因素造成的极端值的影响。但中位数的决定只与居于中间位置的一个或两个观但中位数的决定只与居于中间位置的一个或两个观察值有关,没能用到全部观察值提供的信息,所以察值有关,没能用到全部观察值提供的信息,所以与算术平均数有一定的出入。与算术平均数有一定
25、的出入。当数据的分布较为对称时,二者相近或相等;当数当数据的分布较为对称时,二者相近或相等;当数据分布偏斜时,二者相差较大,此时中位数对数据据分布偏斜时,二者相差较大,此时中位数对数据趋中性的度量比算术平均数为优。趋中性的度量比算术平均数为优。.523.众数众数(mode)资料中出现次数最多的那个观测值或次数最多一组的资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。组中值或中点值。M0注意:注意:(1)对于某些数据而言,如均匀分布,并不存在众数;)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;)对于某些数据存在两个或两个以上的众数;(3)
26、主要用来描述频率分布。)主要用来描述频率分布。一、平均数一、平均数.53由于中位数只能代表一个、最多两个观察值,而由于中位数只能代表一个、最多两个观察值,而众数却代表着大多数观察值的数量水平。用众数众数却代表着大多数观察值的数量水平。用众数描述统计资料的数量水平,其代表性要优于中位描述统计资料的数量水平,其代表性要优于中位数。数。间断性变量由于样本内的各观察值易于集中于某间断性变量由于样本内的各观察值易于集中于某一数值,所以众数易于确定;连续性变量由于连一数值,所以众数易于确定;连续性变量由于连接两个整数区间之内,可有多个数值存在,样本接两个整数区间之内,可有多个数值存在,样本内各值不易集中于
27、某一数值,因此不易确定众数。内各值不易集中于某一数值,因此不易确定众数。连续性资料众数的确定,常需在次数分布表的基连续性资料众数的确定,常需在次数分布表的基础上,由出现次数最多一组的组中值决定。础上,由出现次数最多一组的组中值决定。.544.几何平均数几何平均数(geometric mean)资料中有资料中有n个观测数,其乘积开个观测数,其乘积开n次方所得数值。次方所得数值。GG=nininnxxxxx1321.一、平均数一、平均数nxnxxxGn)(lglglglglg11nxGG)(lglg)(lglg11.554.几何平均数几何平均数(geometric mean)G实际就是观察值对数的
28、算术平均数的反对数。它适用于实际就是观察值对数的算术平均数的反对数。它适用于变量变量x为对数正态分布,经对数转换后呈正态分布的资料。为对数正态分布,经对数转换后呈正态分布的资料。主要用于以百分率、比例表示的数据资料,在计算平均增主要用于以百分率、比例表示的数据资料,在计算平均增长率方面具有独特的应用价值。长率方面具有独特的应用价值。G=nininnxxxxx1321.一、平均数一、平均数nxGG)(lglg)(lglg11.565.调和平均数调和平均数(harmonic mean)资料中各观测值倒数的算术平均数的倒数。资料中各观测值倒数的算术平均数的倒数。H适用范围:主要用于反映生物不同阶段的
29、平均增长适用范围:主要用于反映生物不同阶段的平均增长 率或不同规模的平均规模。率或不同规模的平均规模。xn11H=1一、平均数一、平均数.57(二)算术平均数的计算方法(二)算术平均数的计算方法直接计算法直接计算法减去常数法减去常数法加权平均法加权平均法一、平均数一、平均数.581、直接计算法、直接计算法 样本含量样本含量n30以下、未经分组资料平均数的计算。以下、未经分组资料平均数的计算。例:随机抽取例:随机抽取20株小麦测量它们的株高(株小麦测量它们的株高(cm)分别为:)分别为:79 85 84 86 84 83 82 83 8384 81 80 81 82 81 82 82 82 80
30、 求小麦的平均株高。求小麦的平均株高。)(3.8220)80.7982(cmnxx2、减去(加上)常数法、减去(加上)常数法 若变量若变量 的值都比较大(或都比较小),且接近某一的值都比较大(或都比较小),且接近某一常数常数a时,可将它们的值都减去(或加上)常数时,可将它们的值都减去(或加上)常数a,得到一组,得到一组新的数据,计算其平均数,再重新加上(或减去)常数新的数据,计算其平均数,再重新加上(或减去)常数a。ix例:设例:设a为为80(cm)则有:)则有:79 85 84 86 84 83 82 83 83 2 1 5 4 6 4 3 2 3 3 81 80 81 82 81 82 8
31、2 82 8082 4 1 0 1 2 1 2 2 2 0)(3.828020)0.12(80cmnxx.603、加权平均法、加权平均法 通常对通常对样本容量样本容量n30 且已分组的资料且已分组的资料,多在次数分布表的,多在次数分布表的基础上采用加权法计算平均数。基础上采用加权法计算平均数。第第i组的次数组的次数fi是权衡第是权衡第i个自然值个自然值xi在资料中所占比重大小的在资料中所占比重大小的数量,因此将数量,因此将fi 称为是称为是xi的的“权数权数”,加权法也由此而得名。,加权法也由此而得名。若为若为计数资料,计数资料,此时直接用自然值乘以次数来计算,即此时直接用自然值乘以次数来计算
32、,即nxfxii.61ixifk 若为若为则用每组组中值乘以该组次数之和再除则用每组组中值乘以该组次数之和再除以总次数来计算,计算公式为:以总次数来计算,计算公式为:ffxfxffffxfxfxfxkiiikiikkk11212211.例例株高株高x次数次数ffx791798021608132438264928332498432528518586186)(3.82)186.280179(201cmx例:例:将将100头长白母猪的仔猪一月窝重(单位:头长白母猪的仔猪一月窝重(单位:kg)资)资料整理成次数分布表如下,求其加权平均数。料整理成次数分布表如下,求其加权平均数。表表 100头长白母猪仔
33、猪一月窝重次数分布表头长白母猪仔猪一月窝重次数分布表组别组别组中值组中值(x)次数次数(f)fx101534520256150303526910404530135050552413206065852070753225合计合计1004520这这100头长白母猪仔猪一月龄平均窝重为头长白母猪仔猪一月龄平均窝重为45.2kg)(2.451004520kgffxx212211nnxnxnx 计算若干个来自同一总体的计算若干个来自同一总体的样本平均数的平均数样本平均数的平均数时,如果时,如果样本含量不等,也应采用加权法计算。样本含量不等,也应采用加权法计算。设设 是是n1个数的平均数,个数的平均数,是是
34、n2个数的平均数,那么全个数的平均数,那么全部部n1+n2个数的算术平均数是个数的算术平均数是:1x2x此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权数,求两个牛群平的平均体重,应以两个牛群牛的头数为权数,求两个牛群平均体重的加权平均数,即:均体重的加权平均数,即:)(89.738270012007251500750kgffxx 例:例:某牛群有黑白花奶牛某牛群有黑白花奶牛 1500头,其平均体重为头,其平均体重为750 kg,而另一牛群有黑白花奶牛而另一牛群有黑白花奶牛1200头,平均体重为头,
35、平均体重为725 kg,如果,如果将这两个牛群混合在一起,其混合后平均体重为多少?将这两个牛群混合在一起,其混合后平均体重为多少?.66(三)算术平均数的重要性质(三)算术平均数的重要性质算术平均数与样本内的每个值都相关,它的大算术平均数与样本内的每个值都相关,它的大小受每个值的影响;小受每个值的影响;若每个若每个Xi都乘以相同的数都乘以相同的数k,则原平均数亦应乘,则原平均数亦应乘以以k;若每个若每个Xi都加上相同的数都加上相同的数a,则原平均数亦可直,则原平均数亦可直接加上接加上a。一、平均数一、平均数.67离均差之和等于零。离均差之和等于零。xnxxxn).(210)(xx)(.)()(
36、21xxxxxxnnxnx)(xx0这一性质表明:一组资料的观察值是围绕其算术平均数作上下波动的。这一性质表明:一组资料的观察值是围绕其算术平均数作上下波动的。.68离均差平方和最小。离均差平方和最小。样本中观察值与其平均数的离差平方和较各个观样本中观察值与其平均数的离差平方和较各个观察值与其他任意数值的离差平方和为最小。察值与其他任意数值的离差平方和为最小。22)()()(axxxax)()(2xxax02222)()()()(xxaxnxxax2)(xx22)()(2)(axaxxxxx22)()(2)(axaxxxxx该性质表明:算术平均该性质表明:算术平均数对资料的代表最强。数对资料的
37、代表最强。2)(ax22)()(axxx.69(四)算术平均数的作用(四)算术平均数的作用(1)指出一组数据资料内变量的中心位置,标志着资)指出一组数据资料内变量的中心位置,标志着资 料所代表性状的数量水平和质量水平。料所代表性状的数量水平和质量水平。(2)作为样本或资料的代表数与其它资料进行比较。)作为样本或资料的代表数与其它资料进行比较。(3)通过平均数提供计算样本变异数的基本数据。)通过平均数提供计算样本变异数的基本数据。(4)用样本的平均数估计总体平均数。)用样本的平均数估计总体平均数。一、平均数一、平均数用平均数作为样本的代表,其代表性的强弱受样本资用平均数作为样本的代表,其代表性的
38、强弱受样本资料中各观测值变异程度的影响。料中各观测值变异程度的影响。如果各观测值变异小,则平均数对样本的代表性强如果各观测值变异小,则平均数对样本的代表性强;如果各观测值变异大,则平均数对样本的代表性弱。如果各观测值变异大,则平均数对样本的代表性弱。三组同年龄、同性别儿童体重(kg)的数据:I组:26 28 30 32 34II组:20 25 30 35 40III组:23 27 30 33 37三组的平均数均为三组的平均数均为30,变异如何体现?,变异如何体现?例:如果各观测值没有变异,则平均数可完全代表整个样本。如果各观测值没有变异,则平均数可完全代表整个样本。.71 集中趋势是数据分布的
39、一个重要特征,但单有集中集中趋势是数据分布的一个重要特征,但单有集中趋势还不能很好地描述数据的分布规律。趋势还不能很好地描述数据的分布规律。仅用平均数对一个资料的特征作统计描述是不全面仅用平均数对一个资料的特征作统计描述是不全面的,还需要引入一个表示资料中观测值变异程度大小的的,还需要引入一个表示资料中观测值变异程度大小的统计量。统计量。变异性指标变异性指标.72变异数的种类变异数的种类二、变异数二、变异数.73(一)极差(全距,(一)极差(全距,range)是数据分布的两端变异的最大范围,即样本变量是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用值最大值和最小值之差,用R表
40、示。它是资料中各观测值表示。它是资料中各观测值变异程度大小的最简便的统计量。变异程度大小的最简便的统计量。例:例:150尾鲢鱼体长尾鲢鱼体长 R=85-37=48(cm)R=maxx1,x2,xn-minx1,x2,xn =x1,x2,xnmax-x1,x2,xnmin二、变异数二、变异数.74三组同年龄、同性别儿童体重三组同年龄、同性别儿童体重(kg)的数据:的数据:I组:组:26 28 30 32 34 8II组:组:20 25 30 35 40 20III组组:23 27 30 33 37 14例:例:.75简单明了简单明了当资料很多而又要迅速对资料的变异程度作出判断时,当资料很多而又要
41、迅速对资料的变异程度作出判断时,可以利用极差。可以利用极差。(1)除最大、最小值,不能反映组内其他数据的变异。除最大、最小值,不能反映组内其他数据的变异。优点优点缺点缺点用途用途(2)样本较大时抽到较大值与较小值的可能性也较大,样本较大时抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。极差来比较分布的离散度。.76如何准确地表示样本内各个观测值的变异程度如何准确地表示样本内各个观测值的变异程度平均数平均数可以求出各个观测值与平均数的离差,即离均差。可以求出各个观测值与平均数的离差,即离均差
42、。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差之和为离均差之和为零零。?0)(xx二、变异数二、变异数.77平方和(平方和(SS)平方和的平均数平方和的平均数2)(xxnxx2)(二、变异数二、变异数.78平方和的平均数平方和的平均数二、变异数二、变异数方差方差Nx22)(.791)(22nxxs自由度(自由度(degree of freedom,df)nxx2)(二、变异数二、变异数自由度指当以样本的统计量来估计总体的参数时,自由度指当以样本的统计量来估计总体的参数时,样本中可以自由变动的观察值的个数。样本中可以自由变动的观察值的
43、个数。自由度自由度 =样本个数样本个数 -样本数据受约束条件的个数样本数据受约束条件的个数在总体平均数未知时,要计算标准差就必须先知道在总体平均数未知时,要计算标准差就必须先知道样本平均数,而样本平均数和样本平均数,而样本平均数和n n都知道的情况下,数都知道的情况下,数据的总和就是一个常数了。所以,据的总和就是一个常数了。所以,“最后一个最后一个”样样本数据就不可以变了,因为它要是变,总和就变了,本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。而这是不允许的。自由度一词源于物理学。自由度一词源于物理学。.81均方均方(mean square,MS)方差(方差(variance)
44、1)(2nxx二、变异数二、变异数.82(二)方差(二)方差(Variance)样本样本总体总体1)(22nxxsNx22)(二、变异数二、变异数.83样本方差带有原观测单位的平方单位,在仅表示一个资料样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即求出数配合使用,这时应将平方单位还原,即求出样本方差的样本方差的平方根平方根。标准差标准差二、变异数二、变异数.84(三)标准差(三)标准差(standard deviation,Sd)样本样本总体总体1)(2n
45、xxsNx2)(二、变异数二、变异数.851)(222nxxxx二、变异数二、变异数1)(222nnxnxnxx1)(2nxxs1)(22nnxx1)2(22nxxxx.861)(1)(222nnxxnxxs1)(22nnfxfxs二、变异数二、变异数.87x=411x2=18841X=6X2=76 表表2-8 9名男子前臂长(名男子前臂长(cm)标准差计算标准差计算 前臂长前臂长 x2 x=x-45 x2 45 2025 0 0 42 1764 -3 9 44 1936 -1 1 41 1681 -4 16 47 2209 2 4 50 2500 5 25 47 2209 2 4 46 21
46、16 1 1 49 2401 4 16二、变异数二、变异数)(0.3199411188411)(222cmnnxxs)(0.31996761)(222cmnnxxs例例株高株高x次数次数ffxfx27917962418021601280081324319683826492403448332492066784325221168851857225861867396总和总和201646135524)(7502.11202016461355241)(222cmnnfxfxs.89(三)标准差(三)标准差(standard deviation,Sd)特性特性标准差的大小,受多个观测数影响,如果观测数与观
47、测数标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准差也大,反之则小。间差异较大,则离均差也大,因而标准差也大,反之则小。1各观测数加上或减去一个常数,其标准差不变各观测数加上或减去一个常数,其标准差不变;2各观测数乘以或除以一个常数各观测数乘以或除以一个常数a,其标准差扩大或缩小,其标准差扩大或缩小a倍。倍。二、变异数二、变异数.90(三)标准差(三)标准差(standard deviation,Sd)3正态分布正态分布sx1x2sx3s68.27%95.46%99.73%二、变异数二、变异数.91(三)标准差(三)标准差(standard deviati
48、on,Sd)作用作用1表示变量分布的离散程度。表示变量分布的离散程度。4估计平均数的标准误。估计平均数的标准误。3进行平均数的区间估计和变异系数计算。进行平均数的区间估计和变异系数计算。2可以概括估计出变量的次数分布及各类观测数可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。在总体中所占的比例。二、变异数二、变异数.92标准差是衡量一个样本变量分布变异程度的重要特征数。标准差是衡量一个样本变量分布变异程度的重要特征数。当进行两个或多个资料变异程度的比较时,如果度量单当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。位与平均数相同,可以直接利用标准差来比较。如果度量单位和(或)与平均数不同,比较其变异程度如果度量单位和(或)与平均数不同,比较其变异程度就不能采用标准差来进行了。就不能采用标准差来进行了。标准差标准差/平均数平均数二、变异数二、变异数.93(四)变异系数(四)变异系数(coefficient of variability,CV)定义:样本的标准差除以样本平均数,所得到的比值。定义:样本的标准差除以样本平均数,所得到的比值。特点:是样本变量的特点:是样本变量的,不带单位。,不带单位。可以比较可以比较相对变异程度的大小。相对变异程度的大小。二、变异数二、变异数%100/xsCV