1、第二章第二章 数据的整理与分析数据的整理与分析 通过调查与试验,取得原始资料,输入计算机excelexcel表格表格。例1:为了调查马氏珠母贝的生长情况,测量某养殖场三笼马氏珠母贝的总重(g),共获得128个数据,结果如下表。2 试验资料的整理试验资料的整理2.1 原始数据的录入原始数据的录入2 试验资料的整理试验资料的整理2.1 原始数据的输入原始数据的输入 通过调查与试验,取得原始资料,输入计算机excelexcel表格表格。例1:为了调查马氏珠母贝的生长情况,测量某养殖场三笼马氏珠母贝的总重(g),共获得128个数据,结果如下表。五笼珍珠贝的壳高(SH)测量数据,共227个三笼马氏珠母贝
2、的总重(g),共获得128个数据 在一列中输入数据,其中第一行输在一列中输入数据,其中第一行输入标题入标题“总重总重(g)”(图)。(图)。在一列中输入数据,其中第一行输在一列中输入数据,其中第一行输入标题入标题“总重总重(g)”(图)。(图)。2.2 绘制频数分布图绘制频数分布图 频数分布图是直观反映数据分布情况的一种常用方法。将数据按照一定的规则分成不同的组,组数用k 表示;同一个组中的数值属于同一范围,组内包含的个体个数称为频数(f);总频数或样本容量n可用公式表示为 ,频率为f/n。以128个马氏珠母贝壳高测量值为例,制作频数分布表与频数分布图。编制连续型数据的频数分布图的一般步骤是:
3、f2.2.1 Excel(1)确定极差R 从原始数据中找出最大值max(x)和最小值min(x),计算极差(range,R)(也称组距),R=max x-min x;R=76.77-20.47=56.30(2)确定组数L 组数L与样本容量n有关,一般数据少于100个时,可以分为7-10组。数据较多时,可以分为15-20组。可以用以下公式 计算:21010log/log1nL2.2.1 Excel(2)确定组数L 也可以参照下表进行。本例中n=128,L可以先取10。样本容量n组数L306058601007101002009122005001018500以上15302.2.1 Excel(3)确
4、定组距I i=R/L=56.30/10=5.636 一般组距不要取小数点多的数。(4)确定组中值 第一个组中值等于或小于样本最小值+1/2组距,本例最小值为20.47,组距为6,第一个组中值=20+3=23;其余的中值依次加组距确定。2.2.1 Excel(5)在excel中确定接受区域 第一个数=第一个组中值+1/2组距 =23+3=26,下面的数依次加组距,接受区域最后一个值一定大于等于最大值:2.4.1 Excel(6)调用函数FREQUENCY()第一步,选中“频数”列下方的空白单元格,作为结果输出区域,输入“=frequency(”;第二步,用鼠标选中“总重(g)”的128个观测值(
5、或直接输入数据所在单元格“a2:a129”),再输入“,”隔开;第三步,再用鼠标选中选中“接受区域”的数据(或直接输入接受区域单元格“h2:h129”),输入“)”。2.4.1 Excel按“Ctrl+Shift+Enter”,获得结果。2.4.1 Excel(7)制作频数分布图选择频数的数据,点击菜单上的图表向导按钮:(8)选择柱形图中的第一个图,点击“下一步”,出现如下对话框:(9)点击系列,切换对话框,点击)点击系列,切换对话框,点击“分类分类(X)轴标志轴标志(T)”的按钮的按钮:(10)出现)出现“分类分类(X)轴标志轴标志”的对话框,选的对话框,选中中“组中值组中值”数据数据(11
6、)点击)点击“分类分类(X)轴标志轴标志”对话框,返对话框,返回对话框回对话框(12)点击)点击“下一步下一步”(13)点击)点击“标题标题”,在,在“分类分类(X)轴与数值轴与数值(Y)轴轴”分别输入标题分别输入标题“总重总重(g)”和和“频数频数”(14)点击)点击“图例图例”,将,将“显示图例显示图例”前面内的前面内的去掉去掉(16)鼠标选中条形,右键“数据系列格式”(17)出现对话框,点击“选项”,将分类间距150改为0(18)点击“确定”,条形之间的间隔就没有了2.2.2 Minitab绘制频数分布图绘制频数分布图将观测值数据从Excel拷贝到Minitab的工作表中,调用菜单图形直
7、方图,跳出对话框,选择简单:2.2.2 Minitab点击确定,对话框中,点击数据C1 总重(g),选择进入图形变量:2.2.2 Minitab点击确定,即会输出图形:2.2.2 Minitab默认的直方图,分成12组,组距是5。如果想改变分组,可以用鼠标左击一下灰色的直方条,右键,选择编辑条形:2.2.2 Minitab出现编辑条形的对话框,点击区间,在区间定义处点击区间数,右侧输入10:2.2.2 Minitab按确定后,输出的图形的分组数就是10了,组距也变成了6:2.2.2 Minitab将鼠标移到任意一个直方条,就会显示该处的频数值与区间,底部x轴对应数值就是组中值。如下图,鼠标移至
8、最高的直方条,即会显示区间为4147,组中值为44,频数为28。2.2.2 Minitab图中只显示一半的组中值,如要显示全部的组中值,可以点击上方线条,待鼠标显示“X 尺度”2.2.2 Minitab然后点击鼠标右键,选择“编辑X尺度”2.2.2 Minitab调出“编辑X尺度”对话框,选择“刻度位置”,在后面空格填入所需要显示的组中值2.2.2 Minitab点击确定,输入的直方图结果就有了全部10个组的组中值。如果需要每个直方条显示出频数,可以选择任意直方条,点击鼠标右键“添加”“数据标签”2.2.2 Minitab对话框默认选项是“使用Y值作标签”2.2.2 Minitab点击“确定”
9、,输出图形中的直方条上方都已出现了频数2.2.3 DPS 先将数据从Excel中拷贝到DPS,选择数据,菜单数据分析频次分布,对话框中输入分组数:2.2.3 DPS 弹出对话框:2.2.3 DPS点击OK,就可跳出频次分布和理论分布对话框:2.2.4 6SQ统计统计6SQ统计插件for Excel 2.0(http:/ 6SQ统计统计在Excel选中需要分析的数据,包括第一行的名称。调用菜单,6SQ统计基本统计描述统计图形化汇总:2.2.4 6SQ统计统计我们可以将区间宽度改为6,将第一个组下限改为20,其他数据就会立即跟着改变:2.2.4 6SQ统计统计结果:2.4.4 6SQ统计统计结果2
10、:2.3 茎叶图茎叶图 茎叶图(Stem and leaf plot)又称“枝叶图”,它的基本思路是将样本中的数据按位数进行比较,将数的大小基本不变或变化不大的位变化不大的位作为一个主干主干(茎),将变化大的位变化大的位的数作为分枝分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。这里仍然以128只马氏珠母贝总重数据为例制作茎叶图,可以用Minitab、SPSS等软件。2.5.1 Minitab从Excel中导入数据,鼠标点击菜单图形茎叶图:2.5.1 Minitab结果解读:从结果中可以得到,样本容量为128,叶的单位是1.0,也就是将观测值通过四舍五入
11、取整了。茎叶图有三列数。左边的一列是频数频数;中间一列是茎茎,这里就是测量值的十位数十位数;右边的是数组中的变化位,它是按照大小顺序将测量值的个位数个位数一一列出来,象一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图。2.5.1 Minitab结果解读:频数第一个是5,茎是2,叶是01234,表明2024范围内的观测值有5个,分别是20、21、22、23、24共5个。频数第二个是9,茎是2,叶是6789,表明2629范围内的观测值有4个(本行的9减去上一行的5),分别是26、27、28、29共4个。第三个频数是25,茎是3,叶是0011111223333444,表明3034范围内的观测值有16
12、个(25-9),分别是30、30、31、31、31、31、31、32、32、33、33、33、33、34、34、34共16个。2.5.1 Minitab结果解读:依次类推,直到带括号的中心的数(26),表示中位数中位数在此频数在此频数在该行在该行,4449范围内的观测值有26个。从中心数往下,当前行的观测值个数等于当前频数减去下一行频数,如倒数第四行,该行观测值数量有5个(本行的7减去下一行的2),分别是61、62、62、62、63。2.5 茎叶图茎叶图 茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转9
13、0度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。2.5.2 SPSS导入Excel工作表,直接获得数据。调用菜单分析探索:2.5.2 SPSSSPSS的茎叶图同样也是左、中、右三列,每列的频数直接就是该组的频数,如第三行的16,表示在3034范围内的观测值共有16个,分别是30、30、31、31、31、31、31、32、32、33、33、33、33、34、34、34。最后一行表示有一个值异常(=77)。2.2 数据描述统计数据描述统计 对于样对于样1个样本的观测值,我们可以计算它个样本的观测值,我们可以计算它的的平
14、均数、中位数、众数、最大值、最小平均数、中位数、众数、最大值、最小值、极差、方差、标准差、变异系数值、极差、方差、标准差、变异系数等,等,我们称为对数据进行我们称为对数据进行描述统计描述统计。2.2.1 平均数平均数 平均数(平均数(mean)一般指算术平均数,是观测)一般指算术平均数,是观测值的总和除以样本容量得到,常用值的总和除以样本容量得到,常用 表示。表示。在在Excel中,有专门的函数可以计算平均数:中,有专门的函数可以计算平均数:average()。在数据列最后的空白单元格。在数据列最后的空白单元格($A$130)中输入)中输入“average(”,即会出现以,即会出现以下提示:下
15、提示:x2.2.1 平均数平均数 选中所有数据,输入右括号选中所有数据,输入右括号“)”,即会出,即会出现以下:现以下:2.2.1 平均数平均数 按回车键后,单元格按回车键后,单元格$A$130即会出现平均即会出现平均数的计算结果数的计算结果44.31:2.2.1 平均数平均数 样本容量样本容量n的计算函数:的计算函数:count(),如计算,如计算例例1的样本容量的样本容量n,可在单元格,可在单元格$A$130输入输入“=count(A2:a129)”:2.2.1 平均数平均数 回车,即可得到结果,回车,即可得到结果,n=128:平均数与每一个观测值都有关系,有较高的代表平均数与每一个观测值
16、都有关系,有较高的代表性,但它也容易受到极端值的影响。性,但它也容易受到极端值的影响。2.2.2 中位数中位数 中位数(中位数(Median)是把一组观测值按从小到大的)是把一组观测值按从小到大的数序排列,在中间的一个数(或两个数的平均值)数序排列,在中间的一个数(或两个数的平均值)叫做这组数据的中位数,记作叫做这组数据的中位数,记作Md。当样本数为奇。当样本数为奇数时,中位数数时,中位数=第第(n+1)/2个数据;当样本数为偶个数据;当样本数为偶数时,中位数为第数时,中位数为第n/2个数据与第个数据与第n/2+1个数据的个数据的算术平均值。算术平均值。2.2.2 中位数中位数 在在Excel
17、中,有专门的函数可以计算平均数:中,有专门的函数可以计算平均数:median()。如计算例。如计算例1的样本的中位数,的样本的中位数,可在数据列最后的空白单元格(可在数据列最后的空白单元格($A$130)中输入中输入“median(”,即会出现以下提示:,即会出现以下提示:2.2.2 中位数中位数 选中所有数据,输入右括号选中所有数据,输入右括号“)”,即会出,即会出现以下:现以下:2.2.2 中位数中位数 按回车键后,单元格按回车键后,单元格$A$130即会出现平均即会出现平均数的计算结果数的计算结果45.20:2.2.2 中位数中位数 中位数不受分布数列的极大或极小值影响,具有中位数不受分
18、布数列的极大或极小值影响,具有“抗性抗性”,不像算术平均数那样,不像算术平均数那样“敏感敏感”。存在极端值的资料不宜用平均数,像收入、住存在极端值的资料不宜用平均数,像收入、住房等,数据比较分散,如果存在两极分化严重,房等,数据比较分散,如果存在两极分化严重,就不适宜用平均数。如某公司的就不适宜用平均数。如某公司的33名职工的月工名职工的月工资资(以元为单位以元为单位)如下:如下:本例中,该公司的平均工资数为本例中,该公司的平均工资数为3500,而中位数工资数,而中位数工资数为为1500。2.2.3 众数众数 众数(众数(Mode)是一组数据中出现次数最多的数)是一组数据中出现次数最多的数值,
19、有时众数在一组数中有好几个。值,有时众数在一组数中有好几个。在在Excel中,有专门的函数可以计算平均数:中,有专门的函数可以计算平均数:mode()。在数据列最后的空白单元格(。在数据列最后的空白单元格($A$130)中输入中输入“mode(”,即会出现以下提示:,即会出现以下提示:2.2.3 众数众数 选中所有数据,输入右括号选中所有数据,输入右括号“)”,即会出,即会出现以下:现以下:2.2.3 众数众数 按回车键后,单元格按回车键后,单元格$A$130即会出现平均即会出现平均数的计算结果数的计算结果48.80:2.2.3 众数众数 众数不受极端值的影响,但它也没有利用众数不受极端值的影
20、响,但它也没有利用全部数据信息,而且还具有不惟一性。如全部数据信息,而且还具有不惟一性。如果样本数据的分布没有明显的集中趋势或果样本数据的分布没有明显的集中趋势或最高峰点,也可能没有众数;如果有两个最高峰点,也可能没有众数;如果有两个最高峰点,那就有两个众数。只有在总体最高峰点,那就有两个众数。只有在总体单位比较多,而且又明显地集中于某个变单位比较多,而且又明显地集中于某个变量值时,计算众数才有意义。量值时,计算众数才有意义。2.2.3 众数众数 例:某制鞋厂要了解消费者最需要哪种型例:某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调查了某百货商场某季度男号的男皮鞋,调查了某百货商场某季度男皮鞋
21、的销售情况,得到资料如下表:皮鞋的销售情况,得到资料如下表:从表中看出,25.5厘米的鞋号销售量最多,如果我们计算算术平均数,则平均号码为25.65厘米,这是没有实际意义的,因此利用用25.5(众数)厘米作为样本数据集中趋势,既便捷又符合实际。2.2.4 几何平均数几何平均数 几何平均数(几何平均数(geometric mean)是指)是指n个个观测值连乘积的观测值连乘积的n次方根就是几何平均数,次方根就是几何平均数,记作记作G。根据资料的条件不同,几何平均数。根据资料的条件不同,几何平均数分为加权和不加权之分。分为加权和不加权之分。nnnnxxxxxxG12121)(2.2.4 几何平均数几
22、何平均数 例例 1994-1998年我国工业品的产量分别是年我国工业品的产量分别是上年的上年的107.6%、102.5%、100.6%、102.7%、102.2%,计算这,计算这5年的平均发展年的平均发展速度。速度。%1.103%100022.1*027.1*006.1*025.1*076.15G2.2.4 几何平均数几何平均数 在在Excel中,有专门的函数可以计算平均数:中,有专门的函数可以计算平均数:geomean()。在数据列最后的空白单元格。在数据列最后的空白单元格中输入中输入“geomean(”,即会出现以下提示:,即会出现以下提示:2.2.4 几何平均数几何平均数 选中所有数据,
23、输入右括号选中所有数据,输入右括号“)”,即会出,即会出现以下:现以下:按回车键后,单元格$A$130即会出现平均数的计算结果1.030935。2.2.4 几何平均数几何平均数 例例 2007年银行公布的定期存款利率分别年银行公布的定期存款利率分别是:三个月是:三个月3.33%,半年,半年3.78%,一年,一年4.14%,两年,两年4.68%,三年,三年5.40%,五年,五年5.85,求平均年利率。本题需要加权。,求平均年利率。本题需要加权。%27.105%1000585.1*054.1*0468.1*0414.1*0378.1*0333.153215.025.053215.025.0G2.2
24、.4 几何平均数几何平均数 几何平均数仅适用于具有等比或近似等比几何平均数仅适用于具有等比或近似等比关系的数据。几何平均数受极端值的影响关系的数据。几何平均数受极端值的影响较算术平均数小。但观测值中任何一个变较算术平均数小。但观测值中任何一个变量值不能为量值不能为0,如上例中,银行利率为,如上例中,银行利率为3.78%,计算时要写成,计算时要写成1.0378,当银行利,当银行利率为率为0时,就不至于计算无意义。时,就不至于计算无意义。2.2.4 几何平均数几何平均数 以上算术平均数、中位数、众数、几何平以上算术平均数、中位数、众数、几何平均数都是描述数据的均数都是描述数据的集中性集中性,及指出
25、数据,及指出数据集中较多的位置。此外还有描述数据集中较多的位置。此外还有描述数据离散离散性性的特征数,表示数据之间参差不齐的程的特征数,表示数据之间参差不齐的程度。这些特征数一般有极差、方差、标准度。这些特征数一般有极差、方差、标准差、标准误、偏度、峰度与变异系数。差、标准误、偏度、峰度与变异系数。2.2.5 极差极差 极差(极差(range)是最大值与最小值的差,记)是最大值与最小值的差,记作作R。在。在Excel中,可以用函数中,可以用函数max()、min()分别计算最大值与最小值,然后相减分别计算最大值与最小值,然后相减求得极差。求得极差。2.2.6 方差与标准差方差与标准差 方差(方
26、差(Variance)和标准差()和标准差(Standard deviation)都是描述观测值围绕平均数的波动程)都是描述观测值围绕平均数的波动程度的特征值,是测度数据变异程度的最重要、最度的特征值,是测度数据变异程度的最重要、最常用的指标。常用的指标。方差也称变异数、均方。作为统计量,方差常用方差也称变异数、均方。作为统计量,方差常用符号符号s2表示,作为总体参数,常用符号表示,作为总体参数,常用符号2表示。表示。2.2.6 方差与标准差方差与标准差 标准差是方差的平方根,样本的标准差常用标准差是方差的平方根,样本的标准差常用s或或SD表示。若用表示。若用表示,则是指总体的标准差。表示,则
27、是指总体的标准差。方差它是每个数据与该组数据平均数之差乘方后方差它是每个数据与该组数据平均数之差乘方后的均值。本章只讨论对一组数据的描述,尚未涉的均值。本章只讨论对一组数据的描述,尚未涉及总体问题,故本章方差的符号用及总体问题,故本章方差的符号用s2,标准差的,标准差的符号用符号用s。1)(22nxxsi2.2.6 方差与标准差方差与标准差 Excel中计算方差的函数为中计算方差的函数为var(),计算标,计算标准差的函数为准差的函数为stdev()。如例。如例 ,计算,计算128个个马氏珠母贝总重测量值的方差,可以在马氏珠母贝总重测量值的方差,可以在Excel中如下计算:中如下计算:回车后,
28、结果即是方差值回车后,结果即是方差值107.13。2.2.6 方差与标准差方差与标准差 同样,利用函数同样,利用函数stdevstdev()(),计算出,计算出128128个马氏珠母个马氏珠母贝总重测量值的标准差为贝总重测量值的标准差为10.3510.35。为了说明一个样本的变异程度,常常在平均数后为了说明一个样本的变异程度,常常在平均数后面加上标准差,写成面加上标准差,写成 。如。如128128个马氏珠母个马氏珠母贝的测量结果可以记作贝的测量结果可以记作48.8048.8010.3510.35。SDx 2.2.6 方差与标准差方差与标准差 在单位相同、均数相近的情况下,标准差在单位相同、均数
29、相近的情况下,标准差越大,说明观测值间的变异程度越大,即越大,说明观测值间的变异程度越大,即观测值围绕均数的分布较离散,均数的代观测值围绕均数的分布较离散,均数的代表性较差。反之,标准差越小,表明观测表性较差。反之,标准差越小,表明观测值间的变异较小,观测值围绕均数的分布值间的变异较小,观测值围绕均数的分布较密集,均数的代表性较好。在研究中,较密集,均数的代表性较好。在研究中,对于标准差的大小,原则上应该控制在均对于标准差的大小,原则上应该控制在均值的值的12%12%以内,如果标准差过大,将直接影以内,如果标准差过大,将直接影响研究的准确性。响研究的准确性。2.2.6 方差与标准差方差与标准差
30、 在正态分布的情况下,当观测值在在正态分布的情况下,当观测值在 范范围内,观测值数量占样本含量的围内,观测值数量占样本含量的68.27%68.27%;当观测值在当观测值在 范围内,观测值数量占范围内,观测值数量占样本含量的样本含量的95.45%95.45%;当观测值在;当观测值在 范范围内,观测值数量占样本含量的围内,观测值数量占样本含量的99.73%99.73%。sx sx2sx32.2.7 标准误标准误 在实际工作中,我们无法直接了解研究对在实际工作中,我们无法直接了解研究对象的总体情况,经常采用随机抽样的方法,象的总体情况,经常采用随机抽样的方法,取得所需要的指标,即样本指标。样本指取得
31、所需要的指标,即样本指标。样本指标与总体指标之间存在的差别,称为抽样标与总体指标之间存在的差别,称为抽样误差,其大小通常用均数的标准误误差,其大小通常用均数的标准误(Standard Error)来表示。因此标准误反)来表示。因此标准误反映的是不同样本的平均数之间的变异。而映的是不同样本的平均数之间的变异。而标准差是描述单个样本中观测值的离散程标准差是描述单个样本中观测值的离散程度及衡量平均数抽样误差大小的尺度,标度及衡量平均数抽样误差大小的尺度,标准误与标准差是不同概念。准误与标准差是不同概念。2.2.7 标准误标准误 标准误用来衡量抽样误差。标准误越小,标准误用来衡量抽样误差。标准误越小,
32、表明样本统计量与总体参数的值越接近,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。标准误一般用是统计推断可靠性的指标。标准误一般用 表示,标准误的大小与标准差成正比,表示,标准误的大小与标准差成正比,而与样本含量而与样本含量n的平分根成反比,标准误的的平分根成反比,标准误的计算公式为:计算公式为:xsnssx2.2.8 变异系数变异系数 变异系数(Coefficient of Variance)是衡量资料中各观测值变异程度的另一个统计量。
33、当进行两个或多个资料变异程度的比较时,如果度量单位与平均数都相同,可以直接利用标准差来比较。如果单位或平均数不同时,比较其变异程度就不能采用标准差,而需采用变异系数来比较。变异系数记作C.V.,其计算公式为:%100.xsVC2.2.8 变异系数变异系数 例 ,2003年4月在海南陵水黎安港同时繁殖了马氏珠母贝三亚与流沙两个品种,养殖在陵水黎安港,2005年3月分别对两个品种随机取样,测量结果分别为6.680.86、6.270.25,单位cm,比较两个品种的变异程度就可以通过计算C.V.,分别为12.86%与10.32%,表明流沙品种的壳高变异程度要比三亚品种的变异程度小,即流沙品种长得更整齐
34、。2.2.9 偏度与峰度 偏度(偏度(Skewness)是描述某变量取值分布对称性的统计)是描述某变量取值分布对称性的统计量。在量。在Excel中,偏度可以用中,偏度可以用skew()计算。计算。Skewness=0,分布形态与正态分布偏度相同;,分布形态与正态分布偏度相同;Skewness0,长尾巴拖在右边;,长尾巴拖在右边;Skewness0,比正态分布的高峰更加陡峭比正态分布的高峰更加陡峭尖顶峰;尖顶峰;Kurtosis R0.01,拒绝零假设,结果检出3.13是可剔除的观是可剔除的观测值测值。3.1 奈尔(奈尔(Nair)检验法)检验法 在第2次检验中,数据有24个,最大Rn值=2.9
35、01,R0.05=2.8,R0.01=3.49,R0.05Rn值R0.01,拒绝零假设,在24个数据中检出3.49是异是异常的观测值常的观测值。在第3次检验中,数据有23个,最大Rn值=2.27,R0.05=2.784,R0.01=3.256,Rn值10时,如果某个测量值(xi)与其测量结果的算术平均值()之差大于3倍标准偏差s时,即 时,则该测量数据应舍弃。这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。xsxxi33.2 3s法法取3S的理由是:根据随机变量的正态分布规律,在多次试验中,测量值落在x3s范围内的概率为99.73,
36、出现在此范围之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。3.2 3s法法 如128个马氏珠母贝总重观测值,用DPS进行3s法异常值检验:3.2 3s法法也称Q检验法,适用于样本容量为330的小样本,6SQ插件与DPS可以直接调用菜单进行Dixon检验,6SQ插件要求样本容量为330,而DPS只要求样本容量n3。例 现有一个样本,12.2、11.5、12.8、14.8、22.2、19.2、25.7、12.7、9.8、35、15.3、11.3、21.1、18
37、.5、19.5,用Dixon法寻找异常值。3.3.1 6SQ插件插件先选择数据,包括标题,然后调用菜单6SQ统计基本统计正态异常检验狄克逊检验:3.3.1 6SQ插件插件Dixon检验的零假设为无异常值。上侧检验对最大值35进行检验,结果为拒绝零假设,最大值35为异常值。3.3.1 6SQ插件插件下侧检验对最小值9.8进行检验,结果为接受不拒绝零假设,认为最小值9.8不是异常值。双侧检验结果为接受不拒绝零假设,认为无异常值。3.3.2 DPS输入数据与选择数据(不选择标题行),选择菜单数据分析异常值检验,弹出对话框后,选择狄克松(Dixon)法:3.4 格拉布斯格拉布斯(Grubbs)检验法检
38、验法也叫ESD(Extreme Studentized Deviate)法,样本容量要3,一般样本容量在50以上适用该法。本法可以检验一个样本或多个样本中的异常值。数学上已证明,在一组测定值中只有一个异常值的情况下,Grubbs法在各种检验法中是最优的3.4 格拉布斯格拉布斯(Grubbs)检验法检验法6SQ插件与DPS可以直接调用菜单进行Grubbs检验。6SQ插件要求样本容量为3100,而DPS只要求样本容量n3。依旧用上面的例子。3.4.1 6SQ插件插件先选择数据,包括标题,然后调用菜单6SQ统计基本统计正态异常检验格拉布斯检验:3.4.1 6SQ插件插件Grubbs检验的零假设为无异
39、常值,上侧检验与双侧检验对最大值35进行检验,结果为拒绝零假设,最大值35为异常值。3.4.1 6SQ插件插件下侧检验对最小值9.8进行检验,结果为接受不拒绝零假设,认为最小值不是异常值。双侧检验结果拒绝零假设,也检出35为异常值。3.4.2 DPS输入数据与选择数据(不选择标题行),选择菜单数据分析异常值检验,弹出对话框后,格拉布斯(Grubbs)法:3.4 格拉布斯格拉布斯(Grubbs)检验法检验法 若数据中存在2个或2个以上异常值时,采用Grubbs法很可能检验不出异常值,此时Dixon检验判别出最大值是异常值的机会往往比Grubbs检验要大一些,这主要是Dixon检验对n10时采用了
40、避开次大值而检查最大值与第3大值之间的关系3.5 箱线图箱线图 箱线图(Boxplot)也称箱须图(Box-whisker Plot),它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。箱线图作为描述统计的工具之一,可直观明了地识别数据批中的异常值3.5.1 SPSS 对128个马氏珠母贝总重数据,可以通过SPSS的探索分析得到茎叶图、箱线图,找出异常值。调用菜单分析描述统计探索:3.5.1 SPSS 在探索对话框中,选择总重进入因变量列表:3.5.1 SPSS 点击绘制,进入绘图对话框,描述性下面勾选茎叶图:3.5.1 SPSS 按继续返回探索对话框
41、,按确定就可以输出结果:结果中就会有茎叶图:3.5.1 SPSS 茎叶图:其中指出了一个异常值(=77)。3.5.1 SPSS 箱线图同样给出了异常值:箱线图表明,第42个观测值(76.77)是异常值。3.5.2 Minitab 对于128个马氏珠母贝总重观测值,调用菜单统计基本统计量显示描述性统计,弹出对话框,按图形,进入图形对话框,勾选数据箱线图:3.5.2 Minitab 按确定返回显示描述性统计量对话框,再按确定即可输出结果,箱线图即会弹出:图中*号就是异常值,将鼠标移到*处,即会显示“异常值符号,行42:总重(g)=76.77。3.5.3 6SQ统计插件统计插件 在Excel中选中数
42、据,调用插件菜单6SQ统计基本统计描述统计图形化汇总 弹出图形化汇总对话框后,无需修改任何设置,点击确定,就会得到结果,其中就会指出不合格数据有1个,即是76.77;而箱线图中有一个红色点,就是不合格数据,鼠标移到该点就会有显示:3.5.3 6SQ统计插件统计插件 结果:3.5.3 6SQ统计插件统计插件 在Excel中选中数据,调用插件菜单6SQ统计基本统计描述统计图形化汇总 弹出图形化汇总对话框后,无需修改任何设置,点击确定,就会得到结果,其中就会指出不合格数据有1个,即是76.77;而箱线图中有一个红色点,就是不合格数据,鼠标移到该点就会有显示:3.5.3 DPS 选择数据后,调用菜单数
43、据分析常用图表box图:3.5.3 DPS 点击后即会弹出对话框,图中显示,76.77为异常值:3.5.3 DPS 点击保存图形,可以将箱线图保存到所需目录下;点击右上角的 两次,可以输出结果,结果以新的工作表显示,指出异常数据点在42行:3.6 概率图法概率图法 当样本容量小于50时,可以用概率图来评估样本的正态性,图中可以显示正态分布以外的异常值。调用菜单图形概率图,跳出对话框,选择单一:3.6 概率图法概率图法 点击确定,进入概率图-简单对话框,选择总重进入图形变量:3.6 概率图法概率图法 按确定即可输出结果,弹出总重(g)的概率图,可以看出一个红色的点在正态分布范围之外,鼠标移到该点
44、即会显示该点的位置与值:3.7 异常值的处理异常值的处理 存在异常值,会影响我们对样本进行正常统计处理。对于异常值随意地忽略或者删除outliers都不是好的方法。一般有以下三种处理方法:(1)数据转换 数据转换往往有两种方式,即平方根或自然对数。它的思路通俗地来理解就是对于比较大的数值,它压缩的程度比小的数值大,从而缩写数值之间的差距,比如说两个值100和25,本来相差很大,通过去平方根后,一个变成了10,另一个变成了5,两个之间的差距就变小了。3.7 异常值的处理异常值的处理(2)删除 删除这种做法是最后不得已的做法,只有在这个值发现确实是错误值,而且无法更改的情况下或者这个值大大远离其他数值以致于严重影响统计推断。同时你可以同时报告保留和删除异常值后的结果,看看到底有多大的变化。3.7 异常值的处理异常值的处理(3)调整 最常见的方法便是非参数检验。例如我们可以用非参检验wilcoxon秩和检验来代替参数检验两样本t检验,这样就可以大大缓解那些异常值如一些极大值或极小值的影响,因为前者wilcoxon秩和检验基于观察值的排序而不是均值会更为可靠。而在统计效率方面,模拟研究显示,非参数检验方法检验出统计学差异的能力仅仅略低于相对应的参数检验方法。