1、第二章 试验数据处理 试验的目的通常是要以最小的代价从一系列的方案(工艺、配方)中选出最佳方案,方案效果要通过试验结果来表现,试验结果只能从实际测得的数据得到反映。由于各种因素的影响,测量的数据往往不一致,常常具有随机变化成份。要得到可以真正反映试验结果的信息,必须对测得的数据进行必要的处理。2.1 试验设计与数据处理的基本概念2.1.1 2.1.1 常用术语常用术语一一.质量特性值质量特性值 表现质量特性的数据称为质量特性值,简称为特性值。根据其性质可以分为三类:1.计量特性值计量特性值:用连续变化的变量表示的特性值(即浮点数)。2.计数特性值计数特性值:用离散变量表示的特性值(即整型数)。
2、3.0、1数据:实际上是布尔数,如“真”与“假”、“合格”与“不合格”。二.试验指标试验指标 在试验设计中,根据试验目的而选定的用来判断试验结果的特性值特性值称为试验指标。试验指标分为二种试验指标分为二种:数量指标(定量)数量指标(定量):可用数量来表示,如重量、强度、合格率等。非数量指标(定性)非数量指标(定性):难以用数量来表示,如光泽、味道、手感等。试验指标可以是一个或多个,应尽量选取计数计试验指标可以是一个或多个,应尽量选取计数计量特性值作为试验指标量特性值作为试验指标。用是否可控用是否可控,把因素分为,把因素分为 可控因素(如温度、压力、切削速度、走刀量等)水水平可以比较并且可以人为
3、选择的因素。如:压力、催化剂的平可以比较并且可以人为选择的因素。如:压力、催化剂的各类、电阻值、电容值等各类、电阻值、电容值等。不可控因素(如:刀具的振动、磨损等)三三.试验因素试验因素 对试验指标可能有影响的原因或因素称为试验因素,简称因素,有时称为因子,它是试验中重点考察的内容。用大写字母表示,如:因素A,因素B。误差因素误差因素:影响试验结果或产品质量的内外干扰、随机影响试验结果或产品质量的内外干扰、随机干扰的总和干扰的总和。按按因素的作用因素的作用,可以分为,可以分为:标示因素标示因素:指外界环境条件(如:湿度、温度等)、:指外界环境条件(如:湿度、温度等)、产品的使用条件(如:电压、
4、频率、转速等)等。它不产品的使用条件(如:电压、频率、转速等)等。它不能人为的选择和控制。能人为的选择和控制。区组因素区组因素:为了减少试验误差而确定的因素,如:加:为了减少试验误差而确定的因素,如:加工某零件时,不同的操作者、不同的原料批次、不同工某零件时,不同的操作者、不同的原料批次、不同班次、不同机床等。班次、不同机床等。信号因素信号因素:可人为调整并影响目标值的因素。如:在可人为调整并影响目标值的因素。如:在切削加工时,改变切削速度切削加工时,改变切削速度V可以影响加工质量,切可以影响加工质量,切削速度就是信号因素。削速度就是信号因素。四四.因素水平因素水平 不同的因素状态和条件(大不
5、同的因素状态和条件(大小)可引起试验指标的变化。小)可引起试验指标的变化。因素变化的状态和条件叫做因素变化的状态和条件叫做水水平或级位平或级位。选择水平时应注意以下几点选择水平时应注意以下几点所选水平应具体所选水平应具体(水平具体是指水平应该是可以直接控制的,并且水平的变化可能直接影响试验指标的变化。)水平宜选取三水平水平宜选取三水平(因为三水平因素的试验结果分析的效因图分布多呈二次函数曲线,而二次函数曲线有利于观察试验结果的趋势)水平取等间隔原则水平取等间隔原则2.1.2 常用统计量常用统计量 和指数据的总和,常用T表示:,为观察值。平均值是表示平均水平的定量指标,minmaxxxRniix
6、T1ixniixnx11一.极差R 又称为变异幅,是一组数据中最大值同最小值之差。它表示一组数据中的最大离散程度。二二.和、平均值和、平均值三.偏差与偏差平方和偏差与偏差平方和 1.为观测值 (1)与目标值的偏差:x1-x0,x2-x0,xn-x0 (2)与平均值 的偏差:2.表征数据的分散程度分散程度时,采用偏差平方和,常用S表示。存在目标值时:不存在目标值时:nxxx,.,21xxxxxxxn,.,21210)(niixxS21)(niiTxxS四.自由度与平均偏差平方和(方差)、标准差 自由度自由度f就是平均偏差平方和中独立平方的数据个数。存在目标值 时 ,不存在目标值 时,存在目标值时
7、,总的方差:不存在目标值时,总的方差:0 xnf 0 x1 nf201)(1xxnVniiT21)(11xxnVniiT 标准差 又称为均方差或根方差,也是数据离散程度的一个特征值。存在目标值 时,不存在目标值时,0 xniixxn120)(1niixxn12)(112.2 随机变量及随机误差随机变量及随机误差2.2.1 2.2.1 常用术语常用术语 1.频率与概率 在既定条件下进行N次试验,而事件A发生的 次数为 ,则,事件A的频率为 。N趋于 无穷大时的频率即为概率,记为p(A)即:2.总体与样本 研究对象的全体称为总体。从总体中随机抽取的n个用来研究的个体称为样本。ANNNA/)()/(
8、ApNNNA2.2.2 随机量的表示1.数学期望值 或 (1)一阶矩 (p(x)为概率密度函数)(2)二阶矩 (3)n 阶矩xEdxxxpxxE)(dxxpxxxE)(222dxxpxxxEnnn)(2.随机变量随机变量x的方差的方差 x的真差平方的期望值称为方差,记为 Var(x)或 D(x),则:x服从正态分布时,称为 x的标准误差。方差越大,说明x在其期望值符近的波动越大,分布越不集中,故越不精确。3.3.随机变量随机变量x、y的协方差的协方差 x,y 分别为随机变量,则它们的协方差为 x,y相互独立时,Cov(x,y)=0 dxxxxxExExVar)()()()(22)()(xVar
9、x)(x)(),(yyxxEyxCov4.相关系数相关系数 两随机变量的相关程度通常用相关系数表示:它是个无量纲量。)()(),(),(yxyxCovyx(,)0,x yx y则线性无关(,)0,x yyx随 的增大而增大即正相关(,)0,x yyx随 的增大而减小即负相关(,)1,x yx y则呈线性关系2.2.3 随机误差的测量理论 对某量直接测量时,都是在有限次测量条件下获得的,只能得到随机变量的一个样本。只能利用数理统计的有关理论,对被测量做出可靠的估计。某量的真值为X,在一定条件下测量N次测得的结果为 ,是测量的真差,是一个随机变量。Nxxx,21Xxiii1 1 最小二乘法最小二乘
10、法 在多组等精度、误差不同且相互独立的测量中,其最可信赖值是当测量值的“剩余误差平方和”为最小时所求得的值。设最可信赖值为 ,剩余误差平方和为:必须满足:可以求得:说明,有限次直接测量后的算术平均值就是最可信赖值。0X201)(XxQNii00dXdQNiixNX1012 标准误差及其意义标准误差及其意义 通常假定测量值满足正态分布的:E(x)表示了 的集聚中心位置。标准差 表示确定了分布曲线的胖瘦。越小,分布的越窄,说明测定时误差小的占优势,测定值对真值的离散程度小、精度高。NxNxENii11)(NNxExNNiiNii122121)(1ixix标准差意义的说明标准差意义的说明 (1)的大
11、小决定于测定条件。尽管N次等精度测定的误差的大小和正负都不同,但它们的 是相同的,单次测定的质量都可用一个 来评定。(2)标准差计算时,必须具备以下条件:a 已知真差 b 测量中不存在系统误差 c 测量次数尽量多,最好是 实际做法是:a 选定一标准件或检定过的仪表,真值就算已知了。b 测量条件要非常严格、稳定,以便消除系统误差 c 测量次数尽量多。N3 3 标准误差的估计标准误差的估计-贝塞尔公式贝塞尔公式 由最小二乘原理,算术平均值 是测量的最佳估计值:标准差的估计值用 表示,上式称为贝塞尔公式。该式求出的 是标准误差 的最佳估计。B2121)(11xxNNiiBxB2.3 2.3 坏值剔除
12、坏值剔除 对某一量进行了N次测量,得到样本 通常,各个测量值同真值相比,出现大误差的可能性是很小的。如果某个测量值 同其它相比明显超出正常范围,则称其为“坏值”。坏值的存在势必对 产生较大的影响。),(21Nxxxix和x2.3.1 2.3.1 出现出现“坏值坏值”时先做以下处理时先做以下处理 (1)检查测量过程中是否读错、记错、写错,如肯定无误,则应从某瞬变原因方面查找(如电压突变等),原因找到后即可去掉坏值。(2)如条件允许,可在误差大处加大测量次数,借以发现大误差的原因。(3)用已知的统计学判据,确认“坏值”的存在。2.3.2 2.3.2 剔除坏值的莱依塔判据剔除坏值的莱依塔判据 1 找
13、出 中的最大值 和最小值 2 计算 3 分别对 和 进行判断,如果:(其中 )则予以剔除(R称为残差)。4 剔除后,再按1,2,3步骤进行处理,直到以上不等式不成立为止。以上是假定测量值x满足正态分布),(21Nxxxmaxxminx和xmaxxminx3RxxRii 例例1 1 对某合金导线的电阻值进行了24次测量,结果如下表所示,试用伊莱达准则判断结果中有无异常数据。解:(1)计算数据的平均值和标准差:(2)求数据的最大残差 计算结果如下表所示:和x41.4024112411iiNiixxNx0321.0)(1112NiixxN 可见,第21次测量值的残差最大,(3)比较 因此,X21是异
14、常数据,应予以剔除。(4)剔除X21后,重新计算均值和标准差,并判断是否存在数据异常:所以,剩余的23个数据无异常。(5)结论 原测量的24个数据中,X21是坏值应当除去,其余数据均有效。11.021max RR0963.00321.0*333maxR305.00225.0413.40max14maxRRRx2.3.3 2.3.3 剔除坏值的其它判据剔除坏值的其它判据 其它判据主要有:概率积分判据 肖维涅判据 格拉布斯判据 等 由于课时有限,这些不详细介绍,有兴趣的同学可以参考实验数据处理与曲线拟合石振东、刘国庆编 哈尔滨船舶工程学院出版社2.4 2.4 系统误差的测定方法与技巧系统误差的测定
15、方法与技巧 系统误差的数值往往远大于随机误差,数据里必须对系统误差及时发现并做适当处理,否则一定会歪曲测定结果。2.4.1 2.4.1 系统误差的特点及处理方法系统误差的特点及处理方法 系统误差分为两种系统误差分为两种:(1)大小及符号固定不变,称为系统常差 (2)按一定的规律变化称为系统变差 系统误差产生的原因系统误差产生的原因:(1)仪器、设备、实验装备的不完备,或环境条件发生变化。(2)试验方案、试验方法、试验原理不完善、不正确。减少减少系统误差的有效方法系统误差的有效方法 (1)试验前,尽可能考虑全面些,充分预计试验中可能产生系统误差的来源和因素,并设法消除它们的影响或将这些影响减弱到
16、最小。(2)试验中,采用合理、正确的测定方法,以减弱系统误差的影响。(3)试验后,若发现存在系统误差,应查明原因,等消除后再重做试验,以达到满意结果。2.4.2 2.4.2 系统误差的发现系统误差的发现 一 实验对比法 对不同实验条件下的结果进行对比,若具有相同的误差,则可以认为存在系统误差。高精度的仪器的测量结果同一般仪器的结果相对比,若有误差,则认为一般仪器存在系统误差。二 剩余误差观察法 计算均值 和各剩余误差 ,做出 图,并观察大致趋势,以便判断是否存在系统误差。x),2,1,(,nixxSSiiiiS 某量的真值为u,测量值xi,其中包含有系统误差和随机误差,即:测量值的平均值为:因
17、 剩余差为:当系统误差较大时,可以认为 剩余误差的大小和符号由系统误差确定。iiiuxunnuxnxniiniinii1111110limniiiixxs0iiis 1 若各Si大体是正负 相间且稳定在一个 水平上又无过大的 波动,如右图所示,则认为 数据中没有 系统变差(不一定没 有常差)2 如右图所示,各Si呈有规律的增或减,类似于 ,则认为数据中有 线性系统误差。xy03 若Si的大小、符号等有规律地由正变负、由负变正交替变化,可以认为其中含有周期性的系统误差,如右图所示。4 若各个Si值类似于右图一样变化,则可以认为数据中存在有线性系统误差和周期性系统误差。三 计算比较法 对同一量值重
18、复测量N次,将N次测量结果再分为M组,每组中有K个测定值,分别计算出各组的统计量 。误差之间相互独立,的标准差 ,任意两组之间不存在系统误差的标志是:kkxxx,;,;,2211)(jixx 2122)(ji222jijixx2.5 2.5 间接测定误差间接测定误差-误差的传递误差的传递 间接测量就是将直接测得的量代入已知的函数,从而求得被测量。如:测量密度、面积、体积等。直接测得的量中难免存在误差,这些误差对间接测量的结果的影响是通过误差的传递来表现的。不同的函数关系,误差的传递有相当大的差别。2.5.1 函数为和与差的关系 这是一种最简单的情况,如测量两电阻串联后的阻值,或两电容并联后的电
19、容值等。函数关系可表示为:其中,是直接测定的真值。函数的最可信赖关系是:真差关系是:标准差关系是:方差关系是:若X 为真值或均值,由于真值不知,取均值则有:21XXY21XX 和21xxy21xxy212212)()(xxy)()(22122xxyXxixi 以上公式是建立在 是相互独立基础上的,若 不独立,则有以下关系:是 的协方差。是 的相关系数。21,xx21,xx)()(2)()()(212122122xxxxyxx)()(/(),(212121xxxxCovxx),(21xxCov21,xx21 xxNxxxxxxxxCovNNN212212211121lim),(2.5.2 函数为
20、直接测量值的倍数关系 一 的最简单情况 x 是直接测定值,c 是常数。最可信赖值关系:真差关系:方差关系:cxy xcyxyc)()(222xcy 二 当 时 最可信赖值关系:真差关系:方差关系:mmxcxcxcy2211mmxcxcxcy2211xmmxxyccc221122222221212)(xmmxxcccy2.5.3 函数为两直接测量值的积 函数为 时:最可信赖关系是:真差关系是:方差关系是:21xxy 21xxy2112xxyxx)()()(2211222xxxxy2.5.4 误差传递普遍公式 一 直接测定值为函数的唯一变量,即:最可依赖关系:真差关系:相对误差关系:方差关系:)(
21、xfy)(xfy xxfy)()(/)(xfxxfyy)()()(222xxfy 二 直接测量值为函数的两个独立变量 最可信赖关系:真差关系:方差关系:),(21xxfy),(21xxfy 2211xxfxxfy)()()()()(222212212xxfxxfy2.5.5 误差传递的反问题:精度分配 若已规定间接测定值的总的误差,如何确定直接测定值的精度?该部分就是要解决这个问题。一般来说,这个问题只能在一定的假设条件下才能得以解决。一 按照相等效应原则进行精度分配 该原则把各直接测量值的分量误差对总误差所起的作用和影响看做是相等的。即:所以,可以导出标准差的分配公式:mmxxfxxfxxf
22、2211mmyxxfmxxfmxxfm2211mixfmxiyi3,2,1mixfmyii,2,1)(二 按实际情况进行误差调整原则 按等效应原则分配精度时,各个误差值 并不相等,而是同 成反比关系。实际上,的大小与测量方案及试验设计有关,而与测量、制造的难易程度无关,会产生一些不合理现象:有些容易加工的尺寸却分配了较大的误差,而另外一些不容易加工的尺寸却分配了较小的误差,从而造成了极大的浪费。调整原则是:对于难以实现、难以保证的误差项要适当放大;对于容易实现和保证的误差项要适当缩小。ixixfixf 调整后的误差分配是否合理,主要取决于调整者的专业知识是否深广,实践经验是否丰富。为保证良好的
23、效果,调整后应该:1 按精度的计算进行校核。2 对于特别重要的实验,在调整时要对误差限制严些,以便留有安全系数以较大的概率确保实验质量。2.5.6 间接测量值误差呈现最小、最有利测量条件的确定方法 间接测量值是一个或多个直接测量值的函数。要使间接测量误差值最小,实际上是一个求最小值的问题。测量误差通常以标准差来表示。若:则:),(21mxxxfy21221)()()(imiixxfy 一 间接测量值同直接测量值勤的函数关系应 该为最简洁的形式,函数中的独立变量越少,引起函数误差的来源也越少。二 间接测量值应选择那些易于加工、易于测量的量,这样间接测量值的误差会小些,总的误差也会有相应的减少。对
24、于机械来说,一般情况下,内尺寸(如:孔)比外尺寸(如:轴)难以加工、难以测量,这时就应尽量选择含有外尺寸的表达式,即选择那些易于测量的值作为间接测量值的函数变量。三 寻找使 或趋近于零的条件 使间接测量绝对误差为最小的最佳测试条件的确定 若:真差关系为:只要保证:即可。若要保证相对误差或方差为最小,只要将上式中的真差改为相对误差或方差即可。0ixf)(ixfy mixfimiiy,2,1,1mixiy,2,1,02.5.7 试验测定数据处理步骤 一 算术平均值及其校核 算术平均值:剩余误差:理论上说:实际上:原因是:1 平均值计算有误 2 计算平均值时存在“四舍五入”造成的误 差NiixNx1
25、1xxii01Nii01Nii入舍或剩余误差和校核规则 1 剩余误差和的绝对值应满足下列公式:上式中,A是 中的最小单位 2 为正时:为负时:为零时:为奇数时当为偶数时当NANNNANii,5.021,211xNii1Nii1Nii1xNxNii1xNxNii1xNxNii1二 直接测定时数据处理一般步骤 1 坏值剔除 2 判断各个测定值 中有无系统误差存在,如果有,应设法消除来允许范围。3 计算样本平均值 ,并进行校核。4 计算标准差ixx)(x三 间接测量值的数据处理步骤 1 根据确定已知函数关系,按直接测量结果计算出最可信赖值。2 计算各误差的传递系数值。3 按确定的函数关系,写出真差(
26、微分)关系、方差关系,并计算出结果。例2 散热器的散热量Q与热水流量L和散热器的进出口温度T1、T2有以下关系:式中,分别为热水的密度和比热容。为测定某散热器的散热量,用量程为40400L/h的转子流量计测热水量,用玻璃水银温度计测热水温度。在进水温度为T1=95度,出水温度为70度,L=50L/h的设计工况下,为使散热量的测试误差不大于10%,如何选择转子流量计和玻璃水银温度计的精度?解:这是一个间接测量问题,直接测量量为热水流量L、进出口温度T1和T2,要求选用转子流量泵的精度等级G和玻璃水银温度计的误差限 从而使散热量的测试误差限 )(21TTcLQc和T%10/QQ人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。