误差与分析数据的处理学习培训课件.ppt_163文库

资源描述

1、（1）2.1.1 准确度与精密度 2.1.2 误差与偏差 2.1.3 系统误差与随机误差 2.1.4 系统误差与准确度2.2.1 频率分布 2.2.2 正态分布 2.2.3 随机误差的区间概率2.3.1 集中趋势和分散趋势的表示 2.3.2 平均值的置信区间 2.3.3 显著性检验 2.3.4 离群值的取舍 2.3.5 误差的传递 2.3.6 标准曲线及线性回归2.4.1 减小测量误差 2.4.2 控制随机误差 2.4.3 消除系统误差准确度 Accuracy 准确度表征测量值与真实值的符合程度。准确度用误差表示。精密度 precision精密度表征平行测量值的相互符合程度。精密度用偏差表示

2、。准确度与精密度的关系例：A、B、C、D 四个分析工作者对同一铁标样（WFe=37.40%)中的铁含量进行测量，得结果如图示，比较其准确度与精密度。36.00 36.50 37.00 37.50 38.00测量点平均值真值DCBA表观准确度高，精密度低准确度高，精密度高准确度低，精密度高准确度低，精密度低（不可靠）结论：1、精密度是保证准确度的前提。2、精密度高，不一定准确度就高。对一B物质客观存在量为T 的分析对象进行分析，得到n个个别测定值 x1、x2、x3、xn，对n 个测定值进行平均，得到测定结果的平均值，那么：个别测定的误差为：Txi测定结果的绝对误差为：TxEa测定结果的相对误差为

3、：%100TEEar真值T(True value)某一物理量本身具有的客观存在的真实值。真值是未知的、客观存在的量。在特定情况下认为是已知的：1、理论真值（如化合物的理论组成）2、计量学约定真值（如国际计量大会确定的长度、质量、物质的量单位等等）3、相对真值（如高一级精度的测量值相对于低一级精度的测量值）例如，标准样品的标准值偏差（deviation):表示精密度高低的量。偏差小，精密度高。偏差的表示有：偏差 did极差 R标准偏差 S相对标准偏差（变异系数）CV具体定义和计算在后续内容中介绍。平均偏差系统误差（Systematic error)某种固定的因素造成的误差。随机误差（Rando

4、m error)不定的因素造成的误差过失误差（Gross error,mistake)系统误差与随机误差的比较项目系统误差随机误差产生原因固定的因素不定的因素分类方法误差、仪器与试剂误差、主观误差性质重现性、单向性（或周期性）、可测性服从概率统计规律、不可测性影响准确度精密度消除或减小的方法校正增加测定的次数系统误差的校正方法系统误差方法校正主观系统误差对照实验（外检）仪器系统误差对照实验试剂系统误差空白实验系统误差与准确度 Bias and accuracy测量值的误差：Txi可以写成：iiiiEETxxxE系统误差）随机误差）()()(注：系统误差 systematic error

5、或者 bias对单一测量值：误差=随机误差+系统误差Error=random error +bias由足够多的单一测量求得的“稳定”的平均值：绝对误差=系统误差TxEa系统误差与准确度 Bias and accuracy无限次测量求平均值，得到的总体平均值绝对误差TEa绝对误差=总体平均值真值 =系统误差误差的分配系统误差=实验室系统误差+方法系统误差注：实验室系统误差指单一实验室内重复测量所表现出的系统误差。有 j 个实验室对同一样品进行分析，每个实验室得到 i 个测量值，将单一测量值表示为 xij实验室11,2111.,ixxx2,2212.,ixxx实验室2实验室 jijjjxxx

6、.,21.误差分配示意图单一实验室的误差分配实验室间误差分配随机误差再现性 Reproducibitity重现性 Repeatability 正态分布的实验室内随机误差正态分布的实验室系统误差方法系统误差正态分布的实验室内随机误差方法系统误差+实验室系统误差xjxTijx实验室11,2111.,ixxx2,2212.,ixxx实验室2实验室 jijjjxxx.,21.No分组频数（ni)频率（ni/n)频率密度（ni/ns)115.8410.0050.17215.8710.0050.17315.9030.0150.51415.9380.0401.35515.96180.0913.03615.9

7、9340.1725.72716.02550.2789.26816.06400.2026.73916.09200.1013.371016.12110.0561.851116.1550.0250.841216.1820.0100.341316.2100.0000.00厦门大学的学生对海水中的卤素进行测定，得到：198nLgx/01.16Lgs/047.074.24%88.38%数据集中与分散的趋势频率密度直方图0.002.004.006.008.0010.0015.8315.9015.9616.0216.0916.1516.21测量值频率密度频率密度分布图0.002.004.006.008.001

8、0.0015.815.916.016.116.216.3测量值频率密度222)(21)(xexfy测量值正态分布N(,2)的概率密度函数：0.0 5.0 10.0 15.0 20.0 25.0 15.8015.9016.0016.1016.20概率密度1=0.047 2=0.023 xy 概率密度x 个别测量值总体平均值，表示无限次测量值集中的趋势。总体标准偏差，表示无限次测量分散的程度。x-随机误差随机误差的正态分布测量值的正态分布0 x-051015.8015.9016.0016.1016.20 xy0.0 5.0 10.0 15.0 20.0 25.0 15.8015.9016.001

9、6.1016.20 xy总体标准偏差相同，总体平均值不同总体平均值相同，总体标准偏差不同原因：1、总体不同2、同一总体，存在系统误差原因：同一总体，精密度不同1、小误差出现的概率大，大误差出现的概率小；特别大的误差出现的概率极小。2、正误差出现的概率与负误差出现的概率相等。3、x=时，y 值最大，体现了测量值的集中趋势。集中的程度与有关。结论：增加平行测量次数可有效减小随机误差。0.0 5.0 10.0 15.0 20.0 25.0 15.8015.9016.0016.1016.20y平均值222)(21xey令：xu正态分布函数转换成标准正态分布函数：2/221)(ueuy0.000.1

10、00.200.300.40-3-2-10123y68.3%95.5%99.7%u121)2/2dueduuu（0.000.100.200.300.40-3-2-10123y121)2/2dueduuu（面积（概率uudueduu02/221)|u|面积|u 面积|u 面积|u 面积0.6740.25001.0000.34131.6450.45001.9600.47502.0000.47732.5760.49503.0000.49870.5000正态分布概率积分表（部分数值）正态分布概率积分表（部分数值）|u|面积|u 面积|u 面积|u 面积0.6740.25001.0000.34131.64

11、50.45001.9600.47502.0000.47732.5760.49503.0000.49870.50000.5000.19151.5000.43322.5000.4938返回例题22返回例题21随机误差出现的区间u（以为单位）测量值出现的区间概率%（-1,+1)(-1,+1)68.3(-1.96,+1.96)(-1.96,+1.96)95.0(-2,+2)(-2,+2)95.5(-2.58,2.58)(-2.58,+2.58)99.0(-3,+3)(-3,+3)99.70.000.100.200.300.40-3-2-10123yxu0.000.100.200.300.40-3-2-

12、10123uy例题2-1：（1）解：5.110.015.0 xu查表：u=1.5 时，概率为：2 0.4332=0.866=86.6%（2）解：5.210.075.12u查表：u 2.5 时，概率为：0.5 0.4938=0.0062=0.62%一样品，标准值为1.75%，测得=0.10,求结果落在1.750.15%概率；测量值大于2%的概率。86.6%0.62%P a aP+a=1a 显著性水平 P 置信度有限数据的统计处理总体样本甲样本容量平均值500g乙平行测定 3 次1x平行测定 4 次2x丙平行测定 4次3x有限数据的处理：.,.,321321xxxxxx计算x估计显著性检验没有系统

13、误差，=T有系统误差，T2.3.1数据集中趋势和分散程度的表示数据集中趋势的表示：对一B物质客观存在量为T 的分析对象进行分析，得到n个个别测定值 x1、x2、x3、xn，平均值 Average：niixnx11中位数Median：Mx有限次测量：测量值向平均值集中无限次测量：测量值向总体平均值集中xn,极差R RangeminmaxxxR相对极差R%100 xR偏差 Deviationxxdii平均偏差 Mean deviationnxxdnii1相对平均偏差 relative mean deviation100%xdRMD标准偏差 standard deviation1)(12nxxs

14、nii相对标准偏差(变异系数)Relative standard deviation(Coefficient of variation,CV)100%xsRSD总体标准偏差与标准偏差的比较总体标准偏差：nxi2)（标准偏差：1)(2nxxsi无限次测量，对总体平均值的离散有限次测量对平均值的离散自由度：1 nf计算一组数据分散度的独立偏差数自由度的理解：例如，有三个测量值，求得平均值，也知道x1和x2与平均值的差值，那么，x3与平均值的差值就是确定的了，不是一个独立的变数。平均值的标准偏差设有一样品，m 个分析工作者对其进行分析，每人测 n 次，计算出各自的平均值，这些平均值的分布也是符合正态

15、分布的。试样总体样本1样本2样本mmmnmmmnnxxxxxxxxxxxxxxx,.,.,.,.,3212223222111131211xxxxxm.,321平均值的总体标准偏差：nx对有限次测量：nssx对有限次测量：nssx1、增加测量次数可以提高精密度。2、增加（过多）测量次数的代价不一定能从减小误差得到补偿。结论：ssx测量次数0.00.20.40.60.81.005101520252.3.2 总体平均值的置信区间对的区间的估计对一样品分析，报告出：nsx,x估计问题：.)(.x)(Bnsxw例如xn,在的某个范围内包含的把握有多大？x无限次测量：对有限次测量1、把握程度，多

16、少把握2、区间界限，多大区间置信水平 Confidence level置信度 Degree of confidence Probability level置信区间 Confidence interval 置信界限 Confidence limit 必然的联系平均值的置信区间的问题这个问题涉及两个方面：总体平均值的置信区间概率区间大小00.80 x例：包含在 15.000.80 包含在05.000.80把握相对大把握相对小00.80100%的把握无意义包含在复习区间概率的概念1、对一个样品进行无限次测定，可以得到和，测量值和随机误差遵从正态分布规律。2、若用 u 表示随机误差，可得到一个随机

17、误差的标准正态分布；3、根据随机误差的标准正态分布，可求得随机误差出现在某一区间的概率，根据u的定义，也可求出x出现在某一区间的概率。0.0 5.0 10.0 15.0 20.0 25.0 15.8015.9016.0016.1016.20概率密度1=0.047 2=0.023 x0 x-随机误差测量值 0.000.100.200.300.40-3-2-10123yu区间概率与置信区间例2-2：96.1u查表得：%0.95P若用单次测量值来估计的区间：96.1 xv 这是一个在一定置信度下总体平均值的置信区间的问题，是说有95%的把握说包含在的范围内。96.1xnx则有：nuxuxx96

18、.1v 这是一个区间概率的问题，是说测量值落在范围内的概率为95%。即：96.1xv 实际分析工作中通常是以样本平均值估计总体平均值是说有一定的把握说包含在的范围内。nux1、t 分布曲线无限次测量，得到：xu0.000.100.200.300.40-3-2-10123uyu分布曲线有限次测量，得到：xsnsxsxtxt 分布曲线 t 分布值表自由度f=(n-1)显著水平0.500.100.050.0111.006.3112.7163.6620.822.924.309.9330.762.353.185.8440.742.132.784.6050.732.022.574.0360.721.

19、942.453.7170.711.902.373.5080.711.862.313.3690.701.832.263.25100.701.812.233.17200.691.732.092.850.671.651.962.58P=1-，置信度，显著性水平返回例题2-4返回例题2-31返回例题2-32返回例题2-56次测量，随机误差落在2.57 范围内的概率为95%。xs无限次测量，随机误差落在1.96 范围内的概率为95%。2、置信区间有限次测量：nsxt服从自由度 f 的 t 分布fafattt,，时：1Pfafatnsxt,，t 代入，得改写为：nstxnstxfafa,，置信度为（1-）

20、100%的的置信区间为），（，nstxnstxfafa,nstxfa，也写成：是说当测定n次时，有一定的把握说总体平均值包含在的范围里。nstxfa，分析铁矿中的铁的质量分数，得到如下数据：37.45，37.20，37.50，37.30，37.25（%）。（1）计算此结果的平均值、中位值、极差、平均偏差、标准偏差、变异系数和平均值的标准偏差。（2）求置信度分别为95%和99%的置信区间。解（1）：%34.37%525.3730.3750.3720.3745.37x%30.37Mx%30.0%20.37%50.37R%11.0)%09.016.004.014.011.0(5111xxndnd

21、ii%35.0%10034.3713.0%100 xsCV%06.0%058.05%13.0nssx分析结果：%13.0%,34.37,5sxn%13.015)09.0()16.0()04.0()14.0()11.0(1)12222222nxxndsii（解（2）：求置信度分别为95%和99%的置信区间。置信度为95%，即1-=0.95，=0.05，查表：t 0.05,4=2.78 的95%置信区间：），（），（，%50.37%18.375%13.078.2%34.375%13.078.2%34.37),(,nstxnstxfafa%13.0%,34.37,5sxn（1）的结果：置信度为99

22、%，即1-=0.99，=0.01，查表：t 0.01,4=4.60 的99%置信区间：），（），（，%61.37%07.375%13.060.4%34.375%13.060.4%34.37),nstxnstxfafa结论置信度高，置信区间大。区间的大小反映估计的精度，置信度的高低说明估计的把握程度。总体标准偏差已知情况下的总体平均值的置信区间常规例行分析，每天进行，可认为n，是已知的，t分布还原为 u 分布，总体平均值的置信区间为：),(nuxnuxaa例如，比较总体标准偏差已知与未知情况下的总体平均值的置信区间%13.0%,34.37,5sxn），（，%50.37%18.37),(,ns

23、txnstxfafa置信度为95%，t 0.05,4=2.78 未知%13.0%,34.37,5xn），（%48.37%20.37),(nuxnuxaa置信度为95%，u 0.05=1.96 已知2.3.3 显著性检验 Significant Test问题的提出：（1）对含量真值为T的某物质进行分析，得到平均值，但；x0Tx（2）用两种不同的方法、或两台不同的仪器、或两个不同的实验室对同一样品进行分析，得到平均值，但；021 xx21,xx是由随机误差引起，或存在系统误差？0Tx021 xx显著性检验显著性差异非显著性差异系统误差校正随机误差正常显著性检验1.平均值与标准值的比较t 检

24、验法假设不存在系统误差，那么：T是由于随机误差引起的，测量误差应满足t 分布，0TxxsxtnsTx,根据计算出的t 值应落在指定的概率区间里。否则，假设不满足，表明存在着显著性差异。t 检验法的方法1、根据计算出t 值。nsTx,2、给出显著性水平或置信度3、将计算出的t 值与表上查得的t 值进行比较，若表计tt表示落在为中心的某一指定概率之外。在一次测定中，这样的几率是极小的，故认为是不可能的，拒绝接受。x习惯上说表明有系统误差存在。表计tt例题2-4某化验室测定CaO的质量分数为30.43%的某样品中CaO的含量，得如下结果：%05.0%,51.30,6sxn问此测定有无系统误

25、差？(给定=0.05%)解：9.3605.043.3051.30nsxsxtx计算查表：57.25,05.0ttfa，比较：表计算tt说明和T 有显著差异，此测定有系统误差。假设：=T u检验法 u 检验法与t 检验的不同在于用u分布，而不是用t分布。例题2-5：某炼铁厂生产的铁水，从长期经验知道它的碳含量服从正态分布，T为4.55%，为0.08%。现在又生产了5炉铁水，其碳含量分别为4.28%，4.40%,4.42%,4.35%,4.37%。试问均值有无变化？(给定=0.05%)解：假设：=T 3.5508.055.436.4nxxux计算查表：表计算uu96.105.0u比较：结论：平均值

26、比原来的降低了。注意：得到这个结论的前提是：测试是可靠的，测试过程不存在系统误差。(%)36.45/)37.435.442.440.428.4(x2、两组平均值的比较两个实验室对同一标样进行分析，得到：111,snx和222,snx假设不存在系统误差，那么：T212)1()1(21222211212121nnsnsnsnnnnsxxtpp 是由于随机误差引起的，应满足自由度 f=(n1+n2 2）的 t 分布，021 xx两组平均值的比较的方法1、F 检验法检验两组实验数据的精密度S1和S2之间有无显著差异：22小大计算ssF查表：表计算FF精密度无显著差异。2、t 检验确定两组平均值之间有无

27、显著性差异2)1()1(21222211212121nnsnsnsnnnnsxxtpp计算3、查表：2)(21nnfftta，表4、比较：表计算tt非显著差异，无系统误差具体计算见教材的例题。f大 f小23456219.0019.1619.2519.30 19.3339.559.289.129.018.94 46.946.596.396.166.0955.795.415.195.054.9565.144.764.534.394.282.3.4 异常值的检验 Outlier rejection异常值的检验方法：1、d4法（1）将可疑值除外，求其余数据的平均值和平均偏差；1nx1nd（2）求可

28、疑值x与平均值之间的差的绝对值；1nx1nxx（3）判断114nndxx舍弃。统计学方法证明，当测定次数非常多（例如大于20时，总体标准偏差与总体平均偏差有下列关系=0.7979 0.80 4 3，偏差超过4 的测量值可以舍弃。2、Q 检验法 Dixons Q-test（1）将测量的数据按大小顺序排列。nxxxx.,321（2）计算测定值的极差R。（3）计算可疑值与相邻值之差（应取绝对值）d。（4）计算Q值：RdQ计算（5）比较：表计算QQ舍弃。舍弃商Q值测定次数n345678910Q 0.900.940.760.640.560.510.470.440.41Q 0.950.970.840.730.640.590.540.510.49测定碱灰总碱量（%Na2O)得到6个数据，按其大小顺序排列为40.02，40.12，40.16，40.18，40.18，40.20。第一个数据可疑，判断是否应舍弃？（置性度为90%）。解：56.002.4020.4002.4012.40计算Q查表：n=6,Q表=0.56 舍弃。3、格鲁布斯Grubbs)法（1）将测量的数据按大小顺序排列。nxxxx.,321（2）设第一个数据可疑，计算sxxT1计算或设第n 个数据可疑，计算sxxTn计算（3）查表：T计算 T表，舍弃。

展开阅读全文