1、CAMO化学计量学程序CAMO化学计量学程序 在桌面上找到“The UNSCRAMBLER”软件图标,双击打开这个程序,在主窗口中的“File”按钮的下拉菜单中指向“Import”条目,然后在下拉菜单中选择需要输入的数据类型“U5 Data”。击“U5 DATA”条目,然后在弹出的新窗口中选择需要导入的UNS格式的光谱数据文件,单击“IMPORT(导入)”按钮或双击该文件,就会弹出导入提示窗口,选择需要导入的行和列,单击“OK”按钮,就可以导入光谱数据。CAMO化学计量学程序 选择菜单Task PCA 在主成分分析的设置菜单直接点击OK。CAMO化学计量学程序 运行结束后,点击View出现PC
2、A计算后的视图。CAMO化学计量学程序选择菜单File Export Model ASCII-MOD出现模型导出的窗口,选择好保存路径及名称,注意“Type”需要选择“Full”类型。然后,关掉PCA窗口,回到CAMO数据表窗口。CAMO化学计量学程序 下面开始导入一级数据化验值数据的操作CAMO化学计量学程序 样品一级数据的化验要求尽量准确,化验数据所采用的仪器和化验条件所有样品要一致。CAMO化学计量学程序 打开准备好的一级数据,将光谱数据的编号顺序调整为与一级数据一致,选择一级数据的数据部分(不包括指标名称与编号),直接粘贴插入到CAMO数据表中与光谱数据一一对应好。CAMO化学计量学程
3、序 选择菜单TaskRegression 出现回归计算的设置菜单,数学方法选择PLS1。Samples选项按默认设置;X-variables选项选择“X 601”,即601列光谱数据;Y-variables选项选择“hl 1”,即插入的含量数据。CAMO化学计量学程序验证方法选项Validation Method,选择“Cross Validation”交互验证,点击后面的”Setup”按钮打开交互验证窗口,开始对交互验证方法进行设置,选择“Full Cross Validation”完全交互验证,点击“OK”确认。CAMO化学计量学程序 Model选项选择“Full”,Num Pcs选项选择
4、“25”,其他选项按默认。点击“OK”按钮开始计算PLS1回归模型。如图所示。CAMO化学计量学程序 点击“View”查看模型的视图。CAMO化学计量学程序将视图1转换为三维视图。选中视图1,选择菜单Plot Residuals打开视图参数窗口,如右图所示。在General常规选项界面中:“Plot”项选择“Influence Plot”,“Variables”项选择“X and Y”,其他选项按默认,点击“OK”。CAMO化学计量学程序 将视图2转换为杠杆值视图。选中视图2,选择菜单Plot Leverage 打开视图参数窗口,如右图所示,不必设置直接点击“OK”即可完成转换。CAMO化学计
5、量学程序 视图3和视图4不必转换,最终的4个模型视图如下图所示。CAMO化学计量学程序模型优化操作中异常值(outlier)剔除分别采用三维空间分布值Influence和线性相关性correlation这两个统计量来对照检验剔除,同时参考光谱杠杆值Leverage。经过异常值的剔除对模型进行逐步优化。三维空间分布值Influence就是指视图1中的样品三维空间分布图,由于做定量分析的样品集为同类样品,他们在主成分空间的分布会因光谱信息的相似性而分布在一个相对集中的空间中,所以在视图1中大部分的样品会聚集在一起,少数几个点离散在比较远的区域。这少数的几个离散点就是异常值,模型优化时要将这些点标记
6、出排除掉。CAMO化学计量学程序光谱杠杆值Leverage 即指视图2的样品杠杆值。将线状图转换为点阵图后可以发现,每一个样品点对应一个杠杆值。杠杆值表示样品对模型影响的重要程度。通常,位于被测组分浓度或性质范围两端的样品具有较大的杠杆值,位于被测组分浓度或性质的均值处的样品杠杆值较小。如果某个样品的杠杆值远大于其他值,它有可能不代表被测样品的实际情况,这样的样品可能是异常值,需要给予认真研究。这个指标在模型优化操作中的作用又不是太重要,只要杠杆值不是特别的高,一般不会考虑剔除,该指标模型优化时作为辅助参考指标。CAMO化学计量学程序视图3是PRESS值-主成分数目的关系图。在计算的多个主成分
7、中,第一主成分最重要,随着主成分数的增加,重要程度依次降低,以至到后来的许多主成分反映的是噪音信息。如果建立模型时使用的主成分数过少,就不能反应未知样品被测组分产生的光谱数据变化,其模型的预测准确度就会降低,这种情况称之为不充分拟和(Underfit)。如果使用过多的主成分建立模型,就会将一些代表噪音的主成分加到模型中,使模型的预测能力下降,这种情况称为过度拟和(Overfit)。因此,合理确定参加建立模型的主成分数是充分利用光谱信息和滤除噪音的有效方法之一。CAMO化学计量学程序 视图3的纵坐标是PRESS值,即预测残差平方和,PRESS是这样计算的:使用一定数目的主成分建立模型,用这个模型
8、对参加建模的每个样品进行预测,每个样品的预测值和已知值的差的平方和即为该主成分下的PRESS值。PRESS值越小,说明模型的预测能力越好。在这里CAMO软件会根据PLS1的参数设置以交互验证法(Cross-validation)自动选择最佳主成分来构建模型。所以,主成分数一般不需要人为调整。CAMO化学计量学程序线性相关性correlation即指视图4的线性回归视图。视图中的横坐标是一级数据的化验值,纵坐标是PLS1回归计算过程中交互验证得出的预测值。图中红点是不包括该点的模型对该点预测得出的验证值;蓝点是所有校正集样品建立的模型对校正集中每一个样品预测得出的校正值。两者都是交互验证过程对模
9、型实际预测能力的模拟,但红色的验证值更接近外部预测,所以我们一般以红点的相关性为依据进行异常点的排除。视图4中的标签显示了当前nic模型的相关性为0.9757(验证值的相关性)。当所有样品的验证值与化验值完全相同时,视图4中的样品点应该都分布在通过原点的斜率为1的直线上,此时的线性相关性为1,这是最理想的状态。我们优化模型的目的就是要剔除线性不好的样品点,使验证值的相关性尽量的接近理想状态的1。视图4中的大部分的样品点都分布在离回归线比较近的两侧,有些点直接在回归线上。因此,那些离回归线比较远的离散点就是异常值,模型优化时要将他们标记出来剔除掉。CAMO化学计量学程序下面我们开始对模型进行优化
10、操作。首先,在视图1中有3个样品的三维分布远离了正常分布区域,将这三个样品点标记出来;同时对照视图4发现,这三个样品同样也是线性关系不好的点,进一步确认这三个样品确实是异常值,应该剔除掉。如下图所示。CAMO化学计量学程序接下来,选择菜单Task Recalculate Without Marked,即排除被标记的样品后重新计算模型。出现计算模型的参数设置窗口,发现在Keep Out of单元格中已经将三个异常样品的编号自动填写好,不必做任何改动,直接点击“OK”即开始模型的重新构建。CAMO化学计量学程序模型重新计算完毕,点击按钮“View”查看优化之后的模型视图。优化之后的验证值的线性相关
11、性为0.9858,相比优化之前的0.9757有所提高,说明这次优化对模型有所改进。如果模型还没有达到要求或者条件允许,下面可以对模型进行进一步的优化,根据视图1的三维分布情况和视图4的线性关系好坏继续剔除异常点,直至模型满足要求。CAMO化学计量学程序模型建好之后,点击保存按钮保存模型,或者选择菜单File Save保存模型。保存模型时,一定要以化验指标的名称来命名。CAMO化学计量学程序 对验证样品光谱文件按照前面相同的处理方式,最后处理成uns文件,导入化学计量学软件。yanzheng.dat yanzheng.dx1 yanzheng.unsCAMO化学计量学程序调用模型预测:选择菜单T
12、ask Predict就会出现模型调用窗口,Sample项目按默认即可,X-variables项目选择Xdata 601,Y-reference项目Include Y-referen前打“”号,Variable选择nic 1(没有的话需要自己点击Define按钮进行定义)。点击Model Name后的Find按钮选择要调用的模型,点击“OK”开始预测。CAMO化学计量学程序 预测结束点击按钮“View”查看预测结果。如下图所示。CAMO化学计量学程序 将预测结果复制到Excel中:在预测结果窗口的数据表中点击右键,选择菜单Edit Copy,执行复制命令。然后打开一个空白的Excel表格,选中第一行的第一个格,点击右键执行“粘贴”命令。CAMO化学计量学程序 如图所示,按照样品编号的对应顺序将每个样品的含量值粘贴入Excel表格。编辑公式计算预测结果的绝对偏差和相对偏差。CAMO化学计量学程序预测全部验证集样品的结果如下表所示(每个样品三个预测值的平均值作为该样品的预测值)。CAMO化学计量学程序模型验证达到要求后,需要将模型文件导出,导出文件为AMO格式,是实时在线预测程序能够直接调用的格式。CAMO化学计量学程序