1、化学物质爆炸下限定量构效关系研究研究意义QSPR基本原理和基本研究步骤研究概况本论文研究工作模型预测结果比较分析及结论主要内容主要内容 爆炸下限是物质爆炸危险性的重要评价参数,但实际工业的爆炸下限数据库空白很多,传统的实验方式无法保证所获结果的可靠性、准确性、一致性,而且往往测量昂贵且费时。运用定量构效关系(QSPR)预测的方法既能够方便迅速获得爆炸下限数据,而且能保证结果的可靠性,还能通过已有的预测模型获得新物质的爆炸下限值,同时能得到分子结构中影响爆炸下限的主要因素。研究意义英文全称为:Quantitative Structure-property Relationship,QSPR中文简
2、称定量构效关系两条基本假设:分子性质的变化依赖于其结构的变化;分子的结构可以用反映分子结构特征的各种参 数来描述,即化合物的性质可以用化学结构的函数来表示。QSPR基本原理QSPR基本原理 可见,可见,QSPRQSPR方法是一个不完全归纳法的分析过程:由方法是一个不完全归纳法的分析过程:由已知的结构性质样本出发先建立模型,再利用所建立的模已知的结构性质样本出发先建立模型,再利用所建立的模型对新样本进行预测。型对新样本进行预测。图1 QSPR基本原理 所需要仅仅是分子的结构信息分子的结构信息及目标性质的实验数目标性质的实验数据据,通过对计算出来的分子的各种结构参数和实验性质进行统计分析统计分析,
3、建立分子的结构参数和所研究的性质之间的定定量关系量关系,达到预测的目的。QSPR基本原理 QSPR基本步骤数据的获得和整理(DIPPR)预测模型的建立(HM,B-MLR,SVM)模型的检验(R2,AARD(%),RMSE,Q2ext)分子结构的输入和优化(Hyperchem8.0)分子描述符的计算 (Codessa)分子描述符的选择(HM,B-MLR)图2 QSPR研究的基本步骤 QSPR基本步骤分子描述符的计算分子描述符的计算分子描述符:即分子结构参数,是一个分子的数学表征,可 以以数学的方式表示了每一个分子的特征,包含了分子的各种结构信息。描述符计算其实就是把分子结构转换为数值信息的过程
4、主要有六种:组成描述符,几何描述符,拓扑描述符,静电描述符,量子化学描述符,热力学描述符 QSPR基本步骤分子描述符的选择分子描述符的选择增加计算复杂性,偶然相关,不稳健,自相关造成内部冗余关键问题关键问题:从大量的描述符中选择出与目标性质最紧密相关的参数,最好是用尽可能少的变量来表征尽可能多的结构信息。常用筛选方法:启发式方法(HM),逐步回归法,遗传算法,变量最优子集回归法,神经网络法,模拟退火法等。QSPR基本步骤预测模型的建立预测模型的建立训练集和测试集的划分 训练集用于建立预测模型,测试集用于测试所建立的模型的预测能力。建模方法(线性关系,非线性关系)判别分析,主成分分析,因子分析,
5、线性回归,主成分回归分析,偏最小二乘法,人工神经网络,遗传算法,支持向量机以及投影寻踪回归等。本次研究建模采用线性回归方法里的启发式回归本次研究建模采用线性回归方法里的启发式回归(HM)(HM)和和最佳多元线性回归以及非线性方法里的支持向量机最佳多元线性回归以及非线性方法里的支持向量机(SVM)(SVM)。QSPR基本步骤模型的检验模型的检验内检验:通过训练集检验模型的建模能力建模能力(拟合能力和稳健能力);外检验:通过测试集检验模型的预测能力预测能力,即用已建立的训练模型来预测未参与模型训练的物质的性质。“留一法”交互验证(LOO-CV)RMSE,AARD泛化能力及预测精度泛化能力及预测精度
6、;F检验值、t检验值模型的显著性问模型的显著性问题题(公式见论文第9页)。20022200iiiiyyyyRyyyy2021211trainingiilootrainingiiiyyQyy 20212()11testiiexttestii triyyQyy 研究概况研究概况 爆炸下限预测模型研究概况 与燃烧热、化学计量浓度等关联,人工神经网络方法(临界温度、临界压力等)基团贡献法 预测方法研究概况 基团贡献法,经验公式法,QSPRQSPR 不足 优势优势目前预测理化性质的趋势目前预测理化性质的趋势 本论文研究工作 拟对113种烃类物质进行定量构效关系研究,建立烃类物质的爆炸下限预测模型,并探究
7、影响物质爆炸下限性质的主要结构因素。主要研究内容有:分别用QSPR的三种建模方法建立预测模型 计算各参数,评价模型效果(R2、RMSE、AARD、Q2ext)比较分析三个预测模型 探究分子结构中影响爆炸下限的主要因素 模型预测 HM模 B-MLR模型 SVM模型 线性建模及分子描述符计算在CODESSA软件中完成,而SVM的建模及相关计算在MATLAB软件中完成。最后在MATLAB软件中计算各个模型的R2、AARD、Q2loo、Q2ext,RMSE,并将三个预测模型进行比较讨论分析。HM模型启发式回归(启发式回归(HMHM)方法筛选描述符原则)方法筛选描述符原则:1)不是每个化合物都有的参数;
8、2)对所有化合物来说,数值变化比较小的描述符;3)在一个参数相关方程中,F检验值小于1.0的参数;4)t检验值小于某一定义值的描述符。HM模型 具有4个描述符的集合为最佳描述符集,其所对应的模型即为最佳模型 图3 HM方法筛选最佳描述符集HM模型表2 HM方法的分子描述符筛选结果信息 表3 HM模型中的分子描述符统计学参数 HM模型所得训练模型:LFL=1.4230+0.0218X1-0.3074X2-0.02085X3-0.01227X4 内部检验内部检验:R2=0.9773 Q2loo=0.9773 AARD=4.3483%RMSE=0.05 F=902.61 n=89稳健性、拟合能力及稳
9、健性、拟合能力及精度均较好精度均较好图4 HM方法的训练模型的预测值和实验值的比较 图5 HM模型对测试集所得预测值与实验值的比较 HM模型 HMHM预测模型效果令人满意预测模型效果令人满意外部检验外部检验:R2=0.9534,AARD=4.4828%,RMSE=0.0685,Q2ext=0.9564 预测能力、泛化能力、预测精度均较好预测能力、泛化能力、预测精度均较好B-MLR模型B-MLRB-MLR筛选描述符原则:筛选描述符原则:1)对剩余的描述符做相关分析,搜取所有计算出的正交描述符i,j 2)用这些描述符与性质关联得到二元线性方程,筛选出Nc(=400)个方程(有较大判定系数)进行进一
10、步的回归分析;3)向方程中加入非共线描述符k成为三参数模型,如果三参数模型的F值小于最佳的两参数模型的F值,两参数模型为最后结果,反之,保存最佳三参数模型(最大判定系数)并用于下一步计算;4)向方程中再次加入非共线性描述符,类似于第三步,把得到的(n+1)参数模型F值与最佳的两参数模型的F值比较。B-MLR模型图6 B-MLR方法筛选最佳描述符集 具有4个描述符的集合为最佳描述符集,其所对应的模型即为最佳模型 表5 B-MLR模型中的分子描述符统计学参数 B-MLR模型表4 B-MLR方法的分子描述符筛选结果信息 B-MLR模型所得训练模型:LFL=1.4565-0.3145Y1+6.5291
11、Y2-0.02048Y3-0.002037Y4 内部检验内部检验:R2=0.9777 Q2loo=0.9777 AARD=4.3437%RMSE=0.0496 F=919.04 n=89稳健性、拟合能力及稳健性、拟合能力及精度均较好精度均较好图7 B-MLR方法的训练模型的预测值和实验值的比较B-MLR模型外部检验外部检验:R2=0.9522,AARD=4.5851%,RMSE=0.0696,Q2ext=0.9549 预测能力、泛化能力、预测精度均较好预测能力、泛化能力、预测精度均较好B-MLRB-MLR预测模型效果预测模型效果 令人满意令人满意图8 B-MLR模型对测试集所得预测值与实验值的
12、比较SVM模型 重要参数:核函数的类型、惩罚常数C、-不敏感损失函数中、核函数宽度参数及它们的组合。本次研究中支持向量机分析主要采用改进的svm加强工具箱结合MATLAB2009来运行,以B-MLR方法所选择的4个分子描述符作为输入参数。选择RBFRBF径向基函数径向基函数作为核函数,烃类物质的爆炸下限数据先经过0,1范围的归一化处理,采用格点搜索的方法格点搜索的方法选择最佳的参数组合。SVM模型最优参数为:惩罚系数C=22.6274,核函数的宽度=0.0032725,-不敏感损失函数=0.125 训练模型:R2=0.9782,Q2loo=0.9782,AARD=3.8031%,RMSE=0.0490,n=89 测试集外部验证:R2=0.9559,AARD=4.6680%,RMSE=0.0696,Q2ext=0.9549。图9 SVM训练模型的预测值与实验值的比较 图10 SVM模型对测试集所得预测值与实验值的比较结果比较分析表6 三种方法模型的各评价参数比较 结论三种模型效果均较优,都具有较好的稳定性和预测能力,可以用于烃类物质的爆炸下限的预测。综合比较,SVM模型效果最佳,这说明了烃类物质的爆炸下限与其分子结构间可能存在非线性关系。影响烃类爆炸下限的主要因素:分子能量、热容量、分子间静电作用、分子化学键及质量等方面的结构特点。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。