论文部分内容阅读
有机污染物定量结构-活性相关(QSAR)对于有机化合物的生态风险性评价、污染控制和预防等具有重要意义。QSAR研究常采用偏最小二乘回归分析(PLS)建立模型,以解决大量分子结构描述符的使用带来的变量间多重共线性问题。为了对众多的分子结构描述符进行筛选以得到最佳的QSAR模型,人们提出了各种变量选择方法。其中,基于遗传算法(GA)的变量选择方法由于结合了GA较强的全局优化搜索能力而具有较好的效果。但是,现有的各种变量选择方法均存在着一定的问题。 本文针对两个典型的不同样本容量的有机污染物QSAR研究,提出了不同的变量选择方法,就其变量选择及模型优化效果进行了深入地研究和探讨,在此基础之上建立了最佳的OSAR模型,并对所得的模型进行了相应的解释。 1.基于量子化学分子结构描述符和拓扑参数,应用PLS,建立了可以预测不同环境温度下多氯代二苯并二噁(口英)/呋喃(PCDD/Fs)固相蒸气压(Ps)和过冷液相蒸气压(PL)的定量模型。 在建模过程中,提出并采用了三种适用于大样本QSAR研究的变量选择方法:①基于逐步回归分析的变量选择方法;②基于变量投影重要性参数VIP的变量选择方法;③基于PLS模型的Qcum2(经交叉验证得到的,模型中提取的PLS成分所能解释的因变量的累计方差的比例)和VIP的变量选择方法。研究发现:由于预测变量间多重共线性的影响,第一种方法的性能不稳定,不能得到较好的模型;第二种方法所依据的VIP并不是一个优良的搜索方向的判据,而且该方法的搜索范围较小,因此这种方法得到的模型常是局部最优解;第三种方法以Qcum2作为搜索方向的主要判据,而且其搜索范围较广,因此这种方法常常能得到较好的模型,是这三种方法中最好的变量选择方法。 在PCDD/Fs的蒸气压(P)的QSAR模型中加入了对熵因素的考察。研究结果表明:熵因素是影响PCDD/Fs的Ps的一个重要因素,而对PCDD/Fs的PL没有重要影响。 建立的PCDD/Fs的尸s和PL的温度依附性预测模型的Qcum2均高于0.970,表明模型具有较好的稳健性和预测能力,可以用于PCDD/Fs不同温度下P的预测。对所得的最佳模型的考察发现:影响PCDD/Fs的Ps的主要因素,按由强到弱的顺序,依次是温度、分子间色散力、熵因素、分子间的偶极-偶极作用力和偶极-诱导偶极作用力;影响PCDD/Fs的PL的主要因素是温度和分子间色散力。 2.基于正辛醇/水分配系数(Kow)和一些理论分子结构描述符,应用PLS,建立了光合作用(PHS)抑制剂和乙酰乳酸合成酶(ALS)抑制剂两类除草剂对小球藻(Chtorella Vulgaris)急性毒性的QSARs。