论文部分内容阅读
手性化合物的绝对构型的实验检测通常是昂贵且耗时的,而比旋光度的理论预测可以辅助解决这一问题。本论文通过机器学习方法进行了对映体绝对构型的自动识别,并定量地预测了手性分子的比旋光度值,具体研究内容如下:1.手性离子液体的绝对构型的自动识别编码手性阳离子结构的PAS描述符与代表非手性阴离子的二进制指示变量相结合构成分子手性描述符。通过相向传播人工神经网络(CPG NN)进行手性离子液体的比旋光度预测。输出层的映射图清楚地显示了PAS描述符具有区分左旋和右旋化合物的能力,并将具有高比旋光度绝对值的化合物分配到特定的区域。此外,CPG网络揭示了含有不同阴离子的离子液体所覆盖化学空间的多样性,并使阳离子、阴离子和比旋光度之间的关系可视化。CPG NN最终定量预测的结果为:测试集的RMSE=22°。基于相同的数据集和手性描述符,CPG NN正确地识别了测试集中大部分对映体的绝对构型。由于PAS描述符属于分类指数,而且在定量预测中,监督的机器学习法往往优于半监督的CPG网络,所以我们又提出了定量的ePAS描述符,并利用多层感知器(MLP),随机森林(RF)和多线性回归(MLR)建立定量预测模型。其中,结果最好的模型为:将PAS和ePAS描述符结合,递交到RF中进行变量选择,然后使用最相关的30维描述符建立RF模型。最终,相应的训练集和测试集的RMSE均在10°~11°之间。所得定量结果明显优于使用PAS描述符的结果。若将RF应用于定性预测,则所得模型能正确地识别测试集中95%对映体的绝对构型。2.手性氟化物的比旋光度预测采用PAS描述符代表44对手性氟化物对映体,建立了定性与定量的比旋光度预测模型。对于定性预测,采用+1和-1代表比旋光度的符号作为CPG网络的输出。训练集中的化合物在映射图上的分布验证了PAS描述符具有区分左旋和右旋氟化物的能力。将测试集的PAS描述符也映射到训练过的CPG NN中,测试集的8对对映体显示在被激活的神经元上并正确分类。对于整个数据集进行leave one-pair out交叉验证,44对中有41对对映体的绝对构型被正确地识别。以上结果表明,建立的定性模型令人满意,可以正确地识别大部分的L-化合物和D-化合物。分别采用PAS,PAS+ePAS和cPAS描述符表示手性氟化物的结构,建立定量模型。由于不相关的变量可能会增加计算的复杂性并导致分类的准确性降低,因此我们基于RF的变量重要性选择描述符,并将其用于定量构效关系研究。其中,由手性氟化物共有的结构特征衍生的cPAS描述符得到了包含11个变量的子集。采用这个子集所建立的RF模型得到了最好的定量预测结果。对于整个数据集的leave one-pair out交叉验证,其结果为R=0.969,RMSE=11.4°。此外,数据集中有30个化合物的比旋光度是在氯仿中测量的,我们使用机器学习的方法预测了这30个化合物的比旋光度,并与文献中量子化学的计算结果进行了对比。结果表明,机器学习法不仅可以快速预测氟化物的比旋光度,同时能够达到量子化学计算的准确度。3.仲醇手性拆分的主产物的绝对构型预测从文献中挑选出了34个仲醇及以它们为反应底物在同一条件下进行手性拆分得到的对映体产物和对映体过量值(ee)。为了预测对映体产物中主产物的绝对构型,分别用+1代表主产物和-1代表次产物。采用PAS描述符描述仲醇对映体,并分别通过CPG网络、多层感知器(MLP)、多元线性回归(MLR)和随机森林(RF)建立定性预测模型。所得结果指出,整个数据集交叉验证的正确率为97%~100%。此外,根据RF、M5和Greedy选择的变量,我们发现轨道的电负性和电荷密度对预测主产物的绝对构型起着重要的作用。