本发明属于化学反应性预测,具体涉及一种基于分子三维表征的化学反应性预测方法及系统。
背景技术:
1、准确预测单一化学反应的性能仍然是一项具有挑战性的任务,即无法实现对化学反应的结果做出精确预测。
2、因此,针对以上无法实现对化学反应的结果做出精确预测的技术问题缺陷,急需设计和开发一种基于分子三维表征的化学反应性预测方法及系统。
技术实现思路
1、为克服上述现有技术存在的不足及困难,本发明之目的在于提供一种基于分子三维表征的化学反应性预测方法及系统,不仅能够对化学反应的结果做出精确预测,还能够辅助化学家进行逆合成路线设计和生成具有目标性质的分子。
2、本发明的第一目的在于提供一种基于分子三维表征的化学反应性预测方法;本发明的第二目的在于提供一种基于分子三维表征的化学反应性预测系统;本发明的第一目的是这样实现的:所述方法包括如下步骤:
3、实时获取与待化学反应相对应的数据集,其中,所述数据集包括胺化反应数据集、偶联反应数据集和不对称n,s缩醛合成反应数据集;
4、根据所述数据集,生成与分子相对应的三维坐标数据,并优化处理所述三维坐标数据,以及生成相对应的描述符数据;
5、结合所述与分子相对应的三维坐标数据,构建至少一个与坐标原点相对应的球体,并生成与所述球体相对应球面描述符数据;
6、创建与待化学反应相对应的学习模型,并根据所述学习模型生成相对应的化学反应性预测数据,其中,所述学习模型包括机器学习模型和深度学习模型。
7、进一步地,所述根据所述数据集,生成与分子相对应的三维坐标数据,并优化处理所述三维坐标数据,以及生成相对应的描述符数据,还包括:
8、根据所述三维坐标数据,生成与所述三维坐标数据相对应的第一描述符数据;
9、根据所述第一描述符数据,生成与所述第一描述符数据相对应的第二描述符数据和第三描述符数据;其中,所述第二描述符数据为分子级描述符数据;所述第三描述符数据为原子级描述符数据。
10、进一步地,所述根据所述第一描述符数据,生成与所述第一描述符数据相对应的第二描述符数据和第三描述符数据,还包括:
11、依次获取与第三描述符数据相对应的原子级种类数据,并生成相对应的一维特征向量;
12、按原子顺序依次拼接处理与原子相对应的一维特征向量,并生成相应的初始特征数据;
13、结合数据集中的原子的分子特征长度,对分子特征进行补零处理,并归一化处理所述第三描述符数据的高维特征。
14、进一步地,所述结合与所述分子相对应的三维坐标数据,构建至少一个与坐标原点相对应的球体,并生成与所述球体相对应球面描述符数据,还包括:
15、获取球体球面上的点数据,并计算生成与所述点数据相对应的点坐标数据;其中,所述点数据为均匀分布于球体球面的采样点。
16、进一步地,计算生成与所述点数据相对应点坐标数据的具体计算公式如下:
17、
18、
19、
20、
21、其中,n为采样点的个数,n为第几个采样点,r为球体半径,zn、xn、yn为第n个采样点与原子的距离。
22、进一步地,所述创建与待化学反应相对应的学习模型,并根据所述学习模型生成相对应的化学反应性预测数据,还包括:
23、获取待化学反应相对应的实际数据,并结合化学反应性预测数据,生成相对应的线性相关性数据;
24、根据所述线性相关性数据,实时判定生成所述化学反应性预测数据预测精度数据。
25、进一步地,所述根据所述线性相关性数据,实时判定生成所述化学反应性预测数据预测精度数据,还包括:
26、计算生成化学反应实际数据和化学反应性预测数据之间的误差数据;其中,计算公式具体如下:
27、
28、
29、其中,r2表示皮尔逊相关系数,mae表示平均绝对误差,n表示样本数量,表示因变量的均值,yi表示第i个样本的预测值,表示第i和样本经过线性回归的预测值。
30、本发明的第二目的是这样实现的:所述系统包括:
31、数据获取单元,用于实时获取与待化学反应相对应的数据集,其中数据集包括胺化反应数据集、偶联反应数据集和不对称n,s缩醛合成反应数据集;
32、第一数据生成单元,用于根据所述数据集,生成与分子相对应的三维坐标数据,并优化处理所述三维坐标数据,以及生成相对应的描述符数据;
33、第二数据生成单元,用于结合所述与分子相对应的三维坐标数据,构建至少一个与坐标原点相对应的球体,并生成与所述球体相对应球面描述符数据;
34、创建生成单元,用于创建与待化学反应相对应的学习模型,并根据所述学习模型生成相对应的化学反应性预测数据,其中,所述学习模型包括机器学习模型和深度学习模型。
35、进一步地,所述第一数据生成单元,还包括:
36、第一数据生成模块,用于根据所述三维坐标数据,生成与所述三维坐标数据相对应的第一描述符数据;
37、第二数据生成模块,用于根据所述第一描述符数据,生成与所述第一描述符数据相对应的第二描述符数据和第三描述符数据;其中,所述第二描述符数据为分子级描述符数据;所述第三描述符数据为原子级描述符数据;
38、和/或,所述第二数据生成模块,还包括:
39、第三数据生成模块,用于依次获取与第三描述符数据相对应的原子级种类数据,并生成相对应的一维特征向量;
40、第四数据生成模块,用于按原子顺序依次拼接处理与原子相对应的一维特征向量,并生成相应的初始特征数据;
41、归一化处理模块,用于结合数据集中的原子的分子特征长度,对分子特征进行补零处理,并归一化处理所述第三描述符数据的高维特征;
42、和/或,所述第二数据生成单元,还包括:
43、第一计算生成模块,用于获取球体球面上的点数据,并计算生成与所述点数据相对应的点坐标数据;其中,所述点数据为均匀分布于球体球面的采样点;
44、和/或,所述创建生成单元,还包括:
45、第五数据生成模块,用于获取待化学反应相对应的实际数据,并结合化学反应性预测数据,生成相对应的线性相关性数据;
46、数据判定模块,用于根据所述线性相关性数据,实时判定生成所述化学反应性预测数据预测精度数据;
47、和/或,所述数据判定模块,还包括:
48、第二计算生成模块,用于计算生成化学反应实际数据和化学反应性预测数据之间的误差数据。
49、进一步地,计算生成与所述点数据相对应点坐标数据的具体计算公式如下:
50、
51、
52、
53、
54、其中,n为采样点的个数,n为第几个采样点,r为球体半径,zn、xn、yn为第n个采样点与原子的距离。
55、计算生成化学反应实际数据和化学反应性预测数据之间的误差数据的计算公式具体如下:
56、
57、
58、其中,r2表示皮尔逊相关系数,mae表示平均绝对误差,n表示样本数量,表示因变量的均值,yi表示第i个样本的预测值,表示第i和样本经过线性回归的预测值。
59、本发明通过方法实时获取与待化学反应相对应的数据集,其中,所述数据集包括胺化反应数据集、偶联反应数据集和不对称n,s缩醛合成反应数据集;根据所述数据集,生成与分子相对应的三维坐标数据,并优化处理所述三维坐标数据,以及生成相对应的描述符数据;结合所述与分子相对应的三维坐标数据,构建至少一个与坐标原点相对应的球体,并生成与所述球体相对应球面描述符数据;创建与待化学反应相对应的学习模型,并根据所述学习模型生成相对应的化学反应性预测数据,其中,所述学习模型包括机器学习模型和深度学习模型;以及与所述方法相对应的系统,不仅能够对化学反应的结果做出精确预测,还能够辅助化学家进行逆合成路线设计和生成具有目标性质的分子。
60、也就是说,本方案利用分子的三维信息进行化学反应结果和化学反应种类的准确预测,以构建有效且通用的化学反应预测流程。通过构建具有物理化学意义的分子特征,提出了两种表征分子三维空间信息的描述符。第一种描述符直观的将分子的三维坐标与分子级别和原子级别特征相结合,对于buchwald-hartwig胺化反应和suzuki miyaura偶联反应数据集,不仅在整个数据集的随机划分任务上取得了最佳效果,同时也在多个样本外预测的任务里具有较高准确度。同时还利用描述符对不对称反应的对映体选择性进行了精确预测。
1.一种基于分子三维表征的化学反应性预测方法,其特征在于,所述方法包括步骤:
2.根据权利要求1所述一种基于分子三维表征的化学反应性预测方法,其特征在于,所述根据所述数据集,生成与分子相对应的三维坐标数据,并优化处理所述三维坐标数据,以及生成相对应的描述符数据,还包括:
3.根据权利要求2所述一种基于分子三维表征的化学反应性预测方法,其特征在于,所述根据所述第一描述符数据,生成与所述第一描述符数据相对应的第二描述符数据和第三描述符数据,还包括:
4.根据权利要求1所述一种基于分子三维表征的化学反应性预测方法,其特征在于,所述结合与所述分子相对应的三维坐标数据,构建至少一个与坐标原点相对应的球体,并生成与所述球体相对应球面描述符数据,还包括:
5.根据权利要求4所述一种基于分子三维表征的化学反应性预测方法,其特征在于,计算生成与所述点数据相对应点坐标数据的具体计算公式如下:
6.根据权利要求1所述一种基于分子三维表征的化学反应性预测方法,其特征在于,所述创建与待化学反应相对应的学习模型,并根据所述学习模型生成相对应的化学反应性预测数据,还包括:
7.根据权利要求6所述一种基于分子三维表征的化学反应性预测方法,其特征在于,所述根据所述线性相关性数据,实时判定生成所述化学反应性预测数据预测精度数据,还包括:
8.一种基于分子三维表征的化学反应性预测系统,其特征在于,所述系统包括:
9.根据权利要求8所述的一种基于分子三维表征的化学反应性预测系统,其特征在于,所述第一数据生成单元,还包括:
10.根据权利要求9所述的一种基于分子三维表征的化学反应性预测系统,其特征在于,计算生成与所述点数据相对应点坐标数据的具体计算公式如下: