一种分子拉曼光谱预测方法、装置及可读介质

专利检索2025-05-13  13


本发明涉及图神经网络领域,具体涉及一种分子拉曼光谱预测方法、装置及可读介质。


背景技术:

1、分子光谱学是一门研究分子与电磁波相互作用的科学,主要利用光谱技术来探索分子的内部结构、运动状态以及分子间的相互作用。它通过分析分子在不同频率光波下的吸收、发射或散射行为,揭示出分子内部的能级结构、化学键性质、振动转动模式等关键信息。分子光谱学在化学、物理学、生物学、材料科学以及环境科学等领域都发挥着至关重要的作用,为我们提供了一种非侵入性、高灵敏度的分子探测手段,有助于我们更深入地理解物质的本质和性质,推动科学技术的进步和发展。其中,拉曼光谱作为一种散射光谱技术,当入射光与分子相互作用时,光子与分子发生能量交换而发生散射。拉曼光谱仪通过收集和分析这些散射光,可以获得包含分子振动信息的指纹光谱,从而解析出分子结构。拉曼光谱具有非侵入性、高灵敏度、高分辨率和高重现性等优点,使得它成为研究分子结构和性质的重要工具之一。这种技术不仅适用于气体、液体和固体样品,还可以在原位、实时和无损的条件下进行样品分析。因此,拉曼光谱在化学、生物学、医学、材料科学和环境科学等领域中得到了广泛应用,对于深入了解分子结构和性质,探索新材料、开发新药物以及监测环境污染等方面都具有重要意义。

2、能否准确、快速地解析实验测量的光谱无论对于基础研究还是实际应用都至关重要,这对理论光谱解析和预测的准确性和速度提出了极高的要求。目前,量子化学模拟是提供理论光谱预测最主流、最准确的方法。然而,这种方法在处理大规模分子系统时面临着巨大的计算挑战。为了获得准确的预测结果,需要对大量实验分子进行量化计算,这无疑增加了计算成本和时间。这种计算负担严重限制了量子化学在实时光谱解析应用中的实用性,尤其是在需要快速、准确分析的在线检测场景中。因此,为了实现更广泛的应用,需要开发更高效、准确的计算方法,以应对大规模分子系统的光谱预测挑战。

3、深度学习方法在预测分子性质方面越来越受到重视,其优势在于能够从参考数据中学习结构-性质和结构-光谱关系,从而避免了高计算要求的电子结构计算。具体来说,深度学习方法利用神经网络技术,通过训练大量的分子数据集来学习分子性质与结构之间的关系。与传统的量子化学方法相比,深度学习方法具有更高的计算效率和准确性,因此在处理大规模分子系统时具有显著的优势。例如有研究者使用多层感知器和卷积神经网络模型来预测分子电子激发谱。通过训练神经网络模型,可以学习到电子激发能与分子结构之间的复杂关系,从而实现高精度的预测。这种方法的出现大大加速了光谱实验和理论研究的进程。除了预测电子激发谱外,深度学习方法还被广泛应用于预测其他类型的分子光谱,如红外光谱(ir)和紫外-可见光谱(uv-vis)。通过使用结构描述符作为输入特征,机器学习模型能够快速预测这些光谱的性质。这种方法在药物设计和材料科学等领域具有广泛的应用前景,可以帮助科学家们快速了解分子的性质和行为。

4、目前关于分子拉曼光谱预测的相关研究较少。一方面是因为相关的公开数据集较少,获取拉曼光谱的数据集代价极其昂贵,另一方面,相比深度学习中的其他回归任务,该任务具有较高的技术难度,拉曼光谱本质上是长度3500的向量,由于维度爆炸问题,模型难以直接高精度预测拉曼光谱。目前,有研究利用手工特征表示算法,将分子表示成一维向量,然后经由mlp获得分子的羰基和的羟基的拉曼光谱振动模式的频率和强度,再计算出该官能团的拉曼光谱,但设计手工特征的分子表示算法对于知识储备具有较高的要求,具有一定的门槛,并且容易遗漏分子的深层信息。另外,有研究使用基于mpnn(消息传递网络)的gnn(图神经网络)的encoder(编码器)算法,获得分子的隐层嵌入表示,然后利用下层的ml,得到分子的极化率导数矩阵和hessian矩阵,最后计算出分子的拉曼光谱,但该方法只关注于分子的原子信息,从而忽视了分子的化学键信息以及分子的三维结构信息,而这两方面极大程度上影响了模型预测光谱的准确性。因此存在信息的缺失,难以将相关方法推广到更大规模的分子系统中。


技术实现思路

1、本技术的目的在于针对上述提到的技术问题提出一种分子拉曼光谱预测方法、装置及可读介质。

2、第一方面,本发明提供了一种分子拉曼光谱预测方法,包括以下步骤:

3、获取描述待预测的分子的所有原子类别的一维向量以及所有原子的三维坐标并确定其对应的分子三维结构表示,根据分子三维结构表示生成原子节点分子图和化学键节点分子图;

4、构建基于mpnn的第一多模态异构模型、第二多模态异构模型和第三多模态异构模型并分别训练,得到经训练的第一多模态异构模型、经训练的第二多模态异构模型和经训练的第三多模态异构模型,第一多模态异构模型、第二多模态异构模型和第三多模态异构模型均包括解码器以及并列的原子mpnn网络和化学键mpnn网络;

5、将原子节点分子图和化学键节点分子图分别输入经训练的第一多模态异构模型、经训练的第二多模态异构模型和经训练的第三多模态异构模型的原子mpnn网络和化学键mpnn网络,得到原子mpnn网络的输出特征和化学键mpnn网络的输出特征,将原子mpnn网络的输出特征和化学键mpnn网络的输出特征进行拼接得到分子的表示向量,分子的表示向量输入解码器中,其中,第一多模态异构模型的解码器包括第一多层感知机和第一求导模块,第一多模态异构模型的解码器输出分子的hessian矩阵的对角线子矩阵,第二多模态异构模型的解码器包括第一多层感知机和第二求导模块,第二多模态异构模型的解码器输出分子的hessian矩阵的非对角线子矩阵,第三多模态异构模型的解码器包括第二多层感知机和第一求导模块,第三多模态异构模型的解码器输出分子的极化率导数矩阵,分子的hessian矩阵的非对角线子矩阵和分子的hessian矩阵的对角线子矩阵构成hessian矩阵,根据分子的极化率导数矩阵和hessian矩阵计算得到待预测的分子的拉曼光谱的信息。

6、作为优选,分子三维结构表示采用以下方式构建:

7、根据描述待预测的分子的所有原子类别的一维向量以及所有原子的三维坐标确定待预测分子中的化学键的长度以及化学键间的空间夹角;其中,将第一化学键及其连接的第二化学键所构成的平面作为参考平面,利用右手定则确定参考平面的正方向,将三维空间中位于参考平面的正方向的一部分设为正方向侧,以确定与第二化学键相连的第三化学键是否位于参考平面的正方向侧;

8、将化学键的长度、化学键间的空间夹角、是否位于参考平面的正方向侧的信息所构成的矩阵作为分子三维结构表示。

9、作为优选,原子节点分子图中将待预测分子中的原子作为节点,化学键作为边;化学键节点分子图中将待预测分子中的化学键作为节点,原子作为边,相邻任意两个节点分为直接相邻节点或多阶相邻节点,直接相邻节点所对应的化学键位于同一原子上,多阶相邻节点所对应的化学键不位于同一原子上,在化学键节点分子图中将多阶相邻节点之间添加一个虚拟的边连接。

10、作为优选,分子的表示向量输入第一多层感知机,得到第一分子属性,分子的表示向量输入第二多层感知机,得到第二分子属性,第一分子属性的维度为1,第二分子属性的维度为2。

11、作为优选,第一求导模块用于将第一分子属性对同一个原子的坐标进行两次求导,第二求导模块用于将第一分子属性对不同的原子的坐标进行两次求导,第三求导模块用于将第二分子属性对同一个原子的坐标进行两次求导。

12、作为优选,根据分子的极化率导数矩阵和hessian矩阵计算得到待预测的分子的拉曼光谱的信息,具体包括:

13、将hessian矩阵进行对角化,得到hessian矩阵的特征值和hessian矩阵的特征向量,hessian矩阵的特征值即为分子拉曼光谱振动模式的频率;

14、根据hessian矩阵的特征向量和极化率导数矩阵计算得到分子拉曼光谱振动模式的活性,计算公式如下:

15、

16、其中,s表示分子拉曼光谱振动模式的活性,表示hessian矩阵的特征向量,α表示分子的极化率,表示原子笛卡尔坐标向量,表示极化率导数矩阵,c表示笛卡尔位移;

17、根据分子拉曼光谱振动模式的频率和分子拉曼光谱振动模式的活性计算得到分子拉曼光谱振动模式的强度,计算公式如下:

18、

19、

20、其中,si、ii、wi表示分子拉曼光谱的第i个振动模式的活性、强度和频率,w0表示入射光频率,t是温度,h是普朗克常数,c是光速,k是玻尔兹曼常数,bi为中间量;

21、根据分子拉曼光谱振动模式的频率和分子拉曼光谱振动模式的强度计算得到分子拉曼光谱各频率的强度,计算公式如下:

22、

23、其中,l(w)表示分子拉曼光谱在频率w处的强度,fwhm表示展宽的半峰宽,一般为15个波数;分子拉曼光谱振动模式的频率w及其对应的强度l(w)即为拉曼光谱的信息。

24、第二方面,本发明提供了一种分子拉曼光谱预测装置,包括:

25、分子图生成模块,被配置为获取描述待预测的分子的所有原子类别的一维向量以及所有原子的三维坐标并确定其对应的分子三维结构表示,根据分子三维结构表示生成原子节点分子图和化学键节点分子图;

26、模型构建模块,被配置为构建基于mpnn的第一多模态异构模型、第二多模态异构模型和第三多模态异构模型并分别训练,得到经训练的第一多模态异构模型、经训练的第二多模态异构模型和经训练的第三多模态异构模型,第一多模态异构模型、第二多模态异构模型和第三多模态异构模型均包括解码器以及并列的原子mpnn网络和化学键mpnn网络;

27、预测模块,被配置为将原子节点分子图和化学键节点分子图分别输入经训练的第一多模态异构模型、经训练的第二多模态异构模型和经训练的第三多模态异构模型的原子mpnn网络和化学键mpnn网络,得到原子mpnn网络的输出特征和化学键mpnn网络的输出特征,将原子mpnn网络的输出特征和化学键mpnn网络的输出特征进行拼接得到分子的表示向量,分子的表示向量输入解码器中,其中,第一多模态异构模型的解码器包括第一多层感知机和第一求导模块,第一多模态异构模型的解码器输出分子的hessian矩阵的对角线子矩阵,第二多模态异构模型的解码器包括第一多层感知机和第二求导模块,第二多模态异构模型的解码器输出分子的hessian矩阵的非对角线子矩阵,第三多模态异构模型的解码器包括第二多层感知机和第一求导模块,第三多模态异构模型的解码器输出分子的极化率导数矩阵,分子的hessian矩阵的非对角线子矩阵和分子的hessian矩阵的对角线子矩阵构成hessian矩阵,根据分子的极化率导数矩阵和hessian矩阵计算得到待预测的分子的拉曼光谱的信息。

28、第三方面,本发明提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

29、第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

30、第五方面,本发明提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

31、相比于现有技术,本发明具有以下有益效果:

32、(1)本发明提出的分子拉曼光谱预测方法设计了具有唯一性表示的分子三维表示算法,不同于已有研究,可以在不需要人为选择参考坐标系的情况下,为分子生成唯一的三维空间表示数据,可以解决已有的分子三维表示算法的限制,有效提高模型在分子拉曼光谱预测任务的精度。

33、(2)本发明提出的分子拉曼光谱预测方法设计了一种用于捕获分子结构信息和化学键信息的模型模态方法,与现有相关研究方法不同,可以解决基于mpnn的模型的节点特征倾向限制,模型方法不仅学习分子的原子特征,还学习分子的化学键信息,从而增强模型在分子拉曼光谱预测任务中的精度。

34、(3)本发明提出的分子拉曼光谱预测方法设计了一种基于多阶消息传递机制的异构mpnn,将多阶相邻节点抽象为一阶相邻节点,相较于基础的消息传递机制,模型可以获得更大的感受野,消息传递的节点可以接收到更远的节点的消息。


技术特征:

1.一种分子拉曼光谱预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的分子拉曼光谱预测方法,其特征在于,所述分子三维结构表示采用以下方式构建:

3.根据权利要求1所述的分子拉曼光谱预测方法,其特征在于,所述原子节点分子图中将所述待预测分子中的原子作为节点,化学键作为边;所述化学键节点分子图中将所述待预测分子中的化学键作为节点,原子作为边,相邻任意两个节点分为直接相邻节点或多阶相邻节点,所述直接相邻节点所对应的化学键位于同一原子上,所述多阶相邻节点所对应的化学键不位于同一原子上,在所述化学键节点分子图中将所述多阶相邻节点之间添加一个虚拟的边连接。

4.根据权利要求1所述的分子拉曼光谱预测方法,其特征在于,所述分子的表示向量输入所述第一多层感知机,得到第一分子属性,所述分子的表示向量输入所述第二多层感知机,得到第二分子属性,所述第一分子属性的维度为1,所述第二分子属性的维度为2。

5.根据权利要求4所述的分子拉曼光谱预测方法,其特征在于,所述第一求导模块用于将所述第一分子属性对同一个原子的坐标进行两次求导,所述第二求导模块用于将所述第一分子属性对不同的原子的坐标进行两次求导,所述第三求导模块用于将所述第二分子属性对同一个原子的坐标进行两次求导。

6.根据权利要求1所述的分子拉曼光谱预测方法,其特征在于,所述根据所述分子的极化率导数矩阵和hessian矩阵计算得到待预测的分子的拉曼光谱的信息,具体包括:

7.一种分子拉曼光谱预测装置,其特征在于,包括:

8.一种电子设备,包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。


技术总结
本发明公开了一种分子拉曼光谱预测方法、装置及可读介质,包括:对待预测的分子进行分子三维结构表示并生成原子节点分子图和化学键节点分子图;构建基于MPNN的第一多模态异构模型、第二多模态异构模型和第三多模态异构模型,第一多模态异构模型、第二多模态异构模型和第三多模态异构模型均包括解码器以及并列的原子MPNN网络和化学键MPNN网络;将原子节点分子图和化学键节点分子图分别输入原子MPNN网络和化学键MPNN网络,得到输出特征后拼接得到分子的表示向量,分子的表示向量输入解码器,从而得到分子的hessian矩阵和极化率导数矩阵,根据分子的极化率导数矩阵和Hessian矩阵计算得到待预测的分子的拉曼光谱的信息。本发明能够高效、准确地预测分子拉曼光谱。

技术研发人员:李甲,马昊,王翔,王磊,任斌
受保护的技术使用者:厦门大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1153568.html

最新回复(0)